还是比较原始的人工传递文字转WAV音频