因此使用的都是人类语言文字转WAV音频