他们要满足的只有两点文字转WAV音频