更加简单一点的翻译就是文字转WAV音频