我建议在意向性协议的基础上文字转WAV音频