并不完全依赖台词文字转WAV音频