然后抛弃了表演的形式框架文字转WAV音频