从一开始就是由他人塑造文字转WAV音频