所以他不需要专门去修炼文字转WAV音频