而且他是知道具体过程的文字转WAV音频