他不仅在进行场景绝对文字转WAV音频