可是他明明有机会解释的文字转WAV音频