他们要等待文字转WAV音频