他们需要用更多的时间来尝试文字转WAV音频