他们已经能准备去估算到文字转WAV音频