他们看到的情景让他们确定文字转WAV音频