他们要将亲眼所看到的一幕说出去文字转WAV音频