他们正在试图跟据视频上的信息文字转WAV音频