我们的任务只是监视他们文字转WAV音频