他们接到的指令只是跟踪文字转WAV音频