在接收到我们的模糊指令之后文字转WAV音频