它多半不会服从三个人的指令文字转WAV音频