我担心他们在研究方案的时候还会囿于固有思维定势文字转WAV音频