他们的研究遇到了瓶颈文字转WAV音频