就是因为他需要在一些极端环境下修炼文字转WAV音频