完全都是按照大脑里的固有的操作的文字转WAV音频