他们只需要搞出各种动作来文字转WAV音频