这一系列动作都是在一个呼吸间完成文字转WAV音频