这一切都通过动作来完成文字转WAV音频