所以才能在对方做出反应前完成这个动作文字转WAV音频