而是最起码一秒的延迟状态文字转WAV音频