只是他们在特定的状态下文字转WAV音频