我们只能等他们先开口询问文字转WAV音频