好像在等待他后续的质问文字转WAV音频