又或者他只是单纯的回答自己文字转WAV音频