显然他们此时就是在表态文字转WAV音频