也有可能是在主动说出答案文字转WAV音频