而是直接选择了用行动回答文字转WAV音频