中的人类是被动接受这些数据文字转WAV音频