似乎说话的人是坐在里面的文字转WAV音频