而那些物体里传出来的人声内容却是一致的文字转WAV音频