行人们的表情大致可以分为两种文字转WAV音频