这里大部分都是普通座位和站着的人文字转WAV音频