如果放在一起比较的话会更加容易分辨出来文字转WAV音频