所以他是用三声读出来的文字转WAV音频