其实说白了就是因为变化出现的时间太短文字转WAV音频