也就是说有些许的误差是可以被理解的文字转WAV音频