他们就稍微后退一些文字转WAV音频