他们是将后面的事情调到前面来做文字转WAV音频