它们反而提前产生了文字转WAV音频