而是因为这个过程是不能够缩减成更短时间的文字转WAV音频