因为两者之间的差距根本无法逾越文字转WAV音频