所以他们根本无法提前预知到文字转WAV音频