尽管它们构成的原因很类似文字转WAV音频