理论上它们是不能缺少彼此独大的文字转WAV音频