他们只是从事件的后果来推导前因文字转WAV音频