他们只是根据自己看到的现象和以往的经验去推断文字转WAV音频