他们很大程度还是和几十年前的我们差不多文字转WAV音频