显然他们用了某种特殊的方式文字转WAV音频