这个过程大概也用不上几千年文字转WAV音频