前者只是经验的简单积累文字转WAV音频