另外一种则是本地生长的人文字转WAV音频