从本质上说依然是人类基于自身感官而产生的意识文字转WAV音频