倒不如说他们的本源是某种文字转WAV音频