设想中的最终成果也就是人造人文字转WAV音频