从而它不愿意去幻化实体人形而只想以实体眼睛示人文字转WAV音频