前者是指角色在剧本规定的情境里的文字转WAV音频