模拟场景……使用者记忆场景调取中……模拟生成……模拟相似度文字转WAV音频