LifeSim – 复旦与上海创智学院推出的长程用户生活模拟框架

AI工具集3小时前发布 商道网
71 0 0

LifeSim是什么

LifeSim是复旦大学与上海创智学院推出的首个长程用户生活模拟框架,用于评测个性化AI助手。框架基于BDI认知模型,同时建模用户内部认知(信念、愿望、意图)与外部环境(时间、地点、天气),生成连贯的生活轨迹和多轮交互。LifeSim通过1200个场景、8个生活领域的LifeSim-Eval基准,评测模型处理显性与隐性意图、长期偏好建模的能力,解决现有评测与真实场景脱节的问题。

LifeSim – 复旦与上海创智学院推出的长程用户生活模拟框架

LifeSim的主要功能

  • 长程生活轨迹模拟:基于真实出行数据生成连贯的用户生活事件序列,涵盖时间、地点、天气等外部环境约束。
  • 多轮交互行为模拟:模拟用户与AI助手的自然对话,支持记忆冲突检测、情绪推理和动态行为选择。
  • 个性化能力评测:通过LifeSim-Eval基准测试模型识别显性/隐性意图、长期偏好重建与对齐能力。
  • 隐私安全数据合成:支持生成百万级多样化用户画像,为个性化助手训练提供高质量合成数据。

LifeSim的技术原理

  • 信念引擎:整合长期用户画像与短期情境认知(物理/心理/环境状态)。
  • 愿望引擎:从需求库检索候选意图,结合用户信念与外部环境进行重排序。
  • 事件引擎:基于逻辑函数控制事件触发概率,确保生活事件符合真实时空约束。
  • 行为引擎:通过记忆感知(检测历史冲突)、情绪推理(GoEmotions分类)、行动选择三阶段生成用户响应。

如何使用LifeSim

  • 在线 Demo 体验
    • 访问官网:直接访问http://fudan-disc.com/lifesim/可使用可视化界面。
    • 预设演示:选择系统内置用户,在地图时间轴上点击任意生活节点,查看当时场景并与模拟用户对话。
    • 实时生成:自定义年龄、职业、人格特质等画像,观看 BDI 引擎实时生成生活事件并交互。
  • 本地部署评测
    • 环境准备:安装 Python 依赖,准备用户画像与生活事件数据。
    • 模型配置:接入用户模拟模型(如 Qwen3-32B)与被测助手模型(支持本地 vLLM 或 OpenAI/DeepSeek 等 API)。
    • 运行模拟:选择单场景(独立对话)或长程模式(带历史记忆的多轮交互),系统将自动生成对话日志。
    • 自动评分:使用 LLM-as-Judge 对意图识别、隐性需求满足、画像对齐等 7 个维度自动打分。

LifeSim的关键信息和使用要求

  • 定位:首个长程用户生活模拟器,用于评测个性化 AI 助手在真实动态场景中的能力。
  • 技术核心:基于 BDI 认知模型(信念-愿望-意图),融合外部环境(时间/地点/天气)与内部认知状态(人格/偏好/记忆)生成用户行为。
  • 数据规模:百万级用户画像池、3,374 条真实轨迹、1,200 个评测场景(覆盖 8 大生活领域)。
  • 评测重点:区分显性意图(直接需求)与隐性意图(需结合画像与场景推断),支持长程对话(最长 16K tokens 历史上下文):
  • 所属机构:复旦大学数据科学与上海创智学院联合研发。

LifeSim的核心优势

  • 填补真实场景鸿沟:突破现有静态、短上下文评测局限,首次实现跨天/周级的长程生活轨迹模拟,让 AI 助手评测真正贴近”贾维斯”式连续服务场景。
  • BDI 认知架构深度建模:不同于简单角色扮演,基于信念-愿望-意图心理学模型,系统模拟用户”如何想”(认知状态),生成具备一致人格的合理行为链。
  • 显隐性意图双重考验:通过隐性意图(需结合天气、地点、历史偏好推断)暴露当前 LLM 在长期用户理解上的 20+ 分性能缺口。
  • 物理-认知双环境融合:独特地将真实地理轨迹(3,374 条)、时间天气等物理约束,与动态心理情绪、记忆遗忘等认知机制结合,生成事件具备现实合理性。

LifeSim的项目地址

  • GitHub仓库:https://github.com/dfy37/lifesim
  • arXiv技术论文:https://arxiv.org/pdf/2603.12152
  • 在线体验Demo:http://fudan-disc.com/lifesim/

LifeSim的应用场景

  • AI 助手能力评测与对标:为 GPT-4o、Claude、DeepSeek 等模型提供标准化”长程个性化”考场,精准识别模型在隐性意图理解、长期记忆保持、用户画像对齐等方面的能力边界。
  • 合成数据生成::基于百万级模拟用户生成大规模、多样化的长期交互对话数据,解决真实用户数据稀缺且隐私敏感的问题,用于微调个性化助手或强化学习训练。
  • 智能客服与伴侣 AI 预训练:在虚拟环境中模拟极端或罕见场景(如用户连续多日焦虑状态下的求助),测试客服系统的情感支持能力与长期上下文一致性,避免上线后真实用户测试风险。
  • 人机交互(HCI)学术研究:为认知科学、社会心理学提供可控实验平台,研究不同人格特质(如大五人格)如何影响用户对 AI 助手的接受度与信任建立过程。
  • 个性化推荐算法验证:在饮食、健身、育儿等 8 大生活领域,验证推荐系统能否结合用户长期偏好与实时情境(如雨天+健身习惯)做出动态调整。
© 版权声明

相关文章