Solaris是什么
Solaris是首个多人视频世界生成模型,能在Minecraft中同时生成两个玩家一致的第一人称视角。模型突破现有模型仅支持单玩家的局限,确保跨玩家视角的空间一致性——当一个玩家建造或移动时,另一视角同步反映变化。团队自研了SolarisEngine数据系统,收集1260万帧多人游戏数据,创新推出Checkpointed Self Forcing训练方法解决长序列内存瓶颈。
Solaris的主要功能
- 多人视角同步生成:Solaris能同时为两位玩家生成一致的第一人称视频,确保跨玩家视角的空间一致性,当一个玩家执行动作时另一玩家的视角会实时反映变化。
- 长时序稳定生成:通过Checkpointed Self Forcing技术,Solaris可生成长达224帧(11.2秒)的稳定视频序列,有效避免误差累积导致的视觉退化。
- 动作条件控制:模型接受完整的Minecraft动作输入(包括移动、相机、挖掘、放置等),生成的视频严格遵循给定的动作序列。
- 复杂动态模拟:Solaris能模拟背包状态同步、天气变化、物理建造破坏、PvP战斗等复杂游戏动态。
Solaris的技术原理
- 多人DiT架构:基于MatrixGame 2.0的单玩家扩散Transformer,通过扩展动作空间支持完整Minecraft输入,引入跨玩家自注意力层实现双玩家信息交换,添加玩家ID嵌入以区分不同视角,其余模块(交叉注意力、FFN)保持单玩家设置不变。
- 四阶段渐进训练:从单玩家预训练权重出发,在VPT数据集上微调适配Minecraft动作空间,再切换到多人数据训练双向模型作为教师,因果化为滑动窗口生成器,通过Checkpointed Self Forcing实现长序列稳定生成。
- Checkpointed Self Forcing:为解决滑动窗口自回归的内存瓶颈,该方法先无梯度生成并缓存干净帧与噪声状态,通过自定义注意力掩码单次并行重计算,严格复现滑动窗口依赖关系,将内存从 降至 ,同时支持KV缓存梯度回传提升生成质量。
- SolarisEngine数据系统:针对现有框架缺乏多人支持的问题,团队构建基于Mineflayer的控制器与官方Minecraft客户端的相机分离架构,通过服务器插件实时同步状态,用Docker容器化实现并行扩展与故障自动恢复,最终收集1260万帧动作标注的多人游戏数据。
Solaris的项目地址
- 项目官网:https://solaris-wm.github.io/
- GitHub仓库:https://github.com/solaris-wm/solaris
- HuggingFace模型库:https://huggingface.co/collections/nyu-visionx/solaris-models
- arXiv技术论文:https://arxiv.org/pdf/2602.22208
Solaris的应用场景
- 具身智能训练与评估:作为多智能体世界模拟器,为机器人和游戏AI提供合成训练数据,支持策略学习、推理时规划及安全评估,避免在真实环境中试错的高昂成本。
- 多智能体协作研究:模拟多人协同任务(如共同建造、团队战斗),用于训练AI代理的协作与通信能力,研究 emergent 行为和社会智能。
- 视觉-语言-动作模型开发:模型能生成大规模多视角视频-动作-语言对齐数据,支持VLA模型的预训练与微调,弥补真实人类多人交互数据的稀缺性。
- 3D场景理解与空间推理基准:作为可控测试平台,评估模型在视角一致性、物体持久性、空间记忆等核心3D理解能力上的表现。
© 版权声明
文章版权归作者所有,未经允许请勿转载。