Nemotron 3 Super – 英伟达专为智能体推理的开源大模型

AI工具集2小时前发布 商道网
75 0 0

Nemotron 3 Super是什么

Nemotron 3 Super是英伟达推出的1200亿参数开源AI模型,采用Mamba-MoE混合架构,专为智能体应用优化。模型支持100万token超长上下文,推理速度提升3倍,吞吐量提升5倍。在OpenClaw任务成功率表现优异,性能接近Claude Opus 4.6。英伟达同时开源了超10万亿token的训练数据、完整方法论及15个强化学习环境,是企业级多智能体系统的理想选择。

Nemotron 3 Super – 英伟达专为智能体推理的开源大模型

Nemotron 3 Super的主要功能

  • 超长上下文记忆:支持100万token上下文窗口,让智能体在复杂多步任务中保持完整的工作流状态,防止目标偏移。
  • 智能体任务执行: 在OpenClaw等智能体基准测试中达到85.6%任务成功率,性能直逼Claude Opus 4.6等顶尖闭源模型。
  • 推理速度加速:通过多Token预测技术实现原生投机解码,让推理速度提升3倍,满足实时交互需求。
  • 高吞吐量服务:模型相比前代模型吞吐量提升5倍,支持大规模并发智能体部署,降低多智能体应用成本。
  • 高精度工具调用:可在庞大函数库中可靠导航操作,防止网络安全等高风险关键环境中的执行错误。
  • 代码智能体开发:模型能一次性加载整个代码库到上下文,实现端到端代码生成、漏洞修复与自动化调试。
  • 财务分析处理:可将数千页报告直接载入内存,省去冗长对话中反复重新推理的麻烦,大幅提升工作效率。

Nemotron 3 Super的技术原理

  • Mamba-MoE混合架构:模型采用88层网络结构,周期性交替排列Mamba-2层与Transformer注意力层。Mamba-2层提供线性时间复杂度的序列建模效率,少量Transformer层作为全局锚点负责跨位置长距离信息路由和高精度推理,在保持强大建模能力的同时显著提升推理吞吐量。
  • LatentMoE隐式混合专家架构:英伟达首创的新型MoE设计,在路由和专家计算前先将token从隐藏维度投影到更小的潜在维度。路由和专家计算在这个压缩空间中进行,使参数加载和通信量直接缩小数倍,节省的资源用于增加专家总数和激活专家数,实现”花1个专家成本激活4个专家”的效果,在几乎不变推理成本下提升模型准确率。
  • 多Token预测加速:模型在每个位置同时预测未来多个token,这不仅迫使模型学习多步因果关系和长远文本结构提升质量,更关键的是实现了原生投机解码——辅助预测头作为内置草稿模型快速生成候选序列,主模型一次前向传播完成验证,大幅降低生成延迟且额外开销极小。
  • NVFP4低精度预训练:全程在Blackwell平台上用NVFP4精度进行预训练,4位浮点格式大幅降低显存需求。在零准确率损失前提下,推理速度比Hopper架构FP8快4倍,证明大规模低精度训练的可行性和高效性。

Nemotron 3 Super的项目地址

  • 项目官网:https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/
  • HuggingFace模型库:https://huggingface.co/collections/nvidia/nvidia-nemotron-v3
  • 技术论文:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

Nemotron 3 Super的应用场景

  • 智能体平台核心引擎:作为OpenClaw等智能体平台的”最强开源模型”,驱动多智能体协同完成复杂长周期任务,解决上下文爆炸和思考税两大瓶颈。
  • 企业级软件开发:赋能CodeRabbit、Factory、Greptile等公司的软件开发智能体,实现代码库级端到端生成、调试与漏洞修复,SWE-Bench测试达60.47%。
  • 深度研究分析: 驱动NVIDIA AI-Q研究型智能体,在DeepResearch Bench排行榜夺冠,支持跨海量文档的多步推理与信息整合。
  • 网络安全运维:在自主安全编排等高风险环境中,通过高精度工具调用可靠导航庞大函数库,防止关键执行错误。
  • 财务金融分析:一次性加载数千页财报进内存,直接进行深度分析,无需反复重新推理,大幅提升投研效率。
© 版权声明

相关文章