Nemotron 3 Super – 英伟达专为智能体推理的开源大模型

Nemotron 3 Super是什么

Nemotron 3 Super是英伟达推出的1200亿参数开源AI模型，采用Mamba-MoE混合架构，专为智能体应用优化。模型支持100万token超长上下文，推理速度提升3倍，吞吐量提升5倍。在OpenClaw任务成功率表现优异，性能接近Claude Opus 4.6。英伟达同时开源了超10万亿token的训练数据、完整方法论及15个强化学习环境，是企业级多智能体系统的理想选择。

Nemotron 3 Super的主要功能

超长上下文记忆：支持100万token上下文窗口，让智能体在复杂多步任务中保持完整的工作流状态，防止目标偏移。
智能体任务执行：在OpenClaw等智能体基准测试中达到85.6%任务成功率，性能直逼Claude Opus 4.6等顶尖闭源模型。
推理速度加速：通过多Token预测技术实现原生投机解码，让推理速度提升3倍，满足实时交互需求。
高吞吐量服务：模型相比前代模型吞吐量提升5倍，支持大规模并发智能体部署，降低多智能体应用成本。
高精度工具调用：可在庞大函数库中可靠导航操作，防止网络安全等高风险关键环境中的执行错误。
代码智能体开发：模型能一次性加载整个代码库到上下文，实现端到端代码生成、漏洞修复与自动化调试。
财务分析处理：可将数千页报告直接载入内存，省去冗长对话中反复重新推理的麻烦，大幅提升工作效率。

Nemotron 3 Super的技术原理

Mamba-MoE混合架构：模型采用88层网络结构，周期性交替排列Mamba-2层与Transformer注意力层。Mamba-2层提供线性时间复杂度的序列建模效率，少量Transformer层作为全局锚点负责跨位置长距离信息路由和高精度推理，在保持强大建模能力的同时显著提升推理吞吐量。
LatentMoE隐式混合专家架构：英伟达首创的新型MoE设计，在路由和专家计算前先将token从隐藏维度投影到更小的潜在维度。路由和专家计算在这个压缩空间中进行，使参数加载和通信量直接缩小数倍，节省的资源用于增加专家总数和激活专家数，实现”花1个专家成本激活4个专家”的效果，在几乎不变推理成本下提升模型准确率。
多Token预测加速：模型在每个位置同时预测未来多个token，这不仅迫使模型学习多步因果关系和长远文本结构提升质量，更关键的是实现了原生投机解码——辅助预测头作为内置草稿模型快速生成候选序列，主模型一次前向传播完成验证，大幅降低生成延迟且额外开销极小。
NVFP4低精度预训练：全程在Blackwell平台上用NVFP4精度进行预训练，4位浮点格式大幅降低显存需求。在零准确率损失前提下，推理速度比Hopper架构FP8快4倍，证明大规模低精度训练的可行性和高效性。

Nemotron 3 Super的项目地址

项目官网：https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/
HuggingFace模型库：https://huggingface.co/collections/nvidia/nvidia-nemotron-v3
技术论文：https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

Nemotron 3 Super的应用场景

智能体平台核心引擎：作为OpenClaw等智能体平台的”最强开源模型”，驱动多智能体协同完成复杂长周期任务，解决上下文爆炸和思考税两大瓶颈。
企业级软件开发：赋能CodeRabbit、Factory、Greptile等公司的软件开发智能体，实现代码库级端到端生成、调试与漏洞修复，SWE-Bench测试达60.47%。
深度研究分析：驱动NVIDIA AI-Q研究型智能体，在DeepResearch Bench排行榜夺冠，支持跨海量文档的多步推理与信息整合。
网络安全运维：在自主安全编排等高风险环境中，通过高精度工具调用可靠导航庞大函数库，防止关键执行错误。
财务金融分析：一次性加载数千页财报进内存，直接进行深度分析，无需反复重新推理，大幅提升投研效率。