NIM – 英伟达推出的AI模型推理微服务平台

NIM是什么

NIM（NVIDIA Inference Microservices）是英伟达推出的用于快速部署加速生成式AI推理的微服务解决平台。NIM提供预构建、优化的推理微服务，支持在任何NVIDIA加速的基础设施（如云、数据中心、工作站和边缘设备）上部署最新的AI模型。NIM结合托管API的易用性和自托管模型的安全性与灵活性，具备低延迟、高吞吐量的推理性能，支持细粒度模型。NIM的企业级特性、快速部署能力和广泛的模型支持，成为推动企业AI应用快速落地的理想选择。

NIM的主要功能

预构建与优化的微服务：提供针对最新AI模型的预优化推理微服务，支持快速部署，减少开发和部署时间。
高性能推理：通过NVIDIA的优化引擎（如TensorRT、TensorRT-LLM等），实现低延迟、高吞吐量的AI推理，提升模型运行效率。
企业级特性：支持企业级部署，具备高安全性、可管理性和持续更新能力，确保模型在生产环境中的稳定运行。
灵活的部署选项：可在云、数据中心、工作站和边缘设备等不同环境中部署，支持Kubernetes和云服务提供商环境，实现无缝扩展。
行业标准API：提供标准API接口，便于与现有企业系统和应用集成，简化开发流程。
广泛的模型支持：支持多种大型语言模型（LLMs）和定制化模型，包括社区优化模型和用户自定义模型。
开发与部署简化：提供从原型开发到生产部署的全流程支持，包括免费的API访问、开发工具和详细的部署指南。

可扩展性与可观测性：支持通过Kubernetes进行大规模部署，提供详细的性能监控和可观测性指标，便于管理和优化。

如何使用NIM

获取访问权限：
- 加入 NVIDIA 开发者计划：通过 NVIDIA 开发者计划，用户能免费访问 NIM API 端点，用于开发和测试。
- 选择部署方式：
  - 使用 NVIDIA 主机的 API 端点：适合快速原型开发，无需自行部署。
  - 下载并自托管 NIM 微服务：适合生产环境，支持在本地数据中心、云平台或边缘设备上部署。
选择模型和微服务：根据需求选择合适的模型和微服务，例如推理、检索、多模态等。
部署 NIM 微服务：
- 使用 NVIDIA 主机的 API：直接通过 NVIDIA 提供的 API 端点进行调用，无需自行部署。
- 自托管部署：
  - 下载 NIM 微服务容器：从 NVIDIA 官方渠道获取预构建的容器镜像。
  - 配置基础设施：确保目标环境支持 NVIDIA GPU 加速（如 RTX、A100、H100 等）。
  - 部署容器：用 Docker 或 Kubernetes 部署 NIM 微服务容器。
  - 配置微服务：根据需求配置微服务的参数，如模型路径、推理引擎等。
运行推理：
- 通过 API 调用模型：使用标准的 HTTP 请求调用 NIM 微服务。
- 集成到应用中：将 NIM 微服务的 API 端点集成到现有的应用程序中，实现无缝交互。
监控与优化：用 NVIDIA 提供的监控工具优化资源配置，确保推理性能和效率。
扩展与管理：在 Kubernetes 环境中部署实现自动扩展和高可用性，通过 NVIDIA 企业支持持续优化。