MiniCPM-o 4.5 – 面壁智能开源的全双工全模态模型

MiniCPM-o 4.5是什么

MiniCPM-o 4.5 是面壁智能开源的 9B 参数全模态旗舰模型，采用端到端架构融合 SigLip2、Whisper、CosyVoice2 与 Qwen3-8B。作为行业首个支持「即时自由对话」的模型，模型实现了全双工交互——能边看、边听、边说，告别传统回合制”对讲机”模式。模型具备领先的视觉理解、超拟人语音生成及声音克隆能力，支持主动交互与实时流媒体处理，在端侧设备即可运行，已适配昇腾、海光等多种国产芯片，通过 llama.cpp、vLLM 等框架实现高效部署。

MiniCPM-o 4.5的主要功能

全双工实时交互：模型能同时处理视觉、音频输入和生成语音输出，实现边看、边听、边说的并行感知与表达。
主动智能交互：模型以每秒一次的频率自主监测环境变化，主动判断何时发言，实现主动提醒、实时评论等类人化的交互行为。
超拟人语音合成：支持情感饱满、音色自然的端到端语音生成，可基于几秒音频样本克隆定制声音，且长语音合成保持稳定一致。
领先视觉理解：在OpenCompass评测中以9B参数超越GPT-4o和Gemini 2.0 Pro，支持高分辨率图像解析与高帧率视频实时理解。
端到端文档解析：在OmniDocBench基准上达到业界最佳水平，能高效处理复杂版式的英文文档理解与结构化提取任务。

MiniCPM-o 4.5的技术原理

端到端全模态架构设计：MiniCPM-o 4.5将SigLip2视觉编码器、Whisper-medium音频编码器、CosyVoice2语音解码器与Qwen3-8B语言模型通过稠密特征连接进行端到端联合训练，紧密耦合的设计使各模态信息能在模型内部自由流转，避免传统流水线架构中的信息损耗与误差累积，实现更精准的多模态理解与生成控制。
全双工多模态实时流机制：模型将离线的模态编解码器改造为支持流式输入输出的在线版本，语音解码器采用文本与语音token交错建模的方式实现全双工生成。在推理过程中，时分复用机制将并行的多模态数据流划分为毫秒级时间片内的顺序信息组，使语言模型主干能统一调度处理，在单一架构内高效完成实时音视频流的同步感知与响应。
主动交互决策机制：语言模型模块持续监控输入的视频流与音频流，以1Hz的频率自动触发发言决策，高频决策能力结合全双工特性，使模型能根据环境动态变化自主选择最合适的时机与内容进行回复，突破传统模型被动等待用户指令的局限。
可配置语音建模设计：模型延续多模态系统提示词的设计范式，同时支持文本系统提示词与音频系统提示词的双重输入，音频系统提示词用于指定目标音色特征。这种设计使模型在推理阶段仅需提供简短的参考音频样本，可完成声音克隆与角色扮演。