标签： OpenBMB

MiniCPM-o 实现端到端实时交互

一、OpenBMB 基础介绍

OpenBMB（Open Lab for Big Model Base）是由清华大学自然语言处理实验室与面壁智能联合发起的开源大模型平台，核心目标是打造大规模预训练语言模型库与工具链，加速百亿级以上大模型的训练、微调与推理，降低大模型使用门槛，推动大模型生态标准化、普及化与实用化。

核心定位与使命

● 平台属性：集模型库、工具链、社区于一体的大模型开源生态

● 核心目标：让大模型飞入千家万户，实现普惠化应用

● 技术方向：聚焦端侧智能、高效推理、多模态融合与模型压缩

核心产品与工具链

产品/工具	核心功能	特点
MiniCPM 系列	端侧大语言模型	小参数高性能，中文/数学/代码能力突出
MiniCPM-V 系列	视觉-文本多模态模型	支持图像/视频输入，手机端高效部署
MiniCPM-o 系列	全模态端侧大模型	视觉+语音+文本输入输出，全双工实时交互
BMCook	大模型高效压缩	量化、剪枝等技术，提升部署效率
BMInf	低成本推理框架	千元级显卡即可运行百亿参数模型
BMTools	工具学习引擎	支持 OpenAI Plugins + 自定义工具
llama.cpp-omni	流式全模态推理框架	专为 MiniCPM-o 设计，端侧部署高效稳定

二、MiniCPM-o 核心介绍

MiniCPM-o 是从 MiniCPM-V 升级的端侧全模态大模型系列，支持图像、视频、文本、音频多模态输入与文本、语音输出，实现端到端实时交互，性能对标 GPT-4o，可在手机、Mac 等端侧设备运行。

核心定位与优势

● 全模态覆盖：视觉+语音+文本“眼耳口”并用，打破单一模态限制

● 端侧优先：轻量化设计，小参数高性能，本地部署无依赖

● 全双工交互：边看、边听、主动说，告别“对讲机”式对话

● 实时流式：支持实时语音对话、视频理解与多模态直播

关键版本与特性

1. MiniCPM-o 2.6（8B 参数）

a. 中英双语实时语音对话，可配置语音风格

b. 端到端语音克隆、情感/语速/风格控制

c. 支持多图对话、视频理解，性能超越 GPT-4o-realtime 音频理解任务

d. 部署方式：llama.cpp、Ollama、vLLM 等

2. MiniCPM-o 4.5（9B 参数，2026 年 2 月开源）

a. 全双工实时交互：持续接收音视频输入，同步生成语音/文本输出

b. 高刷视频理解：支持 60fps 以上视频分析，细节捕捉能力强

c. 基于 SigLip2、Whisper-medium、CosyVoice2、Qwen3-8B 构建

d. 配套开源 llama.cpp-omni 推理框架与 WebRTC Demo，本地设备快速部署

技术架构与性能

● 模型架构：端到端全模态融合，高密度视觉 Token 设计+时分复用架构

● 参数量：主流版本 8B/9B，轻量化适合端侧部署

● 部署性能：iPhone 上 2 秒首 token、17+ token/s 解码，手机端流畅运行

● 性能表现：8B 参数规模超越 GPT-4o-latest、Gemini-2.0 Pro、Qwen2.5-VL 72B 等顶级模型

三、OpenBMB 与 MiniCPM-o 的关系

● 所属关系：MiniCPM-o 是 OpenBMB 生态核心产品之一，由 OpenBMB 社区开源维护

● 产品演进：MiniCPM-o 源于 MiniCPM-V，在视觉-文本基础上增加语音能力，升级为全模态模型

● 生态协同：共享 OpenBMB 工具链（如 BMCook、BMInf）与部署框架，实现高效开发与部署

四、核心应用场景

1. 端侧智能助手：手机/平板/智能穿戴设备上的全功能 AI 助手，支持视觉问答、语音对话、实时翻译

2. 教育场景：AI 家教、实时作业批改、多模态知识讲解

3. 智能家居：厨房安全监控、家电语音控制、家庭场景实时分析

4. 内容创作：多模态内容生成、视频脚本创作、语音合成与克隆

5. 工业与医疗：设备实时监控、医疗影像分析、远程诊断辅助

五、开源与部署

● 开源平台：GitHub、Hugging Face、ModelScope 等，完全开源免费

● 部署方式：轻量部署：llama.cpp-omni、Ollama（本地一键运行）

○ 服务化部署：vLLM、SGLang（高并发场景）

○ 端侧部署：适配手机、Mac、嵌入式设备等多种硬件

● 使用门槛：提供详细文档、示例代码与 Demo，开发者可快速上手

六、总结

OpenBMB 作为大模型开源生态平台，通过丰富的模型库与工具链降低技术门槛；MiniCPM-o 作为端侧全模态标杆产品，以小参数实现高性能全双工交互，在视觉、语音、文本融合领域达到业界领先水平。两者共同推动大模型从云端走向端侧，实现普惠化、场景化应用。

2026年2月6日

OpenBMB 与 UltraRAG 开源产品全解

一、OpenBMB 开源社区概述

OpenBMB（Open Lab for Big Model Base）是由清华大学自然语言处理实验室(THUNLP) 和面壁智能共同发起的大模型开源社区，致力于打造大规模预训练语言模型库与相关工具链，降低百亿级以上大模型的训练、微调与推理门槛，推动大模型生态标准化、普及化和实用化。

核心使命与定位

● 构建大模型基础设施，加速大模型技术落地

● 降低大模型使用门槛，让技术惠及更多开发者

● 推动大模型开源社区建设，促进技术交流与创新

主要开源项目

● MiniCPM系列：轻量级高性能大模型，适合端侧部署

● Eurux系列：推理性能突出的开源大模型，被称为”理科状元”

● UltraRAG：基于MCP协议的低代码RAG框架（本文重点介绍）

● BMTools：大模型工具学习引擎，支持接入16000+真实API

● AgentCPM系列：端侧智能体模型，支持本地化深度调研与报告生成

二、UltraRAG 框架深度解析

UltraRAG是OpenBMB联合清华大学THUNLP、东北大学NEUIR、AI9stars等团队推出的首个基于Model Context Protocol (MCP)架构的RAG框架，专为简化复杂RAG系统开发而设计，以低代码、高扩展性和可视化调试为核心优势。

1. 核心技术架构：MCP 协议

MCP（Model Context Protocol）是UltraRAG的灵魂，它将RAG流程拆解为一系列独立、可通信的标准化MCP Server，实现组件完全解耦：

核心组件	功能说明
Corpus Server	知识语料管理与索引
Retriever Server	文档检索与重排序
Generator Server	答案生成与优化
Evaluation Server	RAG效果评估与分析
Router Server	流程路由与逻辑控制

这种设计让开发者只需编写YAML配置文件，就能声明串行、循环、条件分支等复杂推理逻辑，以极低代码量实现多阶段推理系统。

2. 核心特性（v3.0最新版）

（1）低代码开发，极速原型验证

● 47行YAML替代500+行Python代码，快速构建复杂RAG流程

● 可视化Pipeline构建器，”所见即所得”的开发体验

● 支持一键部署，降低工程实现成本

（2）原生多模态支持（v2.1+）

● 文本、图像、表格、公式统一向量化，支持跨模态混合检索

● 新增VisRAG Pipeline，实现从本地PDF建库到多模态检索生成的完整闭环

● 适配主流视觉语言模型，无需额外开发即可处理复杂文档

（3）全链路可解释，拒绝”盲盒”开发（v3.0新特性）

● 推理过程可视化，每一步逻辑清晰可见

● 内置性能分析工具，定位瓶颈并优化检索与生成效果

● 支持细粒度日志追踪，便于问题排查与模型调优

（4）智能开发助手（v3.0新特性）

● 自然语言对话辅助生成Pipeline配置

● 自动优化各环节Prompt，提升模型指令遵循能力

● 交互式解答框架使用问题，提供上下文相关指导

（5）高度可扩展，兼顾灵活性与易用性

● “单反相机”级精细化配置：支持自定义组件、算法与模型

● “卡片机”式一键操作：适合快速搭建原型系统

● 兼容主流大模型与向量数据库，轻松集成现有技术栈

3. 版本演进与关键更新

版本	发布时间	核心突破
v1.0	2025年初	基础RAG框架，支持文本检索与生成
v2.0	2025年10月	基于MCP架构，低代码YAML配置，复杂逻辑支持
v2.1	2025年11月	原生多模态、知识接入自动化、统一评估体系
v3.0	2026年1月	可视化推理、智能开发助手、全链路可解释性

4. 典型应用场景

1. 企业知识库构建：快速搭建内部问答系统，支持多格式文档检索

2. 科研论文助手：自动整理文献、生成综述，加速科研进程

3. 行业专属RAG系统：金融、医疗、法律等领域的专业知识服务

4. 端侧智能应用：基于AgentCPM系列模型，实现本地化、私有化部署

5. 复杂任务推理：支持多轮对话、动态检索与自适应知识组织

5. 快速上手指南

# 1. 克隆代码库
git clone https://github.com/OpenBMB/UltraRAG
cd UltraRAG
 
# 2. 创建并激活环境
conda create -n ultrarag python=3.10
conda activate ultrarag
 
# 3. 安装依赖
pip install -r requirements.txt
 
# 4. 配置MCP服务（编写config.yaml）
# 5. 启动服务
python -m ultrarag.server --config config.yaml

注：详细配置与示例可参考官方文档与examples目录

6. 开源协议与社区支持

● 采用Apache-2.0开源协议，允许商业使用与二次开发

● 活跃的社区支持，定期更新文档与教程

● 提供Discord、GitHub Issues等交流渠道，快速响应开发者问题

三、总结与价值亮点

OpenBMB作为大模型开源社区，为开发者提供了从基础模型到应用工具的完整生态；而UltraRAG作为其核心项目之一，以MCP架构和低代码理念彻底革新了RAG系统开发方式，让复杂推理系统构建变得简单高效。

核心价值

1. 降低技术门槛：无需深厚工程能力即可搭建高性能RAG系统

2. 提升开发效率：将开发周期从数周缩短至数天甚至数小时

3. 增强系统可解释性：解决传统RAG”黑盒”问题，提升可靠性

4. 促进技术创新：让研究者专注算法创新，而非工程实现

UltraRAG特别适合科研人员快速验证新思路、企业开发者快速搭建行业解决方案，以及需要处理复杂多模态文档的各类场景。

2026年1月26日