我要投稿

能思考、有记性、不插话，终于可以和AI好好聊天了！书生·浦语灵笔2.5-OL多模态实时交互大模型全面开源

发布日期：2024-12-17 12:23:39 浏览次数： 2503

作者：书生Intern

微信搜一搜，关注“书生Intern”

2024年12月12日，上海AI实验室推出多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)，该模型可以通过视觉和听觉实时观察和理解外部世界，自动形成对观察到内容的长期记忆，并可通过语音与人类用户进行对话交谈，提供更自然的大模型交互体验。

书生·浦语灵笔首发于2023年10月，经过历次迭代，已具备图文理解、图文混合创作、超高分辨率图像分析、超长多模态上下文等多项能力，获得了开源社区的广泛关注和好评，全系列模型累计下载量超过200万次。

书生·浦语灵笔2.5-OL基于书生·浦语2.5大语言模型（InternLM 2.5）研发，采用了多模块通专融合的架构方案，通过多模态实时感知及记忆编码的快系统和多模态复杂推理大模型的慢系统协同，实现多模态实时交互功能。

书生·浦语灵笔2.5-OL的效果实测，展现了高质量的实时视频语音交互能力，不仅支持高精度的实时视觉感知和语音对话，还创新地提出了多模态长期记忆的功能，可以准确回忆看过的内容。例如在演示视频中帮助用户找到遗忘在桌子上的矿泉水，并且回忆起桌子上还有盆栽。

技术报告地址：

https://arxiv.org/pdf/2412.09596

开源模型地址：

https://huggingface.co/internlm/internlm-xcomposer2d5-ol-7b

代码仓库地址：（文末点击阅读可直达，欢迎star）

https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive

在科幻电影畅想的未来世界中，AI助手发挥着辅助人类的重要作用，例如：《流浪地球》中的MOSS、《钢铁侠》中的J.A.R.V.I.S.等。这些AI助手不仅具有强大的知识和思考能力，还可以实时感知外部环境变化，记住观察到的事物细节，与人类自然对话交流，并适时地为人类提供实际帮助。

在现实应用中，具有实时视频语音交互功能的多模态大模型，可以让具身机器人、可穿戴智能硬件、移动设备更好地感知世界进而服务人类，具有广阔的应用前景。

书生·浦语灵笔2.5-OL支持实时视觉感知和语音对话，还创新地提出了多模态长期记忆的功能。通过分别设计多模态实时交互大模型中的感知、记忆和思考功能模块，可实现并发的世界感知、长短期记忆、多模态思考三项核心功能，并提供了完整的系统协同和集成方案。

目前，书生·浦语灵笔2.5-OL已完全开源了模型参数、系统集成推理和前后端应用部署的全套方案，支持免费商用申请。

书生·浦语灵笔2.5-OL的整体架构和三个核心模块的具体设计如下：

感知模块：
实时感知音频、视频输入，对音频信号进行语音识别和音频分类，对视觉信号抽取视觉特征：

音频感知：研究人员训练了一个轻量的音频多模态大模型，实时监听输入的音频流，同时进行语音识别和音频分类，理解人类语音内容和识别背景声音。
视觉感知：通过视觉编码器实时抽取视觉特征。
记忆模块：
持续对输入的视觉特征进行多层级的记忆压缩，不断进行视觉记忆编码压缩，支持根据指令对视觉记忆的高效检索。

短时记忆压缩：对短期视频片段内进行记忆压缩，形成精确的短期记忆。
长期记忆压缩：对短期记忆进一步压缩，形成高压缩比的长期记忆。
记忆查询：根据指令查询长期记忆，召回指令相关的短期记忆片段，用于思考模块的多模态理解。

思考模块：
判断语音输入是否为需要响应的用户指令，避免误触发影响使用体验。对于需要影响的用户需求，结合指令查询视觉记忆，并回答问题。

判断用户指令是否需要响应。
调用记忆模块查询历史视觉记忆，用于多模态理解和推理，并回答用户问题。
调用外部语音合成模块合成最终语音输出。

书生·浦语灵笔2.5-OL 的系统流程设计如下：

1. 前端

前端使用JavaScript开发，可启用摄像头和麦克风捕捉视频和音频流输入，并将其推送到SRS服务器，同时与后端建立WebSocket连接，监听音频输出和中断信号。
前端在接收到音频输出时播放音频，接收到中断信号时暂停音频播放并丢弃待处理的音频。

2. SRS服务器

SRS（Simple Realtime Server）是一款简单高效的实时音视频服务器，负责接收和传输音频流、视频流数据。

3. 后端服务器

后端与前端建立WebSocket连接后，将从SRS服务器拉取流媒体，并启动独立进程分别读取音频和视频。
音频进程持续读取音频流并检测语音的开始和结束：

- 检测到语音活动开始时，后端向前端发送中断信号以暂停当前播放的音频，同时向视频进程发送备份信号保存当前记忆状态（记忆快照）。

- 检测到语音活动结束时，语音分类和识别进程对音频进行背景音分类和语音识别，并将结果送入到大语言模型待处理队列。

视频进程读取视频帧并保存到视频帧队列。记忆进程负责识别、提取并存储记忆，并在收到语音检测进程的备份信号后保存当前记忆状态以便后续检索。
大语言模型进程判断待处理的指令是否需要模型响应，并根据检索到的记忆对于需要响应的指令进行文字回复。
语音合成进程将把文字回复结果转换为音频输出并发送到前端。

书生·浦语灵笔2.5-OL的完整应用部署方案已开源，支持使用LMDeploy部署4-bit实时交互应用，并支持免费商用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-06

Qwen3-Coder-Next 上线模力方舟：仅 3B 激活参数，媲美主流大模型的 Agent 编码能力

2026-02-06

给自己搭一个 AI 搭档：OpenClaw 安装使用全记录

2026-02-06

Qwen3-TTS：2026年最强开源文本转语音模型完全指南

2026-02-06

OpenClaw 爆火之后，我们看到了这些创业信号

2026-02-05

从Clawdbot到OpenClaw：爆款本地AI Agent的产品逻辑与争议

2026-02-05

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

全球最多下载中文开源数据集更新｜OpenCSG持续打造中文高质量数据集开源底座

2026-02-05

【开源】12.1K Star！用 Markdown 给大模型装上“外挂大脑”，不写后端、不搭平台，这个开源项目让你用 Git 管理 AI 任务流

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

Claude Code最强开源对手！GitHub 50.2k Star了，作者为它烧掉2.4w美元。

2026-01-06

大家都在问

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

又是量化基金，第二个DeepSeek时刻到来了？

2026-01-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部