我要投稿

小语言模型才是Agentic AI的未来？

发布日期：2025-07-21 08:21:01 浏览次数： 2296

作者：小小何先生

微信搜一搜，关注“小小何先生”

分享一个Nvidia的呼吁：

先说主基调：能用大模型谁还需要用小模型？就是因为大模型用不起（包括设备，延时等等）。那剩下的问题就是小模型到底能不能抗住用户的需求？

作者认为，小型语言模型（SLMs）在很多场景下比大型语言模型（LLMs）更适合用于构建“代理式人工智能系统”（Agentic AI Systems），因为它们：

能力足够：在许多实际任务中，小模型已经足以胜任，甚至能匹配更大模型的效果。
操作更高效：运行成本低、响应更快、更适合模块化系统。
更经济可持续：部署成本、能耗更低，更适合大规模应用和边缘设备部署。

1. 背景介绍

Agentic AI 是指能够自主执行任务的 AI 系统，比如智能客服、代码代理、办公自动化助手等。虽然目前主要依赖大型语言模型（如 GPT-4），但作者认为这不是最优方案。

2. 提出立场

作者定义 SLM 为“能在普通消费级设备上低延迟运行的模型”（通常参数量低于 10B），并提出立场：

小型语言模型在能力、适配性和成本方面，普遍优于 LLM，是 Agentic AI 的未来。

3. 论据支持

能力足够（如 Phi-2、Phi-3、NVIDIA Nemotron-H、DeepSeek 等 SLM 与 LLM 对比表现）；
更便宜（推理成本更低，易于边缘部署和快速微调）；
更灵活（适合定制化、多模型组合、快速响应业务需求）；
任务需求有限：多数代理任务需求单一、可预测，没必要动用复杂模型；
行为一致性要求高：SLM 更容易精准输出固定格式，更利于系统集成；
多模型组合自然：代理系统本身就可使用多个模型，SLM 用于基础任务，LLM 用于复杂推理更为合理。

4. 反对观点及回应

有人认为 LLM 具有更强的通用理解能力，但作者反驳说这种泛化能力在具体、重复的代理任务中用处不大；
有人认为 LLM 推理成本会因规模化而变低，作者指出最新的推理框架和边缘部署能力已使 SLM 更具优势；
市场惯性与投资方向暂时让 LLM 占主导，但这不是长期最优方案。

5. 现实障碍

当前基础设施投入更偏向 LLM；
评估标准仍偏向通用任务，而非代理任务；
市场对 SLM 的关注和认知不足。

6. 转换建议

文章最后提出了一个具体的“LLM → SLM 转换算法”，帮助开发者将现有使用 LLM 的代理系统迁移到 SLM，包括数据收集、任务聚类、模型选择、微调等步骤。

7. 案例研究

作者分析了三个开源代理系统（MetaGPT、Open Operator、Cradle），并估计它们有 40%–70% 的任务可用 SLM 替代 LLM，有效降低运行成本。

最后在实际工业场景中，需要大模型处理的时候让大模型来，不需要，或者有更多很简单的方式来实现的就直接实现了。端到端固然好，但是落地归落地，paper归paper，一码归一码。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-26

腾讯混元AI Infra如何优化Hy3 Preview：一次大模型推理性能提升的技术拆解

2026-06-26

多智能体的记忆接线：同一任务，每个角色看到的不一样

2026-06-26

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

Loop Engineering 到底是什么？看这一篇就够了

2026-06-26

基于组件化的工程（CBE）智能体

2026-06-26

从问答案到接任务 AI正在重写工作的基本单位

2026-06-26

AI Agent 正在变成基础设施，但你的质量治理还停在"试用一下"

2026-06-25

微信在金矿上孵化了啥？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw