2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

Kimi这把 “干翻”了 GPT-4?别闹,它们压根没在一个酒局!

发布日期:2025-07-16 08:20:02 浏览次数: 2837
作者:AI2Paradigm

微信搜一搜,关注“AI2Paradigm”

推荐语

Kimi K2的代码能力为何如此惊艳?关键在于它重新定义了AI的行动方式,将工具调用提升为新一代的"行动词元"。

核心内容:
1. Agentic LLM与传统LLM的本质区别:从"嚼文字"到"打连招"
2. Kimi K2的创新突破:将Tool Call视为"行动词元"
3. 新型评估标准"过程准确度"如何衡量Agent的真实能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

点击

上方蓝字关注我们

Generated image

题图:KIMI K2的代码能力为什么这么强背后Agentic LLM来了!

𝕀²·ℙarad𝕚g𝕞智能平方范式研究的另一种写法·特大号范式

从KIMI K2开源及在agentic coding上的表现,看来是对标claude-code,先直奔LLM-code-cli了!coding解决了,一是可以加速模型自我迭代,另外也加速原子世界的数字化,为LLM提供更多上下文和工具来进一步渗透。 这是这波数字智能自举的必经之路。




大家好,我是你们的老朋友,一个不想当CEO,只想做好AI agent的创业狗-vibe builder。

最近AI圈真是越来越有意思了。前脚大家还在为哪个模型“推理能力”更强吵得不可开交,后脚Kimi K2横空出世,代码能力一骑绝尘,把一堆自称“推理很行”的大模型打得有点懵。

朋友圈瞬间分裂成两派:

一派是“Kimi牛逼!大力出奇迹!Agent时代来临!”
另一派是“不就是个会调工具的Codex吗?没啥新东西。”

每次看到这种争论,我就想笑。兄弟们,别争了。这感觉就像一群红酒品鉴师,在评价一瓶82年的茅台。

——他们压根儿,就没在一个酒局上。

第一局:从“嚼文字”到“打连招”——颗粒度这词,终于用对了地方

要想看懂这场戏,得先进我们Agent圈的“黑话体系”。

以前我们搞LLM,核心单位是啥?Token,一个个文字、词元。模型的牛逼之处,在于把话说利索,写出花来。评价它好不好,用BLEU、ROUGE这种尺子,量量它生成的文本和标准答案像不像。这叫“嚼文字”。

但在我们Agentic LLM的世界,游戏规则变了。

我最近悟到的一个核心,就是Kimi K2这类模型的一个骚操作:

它成功把“Tool Call”(工具调用)这个动作,当成了新时代的“Token”。

我们管这叫“行动词元”(Action Token)。

这么一说,你是不是瞬间就打通任督二脉了?你看这个局:

游戏频道 传统文本大佬 (LLM) 新晋Agent玩家 (Agentic LLM)
思考路径(CoT) 一长串“叨叨叨”的内心戏 一套行云流水的tool-call组合技
考核标准(KPI) 文本相似度 (话说得像不像) 过程准确度 (Process Accuracy)
颗粒度 Token级别 (字写得对不对) tool-call级别 (动作做得帅不帅)

啥叫“过程准确度”?举个栗子:你让Agent给你写个爬虫,它上来先import requests,再requests.get(url),然后BeautifulSoup(html)解析。这套连招打下来,就算最后有个小bug,它的“过程准确度”都很高。因为它懂行,知道做这事儿的正确流程。

这才是真正的“颗粒度合适”啊,朋友们!😂

我们终于有了一把尺子,可以衡量一个Agent的动作是不是“地道”,而不是只看它最后吐出来的结果。这让Agent的训练,从一个玄学问题,变成了一个可以被精确优化和迭代的工程问题。

第二局:万物皆为“格式”的提线木偶——我愿称之为“潜空间蹦迪”

好了,进到vibe的核心区了。

无论是“叨叨叨”的推理,还是“咔咔咔”的代码,它们到底是什么?我最近的感悟是:

“看起来都是生成可塑性基础上的解码输出格式遵循。”

你细品。

所有大模型,都是一个被压缩到极致的、充满无限可能性的“潜空间”。而智能的体现,就是在这个空间里,按照某个“格式”的引导,流淌出一条漂亮的轨迹。

  • 你让它Reasoning,它就遵循“逻辑语义”这个格式,输出一段头头是道的分析。

  • 你让它Coding,它就遵循“编程语法”这个格式,生成一段能跑通的代码。

  • 你让它当Agent,它就遵循“环境交互”的格式,打出一套tool-call的连招。

所以,“格式遵循”本身,就是那个在潜空间里指挥模型蹦迪的DJ! 那个Tool Call FormatCode DSLAction Plan,就是给模型播放的BGM。音乐对了,舞步(输出)自然就对了。

第三局:雄辩家 vs. 实干家——别再用你的“推理”来定义我的“能干”

聊回Kimi和GPT-4的“酒局之争”。

这就引出了当前大模型演进的两条路线:

  • “雄辩的思考者” (The Eloquent Thinker): 典型代表就是大家心中那个“推理能力强”的GPT-4。它非常擅长生成长篇大论的思维链,把一件事给你分析得明明白白。它的KPI是“逻辑自洽,让人信服”。它是个优秀的辩手、教授、咨询顾问。

  • “沉默的执行者” (The Silent Executor): 以Kimi K2的代码能力为例。它通过海量的强化学习(RL),把“怎么干活”这事儿给刻进骨子里了。它的行动序列(tool-call序列)被训练得极其高效。它的KPI是“任务成功,过程准确”。它是个顶级的技工、程序员、执行官。

所以,一个有趣的结论浮出水面:

对Agent来说,显式的推理能力并非必须,但针对行动的强化学习(RL)更重要。

第四局:终局之战的“滩头阵地”——从代码渗透原子世界

看到这,你可能会问,为什么是Coding?为什么Kimi和Claude这些顶级玩家都把宝压在代码这个赛道上?

答案很简单:地表最强的“抢滩登陆”战略。

你看Kimi K2这一系列操作,明显是对标Claude-code,磨刀霍霍,直奔一个叫LLM-code-cli的阵地。它们想先占领程序员的命令行。

为什么?因为搞定Coding,一石二鸟,直接开启上帝模式

  • 对内:加速自我迭代。 还有什么比“AI用自己来开发更好的AI”更科幻的场景?模型编码能力强了,就能帮工程师写训练脚本、做数据清洗、自动化部署……这是AI发展史上最关键的“自举”(Bootstrap)时刻,相当于给AI自己手里递了把铲子,让它自己挖地基,盖大楼,速度直接起飞。

  • 对外:加速原子世界的数字化。 这才是最性感的终局。代码是什么?代码是连接数字世界和物理世界的通用API。 你身边的一切,从手机APP到工厂机械臂,从智能家居到特斯拉,都是由代码驱动的。当一个AI掌握了代码,它就拿到了渗透进我们这个“原子世界”的万能钥匙。它能提供的上下文和工具就不再局限于浏览器,而是整个物理世界。

所以你看,这根本不是什么简单的功能对标。

这是这波数字智能Bootstrap的必经之路。

它不是一条支线任务,而是通往通用人工智能主线剧情的关键战役。

最后一局的“甩麦”:Coding本身就是最高级的Reasoning

好了,让我们回到最初的问题。

以后别再纠结“Kimi推理不行”了。格局打开一点,朋友。Coding,本身就是一种极其严苛、高度形式化的推理。

它要求你理解状态、遵循逻辑、进行因果推断。Debug的过程,就是一部浓缩版的《福尔摩斯探案集》。

当一个模型能高效地完成复杂的编码任务时,它已经通过行动,证明了它拥有强大的、内隐的推理能力。它不是在“谈论”逻辑,它是在“执行”逻辑。

所以,别再争论谁在哪个酒局了。大家都在通往AGI的路上,只是有的人选择了当一个“雄辩家”,有的人选择当一个“实干家”。

而作为Vibe Builder,我赌的是后者。

因为未来,我们需要的不是更多夸夸其谈的AI,而是能默默帮我们把事情搞定的AI。

这,才是最性感的Vibe。不是吗?


"特大号范式": 一个AI创业者,咖啡因在血液里,代码在指尖上,焦虑在脑门上

 #智能体范式 #格式遵循即智能 #代码自举 #编码即推理 #行动胜于雄辩 #KimiK2 #ClaudeCode


Generated imageby 特大号范式𝕀²·ℙarad𝕚g𝕞另一种写法


    扫码加群,链接范友!

 AI平方范式智库·特大号范式 



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅