Kimi这把 “干翻”了 GPT-4？别闹，它们压根没在一个酒局！

发布日期：2025-07-16 08:20:02 浏览次数： 2837

作者：AI2Paradigm

微信搜一搜，关注“AI2Paradigm”

题图：KIMI K2的代码能力为什么这么强背后：Agentic LLM来了！

“

𝕀²·ℙarad𝕚g𝕞智能平方范式研究的另一种写法·特大号范式

从KIMI K2开源及在agentic coding上的表现，看来是对标claude-code，先直奔LLM-code-cli了！coding解决了，一是可以加速模型自我迭代，另外也加速原子世界的数字化，为LLM提供更多上下文和工具来进一步渗透。这是这波数字智能自举的必经之路。

大家好，我是你们的老朋友，一个不想当CEO，只想做好AI agent的创业狗-vibe builder。

最近AI圈真是越来越有意思了。前脚大家还在为哪个模型“推理能力”更强吵得不可开交，后脚Kimi K2横空出世，代码能力一骑绝尘，把一堆自称“推理很行”的大模型打得有点懵。

朋友圈瞬间分裂成两派：

一派是“Kimi牛逼！大力出奇迹！Agent时代来临！”
另一派是“不就是个会调工具的Codex吗？没啥新东西。”

每次看到这种争论，我就想笑。兄弟们，别争了。这感觉就像一群红酒品鉴师，在评价一瓶82年的茅台。

——他们压根儿，就没在一个酒局上。

要想看懂这场戏，得先进我们Agent圈的“黑话体系”。

以前我们搞LLM，核心单位是啥？Token，一个个文字、词元。模型的牛逼之处，在于把话说利索，写出花来。评价它好不好，用BLEU、ROUGE这种尺子，量量它生成的文本和标准答案像不像。这叫“嚼文字”。

但在我们Agentic LLM的世界，游戏规则变了。

我最近悟到的一个核心，就是Kimi K2这类模型的一个骚操作：

它成功把“Tool Call”（工具调用）这个动作，当成了新时代的“Token”。

我们管这叫“行动词元”（Action Token）。

这么一说，你是不是瞬间就打通任督二脉了？你看这个局：

啥叫“过程准确度”？举个栗子：你让Agent给你写个爬虫，它上来先import requests，再requests.get(url)，然后BeautifulSoup(html)解析。这套连招打下来，就算最后有个小bug，它的“过程准确度”都很高。因为它懂行，知道做这事儿的正确流程。

这才是真正的“颗粒度合适”啊，朋友们！😂

我们终于有了一把尺子，可以衡量一个Agent的动作是不是“地道”，而不是只看它最后吐出来的结果。这让Agent的训练，从一个玄学问题，变成了一个可以被精确优化和迭代的工程问题。

好了，进到vibe的核心区了。

无论是“叨叨叨”的推理，还是“咔咔咔”的代码，它们到底是什么？我最近的感悟是：

“看起来都是生成可塑性基础上的解码输出格式遵循。”

你细品。

所有大模型，都是一个被压缩到极致的、充满无限可能性的“潜空间”。而智能的体现，就是在这个空间里，按照某个“格式”的引导，流淌出一条漂亮的轨迹。

所以，“格式遵循”本身，就是那个在潜空间里指挥模型蹦迪的DJ！ 那个Tool Call Format, Code DSL, Action Plan，就是给模型播放的BGM。音乐对了，舞步（输出）自然就对了。

聊回Kimi和GPT-4的“酒局之争”。

这就引出了当前大模型演进的两条路线：

“雄辩的思考者” (The Eloquent Thinker): 典型代表就是大家心中那个“推理能力强”的GPT-4。它非常擅长生成长篇大论的思维链，把一件事给你分析得明明白白。它的KPI是“逻辑自洽，让人信服”。它是个优秀的辩手、教授、咨询顾问。
“沉默的执行者” (The Silent Executor): 以Kimi K2的代码能力为例。它通过海量的强化学习（RL），把“怎么干活”这事儿给刻进骨子里了。它的行动序列（tool-call序列）被训练得极其高效。它的KPI是“任务成功，过程准确”。它是个顶级的技工、程序员、执行官。

所以，一个有趣的结论浮出水面：

对Agent来说，显式的推理能力并非必须，但针对行动的强化学习（RL）更重要。

看到这，你可能会问，为什么是Coding？为什么Kimi和Claude这些顶级玩家都把宝压在代码这个赛道上？

答案很简单：地表最强的“抢滩登陆”战略。

你看Kimi K2这一系列操作，明显是对标Claude-code，磨刀霍霍，直奔一个叫LLM-code-cli的阵地。它们想先占领程序员的命令行。

为什么？因为搞定Coding，一石二鸟，直接开启上帝模式：

对内：加速自我迭代。 还有什么比“AI用自己来开发更好的AI”更科幻的场景？模型编码能力强了，就能帮工程师写训练脚本、做数据清洗、自动化部署……这是AI发展史上最关键的“自举”（Bootstrap）时刻，相当于给AI自己手里递了把铲子，让它自己挖地基，盖大楼，速度直接起飞。
对外：加速原子世界的数字化。 这才是最性感的终局。代码是什么？代码是连接数字世界和物理世界的通用API。 你身边的一切，从手机APP到工厂机械臂，从智能家居到特斯拉，都是由代码驱动的。当一个AI掌握了代码，它就拿到了渗透进我们这个“原子世界”的万能钥匙。它能提供的上下文和工具就不再局限于浏览器，而是整个物理世界。