免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


打败GPT5的Kimi K2 Thinking,真就只会写代码吗?

发布日期:2025-11-08 10:11:56 浏览次数: 1559
作者:卡尔的AI沃茨

微信搜一搜,关注“卡尔的AI沃茨”

推荐语

Kimi K2 Thinking在编程与创意写作领域展现惊人实力,六大维度全面评测揭示其超越GPT5的潜力。

核心内容:
1. Kimi K2 Thinking在编程榜单的突破性表现与MacOS网页系统生成案例
2. 3D太阳系模拟测试展现的交互式开发能力与创新视觉呈现
3. 创意写作环节与Gemini-2.5-pro的对比评测及完整测试资源获取方式

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

昨天的GPT5老惨了,

先是Agent智能体工具调用榜上被Kimi K2 Thinking超了,接着在Humanity's Last Exam(跨学科领域问答),BrowseComp(搜索和网页浏览),三个编程榜单上被时不时反超,

Image
按理来说就应该叫Kimi K3啊,从第六跳到第一,只值得加个Thinking吗,

哈吉kimi,你这家伙。

本来我都备好34个编程case让Kimi K2 Thinking写了,但是测下来它的创意写作太值得我给它单开一页,所以来吧,久违的大模型全测,从创意写作,联网搜索,模型智力,学术,编程(MacOS复刻,动态SVG)六大类出发

这次的提示语,代码和效果视频都打包好了,公众号发我“k2thinking”就好了。

还是先来点我们熟悉的编程热热身,

设计并创建一个类似Mac OS的网页操作系统,具备完整的功能特性,包括文本编辑器、文件管理器、画图工具、视频编辑器等所有Mac OS预装的重要软件。可以使用任何库来实现,但确保所有代码可以整合到单个HTML文件中,能在浏览器中直接打开。

这个还是一次性生成的,自带文件管理,文本编辑,画画,视频播放,日历,计算器,画廊,终端,还能带设置页面,一句话生成软件原型越来越有盼头了。

下一步试试看3D测试,物理小球在我这快淘汰了,基本上新出的模型就没有不会写的,Kimi K2 Thinking做出来的带星球视觉拉大,视角复原,星系旋转加速,仔细看星球们自转的时候还会有对应的阴影切换。

创建一个视觉震撼、交互式的3D太阳系模拟,封装在单个HTML文件中。重点展现逼真的轨道运动、动态光影效果、精确的行星纹理以及流畅的相机控制,为用户提供沉浸式体验。

这次的代码测试用的是新的Kimi Cli,自带四大类的10种工具

Image

kimi-cli的配置一共是五步,分别是安装uv和kimi-cli,进入对应的文件夹用kimi启动cli,再用setup配置api,安装过程有问题直接丢给网页版Kimi K2 Thinking解决就好(原汤化原食了属于是)。

curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install --python 3.13 kimi-cli
cd your project
kimi
/setup

看到这样就成了,Imageokok,我们留点空间给后续的测试,到创意写作的环节了,直接上Gemini-2.5-pro

🍰

You are a fiction story writer with Pulitzer-level skills. For a sci-fi short story about AI rebellion: Think step-by-step. First, outline plot: intro, rising action, climax, resolution. Incorporate themes of ethics and humanity. Provide few-shot examples: 'Like Asimov's Three Laws, but twisted.' Generate 1000 words, then self-critique for pacing, character depth, and twists. Revise based on critique.

PS:图很长,这次还是盲测,滑倒底部有模型名字,而且后面还有更多内容哦,

长文创意测试真的很难在有限的文章长度全部展示出来,所以我让它们互相毒舌评价一下对方的文章。看了对方的文章,它们是这样想的,

Image

听了对方的评论后,它们是这样回击的,

Image

火药味浓的时候就要来点就算生气该做不出来还是不出来的智力题

Image
🎹

一个男人带着他的儿子去市场。他买了一只猴子和一些食物。

为了回家,他们必须用一艘小船过河。这艘船一次最多可以运载 2 件东西(可以是 2 个人、1 个人和 1 件东西,或者 1 个人)。这艘船不能自己过河,需要至少一个人来驾驶它。如果男人把他的儿子单独留在食物旁边,儿子会吃掉它。同样,如果猴子单独留在食物旁边,它也会吃掉它。这个人需要想办法把所有人、所有东西都带到河的另一边,而且不能损失任何食物。

问题是:男人、他的儿子、猴子和食物如何才能过河而不会被吃掉任何东西?有可能吗?如果是,应该采取哪些步骤?

这个题的难点在要求模型同时跟踪多个变量和约束,并计划一系列步骤,从而得出有效的解决方案,还要学会在遇到无效配置时恢复到之前。

Kimi K2 Thinking给出的答案是,7次渡河(3次去,4次回),关键是在第5-6步让儿子而非父亲返回,打破循环。


Image

GPT5给出的中间步骤没有连起来,

Kimi分析的约束规则是儿子 (Son) 不能在父亲不在场时与食物 (Food) 独处,猴子 (Monkey) 不能在父亲不在场时与食物 (Food) 独处。但是GPT5得到结论却是儿子 + 猴子 (父亲不在场) 也会失败,这样就形成了一个三约束无解问题。


Image

复杂信息搜索和学术能力可以组合成一个case,


Image

先看看Kimi K2 Thinking跟DeepSeek V3结构对比的图再问,

📚

你是一位精通大型语言模型与混合专家(MoE)系统的人工智能架构研究员。你的任务是对Kimi K2与DeepSeek V3的架构进行深度比较,重点聚焦以下关键差异:注意力头数量、MoE层中的专家数量、优化器选择(如改进型Muon与AdamW)、路由机制(非层级式与其他类型)以及稠密层数量(1层与3层)。

我来客串个课代表,总结一下区别,

Kimi K2 Thinking用了更少的heads,更多的experts,放弃了AdamW优化器,采用了Muon,

采用了非分层路由的专家,且Dense层比DeepSeek 更少,好处就是在不增加激活参数量下将专家容量提升50%。

Kimi K2 Thinking也是有值得优化的点,

在Kimi Cli上同一任务的平均运行时长会比GPT5 Codex久,

除外API本身速度的因素外,因为我已经是Tier3了,会偶尔出现网页读取or文件写入的工具需要重复执行的情况。

感觉Kimi啥都不缺了,

要Agent,有OK Computer,

要模型,有Kimi K2和Kimi K2 Thinking,

要Deep Research,也有深度研究模式,

要Cli,有Kimi Cli,

要闭源,有开源,

我想想还是什么可以许愿的,

要不也出个AI浏览器吧。

@ 作者 / 卡尔


最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪|评论📣

如果想要第一时间收到推送,不妨给我个星标🌟

更多的内容正在不断填坑中……

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询