微信扫码
添加专属顾问
我要投稿
这是关于 AI 领域 RL 发展的精彩分析,不容错过! 核心内容: 1. Kimi 创新的 RL 框架及成果 2. DeepSeek 的 RL 方式及成绩 3. 从业者复现 o1 面临的困难
“呵呵,那个 AI 和猴子一样聪明呢,真逗”。
“我擦,发生了什么?”
我们要越来越习惯在可以用 RL 的地方很快迎来 AI 超越人类的“李世石时刻”。
看到 Kimi k1.5 这一组数据的时候,我的第一反应是:we are running out of benchmarks。在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平。这在一年前绝对是难以想象的。同时 k1.5 在Long-CoT 下的表现,更加让我们看到 There is no wall,RL 还可以走很远。
是更多 DAU 和时长,还是更多智能?新时代需要新的范式,我们始终相信一小群对技术充满热情的年轻人可能改变世界。我们也始终相信 AI 对人类的意义不止于打电话和虚拟贴贴,把能量更高效变成生产力普惠人类,应该才是这个游戏的通关答案。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-24
我把 AI 账单从 30 美金打到 5 美金
2026-05-24
企业级智能体,必须长在自己的业务里
2026-05-24
Shopify 23,000 名工程师背后的 Claude Code 配置方案
2026-05-23
Harness Monitor:当多个 Agent 同时写代码时,如何看住质量
2026-05-23
从 Appshots 到 Goal Mode:Codex 正在变成工作流 Agent
2026-05-23
2小时烧掉9亿token后,我发现了OpenAI和Anthropic在/goal上的本质区别
2026-05-23
我在一天内完成10场用户访谈,领导大受震撼
2026-05-23
Codex 的 computer use 功能,为什么这么好用?
2026-04-15
2026-04-07
2026-03-31
2026-03-13
2026-03-17
2026-04-07
2026-03-17
2026-03-21
2026-04-24
2026-03-06
2026-05-23
2026-05-21
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07