我要投稿

OpenAI突然放出o1——我用海龟汤问题测试后o1可以用来出版推理小说了

发布日期：2024-09-13 08:26:09 浏览次数： 3399

作者：LLM榴莲猫

微信搜一搜，关注“LLM榴莲猫”

几乎是毫无预兆，

OpenAI发布OpenAI o1模型，也就是之前所谓的草莓Q模型，它的能力比4o提升了一大截：

o1是一个通过强化学习训练的大型语言模型，分为两个模型，o1预览版和o1 mini，o1 mini版是一个高效、紧凑且经济的模型，推理能力强但普通知识比较弱。

o1预览版每周30条，o1-mini每周50条。

o1显著的特点是具备"思考链"(Chain of Thought)能力。

分解复杂问题：o1能够将一个复杂的问题分解为多个子步骤，然后逐步解决。

自我纠错：在推理过程中，o1能够识别并纠正自己的错误,这大大提高了最终结果的准确性。

尝试多种方法：当一种方法不奏效时，o1能够尝试不同的解题策略，这种灵活性使其能够处理各种各样的问题。

透明的推理过程：o1能够清晰地展示其推理过程,这不仅提高了结果的可解释性，也为进一步改进模型提供了宝贵的洞察。

目前我的Plus账号已经推送了o1-mini和o1-preview的模型。

其他资讯都大同小异，

下面我用著名的海龟汤问题来测试下模型的能力。

海龟汤游戏是一种推理游戏，其中玩家需要根据一个简短的故事背景（“汤面”）猜测出隐藏的故事真相（“汤底”）。

游戏的规则很简单：玩家可以提出是/否类型的问题，裁判只能根据已知的“汤底”来判断问题的答案。

比如用户可能会问：汤里有毒药吗？

裁判就会回答：不是。

这个循环直到用户猜到真相为止。

接来下我喂给o1几个案例，然后再用一个新的案例考考他：

故事：

一个女人死了，警察在房间发现了很多条这样的字条。

你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\n\n哎，我知道我遇到麻烦了。"

可以看到o1的思考步骤，每次回答基本都会调用内部的推理流程，一开始就花了15秒：

它的问题太让我吃惊了，每个问题都精准的问到点子上，太吓人了：

随着推理的深入，o1的思考时间会变长，思考的步骤逻辑会发生变化和改进，这次花了23秒：

这里它的推理能力是惊人的，几乎复盘了案件的真相：

凶手是死者的伴侣，而且伪造了字条，

有点东西。

到最后o1完全复盘了案件的经过：

甚至还有更精彩的版本：

推理小说以后是不是可以靠o1写了？

大家赶紧去体验一波！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-17

开源、零依赖、R@5 精度 95%：agentmemory 凭什么比 mem0 更值得用

2026-05-16

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-15

再见 Hermes、小龙虾！面向 DeepSeek V4 的终端原生编程智能体来了

2026-05-15

GenericAgent 实测：Token 少用 89.6%，还能打赢 Claude Code？上下文密度才是关键

2026-05-14

腾讯开源Agent Memory，让Token消耗降低61%

2026-05-14

agents-hive 开源了：一个面向生产的Harness Agent 工程

2026-05-12

Hermes Agent 完整安装指南

2026-05-11

对话OpenClacky李亚飞：把Harness做透，Token账单就不是问题了

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

1700人收藏！港大开源 ClawWork：开局 10 美元，AI 靠打工 7 小时狂赚 1 万刀！

2026-02-18

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

2026-02-22

开启极简养虾，用 TRAE 快速部署 OpenClaw

2026-03-04

大家都在问

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部