2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

OpenAI 的 Q*没见过,一众创业公司的 Q*来了

发布日期:2024-07-31 08:45:57 浏览次数: 2774
作者:极客公园

微信搜一搜,关注“极客公园”


我们距离能做「慢思考」的 AI,还有多远。
去年在 Sam Altman 被临时开除前后,有 OpenAI 的研究人员向董事会发出联名信,指出代号为 Q 的神秘项目可能会威胁全人类。OpenAI 在后续给员工的内部信承认了 Q*,并将这个项目描述为「超越人类的自主系统」。
虽仍未见过 Q*,但江湖中,它的传言一直都在。
谷歌 DeepMind 资深工程师卢一峰曾从专业的角度向极客公园作出猜想,Q*可能类似「慢思考」的能力——需要模型意识到它对什么问题没把握,没把握以后应该怎么办。这时,模型可能需要像人类一样,上网、翻书、做实验、想一些莫名其妙的想法、跟别人讨论……。
今年在各个大模型厂商的 AI 助手类 App 里提问题,能够感受到比去年更靠谱的回答,不少厂商也表示正在发力让模型多一些思考,进一步提升推理能力。目前进展如何?
对于上述问题,The Information 记者 Stephanie Palazzolo 在《How OpenAI's Smaller Rivals Are Developing Their Own AI That 『Reasons』》一文中,探讨了现有创业公司提升模型推理能力的模式,包括中国公司的 Q*。经极客公园整理,如下:

01

OpenAI 的小型竞争对手

开发自己的「推理」AI


剔除泡沫,这波 AI 到底有多大用,是今年被放在聚光灯下反复审视的话题。
大模型的原理是根据概率预测,生成一个一个词元,但凭训练时被喂的语料鹦鹉学舌,遇到没有见过的提问就幻觉般编造,显然不是大家的期待。进一步提升模型的推理能力,成为关键。
在这方面,我们仍未见到 OpenAI 和谷歌的进展,但一些创业公司和个人表示,他们已经想出了一些「便宜的」方法(cheap hacks)来实现 AI 在某些形式的推理能力。
这些捷径包括将一个复杂的问题分解成更简单的步骤,并另外向模型提出几十个问题来帮助它分析这些步骤。
举个例子,当被要求起草一篇关于新产品的博客文章时,AI 应用会自动触发额外的查询(query),比如要求大模型评估它(准备生成)的答案以及需要改进的地方。当然,在用户界面,看不到模型在后台做的这些动作。
这类似于苏格拉底(Socratic)教学生批判性地思考他们的信仰或论点的方法。后者采取一种问答式的教学方法,在与学生交流时,苏格拉底不会直接给出答案,而是通过不断提问,引导学生自己去发现问题、揭示其观点中的矛盾和不足之处,并逐步修正,得出正确的结论。
有了这个环节,AI 应用可以要求大模型重写上述的博客文章,写的时候把它刚刚给自己的反馈考虑在内。这个过程通常被称为反思(reflection),一位 AI 应用的创业者表示,这通常会带来更好的结果。
除了反思的方式,开发者还可以效仿谷歌,尝试一种叫做抽样的技术。在抽样过程中,开发人员通过问同样的问题几十次甚至 100 次,然后选择最佳答案,以此来提高大模型产生创造性和随机答案的能力。
例如,一个编程助手 App 可能会就同一个问题,让大模型给出 100 种不同答案,然后这个 App 再去运行所有这些代码片段。最终编程助手 App 会选择产生正确答案的代码,并自动选择最简洁的代码。
Meta 在其最近的 Llama 3 论文中也强调了一些类似的技术。
但这种解决方法——调用一个大型语言模型 100 次,或者要求它输出这么多文本和代码,是一种极其缓慢且成本高昂的方式。这可能就是为什么一些开发者批评了由 Cognition(一家使用这些技术的初创公司)制作的编程助手,因为它的性能缓慢。
开发者也看到了这个问题,他们正在尝试解决。方法是选取对特定问题表现出良好推理能力的模型示例,并将它们「喂」回模型的训练数据集中来解决这个问题。就像一位创业者说的,这种方式类似于在小学学习乘法表。最初,学生可能需要手动计算每一个乘法问题。但随着时间的推移,他们记住了这些乘法表,答案几乎成为学生直觉的一部分。
要开发这种 AI,开发者需要对大模型进行控制。但你很难从 OpenAI 或 Anthropic 的闭源模型中得到掌控感,所以他们更有可能使用像 Llama 3 这样的开放权重模型(开放权重是开源界的术语,意思是开放程度高的代码)来完成这项任务。
上面两种方法可能就是 OpenAI 在推理取得突破背后,所使用的技术。当然,OpenAI 现在还尚未发布 Q*,后者又被称为「草莓」(Strawberry)项目。

02

中国的 Q*


中国的开发者和研究人员也逐渐掌握了这些技术。
中国 Skywork AI(天工 AI)和南洋理工大学 (Nanyang Technological University) 研究人员在今年 6 月发表了一篇关于这个问题的论文。在这篇文章中,他们也将这项技术命名为 Q*,以纪念他们从未见过的 OpenAI 的版本。
中国的 Q*技术可以让大模型解决具有多个步骤的问题,比如复杂的逻辑谜题。
方法是通过在答案的每一步中「搜索」大模型应该尝试的最佳的下一步,而不是跟随步骤得出结论(该方法也被称为蒙特卡洛树搜索,早先被用于谷歌 AlphaGo)。这是通过一个特殊的方程式实现的,这个方程式被称为 Q 值模型,帮助大模型估计每个可能的下一步的未来回报——或者说最终答案正确的可能性。
研究人员表示,他们计划在今年秋天公开发布这项技术。
一家智能体创业公司 Minion AI 的 CEO 亚历克斯·格雷夫利,同时也是 GitHub Copilot 的前首席架构师表示,他们还在尝试教大语言模型在意识到出错时回退到前一步。他称,当大模型产生了一个错误答案,或者被要求反思其中间步骤时(类似于上面博客帖子中的例子),这种意识就可能发生,意识到已经犯了一个错误。
业界还有更多的尝试,包括斯坦福大学和 Notbad AI 在 3 月发表的「Quiet-STaR」论文。就像人类在说话或写作前会先停下来思考自己的想法一样,这篇论文解释了如何教会大语言模型生成关于它们在复杂推理问题中,所采取的内部「思考」步骤,以帮助它们做出更好的决策。
OpenAI 的 Q*/Strawberry 技术可能已经领先一步,但其他所有人似乎都在竞相追赶。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅