微信扫码
添加专属顾问
我要投稿
经典的草莓(strawberry)问题,轻松拿下
在MGSM上Marco-o1准确性得到了提升
将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与大型语言模型(LLMs)集成,以增强Marco-o1模型的推理能力:
MCTS框架中的节点和动作:
在MCTS框架中,每个节点代表问题解决过程中的一个推理状态。
从节点可能的动作是由LLM生成的输出,这些输出代表推理链中的潜在步骤或微步骤。
展开和奖励计算:
在展开阶段,LLM继续推理过程直到达到一个终端状态。
通过计算每个状态的值来引导MCTS,这个值是通过计算信心分数得到的。
信心分数的计算:
对于在展开过程中生成的每个标记(token),通过将softmax函数应用于该标记的对数概率以及前5个替代标记的对数概率来计算其信心分数。
信心分数反映了所选标记相对于其他顶部选择的概率,有效地将分数标准化在0和1之间。
整体奖励分数:
在获得展开序列中所有标记的信心分数后,通过计算所有标记的平均信心分数来得出整体奖励分数。
这个平均值作为奖励信号,评估在展开期间采取的推理路径的质量。更高的整体奖励分数表示更有信心且可能更准确的推理路径。
解决方案空间的扩展:
通过这种方法,有效地扩展了解决方案空间,允许模型探索大量的推理路径,并根据计算出的信心分数选择最可能的路径。
实验结果表明,Marco-o1模型在不同语言和配置下提高了推理能力。
由于使用信心分数作为奖励,树搜索结果表现出显著的随机性,目前还无法确定哪种行动策略更优越。
随着奖励信号变得更加准确,MCTS提供的更大解决方案空间将展示出更大的潜力。
数学推理case分析
更细的粒度与微步增强了问题解决能力。在MGSM数据集上,Marco-o1-MCTS(步)(左)与Marco-o1-MCTS(32个标记的微步)(右)的比较。步级动作策略没有得出正确答案,但通过使用更细粒度的32个标记的微步,模型成功地导航了解决方案空间以找到正确答案,展示了增加动作粒度的有效性。
俚语表达“它如此美丽!而且它如此便宜,超级直且不卷曲。买它,买它!”的翻译比较。
https://arxiv.org/pdf/2411.14405Marco-o1: Towards Open Reasoning Models for Open-Ended Solutionshttps://huggingface.co/AIDC-AI/Marco-o1
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• 2024:ToB、Agent、多模态
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-10
从抵触AI到AI破局,我把Coze、n8n、Dify等5个主流智能体平台扒了个底朝天
2025-09-09
为 ONLYOFFICE AI 智能体开发自定义函数:实践指南&夺奖攻略!
2025-09-09
开源智能体开发框架全面对比分析
2025-09-09
Dify Pre-release版本来了,Dify2.0时代不远了,看看有哪些进步?
2025-09-09
硅基流动上线 DeepSeek-V3.1,上下文升至 160K
2025-09-08
微信公众号“内容孤岛”终结者:免费开源工具,批量下载+完美还原!
2025-09-08
Claude不让用,有哪些国产模型能迎头赶上?
2025-09-08
前豆包大模型市场负责人创业,GEO服务商「PureblueAI清蓝」获千万级种子轮融资 丨涌现新项目
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-09-07
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16
2025-08-13
2025-08-11
2025-08-11