微信扫码
添加专属顾问
我要投稿
OpenAI 连续12天发布会,第二天依旧是短平快
也是短短20分钟结束,但比第一天略长
相比第一天的o1模型和Pro会员引发朋友圈、社交媒体、群聊的吐槽和大讨论
今天发布的东西可以说是无人问津,几乎群聊没人在聊
但其实今天发的东西对普通人来说可能几乎没用处,对开发者、企业、科研领域来说可谓是王炸更新!
OpenAI 首席执行官山姆·奥特曼对此表示:
“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”
那么,这项技术究竟是什么,它带来了哪些变革,又如何改变我们的认知?
接下来,深入说说,昨晚到底更新了什么...
OpenAI昨晚发布了一种叫强化微调(Reinforcement Fine-Tuning, RFT)的技术。
先听听发布会中原话解释它是什么?
“再次强调,这不是传统的微调。
这是强化微调,它真正利用了强化学习算法,将我们的模型从高中学生水平提升到了专家博士水平。”
也就是说通过强化微调你可以轻松的将现有的模型直接训练成特定领域的专家。
什么意思呢?
就是不论是GPT4o模型还是o1模型,它在综合能力上都是很强没问题的,但是一旦你想要处理一些专业领域的问题,比如法律、医疗、金融、科研等专业领域的问题,它的水平可能无法满足这些领域的专业需求。
那么就需要通过专业的训练来让它能适应特定领域的需要。
但是其实呢GPT已经从大量通用数据中学习了广泛的知识,涵盖多个领域如果你再去重新训练其实是浪费。
通过强化微调优化模型:
能够在不同领域实现模型的个性化和专业化。
具体案例
在强化微调的实验中,实验人员通过对比 三种模型 的表现来评估强化微调的效果。这三种模型分别是:
o1(基础模型):最新发布的未经过微调的 o1 模型。
o1 Mini(精简版本):未经过微调的 o1 Mini 模型,是一个更小、更快、更廉价的版本。
强化微调后的 o1 Mini:使用强化微调方法在特定任务数据集上优化的 o1 Mini 模型。
实验人员使用以下三项指标评估模型的性能:
Top 1(首位准确率):模型一次性答对的概率;
Top 5(前五准确率):模型前五次预测中有正确答案的概率
Top Max(最大准确率):模型预测中有正确答案的概率(位置不限)。
实验结果:o1 mini的强化微调版,战胜了昨天刚发布的o1(基础版)。
强化微调后的 o1 Mini 模型在特定任务中表现出更强的推理能力。
强化微调RFT不仅适用于科学研究,还可扩展至AI安全、化学、生物信息学等领域。
等等,其实强化微调这个概念最早其实是字节跳动提出来的
在今年的ACL 2024(这是自然语言处理(NLP)和计算语言学领域最重要的国际学术会议)顶会上字节跳动发表了一篇“REFT: Reasoning with REinforced Fine-Tuning”的ReFT论文。
提出了Reinforced Fine-Tuning (ReFT)的 方法,通过引入强化学习来增强模型的推理能力。
字节跳动的研究人员发现只让模型学一种固定的解题路径(如思维链),限制了它的潜力。
比如,一个数学题可能有三种解法,但训练时模型只学了一种。这就好比让你学数学时只看一种答案解析,遇到变化稍大的题目时,你可能就不会解了。
所以,他们提出了一种新方法,叫强化微调(ReFT),它可以让模型在训练时自己去探索多种解题路径,并从中学习哪种更优。这样,模型就像是多看了不同的答案解析,更灵活、更聪明了。
强化微调的意义
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-05
普林斯顿大学RLAnything:AI学会一边学习一边给自己打分
2026-02-04
Agent 越用越聪明?AgentScope Java 在线训练插件来了!
2026-02-03
OpenClaw之后,我们离能规模化落地的Agent还差什么?
2026-01-30
Oxygen 9N-LLM生成式推荐训练框架
2026-01-29
自然·通讯:如何挖掘复杂系统中的三元交互
2026-01-29
微调已死?LoRA革新
2026-01-19
1GB 显存即可部署:腾讯 HY-MT1.5 的模型蒸馏与量化策略解析
2026-01-18
【GitHub高星】AI Research Skills:一键赋予AI“博士级”科研能力,74项硬核技能库开源!
2025-11-21
2025-12-04
2026-01-04
2026-01-02
2025-11-20
2025-11-22
2026-01-01
2025-11-19
2025-12-21
2025-11-23
2026-02-03
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17