我要投稿

OpenAI强化微调终于上线了：几十个样本就可轻松打造AI专家

发布日期：2025-05-09 16:57:28 浏览次数： 2317

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

分享一个好消息！还记得去年12月就提过的强化微调（Reinforcement Fine-Tuning, RFT）吗？现在，它正式登陆 OpenAI o4-mini 模型了！

简单说，RFT 就是用思维链推理和任务专属的评分机制来提升模型在特定复杂领域的表现，可以将AI模型从高中学生水平轻松提升到了专家博士水平。通过强化微调，你可以轻松将模型的某一个领域的专业能力迅速提升，打造出各种AI专家

另外，GPT-4.1 nano 现在也开放微调了！这意味着你可以把OpenAI最快、最便宜的模型，针对你的具体场景进行“特训”，性价比拉满！

目前，RFT已向经过验证的组织开放。OpenAI还给出了个福利：分享你的数据集，不仅能帮助改进未来的OpenAI模型，还能获得50%的折扣。

官方已经准备了强化微调指南，第一时间给大家划个重点

强化微调RFT：到底能干啥？

RFT的核心目标是提升模型在特定、答案可验证任务上的性能

特别适合那些需要模型做出正确且可验证决策的“智能体式”工作流。RFT通过明确的评分标准，以及基于代码或大语言模型（LLM）的“裁判”（Grader）来衡量任务的成功度、事实准确性或政策合规性

OpenAI的早期用户主要集中在三个场景：

下面这些公司已经用RFT搞出了名堂：

模型需要理解隐藏的领域限制，生成结构化输出，如代码、查询语句或基础设施模板。输出必须满足多重正确性条件，成功与否通常是确定性评分。

?ChipStack：为半导体设计“智能布线”

• 公司：ChipStack，搞AI驱动的芯片设计和验证工具。
• 痛点：将设计接口绑定到验证IP（预制验证组件）是件耗时耗人力的苦差事，涉及大量信号映射，需要深厚的领域知识。
• 目标：训练OpenAI模型自动完成这项任务。ChipStack准备了不到50个样本的数据集，进行了多次RFT实验。
• 评分器思路：用Python定义了一个比较预测输出（一系列名值对）与期望答案的评分器，计算精确率和召回率的F1分数。
• 成果：o1-mini和o3-mini模型性能均提升了约12个百分点。微调后的模型在识别何时“不”应用布线方面进步巨大，这对于包含大量可选信号的商业验证IP至关重要

这类任务通常涉及细微差别，需要明确的分类指南和领域专家的共识。评分信号的一致性对RFT效果至关重要。

• 公司：Ambience，AI平台，为临床医生减轻行政负担，确保文档准确合规。
• 痛点：ICD-10编码（约7万个代码）是医学中最复杂的行政任务之一，错误可能导致巨额罚款。
• 目标：训练一个能听取就诊音频、结合EHR信息、推荐ICD-10编码且准确率超过专家临床医生的推理系统。
• 成果：在包含数百次就诊的黄金测试集上，RFT将模型性能从落后人类专家13个百分点提升到领先12个百分点，大致消除了训练有素医生所犯编码错误的四分之一。