微信扫码
添加专属顾问
我要投稿
RFT在应用层的潜力仍被低估,尤其适合大规模组织的AI解决方案。 核心内容: 1. RFT实践成功率低的原因分析 2. RFT在大规模组织中的独特价值 3. 前沿模型厂对RL post-training的最新进展
一篇短文,刷新一下观点的有效期,没有新的观点。
我在2025年Q1有一系列文章讨论我当时在RFT上的实践,和我对于RFT价值的看法。
之后由于我跑去做别的了,所以没有再提RFT这边。但这并不代表说我不看好RFT了。
目前整个应用层对于RFT的实践仍然似乎成功率不高,不过这更多是由于其infra要求更高,以及试用问题选择需要的认知更多,需要调节的超参数更多了。门比SFT窄得多。
但作为目前少有的几大方案,RFT仍然是我们无法无视的,特别是对于一些比较大的组织,(这里的比较大是指单个BU内,单一细分岗位有100人以上的规模)。不过确实对于这种规模组织来说,如何获得第一个成功案例是比较难的,但他们也有钱可以去买一个教学案例。
我目测RFT被低估这个判断的有效期还能持续1年。
从LLM模型的用户角度观察,目前海外前沿模型厂对于RL post-training的调教已经进入了第二阶段,优化了reasoning token数。有安全报告说明GPT-5模型的思考过程已经开始出现非人话的情况,这都是(暴力)压缩reasoning token的副作用。
Agent构建平台" data-itemshowtype="0" linktype="text" data-linktype="2">RFTaaS有望成为第一种通用Agent构建平台
GRPO 实验经验笔记(1)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-21
面向手机Agent的记忆系统工程:OPPO的Agentic-RAG实战与演进
2026-03-20
为什么总感觉 Claude Code 比 Cursor 聪明?真正的原因根本不是模型能力!
2026-03-18
从RAG到GraphRAG:货拉拉元数据检索应用实践
2026-03-17
企业AI落地三重门,用友如何破局?
2026-03-16
Java 开发者的轻量级 RAG 方案:MeiliSearch 混合搜索实战
2026-03-11
Embedding相似度虚高,如何用langchain+Milvus搭建CRAG解决?
2026-03-11
上下文腐烂:拖垮企业AI与LLM表现的隐患与对策
2026-03-10
从向量里逆向出原始文本和模型来源
2026-01-15
2026-01-02
2025-12-23
2026-02-13
2026-02-03
2025-12-31
2026-01-06
2026-02-03
2025-12-29
2026-02-06
2026-03-17
2026-03-11
2026-02-22
2026-02-15
2026-02-04
2026-02-03
2026-01-19
2026-01-12