GPT4+prompt ≈ GPT o1 ? 都2024了, 还在微调、自训练模型?

发布日期：2024-09-13 18:44:47 浏览次数： 3392

作者：博金斯的AI笔记

微信搜一搜，关注“博金斯的AI笔记”

今早上班一打开ChatGPT, 按照习惯先把gpt4 mini切换成gpt4, 没想到多了几个看不懂的模型--o1 . What the heck is it ?

简单喵了一眼资讯, 说是在数学,量子物理,经济学这些更需要思考,需要多步骤执行的场景有了提升, 回答的问题更清晰更丰富。

在模型训练就特别强调让模型自己先花更多的时间去思考, 修正自己的思考过程, 同时也根据OpenAI的各种safety rule安全规则在模型安全性有了更深入思考, 意味着让GPT越狱更难

之所以叫o1的原因是因为这是AI在复杂问题思考上的关键一步, 因此回到数字1

就我自己适用GPT最多的2个场景--"英文翻译"和"AI论文理解"来说, 确实回答的内容更多, 解释更详细下图是同一翻译问题在o1 preview, o1 mini ,gpt4的不同回答

由上可知, o1 mini效果最好, 毕竟o1-preview只是o1模型的正式版, 我之后就把o1 mini作为常用模型

在AI论文解释的GPT4+prompt和o1 mini测试效果如图:

左边的提示词在OpenAI官方prompt框架, prompt小白基础入门(birkinsAI论文GPT)这篇文章有写

简单来看, gpt o1在基本的这些文本理解, 文本翻译场景有了更详细的思考, 包括一句一句逐步清晰地解释, 除了翻译本身, 还解释原句本身的含义,而这些在之前的GPT4中需要专门写prompt来达到同样的效果; openai自己在介绍o1也强调这个模型并不没有在工具调用和web搜索上有进步, 就只是在复杂问题思考上有的增强, 而这些思考原来可以通过人为写提示词prompt来解决。因此, 我自己简单总结fast takeaway: GPT 4 + prompt ≈ GPT o1

这又一次印证了我去年学到的一个规律: "选择模型, 大家都想一股脑先用参数最大最新的模型, 实际在该模型上加知识库, api工具, prompt, 工作流能让低参数的模型实现zero-shot 大参数模型的效果"

可以想象一下, 之后出现的GPT5, 或者未来的模型的生成质量,就可能是目前gpt4+Workflow+知识库+prompt +微调

接着微调再多说一点:

我在提升RAG检索回答质量: Shortwave的 4 大优化指南有解释为什么在RAG和微调中,更倾向微调,这里再对这个话题进行补充

2023年大家由于FOMO, 都在说训练, 说微调, 很多人也确实去做了, 像BloombergGPT招了9个全职人员, 在金融数据上专门做训练。结果呢, 不到一年就被新更新的GPT-4超过。

从0开始自训练模型在2024年已经不具有吸引力, 谁有那么大的人力,算力,资金投入, 谁的训练水平能赶得上现在的Claude,GPT,qwen.....我之前看有人在农业上进行自训练, 结果到现在也没什么水花

在微调上也要谨慎, 原因有3个

第一, 需要更多算力,人力和时间

RAG 不仅在保持高效性能的同时使用更少的算力资源，还具备灵活应对信息检索准确性问题的能力。具体而言，当检索到的信息不准确或有害时，RAG 允许对索引进行调整或替换，而不需要重新训练整个模型。

第二, 相比RAG这类在模型上加api工具,加知识库, 微调的内容全部在黑箱里, 要修改内容得重新训练, 而不是只需修改某个api或知识库的文档, 也不能做不同知识库不同工具的清晰划分

第三, 微调的基座LLM发生了版本更新, 有更大的参数, 更新更优质的模型, 得更换模型版本重新训练, 里面的很多机制跟之前不一样, 模型的理解能力也会发生变化。就prompt,在更换另一个模型或现有模型升级后, prompt对模型质量提升的效果都会不一样, 微调发生的变化也会有的, 又是新一轮的投入

针对第3点,只要是发生模型更换----需要重新走一套流程, 需要重新微调, 写prompt, 设置api工具和工作流, 一个节省时间的策略是制定有效的eval。对结果进行断言定性评估, LLM评估,人工评估, 在新旧两个模型上评估, 这样明白可以判断两者差距, 是否真的需要更换; 并且评估中获得的反馈, 标注的评估数据,可以作为下一次微调的数据

针对LLM evals,在终于看懂大模型评估LLM evals, 5 个策略让GPT更听话有写, 虽然有些格式错误, 但还是有些扎实的干货

什么时候真的需要微调/本地部署?

用户数据需要私有化, 模型要全权自己掌控, 根据模型打造自己的系统产品 ; 为满足用户需求,需要用到市面公开没有的保密数据

最后回到GPT, 现在构建GPTs都不能选择模型, 默认都是GPT-4, 不知道什么时候能升级成GPT o1 。既然o1有了更深入思考的能力, 在学习prompt时, 应该学得更好

下图是我把AI论文GPTs的提示词发送到gpt o1的对话框后, gpt o1的回答效果, 跟Figure 3的差异不大

妄想gpt 1o能帮我阅读总结网页文章, 遭到了更严格的拒绝

从目前的体验来看, gpt 1o的没有提示词的情况下表现得更好, 回答得更完善清晰, 而加了prompt后,效果跟GPT4差不多;针对灰色地带的一些问题,反而更严格, 用OpenAI的话说,就是更安全

"we have come up with a new safety training approach that harnesses their reasoning capabilities to make them adhere to safety and alignment guidelines. By being able to reason about our safety rules in context, it can apply them more effectively."