微信扫码
添加专属顾问
我要投稿
Pokee AI突破传统参数堆叠思路,用7B模型打造研究智能体,在推理稳定性和事实可靠性上实现创新突破。 核心内容: 1. RLAIF+RLOO强化学习框架实现无人工标注优化 2. 研究-验证双模式循环提升推理稳健性 3. 10项权威基准测试中7B量级最佳表现
锦秋基金已完成 Pokee AI 的投资。
锦秋基金,作为 12 年期的 AI Fund,始终以长期主义为核心投资理念,积极寻找那些具有突破性技术和创新商业模式的通用人工智能初创企业。
在大模型纷纷卷规模的当下,锦秋基金被投企业——Pokee AI选择了一条不同的路——推出研究智能体PokeeResearch,让 AI 学会如何像研究员一样思考与验证。
他们最新发布的一款面向“深度研究”场景的 7B 参数智能体,采用“来自 AI 的反馈强化学习”(RLAIF)与链式思维的多轮自校验推理脚手架,聚焦解决浅层检索、对齐度量薄弱、工具使用脆弱三大痛点。
这是一款专为“深度研究”场景打造的智能体模型,不靠更大的参数堆叠,而是在“推理稳定性”和“事实可靠性”上实现了新的突破。
根据团队实验,PokeeResearch 在 10 项深度研究/开放域问答基准上取得同规模(7B)最佳平均表现。
➡️ 项目已在 GitHub 以 Apache 2.0 协议开源推理与模型代码
➡️ https://github.com/Pokee-AI/PokeeResearchOSS
训练范式
基于 RLAIF + RLOO 的统一强化学习框架,不依赖人工标注,直接围绕事实正确性、引文忠实度、指令遵循等“人类在意指标”优化策略。
推理稳健性
引入“研究—验证”双模式循环与多调用自纠错**机制,遇到工具失败可诊断和恢复,并对候选答案进行自我核验以过滤显性错误。
7B模型量级中表现最佳
在 HLE、GAIA、BrowseComp 及 NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA 共10项权威基准上,均取得 7B 量级同类最优平均成绩(mean@4)。
开源与复现:
MIT 许可开源,提供可复现实验设置与推断代码,便于社区复评与落地集成。
RLAIF 奖励设计
以外部 LLM 作为“客观评审”,对生成答案的语义正确性进行判定,避免 F1/EM 等纯词汇重合指标的偏差;训练中采用 RLOO 获得更稳健、近乎无偏的策略梯度估计。
研究—验证循环
研究模式中执行“分解问题—检索—阅读—综合”,并允许多次工具调用与自我修正;验证模式对答案做一致性与可用性检查,不通过则回到研究模式继续迭代。
工具链
面向互联网检索与网页内容提要的标准化工具接口,服务于证据收集—证据综合—结论生成的闭环。
信息寻址/网页浏览能力:
HLE、GAIA、BrowseComp 取得 7B 规模最优均值表现。
开放域/多跳问答:
在 NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA 等基准上,均录得同尺度最佳。
注:完整分数、评测设定与样本量详见论文正文与附录表格/图示。
深度检索与事实核查:
多源证据汇聚、引用可追溯。
复杂长链路问答:
跨文档、多跳推理、过程自校验。
研究写作与情报分析:
面向报告、备忘与策略建议的结构化输出。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-30
开源可信MCP,AICC机密计算新升级!
2025-10-30
OpenAI 开源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b
2025-10-29
刚刚,OpenAI 再次开源!安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5
2025-10-29
AI本地知识库+智能体系列:手把手教你本地部署 n8n,一键实现自动采集+智能处理!
2025-10-29
n8n如何调用最近爆火的deepseek OCR?
2025-10-29
OpenAI终于快要上市了,也直面了这23个灵魂拷问。
2025-10-29
保姆级教程:我用Coze干掉了最烦的周报
2025-10-29
维基百科,终结了!马斯克开源版上线,用AI重写「真相」
2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-08-06
2025-10-20
2025-08-22
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07