微信扫码
添加专属顾问
我要投稿
EviGRPO框架革新多页文档理解,通过精准奖励函数设计解决证据检索与答案生成的平衡难题。 核心内容: 1. EviGRPO框架的三大奖励函数设计原理 2. 两阶段数据构建方法确保训练质量 3. 课程学习策略优化模型训练效率
传统GRPO适用于单图/单页任务,无法解决多页文档的两大关键问题:1、需从多页中筛选少量相关证据页;2、需平衡证据检索与答案生成的可靠性。EviGRPO是基于GRPO改进的强化学习框架,专门针对多页文档理解优化——先全局理解文档并定位相关证据页,再基于证据页细粒度推理生成答案,而非直接生成结果。
格式一致性奖励):
二元奖励(0或1),若模型输出严格遵循下表规定的格式(需明确标注推理过程、证据页、最终答案)则得1分,否则为0。目的是保证输出结构的规范性,便于后续解析和验证。
答案准确性奖励):
采用ANLS(Average Normalized Levenshtein Similarity)分数衡量模型生成答案与真实答案的相似度,ANLS是文档QA任务中常用的精准度指标,能有效反映答案的匹配程度。
证据页准确性奖励):
采用F1-style分数计算模型预测证据页与真实证据页的重叠度,如下:
其中: -:模型预测的证据页集合,:真实证据页集合; -:输入文档的总页数,:模型预测的证据页判断数量(需与相等,否则奖励为0);
优化目标函数如下:
阶段1:生成:用Gemini 2.5 Flash模型,根据输入文档和任务提示生成初始标注(含推理过程、证据页、答案),仅保留“生成答案与真实答案一致”的样本;
阶段2:验证(Verification):将阶段1的标注结果反馈给同一MLLM,让其验证标注的准确性,仅保留“验证结果与初始标注一致”的样本;
训练数据集:EviBench
测试数据集:ArxivFullQA 针对“学术论文理解”多页场景,构建的专门评估基准:
数据规模:8.6k高质量QA样本,基于Arxiv学术论文(来自DocMatrix数据集);
标注差异:与EviBench相比有两点不同:
选择Qwen2.5-VL-Instruct(7B参数)作为初始化模型,原因:多页文档的思维链(CoT)训练数据稀缺,人工标注成本极高;该模型已通过指令微调具备基础推理能力,可跳过GRPO的“冷启动”阶段,提升训练效率。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-03
OpenClaw之后,我们离能规模化落地的Agent还差什么?
2026-01-30
Oxygen 9N-LLM生成式推荐训练框架
2026-01-29
自然·通讯:如何挖掘复杂系统中的三元交互
2026-01-29
微调已死?LoRA革新
2026-01-19
1GB 显存即可部署:腾讯 HY-MT1.5 的模型蒸馏与量化策略解析
2026-01-18
【GitHub高星】AI Research Skills:一键赋予AI“博士级”科研能力,74项硬核技能库开源!
2026-01-10
前Mata GenAI研究员田渊栋的年终总结:关于未来AI的思考
2026-01-07
智元发布SOP:让机器人在真实世界规模化部署与智能化运行
2025-11-21
2025-12-04
2026-01-04
2026-01-02
2025-11-22
2025-11-20
2025-11-19
2026-01-01
2025-12-21
2025-11-23
2026-02-03
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17