微信扫码
添加专属顾问
 
                        我要投稿
为了能真实反映大模型在实际金融行业中的水平,给从业者做desk research或各类调研时,提供一个真实可信的参考。
1 评测集构成
| 项目 | 介绍 | 
| 题目数量 | 90样本 45个独立题目,评测时每个模型采样2次,因此得到90样本的评测集 | 
| 题目来源 | 来自于金融/行研的从业者贡献,比如券商投行分析师、咨询consultant、大厂战略分析师 | 
| 题目示例 | 造车新势力今年一季度的销量、收入、净利润,按照顺序进行排序,用表格输出 | 
在90样本的评测集上:
Perplexity.ai (Pro版本)的正确率显著高于其他模型,正确率达83%,置信区间为 [89%,73%]
第二梯队的模型为GPT-4o、Kimichat,正确率略微超过50%
第三梯队的模型为通义千问、文心一言4,正确率不足一半,在金融行研场景可用性较低
| 回答正确率 | 95%置信区间 | |
| PPLX(Pro) | 83% | +6%/-10% | 
| GPT-4o | 57% | +10%/-10% | 
| Kimichat | 57% | +10%/-10% | 
| 鹅厂元宝 | 50% | +10%/-10% | 
| 通义千问 | 43% | +10%/-11% | 
| 文心一言4 | 40% | +11%/-10% | 
分为3个步骤,分别如下:
端到端获取模型回答:针对业内人士常用的6个模型,在PC端上获取回答,确保是端到端的效果评估
自动化评估:用GPT-4-1106-preview模型作为判分员,为每个题进行打分
专家人工校验:打完分以后,由human expert统一校验,修正不准的结果,最后统计summarize结论
结论建议
对于很多金融业强搜索场景,Perplexity.ai (Pro) 确实可以提高工作效率。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-28
2025 Evident AI Index 重磅解读:AI鸿沟之下,你的银行是否已被时代抛弃?
2025-10-21
花旗银行要求8成员工参加AI提示词培训
2025-09-04
人工智能:AI大模型加速金融行业基于AI原生的智能重构
2025-08-25
智能体落地的真相:10%是AI,90%是软件工程
2025-08-22
行业落地分享:浦银理财AI Agent应用案例
2025-08-19
银行业AI治理框架与风险平衡
2025-08-14
金融领域AI任务通用核心能力分类体系
2025-08-12
当AI预见你的消费,看Paypal如何打造"未付先知"的智能支付新世界
 
            2025-09-04
2025-08-25
2025-08-22
2025-08-14
2025-08-06
2025-08-11
2025-08-19
2025-08-12
2025-10-28
2025-10-21