我要投稿

金融问答：AI搜索评估榜单

发布日期：2024-06-06 06:57:41 浏览次数： 2935

作者：一格评测

微信搜一搜，关注“一格评测”

评估背景

为了能真实反映大模型在实际金融行业中的水平，给从业者做desk research或各类调研时，提供一个真实可信的参考。

1 评测集构成

项目	介绍
题目数量	90样本 45个独立题目，评测时每个模型采样2次，因此得到90样本的评测集
题目来源	来自于金融/行研的从业者贡献，比如券商投行分析师、咨询consultant、大厂战略分析师
题目示例	造车新势力今年一季度的销量、收入、净利润，按照顺序进行排序，用表格输出

2 评估结论

在90样本的评测集上：

Perplexity.ai （Pro版本）的正确率显著高于其他模型，正确率达83%，置信区间为 [89%,73%]
第二梯队的模型为GPT-4o、Kimichat，正确率略微超过50%
第三梯队的模型为通义千问、文心一言4，正确率不足一半，在金融行研场景可用性较低

	回答正确率	95%置信区间
PPLX（Pro）	83%	+6%/-10%
GPT-4o	57%	+10%/-10%
Kimichat	57%	+10%/-10%
鹅厂元宝	50%	+10%/-10%
通义千问	43%	+10%/-11%
文心一言4	40%	+11%/-10%

3 评估方法

分为3个步骤，分别如下：

端到端获取模型回答：针对业内人士常用的6个模型，在PC端上获取回答，确保是端到端的效果评估
自动化评估：用GPT-4-1106-preview模型作为判分员，为每个题进行打分
专家人工校验：打完分以后，由human expert统一校验，修正不准的结果，最后统计summarize结论

结论建议

对于很多金融业强搜索场景，Perplexity.ai (Pro) 确实可以提高工作效率。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-27

给 AI 配张银行卡：Stripe 半年搭完的 Agent 支付全景

2026-03-05

为什么顶尖投行都选择了 Rogo 这个金融 Agent？

2026-01-21

从Agent Skills到下一代智能风控中台

2026-01-05

可信 AI 对生产域数据的核心诉求有哪些？

2026-01-03

高盛CEO：AI 时代，经验是算法无法计算的企业资产

2025-12-30

QuantDinger—开源的本地量化平台

2025-12-27

从“人审”到“智审”：广汽汇理汽金基于PaddleOCR构建自进化智能审核体系

2025-12-22

FinGPT Agent：迈向专家级 AI 金融分析师的实践与探索

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

为什么顶尖投行都选择了 Rogo 这个金融 Agent？

2026-03-05

给 AI 配张银行卡：Stripe 半年搭完的 Agent 支付全景

2026-03-27

大家都在问

为什么顶尖投行都选择了 Rogo 这个金融 Agent？

2026-03-05

可信 AI 对生产域数据的核心诉求有哪些？

2026-01-05

豆包手机直接问出银行卡余额，多少金融级应用在裸奔？

2025-12-06

2025 Evident AI Index 重磅解读：AI鸿沟之下，你的银行是否已被时代抛弃？

2025-10-28

谁为 Data Agent “买单”？

2025-08-11

区域型银行如何实现AI战略突围？

2025-08-02

AI大家说 | 前沿企业如何成功应用AI？

2025-07-14

AI大模型赋能，金融行业将迎来Deepseek时刻？

2025-07-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部