Claude 3.5 Sonnet 在从财务报告中提取复杂图表方面表现如何？

发布日期：2024-07-06 08:35:26 浏览次数： 3319

作者：barry的异想世界

微信搜一搜，关注“barry的异想世界”

Claude 3.5 Sonnet在从财务报告中提取复杂图表方面的表现如何？

我对比了Claude 3.5 Sonnet、Claude 3 Opus和GPT-4o在从财务报告中提取复杂图表的能力！

在我的笔记本中，我测试了这些模型从一张特别复杂的财务图表中准确提取详细信息的能力。结果相当有启发性：

Claude 3.5 Sonnet 表现出色，准确提取了所有信息，甚至包括图表中最复杂的部分。它在处理详细财务数据方面的精确度确实令人印象深刻！

Claude 3 和 GPT-4o 则遗漏了一些关键信息，并且提取的部分数据不正确。这凸显了Claude 3.5在性能上的显著提升。

让我们深入了解一下：

我获取了2022年摩根大通的财务报告。我只保留了其中最复杂的一张图表，并将这一页PDF转换为图像，以便使用多模态部分的大模型：Claude 3.5 Sonnet、Claude 3 Opus和GPT-4o。

这就是我希望不同多模态模型阅读并从中提取数据的图像：

调用 Claude 3.5

client_claude = anthropic.Anthropic(
api_key=CLAUDE_API_KEY,
)

MODEL_NAME = "claude-3-5-sonnet-20240620"
def get_completion_claude(messages):
response = client_claude.messages.create(
model=MODEL_NAME,
max_tokens=2048,
temperature=0,
messages=messages
)
return response.content[0].text

我创建了这个方法来追加内容

def get_message_content(question, encoded_pngs):
content = [{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": encoded_png}} for encoded_png in encoded_pngs]
content1 = {"type": "text", "text": question}
content.append(content1)

messages = {"role": 'user',"content": content}

return messages

开始与 Claude 3.5 Sonnet 聊天：

这是提示：

question = """
从图片中加载图表数据并以 Markdown 格式输出。
尽最大努力从图片中提取图表数据。
如果无法提取图表数据，请总结图片并返回总结内容。
"""
messages = get_message_content(question, base64_encoded_pngs)
messages

all_messages = [messages]
chart_analysis = get_completion_claude(all_messages)
print(chart_analysis)

我得到了这个答案：

如果你对比从图表中提取的数字，你会发现它们是正确的！！这是向多模态和复杂图表提取迈出的一大步。

现在，我向 LLM 提出了不同的问题，以检查它与图片交互的能力：

question = "2012 年的净利润是多少？"
messages = get_message_content(question, base64_encoded_pngs)
# print(messages)
print(get_completion_claude([messages]))
# 根据图表，2012 年的净利润为 213 亿美元。

答案是正确的。

我们再试一个：

question = "2014 年的摊薄每股收益和 2017 年的有形普通股权益回报率分别是多少？"
messages = get_message_content(question, base64_encoded_pngs)
print(get_completion_claude([messages]))

回答您的问题：

1. 2014 年的摊薄每股收益（EPS）为 6.00 美元。

2. 2017 年的有形普通股权益回报率（ROTCE）为 12%。

这些数据可以在图表中找到。2014 年，代表摊薄 EPS 的黄色柱子显示为 6.00 美元。2017 年，代表 ROTCE 的蓝色线条显示为 12%。

2014 年的 EPS 数值不正确：正确的应该是 5.29 美元。LLM 给出的答案是 6.00 美元。

现在，我们将 LLM 第一次提取的数字追加到发送给它的消息中，并再次询问相同的问题：

llm_answer = {"role": 'assistant',"content": chart_analysis}
all_messages.append(llm_answer)

question2 = "2014 年的摊薄每股收益和 2017 年的有形普通股权益回报率分别是多少？"
messages2 = get_message_content(question2, base64_encoded_pngs)

all_messages.append(messages2)
all_messages

llm_completion = get_completion_claude(all_messages)
print(llm_completion)

这是答案：

根据图片中的图表：

1. 2014 年的摊薄每股收益（EPS）为 5.29 美元

2. 2017 年的有形普通股权益回报率（ROTCE）为 12%

现在，我们得到了 2014 年 EPS 的正确数值！！

调用 Claude 3 Opus

现在让我们与 Claude 3 Opus 交互，让它从图表中提取数据：

MODEL_NAME = "claude-3-opus-20240229"
def get_completion_claude3(messages):
response = client_claude.messages.create(
model=MODEL_NAME,
max_tokens=2048,
temperature=0,
messages=messages
)
return response.content[0].text

question = """
从图片中加载图表数据并以 Markdown 格式输出。
尽最大努力从图片中提取图表数据。
如果无法提取图表数据，请总结图片并返回总结内容。
"""
messages = get_message_content(question, base64_encoded_pngs)

all_messages = [messages]
chart_analysis = get_completion_claude3(all_messages)
print(chart_analysis)

如果你对比 Claude 3 Opus 和 Claude 3.5 Sonnet 的输出，你会发现 Claude 3 检索到了错误的信息，这在 ROTCE 列中清晰可见。Claude 3.5 Sonnet 提取了正确的数值。

调用 GPT-4o

现在让我们与 GPT-4Omni 进行对话

from openai import OpenAI

client_openai = OpenAI(api_key=OPENAI_API_KEY)
MODEL_NAME_GPT = "gpt-4o"

def get_completion_gpt4o(messages):
response = client_openai.chat.completions.create(
model=MODEL_NAME_GPT,
# max_tokens=2048,
temperature=0,
messages=messages
)
print(response.model)
return response.choices[0].message.content

def get_message_content_openai(question, encoded_pngs):
# content = [{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": encoded_png}} for encoded_png in encoded_pngs]
content = [{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{encoded_png}"}} for encoded_png in encoded_pngs]
content1 = {"type": "text", "text": question}
content.append(content1)

messages = {"role": 'user',"content": content}

return messages

question = """
从图片中加载图表数据并以 Markdown 格式输出。
尽力从图片中提取图表数据。
如果无法提取图表数据，请总结图片内容并返回总结。
"""
messages = get_message_content_openai(question, base64_encoded_pngs)
messages

gpt4o_completion = get_completion_gpt4o([messages])
print(gpt4o_completion)

以下是部分回答：

即使 GPT-4o 成功收集了表格数据，而 Claude 3.5 Sonnet 为了避免“简单化”而避免这样做，但从图表中提取的数值在最初几年尤其不准确。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-02

不改一行代码，看透 AI Agent 的每一次调用

2026-07-02

AI 不缺智商缺纪律：一场 Harness 工程化实践

2026-07-02

天工 3.2 重磅升级：Skywork Tags 上线，给 Agent 一张工牌，邀其加入你的工作群聊

2026-07-02

Context Infra 会是 AI 领域的下一个热点

2026-07-01

一文了解｜SkillScan 智能体技能安全扫描最佳实践

2026-07-01

协作的逆向演进：从 Agent 逻辑重构团队管理

2026-07-01

港科大郭毅可谈Agentic AI时代的核心命题：人机共生，人不可能退场

2026-07-01

Sonnet 5终于来了，然而Opus 4.8现在有点尴尬

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

GPT-6，曝光了

2026-04-05

重磅！GPT-6曝光了

2026-04-05

Hermes Agent模型配置小白指南

2026-04-14

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

GPT-Image-2 全量上线，中文顶到爆，50+ Case 生图实测

2026-04-22

大家都在问

微信AI，能避开豆包手机的窘境吗？

2026-06-30

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw