微信扫码
添加专属顾问
我要投稿
问题描述
目前大模型对一些需要专业能力的场景上还有欠缺,但在通用的能力上确实能够节省一些人力成本。接下来我们会以小学、中学、大学不同阶段的数学题目,来检验下大模型的解题能力。模型使用的是阿里的qwen-vl-max多模态大模型,根据用户上传的题目照片或截图进行解体。
1、小学数学题
大模型给出的回答如下:
这道题目是能够准确解答的。
多模态的大模型给出的回答如下:
回答错误。
我们在尝试用qwen-max来解题:
更加离谱。
2、高中数学题
多模态大模型回答如下:
又回答错误。
2、考验数学题
多模态大模型回答如下
这道题回答是正确的,再来一道试试。
大模型回答如下:
又回答正确了,再来一道看看。
大模型的答案如下:
回答错误了。
结论:
多模态大模型对于数学题的解答效果不太好,具有不确定性,无法在实际场景中使用。如果把这些题目送给大模型微调,不知道能不能提升解题能力。
本想基于多模态大模型做一个解题小程序,看来技术上是不可行的。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-18
GLM-OCR技术细节全公开
2026-03-18
Midjourney V8 正式上线:高清模式、文字无错、生成速度提升5倍
2026-03-15
我复刻了 Claude 刚发布的生成式 UI 交互!
2026-03-12
Gemini Embedding 2把多模态信息整合同一向量空间了,还需要多向量列吗?
2026-03-11
Gemini Embedding 2:首个原生五模态 embedding 模型
2026-03-11
Google 发布首个全模态 Embedding 2 模型,文本图片音视频 PDF 统一到一个向量空间
2026-03-11
谷歌首个原生多模态向量模型发布:Agent 可以用文字搜图片、用图片搜视频了...
2026-03-05
零帧起手 Codex × Figma 双向工作流实操
2026-01-10
2026-01-16
2026-01-05
2026-02-12
2026-01-27
2026-02-12
2025-12-31
2026-01-22
2026-02-27
2026-03-11
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30