微信扫码
添加专属顾问
我要投稿
在这篇公众号发出的时候
GPT-4o mini 发布了
性能上,比 GPT4-0125 更好
(基于 LMSYS 竞技场信息)
GPT-4o mini 优于 GPT4-0125
价格上,比 3.5 还便宜 60%
4o mini 输入:$0.15
4o mini 输出:$0.6
堪称不讲武德
目前,GPT-4o mini 以 API 的方式发布
支持图片和文字,最长 128k
后续也会支持支持视频和音频
训练截数据截止到 2023 年 10 月
并对非英文更加友好
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,超过了市场上先前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在衡量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 得分为 56.1%,Claude Haiku 得分为 50.2%。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-06
企业级AI落地困局:有痛点,难有场景
2025-09-06
红杉资本:AI领域重塑工作和技术的五大投资趋势
2025-09-06
上下文工程(Context Engineering)浅析
2025-09-06
Claude 中国禁用后,阿里 1T 参数模型 Qwen3-Max 连夜发布,效果太强了
2025-09-06
Claude封杀?OpenAI官方Codex震撼登场!效率直接拉满!
2025-09-06
从万科“活下去”到AI转型,现在是所有企业面对“活下去”的抉择
2025-09-06
突破 1 万亿参数! 阿里巴巴发布 Qwen3 Max 预览版:迄今为止千问家族最大模型
2025-09-06
“浏览器,重新开机”:从 Dia 被收购到 Comet、Claude 与 Fellou,AI 正在重写入口之战
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-06-15
2025-08-19
2025-09-06
2025-09-03
2025-09-03
2025-09-03
2025-09-03
2025-09-02
2025-08-28
2025-08-28