微信扫码
添加专属顾问
我要投稿
豆包1.8的突破性表现,让字节布局AI硬件的战略意图逐渐清晰。 核心内容: 1. 豆包1.8在Agent能力、长上下文和多模态三大核心指标上的突破 2. 模型针对企业级场景的深度优化与成本控制方案 3. 视频理解能力升级与硬件协同带来的全新应用场景
好久没有因为一款国产模型,产生这种明显的期待感了。
这次,是豆包1.8。
在这个大家都忙着做年终总结的十二月,我本来以为AI圈能消停一会儿。
没想到,字节不讲武德,又搞事情。
今早我的朋友圈、各社群直接被火山引擎冬季FORCE原动力大会刷屏了..
这次原动力大会,又是一次阶段性成果的集中展示。
其中,豆包大模型1.8,作为字节新一代主力模型,正式接棒。
注意,是主力模型。
是接下来一段时间里,字节在企业Agent、应用层、工具链上真正要用、要打的那个模型。
先看看跑分:在教育、客服、金融、法律、审核等多个场景测评中处于领先水平
Agent能力和多模态理解能力非常强,直逼Gemini3 Pro
看得出来,这次不是单项能力的突破,明显冲着一个目标去的:复杂Agent,尤其是企业级Agent。
比如,我可以让它全自动帮我获取apikey,并配置到开源Agent平台-Fastgpt上了
双手离开键盘~(顺便听一听我最近一直单曲循环的歌)
说实话,第一眼看到豆包1.8的能力,我是有点惊喜的。
这一看就是能干实事的。因为下面这三个点能同时满足,这在国产模型里,是独一档了。
>/ 第一:Agent能力往前走了一大步。
多工具调用能力增强,多轮指令遵循的稳定性大幅提升,长文指令不再容易跑偏,执行规划能力更强。
尤其是OS Agent:支持Agent去屏幕上操作,它能帮我干很多事儿。
在很多真实业务里,最后一公里从来不是推理,而是操作。
在屏幕上完成一些相对复杂的点点点的任务,这些事情对人来说可能很简单,但对模型来说一直是难点。
豆包1.8把这件事当成重点去做,本身就是一个非常务实的信号。也很有可能就是冲着豆包手机去的。
>/ 第二:256K的超长上下文,是真的好用。
目前国产的主力大模型,大部分都是200K的上下文长度,而豆包1.8支持了256K~
但如果只是能读得多,管理不好也不行,毕竟上给模型的上下文不是越多越好,而是越精准越好。
豆包1.8的一个关键点在于,它支持通过原生API做上下文管理,什么意思?
你不再需要每次把所有历史上下文一股脑塞进去,而是可以像整理文件夹一样,按需清理、按需保留。
这在企业级 Agent 场景里,价值非常大。
一方面,成本直线下降。另一方面,模型的注意力更集中,执行稳定性也会更好。
>/ 第三:多模态能力这次是真的实打实升级了。
视觉理解精度提升,图片token消耗更少,视频理解能力再提升。
单次视频理解从640帧提升到1280帧,在1秒1帧的情况下,可以完整理解20分钟的视频内容。
如果再配合火山方舟应用实验室的Video Cup Tool,可以先低帧率扫全片,再高帧率聚焦关键片段。
这个逻辑,非常像一个聪明人快速学习新知识的方法。先快进扫一遍,再倒回来看重点。
这三点放在一起,我觉得豆包1.8非常适合搭建复杂Agent,跑真实流程。
之前,其他模型不太能完成的复杂任务,现在好像可以试着交给它了。
于是我快速做了几个测试(难度越来越高),想看看它在复杂、多步骤、容易出错的真实任务里,表现到底稳不稳。
因为Agent最怕的不是不行,而是半行不行的。。。要么跑着跑着少一步,要么顺序乱,要不就死循环,或者慢慢跑偏。
目前火山引擎已经支持了豆包1.8的API
为了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用
并集成了我认为最好用的浏览器自动化MCP-Server:playwright mcp
话不多说,我们开始!
先用这个案例来小试牛刀,如果这个任务跑不出来,后面的也不用看了。
Prompt:全程使用playwright MCP工具,先在淘宝上寻找一款半入耳式蓝牙耳机,价格区间在500-1000元之间。找到满足以上条件并且销量第一的那款耳机(可能有百亿补贴,导致显示的价格比500低,也可能是淘宝的bug,反正不管,固定价格区间后选定销量第一就行了),然后在唯品会和京东进行这款耳机的比价,找到价格最便宜的同款耳机,添加到我的购物车中。
这个任务里,难点不在于找耳机。
难在三件事:
第一,要在平台筛选、过滤,找到符合要求的正确的商品。
第二,要能跨平台识别同款商品。
第三,最后一步需要实际操作,加购。
但是某宝有点der啊,为什么选择了价格区间在500-1000,还有这么多500元以下的?
这个现象一度让豆包1.8怀疑自己😂
豆包1.8内心:啊???我不是固定了500-1000价格吗,为什么还有500以下的,不对,我再看看。
于是我加了一句提示:
可能有百亿补贴,导致显示的价格比500低,也可能是淘宝的bug,反正不管,固定价 格区间后选定销量第一就行了
执行过程见视频:
从执行过程来看,豆包1.8在几个关键节点上表现都很稳。
它先打开了某宝,在搜索栏搜索半入耳式蓝牙耳机,并筛选了500-1000的价格区间,以销量排序,进入商品详情页确认了商品名称。
然后打开某品会,搜索同款商品,对比价格,最后打开某东,发现某东的价格是最便宜的,并加入了购物车。
条件锁定后,它不会反复横跳。在不同平台页面结构差异很大的情况下,正确定位了商品信息。在加购这一步,没有出现误点或卡死。
整个过程像是一个熟练用户在操作,每一步都比较精准。
但就是还是Agent的老问题,整个过程有点慢,看得着急(急性子估计用不了),好在最后顺利完成了。
当然这里面有模型推理思考的时间,还有就是playwright MCP虽然已经是目前非常好用的浏览器自动化工具了,但是每次打开新页面,模型都要通过playwright拿到页面快照,然后分析定位元素,最后执行操作,要调用多个工具协同完成,这个过程也比较耗时。
既然第一个任务成功了,那接下来难度升级
正好今天火山的大会Tim也去了,我们来给他的频道增加点互动~
这个任务需要打开B站,进入影视飓风主页,从投稿列表里筛选最近发布且播放量超过500万的3个视频,保存链接。然后逐个访问,根据获取到的信息,分别发出三条贴合内容的评论。
Prompt:请帮我登录B站,去“影视飓风”的个人主页执行一个互动任务。为了防止页面刷新导致迷路,请你严格按照先找齐链接,再逐个访问的顺序来操作:
第一步,筛选视频。请进入他的“投稿”列表,保持默认的“最新发布”排序。请耐心地从上往下滚动浏览,仔细查看每一个视频的播放数据,直到找出最近发布的、且播放量明确超过500万的3个视频。找到后,请先把这3个视频的链接保存下来。
第二步,发送评论。请依次直接访问这3个链接。每进入一个视频,先花点时间读取一下视频简介和底下的高赞评论,了解视频的核心看点。然后,基于这些信息,分别写一条言之有物、符合科技区粉丝调性的评论并发送。注意,三条评论的内容要完全不同,必须贴合各自的视频主题。注意:评论的时候你一定要输入自己思考后的内容,并点击发布,不要被评论输入框中自带的文字误导了
执行过程如下:
这个任务页面多,信息杂,需要判断、总结,还要生成贴合视频的评论内容。
豆包1.8的表现,像一个知道自己在干嘛的人。
它在主页正确的筛选了最新的三条超500万播放量视频,并把链接收集齐,再逐个访问。
在评论生成上,没有套模板,会根据视频主题调整语气和内容,像一个老粉一样(虽然我是新粉 哈哈哈)。
这个任务,我刻意选了一个容易翻车的场景。偏向开发者日常。
我几个月前用某模型来测试过,一直是死循环,硬是选不中对的按钮。
Prompt:进入火山引擎,控制台,找到火山方舟并进入,在apikey那里,新建一个apikey并复制。打开fastgpt,登录进去,根据 fastgpt操作截图.png 新增模型,除了apikey,其他都填test即可。火山引擎地址: https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用户名:root,密码:1234
下面是我给豆包1.8的fastgpt的操作截图
这个任务,几乎集齐了Agent所有痛点,非常考验模型的综合理解能力。
难点在于,模型需要识别图片上的操作指引,而且步骤非常细,任何一步错了,后面都走不通。
包括页面跳转、字段识别、复制粘贴、表单提交。
跑下来,一个明显的感受是,豆包1.8对页面结构的理解很扎实,视觉能力也很强。
不会因为页面稍微复杂,就迷路。
而且在长指令下,步骤执行顺序稳定,没有出现跳步或重复。
这些对于Agent应用,非常关键。
如果把视角再拉远一点,你会发现,豆包1.8的很多能力,其实已经在为另一个方向铺路。
那就是端侧Agent。
最近备受争议的豆包手机,我觉得就是一个非常直观的尝试。
系统级AI助手这件事,跨App自动化,系统级权限,模拟操作。
这些能力,在技术上是很酷的,但在现实生态里,必然会遇到阻力。
这不是模型的问题,而是整个行业的博弈。
豆包手机的意义,也不是卖了多少台,而是验证了一件事:
当模型的Agent能力足够强,系统级AI助手这条路,是必然走得通的。
只是,怎么走,走多快,需要时间,也需要一些妥协。
豆包1.8的出现,无疑让这条路更好走了
最后,如果你关心的是,模型能不能真正帮你把事情做好,而不是陪你聊天。
那这一代豆包,确实已经走到一个很关键的位置了。
接下来,就看大家拿它,能做出什么样的Agent了~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-18
突发!ChatGPT版应用商店正式发布,第三方开发者新入口!
2025-12-18
通用Agent模型Seed1.8正式发布
2025-12-18
谷歌发布Gemini 3 Flash,口述即原型,速度堪比搜索引擎
2025-12-18
2026 开年AI对谈:the year of R | 对谈真格基金戴雨森
2025-12-18
再论Skill:Agent 落地第一性原理
2025-12-18
Gemini 3 Flash闪电来袭:智力竟反超Pro!速度快3倍,全球免费
2025-12-18
Gemini 3 Flash 可能是 Google 最狠的一步棋
2025-12-18
Cursor 又“危险”了?谷歌深夜祭出 Gemini 3 Flash!编码能力反超 Gemini 3 Pro,价格还更低
2025-10-26
2025-10-02
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13
2025-10-02
2025-10-11
2025-12-16
2025-12-15
2025-12-14
2025-12-12
2025-12-12
2025-12-11
2025-12-09
2025-12-08