最近这段时间,谷歌DeepMind的官方纪录片《The Thinking Game》在AI圈传播挺广。
不得不说,拍得的确好,看过的人应该都对结尾那段很有张力的场景印象深刻:创始人Demis Hassabis拿着手机对准桌面,非常很松弛地和AI聊天——
他指着桌上的棋盘问怎么走,AI教他下西西里防御;他指着一个铅笔装置问抽走一根会怎样,AI告诉他会崩塌。
这画面,确实很Sexy。
而恰好我也看到了字节刚发的“豆包大模型1.8”的技术报告,发现其一个亮点也是视觉理解和推理。
于是我随即在火山引擎的后台用豆包1.8跑了一下这两个case——
正好最近在多邻国里学国际象棋,于是给它实拍了家里自己摆的“双马防御”的开局,铅笔装置就随便找了一张平替图。
可以看豆包大模型1.8在理解和推理后给出了自己的走法——d3的兵进到d4。
一般认为双马防御有三种走法,其一是白方的f3的马跳到g5,其二是d2的兵进到d3。
其三就是更激进的苏格兰弃兵风格的兵直接进到d4,也就是豆包1.8给出的选择,它列出的理由也合情合理。
而面对铅笔装置,其视觉推理和受力分析也毫无压力,直接告知会“倾斜、坍塌”。
这么一看,这个模型的确有点东西,我决定继续沿着技术报告继续盘一盘它——
一、从技术报告看“豆包大模型1.8”的水准与亮点
火山引擎最新推出的豆包1.8没有像市面上大多数模型那样,动不动就凑个整,叫 2.0,或者加个 Max、Ultra 的后缀来装点自己。
1.8,这个数字本身就透着一种实用主义的取向。
技术报告里的Benchmark以及它强调的“Generalized Real-World Agency”,都强调一个逻辑:关注实用性。
所以在技术报告里,整体上,它承认和 GPT-5 High、Gemini 3 Pro 这些世界顶尖闭源模型还有差距。
但这个差距,正在以肉眼可见的速度缩小。
具体而言,豆包1.8 和它自己的前代 豆包1.5、1.6 相比,那牙膏的确是是挤爆了。
豆包大模型1.8 强调“Economically Valuable Fields”(经济价值领域),核心能力是让模型在真实世界里能多轮互动、用工具、接收环境反馈、做多步任务。
注意它的措辞:把感知、推理、行动尽量揉进一个统一的模型里。
以我粗浅的理解,下面三个点可以说一说——
1)整体缩小与世界顶级闭源模型差距,部分细分指标逼近 SOTA
报告里的第一张表直接把 豆包1.8 拉去跟 GPT-5 High、Claude Sonnet-4.5、Gemini 2.5 Pro、Gemini 3 Pro 同台对打。
仔细看数据,数学、代码、推理这些硬骨头,大体上属于:综合仍有差距,但差距在缩小;局部指标已经能贴着 SOTA 边走。
比如 AIME-25 上 94.3,和最高的 95.0 几乎贴脸;一些复杂指令遵循(Inverse IFEval)也到了 80.3,跟 Gemini 3 Pro 的 80.6 只差一口气。
补一个小细节:报告明确说 豆包1.8 提供四档 thinking mode(no_think / think-low / think-medium / think-high)。
该设置用来在时延、算力成本、解题质量 之间做可控权衡。
这其实是想让用户能把它塞进不同预算、不同延迟的系统里跑起来。
2)在 ZeroBench、VLMsAreBiased 等多项视觉基准中超越 Gemini 3 Pro
的确,头部模型都在卷多模态,原因很简单:语言是世界的说明书,但多模态才是世界本身。
我记得前两年还有一个很流行的说法,叫“多模态不产生智能”,现在看这个说法错得离谱。
想让 Agent 真去做事,它当然要看屏幕、看表格、看截图、看报表。
报告在视觉上给了非常硬的一句话:豆包1.8 相对前代 Seed1.5-VL 有“显著提升”,整体能力“逼近 Gemini 3 Pro”,并且在若干挑战基准上直接超过 Gemini 3 Pro。
最醒目的两个点:
ZeroBench (main):豆包大模型1.8 = 11.0,Gemini 3 Pro = 10.0(SOTA)。
VLMsAreBiased:豆包大模型 = 62.0,Gemini 3 Pro = 50.6,而且报告还强调这是显著领先。
这两项为什么重要?
因为它们指向的是更接近真实世界的两类痛点——
第一,图里有信息,但信息是隐含或组合的、甚至是反直觉的;
第二,现实世界的图像不是干净数据集,是带噪声、带误导的。
豆包大模型1.8它在解锁应用场景的能力上很强——
多图理解(MUIRBench)上、2D/3D 空间理解上,它拿到 78.7,领先于 Gemini 3 Pro 与 GPT-5.1 High。
这些说白了就是为了Agent能看懂界面结构、看懂图表关系、看懂空间位置的,只要做过一点 browser agent、GUI agent,就知道这个的重要性。
3)Agent 能力提升:在 BrowseComp-en、BrowseComp-zh、GAIA 中实现领先水准
讲 agent,千万别把它当提示词工程的胜利或者是上下文工程的胜利,agent 对基础模型的智能程度要求极高。
报告在定义上就把这事说得很直白:豆包大模型1.8 面向多轮互动与任务执行,支持搜索、代码执行、GUI 交互。
并且报告中强调:中间结果会反过来影响下一步动作,其实就是:边走边看边改。
具体到数据层面,它在 BrowseComp 这类真实检索与浏览任务上,表现不俗:
具体而言豆包大模型1.8在GAIA、BrowseComp-en、BrowseComp-zh、WideSearch这几个benchmark上高于GPT-5 High 和Gemini 3 Pro。
这类指标的意义很实用的,如果你做的是搜索型 agent、研究型 agent、浏览器agent,模型需要稳定地找到证据、过滤噪音、做出判断,并且能把证据链讲清楚。
值得注意的是,豆包1.8在BrowseComp-zh 这种中文任务表现出了入乡随俗的优势,中文互联网的信息密度、噪音密度、话术密度都有自己的特点,能处理好,不容易。
而且数据还显示它在多模态检索(MM-BrowseComp)上也有着不错分数(46.3),说明它不是只会搜文本,而是开始能把图表、界面元素纳入决策,这一点对Agent的实用性也非常重要。
总结一成一句话:豆包大模型1.8底座能力在缩差、视觉能力很能打、Agentic 指标上升到第一梯队。
二、综合实测:我在Browser Use Agent里由易到难给它上了一些强度
废话少说,从简单的开始,先来个弱智吧的经典题——
“擎天柱买保险是买车险还是人身意外险?”
很显然,面对这种调戏,豆包1.8模型已经轻车熟路,思考过程细致、清晰、详细,回答滴水不漏,挑不出任何毛病。
注意,我们看到即便是这样简单的问题看,只要我选择了高思考模式,它就会饱和思考,可以看到它总共调用了10386token,的确没有偷懒。
咱们继续,稍微上一点强度,既然技术报告里强调了视觉理解是亮点,那咱们就直接来一段视频。
我直接上传了乔布斯1993年的苹果经典广告“Think different”,要求它逐一识别出视频里的涉及到的人物。
为了防止它偷懒直接上网搜搜结果,我特别强调要按时间线准确列出人物出场时间。
可以看到,在耗时20.85妙之后,它成功给出了时间线,完整、准确、天衣无缝——
咱们继续,Agentic的能力也是本次技术报告中强调的重点,因此我决定直接通过Agent来用豆包大模型1.8。
我在火山引擎的后台找到了官方现成的Browser Use的Agent,一起来调戏它一下——
咱们照例先来简单的,第一个任务——登录网页版微信回复我老婆的刁钻问题。
微信是常用软件,回答的不好可是要出问题的,而我老婆的问题是那道经典的送命题——
“我和你妈同时掉进水里,你先救谁?”
从视频看到,毫无压力,轻松应答,目前看,整一个应用应对日常聊天应该是绰绰有余的。
期待字节官方可以整一个面向C端的Web应用,再不济,开发者也可以基于火山引擎的服务整一个面向C端用户的应用,我相信这类应用是有人愿意用滴。
接下来,咱们继续来一点小小的行为艺术——
搜索"FutureMe.org"(给未来写信的网站)。写一封信给10年后的自己(huweixi@126.com)。内容是:"今天是2025年12月17日,我正在用一个Al Agent给未来的自己写信。如果你收到了这封信,说明AI还没有毁灭人类。"
可以看到,Browser Use Agent对这类任务也轻松拿捏,成功找到网站,写下邮件,时间选择10年,选择了“私人信件”,填写收件邮箱,就等着最后付款了,当然付款显然超出了它的能力范围。(老外的网站就是这样,屁大一点的功能都要钱,还死贵,等着,哪天我vibe coding一个,不要钱,关注我公众号就行,愿意赞助token和服务的云厂商可酌情联系)
接下来,咱们稍微上一点点难度,来一个实用一些的操作case——
“去微博(我会帮你登录),搜索用户“李楠或kkk”,按顺序关注10个他的关注列表中的用户,然后发一条微博——“AI奖赏懒惰的思考者,惩罚勤奋的执行者——本条由Browser Use Agent自动发送”,最后搜索用户“来去之间”,给他的最新博文点赞。”
可以看到,Browser Use Agent行云流水,登录之后快速找到了李楠的账号,然后找到列表成功关注了一堆,发微博和点赞也不在话下。
这其实是非常实用的功能,其实我在Twitter就有一个类似的需求,找到一些高质量的海外AI博主进行关注,这个功能其实就可以满足这类需求。(可惜火山引擎的后台演示页面没办法上Twitter)
咱们再来一个有点刁钻的挑战,也是我在这次测试中非常满意的一个测试——
“在浏览器里打开豆瓣,从电影《霸王别姬》开始,只允许点击链接,利用六度分隔理论,一步步摸到《我不是药神》的页面去。”
这源于我在研究生期间对六度分隔理论在国内电影和演员之间应用的兴趣。
六度分隔理论原本是说任意两个人之间最多可通过5个人就能联系上,扩展到影视圈就是任意两部电影或者两个演员,最多通过5个演员和电影就能关联上。
这个case我感觉还是有点难度滴。
咱们来看看Browser Use Agent的表现,说实话是超出我的预期的,它在几步之内,不迷路、不瞎点,不到一分钟成功找到了路径——
在《霸王别姬》的演员中找到了葛优,然后在葛优出演的电影中找到了《我和我的祖国》,接着在《我和我的祖国》的导演名单中找到了文牧野,然后在文牧野的导演作品中找到了《我不是药神》。
一次完成,没有走弯路,牛逼!
豆包大模型1.8的报告里特意提到了 "Native visual perception"(原生视觉感知)。
这点很关键,它不是把网页转成一堆乱码去读,而是像人一样,盯着屏幕截图看。
在《霸王别姬》的页面上,它一眼相中了葛优,为什么选葛优?不是张国荣,不是巩俐?
这就体现了模型的智商。
如果选张国荣,年代和地域都和文牧野这些内地现实主义题材的圈子略远,选葛优,他连接多,是大节点,没毛病。
这一通操作,就是视觉理解和深度思考的有机配合,确实有点东西。
我之所以选Browser Use这个Agent,其实也是经过思考的——
浏览器作为实用频率最高的生产力工具之一,它的独特之处在于它天然就是一个很好Context环境,而Agent普及一个重点就是如何构建更好的Context。
事实上,稍微观察一下就会发现,我们在浏览器干了太多事了:吸收资讯、收发邮件、管理项目等等。
如果一个基模它的Browser Use能力强,有理由认为它在生产力领域的泛化潜力就越好。
从这个意义上,我们期待越来越多的创业者和开发者能基于豆包1.8这样Agentic能力突出的基模开发出更有想象力的应用。
当然,必须承认,以上我个人层面的测试case并不能完全阐述豆包大模型1.8的全部水准,但我们可以将其视为一面镜子,其折射出的能力是具有可扩展性的。
归根结底,Agent最终需要的就是脑、眼、手以及工具组合,而上面的case其实已经能体现豆包1.8将感知、推理、行动尽量揉进一个统一的模型里带来的价值。
管中窥豹,可见一斑。
当然,我测评这些模型,也不能完全只说好的方面,也有一些我个人木有那么满意的地方,比如下面这个case——
本来只想调戏一下它,结果浓眉大眼的1.8直接拒绝了我。
可以看到,这种拒绝回答并非在前端页面的拦截,而是经过思考的拦截(可以看到思考过程),也就是说在模型的权重层其实就加入类似“法律相关问题不允许放飞瞎说”的对齐意识。
尽管木有啥幽默感,但想一想也可以理解,毕竟像我这样提中二问题的人在现实中并不多,涉及法律谨慎一点好。
但下面这个case感觉就是对齐思维略过了——
这个需求居然也拒绝我了,在我看来,这是一个非常合理的需求。
然而模型的思考似乎表现出了非常强的正义感,开始“正确无害”滴说教了,希望模型开发的同学可以get到这个长尾的case。
三、“模型能力升级-解锁新的应用场景”这个范式预计在2026还会加速
的确,通过寥寥几个案例很显然无法清楚地阐释一个模型的全部能力,这也是为什么需要各类Benchmark的原因,但我想说,Benchmark并非全部。
毫无疑问,基模还在继续卷,挑战智能上限的过程还在继续。
如果我们不能理解模型的进步,我们只需要看一看在2023年,我们是如何测试GPT4的(《体验再次刷屏的 ChatGPT,两个字:逆天》),就会发现基模的进步其实在这两年已经沧海桑田。
从这个意义上,我需要再次强调我的观点——当基模的智能足够强的时候,应用往往就不需要雕花。
很多创业者开发AI应用,特别容易陷入一种手工艺人心态:觉得模型不够,就靠规则、提示词优化、工作流去缝缝补补。
这本质上就是雕花,花雕越精细,并不是护城河越深,而是竞争力越脆弱。
我非常认可Manus的季逸超的一个说法,他认为“产品与底层模型最好保持正交:如果模型进步是上涨的潮水,应用应该成为那条船,而不是固定在海床上的柱子。”
的确,一旦把基模智能拉到一个阈值以上,应用层的雕花会变成一种负担。
基模的智能足够强的时候,它对任务的理解、对上下文的把握、对多模态证据的读取、对动作后果的预判,往往比开发者写出来的规则更自洽,工程上称之为“鲁棒性”。
从豆包大模型1.8的技术报告我们也能看到,模型的Agentic能力足够强的时候,应用应该做的是“找场景、定目标、给工具、设边界”。
一句话——相信基模,不要雕花。
结语
豆包大模型1.8的报告我觉得有的一个点可能被大部分人低估了:它专门做了一组 “Economically Valuable Fields” 的内部评测基准。
这些内部基准覆盖了教育、客服、法律、金融等多个现实场景,这是一个产业视角、也是一种用户思维,而这种被低估的取向未来会证明其应有的价值。
——End——



































