大模型已经从单点能力,进入系统工程的较量。
文|陆莫斯
封面来源|AI生成
如果想知道AI市场到底发展成什么样,火山引擎已经是中国市场当仁不让的风向标。
“截至今年12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍。”12月18日,在人头攒动的Force大会现场,火山引擎总裁谭待宣布了这一数字。
2025年,这一数字仅为16.4万亿 图源:火山引擎
MaaS(模型即服务),是最直接的观察模型消耗量的指标。单论这一市场,如今火山引擎已经成为国内市场份额第一,全球也能排在第三位。
2025年中旬,云厂商争夺“AI云第一”的硝烟还未停息,到了今年最后一个月,各个大厂又端上了各个新版本——前有谷歌的旗舰模型Gemini 3、视频模型Veo 3.1炸场,后有OpenAI的GPT-5.2紧追不舍。在国内,包括阿里、腾讯等巨头也纷纷端出了新模型的更新。
如果要给2025年的AI市场概括关键词,多模态和Agent必定在榜。
这次的Force大会,火山引擎重点发布的产品,也围绕这两方面展开:
模型侧:豆包旗舰模型1.8、以及视频生成模型Seedance 1.5 pro;
围绕Agent开展的工具链和生态服务:包括企业自有模型的推理代工服务、强化学习平台;企业级AI Agent平台AgentKit;以及面向Agent运营,发布HiAgent“1+N+X”智能体工作站。
火山引擎总裁谭待
在Force大会上,火山引擎也势要“将Agent进行到底”——自己搭了一个Agent,用于Force大会的报名、参会引导等。
“大家可能以为这个很简单,但我们做起来也很不容易!”谭待笑着说,“现在的模型能力其实已经够强了,但是很多企业还是用不起来,问题是Agent的工具和生态还很早期,企业做Agent迭代就会很慢。”
距离2020年火山入局云市场,已经过去了五年。彼时火山还被称为是云市场的“新军”,现在,火山已经凭借大模型的东风,成为AI领域里不可忽视的力量——2024年,火山的营收规模超过110亿元,营收增速远超60%;今年,这个数字已经超过200亿元。
忘掉参数吧,模型正在变成成熟消费品
2025年的视频模型市场,结结实实卷了一整年。
和去年最不同的是,厂商们还在卷参数、卷秒数;而现在,视频生成赛道,竞争已经到达另一个维度——真正的分水岭,在于能否直接产出“可发布的完整作品”。
比方说,最近各个AI视频厂商,都在卷一个功能:声画同出。
以前,模型生成的视频片段更像是半成品,需要大量后期剪辑、配音、对齐才能使用,做一条AI视频需要横跨多个平台,加上复杂的剪辑工序。
新鲜出炉的Seedance 1.5 pro,同样将这一点作为主打功能,可以做到开箱即用。在Force大会上,谭待对Seedance 1.5 pro的参数也是一带而过,直接展示了多个Demo,涵盖电影、动画、商业拍摄等多种风格。
我们也同样对Seedance 1.5 pro进行了试用。总体感受是,只需要用最简单的提示词,Seedance 1.5 pro不仅可以直出声画同步的视频,从嘴型和声音的对应、情绪/环节捕捉,和画面的配合度,都已经达到相当高的可用水平。
2025年的AI视频模型领域,依旧保持着极其迅速的迭代速度。
2024年,各家的视频模型都在解决一致性以及人物的动作表情是否够自然的问题——比如,这一帧还是史密斯吃面,但下一帧就可能换成另一位角色。
到了2025年,比如Seedance的上一代版本1.0 pro,核心卖点是其“原生多镜头叙事”:根据复杂的剧本,自动规划包含远景、特写、中景的镜头组合,并确保主角的一致性。
但现在,这些问题都已经不是最主要的问题,视频生成模型迅速地进步到接近生产级可用的水平。声音,成为了重要的竞争因素。
无独有偶,今年下半年发布的快手可灵2.6、谷歌的Veo 3.1以及阿里的WAN 2.5,都将声画同步功能作为了宣传重点。
来源:小红书用户@AI哈哈镜
相较之下,Seedance 1.5 pro颇有自己的特点。
首先,Seedance 1.5 pro在对口型方面,已经达到相当高匹配度;而谷歌Veo 3.1等海外模型,对中文适配程度较低,很多时候嘴型对不上,配音也不够自然。
另外,Seedance 1.5 pro所生成的视频,沉浸感是更突出的——不仅口型对得好,声音和人物、环境的适配度。
运镜、动作张力,则是Seedance一贯的王牌功能。这次的Seedance 1.5 pro,重点强化了对电影级运镜和动态张力的遵循。
比如,在室外,不同的天气,人物的声音会显得更加悠远,甚至有淡淡的回音。
Seedance 1.5 pro生成的视频,动作幅度以及多镜头、多主体等等呈现,也明显是在行业水平线之上。
事实上,要做到声画同步,不仅需要大量的训练数据,在训练架构、路线选择上都做不少调整。
之前,视频生成大多基于传统T2V模型来进行,都是先将视频画面生成出来,效果就是“哑巴视频”,用户得自己后期配音、配乐、对口型,费时费力。
无论对追求创作效率的C端用户,还是对看重成本和稳定性的B端客户,这都具备实在的商业价值。
模型训练架构的改进,也提升了商业化落地的效率。比如,通过多阶段蒸馏、量化等工程优化,Seedance 1.5 pro模型的端到端推理速度提升超过10倍,这极大减少了生成成本。
火山引擎智能算法负责人吴迪在一次采访中表示,在模型训练目标设定之初,火山就重点关注了B端重点场景的需求,“音画同步”正是客户的核心诉求之一。
可以说,在一致性、运镜、叙事、声音等等因素都成熟后,AI视频生成的拼图渐渐完整。
这背后同样反映整个创作生态的成熟。
从Seedance 1.5 pro上线的宣发就可见一斑——在小红书上,字节旗下的AI视频Agent小云雀、即梦等等,主推1.5 pro时,选用的AI视频素材大多是包含多个动作的短视频、有剧情有故事,抖音感非常强烈。
小红书上的二创、整活类视频
视频是否好玩,很大程度决定传播潜力。Seedance 1.5 pro对各种方言、对白和强表演场景的支持,让模型天然适合在豆包、即梦等C端产品中,生成可供二次创作和分享的社交货币——比如方言类“整活”视频,正在成为AI视频模型屡试不爽的、撬动用户的路径。
作为短视频巨头,字节跳动对内容也沉淀了最深的理解——对什么内容能火、为什么火。这些理解,最终都转化为了模型的训练目标。
信号也非常明显:随着视频生成模型的逐步成熟,很快,这些AI生产的视频,也会和豆包、即梦、小云雀等C端产品联动起来,为用户生成可供二次创作和分享的社交货币。
当模型能理解并生成复杂的长镜头、希区柯克变焦等等电影术语,还能精准复刻川话、粤语、沪语等等小众方言,成为随手可用的创作工具时,它就不仅仅只是一个技术工具,而是具备了逐步演变成社交平台的潜力。
大模型已是系统工程较量,但火山要做模型上的减法
火山引擎的迅速增长,也是当下AI应用爆发的映照。
“智能涌现”了解到,和2025年末相比,2030年,豆包大模型的Token调用量,将增长100倍左右。
不过,大模型领域仍处在非常早期。火山智能算法负责人吴迪在会后采访中曾披露一个数字:在国内,大约10%-20%左右的头部企业,消耗了超过90%的Token,大模型服务的渗透率并不高。
“这个领域的头部效应依然非常明显。”他表示。
光有好模型,还远远不足以服务好客户。不过,火山引擎如今的思路反倒是,做减法。
豆包大模型1.8就做了一个很多厂商不敢做的决定:把所有模型能力塞进一个模型。
具体而言,客户只需要面对一个API接口,不管是LLM、VLM、Thinking版本等,全部集成在一起,不分版本,不用再纠结选哪个版本,不用担心模型之间的能力差异,也不用在多个模型之间来回切换。
这跟市面上的主流做法不太一样。大多数模型厂商,都会习惯于提供不同的模型版本,比如语言、视觉理解、思考模型等等,每个版本对应不同的模型能力边界。好处是各司其职,但挑战是是选择成本高,集成流程也比较复杂。
在模型上能做减法,难度是指数级上升的,这需要更领先的基模——这是火山强调的底座逻辑。
基础模型的能力,直接决定了下游应用的天花板。Seedance 1.5 pro之所以能在声画同步上做得细致,背后是豆包基础模型能力在支撑。
比如,模型能精准捕捉人物情绪、理解复杂的叙事意图、处理方言的语音语调,这些都依赖于基模在语义理解、情感识别等维度的深厚积累。
在让模型真正被用起来这件事上,火山引擎搭建了一套更庞大的系统工程。
来源:火山引擎
如今的Token降价,模型降价倒逼厂商,必须把模型训练得更高效、更好用,让MaaS服务的“密度”更高。
密度指的是什么?简单理解,就是在同样的成本下,模型能提供更多的价值。
通过持续的工程优化、训练策略改进,火山不断压缩推理成本,同时保持甚至提升模型性能。Seedance 1.5 pro的端到端推理速度提升超过10倍,就是这种优化的直接成果。
就连计费模式,也应该符合AI应用的使用特点。
这次的发布会上,火山就推出了一个很有意思的计费模式:“AI节省计划”。这个计划覆盖所有按量后付费的大模型产品,通过阶梯式折扣,帮助企业最高节省47%的成本。
“今天行业还按Token计费,但未来绝对不会是只有这种消费方式。”2024年,在接受“智能涌现”专访时,谭待就曾表示。未来,他认为应该按照交付的“智能”付费,比如用AI写一份报告,按交付物的价值来计费。
在2025年,火山也开始推出以按照思考长度,分段付费的模式,来帮助企业达到降成本的目的。
事实上,从火山成立开始,谭待就曾反复表示,AI是火山的主旋律。
这句话背后的含义是,火山的基础设施、产品架构、商业模式,从第一天起就是围绕AI云原生设计的。对于后起之秀的火山而言,传统的公有云市场已经被站满了先行者的旗帜——这是事实。
所以,AI,是火山弯道超车的关键所在。
火山的AI Native,体现在很多细节上。比如,火山的GPU集群调度系统,专门针对大模型训练做了优化;存储架构,也考虑了AI训练对基础设施的极端需求。
AI基础设施的竞争,已经从单纯的模型能力比拼,演变成了系统工程的较量。
对于更广阔的企业客户来说,他们面临的最大问题往往不是模型不够强,而是不知道怎么用、用不起来。一个企业要真正用上大模型和Agent,需要解决数据接入、任务编排、效果评估、成本控制等一系列复杂问题。
这就像拥有一台性能强劲的发动机,但如果没有配套的传动系统、控制系统和操作界面,普通人根本开不起来。
火山如今在同步建设模型的“脑”和“手”。
如果说,豆包大模型是“脑”,提供核心的理解和生成能力;那么这次重磅发布的AgentKit,就是这只“手”,目的是降低开发者的开发门槛。
传统的Agent开发,需要开发者自己处理prompt工程、工具调用、状态管理等复杂问题,开发周期长、调试困难。AgentKit把这些底层能力做了封装,开发者只需要关注业务逻辑本身。
更重要的是,AgentKit不只是一个开发工具,它还提供了完整的运营能力。从Agent的创建、测试、部署,到上线后的监控、优化,形成了一个闭环。这对企业客户来说至关重要,他们需要的是一个可管理、可迭代的解决方案,而不只是一个demo。
火山自己在Agent方面已经积累了大量实践。字节内部的很多业务场景,包括客服、内容审核、数据分析等,都在使用Agent来提升效率。这些实践中沉淀下来的能力和经验,最终通过AgentKit对外输出。
在Force大会的演示中,一个企业级的电商客服Agent从零搭建到上线,整个过程只用了不到半小时。这种效率提升,对很多企业来说是质的飞跃。
往前看,火山在Agent方向的目标很明确:让每个企业都能拥有自己的AI助手,就像今天每个企业都有自己的网站和APP一样。这需要的不仅是技术能力,还需要完整的生态支撑。
从这个角度看,火山的雄心已然明晰:它要做的不只是提供模型API,而是构建一个完整的AI基础设施和服务体系,让所有企业都能低门槛、低成本地用上最先进的AI能力。
这场系统工程的较量,才刚刚开始。



































