
商汤绝影发布端侧多模态智能体基座年夜模子Sage ,PinchBench 实测 94% 最好使命完成率领跑主流年夜模子 2026 年 4 月 22 日——商汤绝影正式发布端侧多模态智能体基座年夜模子 Sage。Sage 采用 MoE 架构,总参数目为 32B,激活参数仅 3B ,是行业内首款于车端实现繁杂智能体能力的基座年夜模子,于 PinchBench 上机能领跑全世界一线云端年夜模子,已经于英伟达 Orin X 端侧平台实现部署。 AI 周全进入智能体时代,而汽车的繁杂智能体能力依靠云端,端侧模子受算力与参数限定,仅能实现简朴指令相应。智能座舱是以堕入两难,依靠云端则有延迟与高 Token 成本,苦守端侧则缺掉真正智能体能力。Sage 的发布打破这一格式,初次将云端级智能体能力落地端侧。 作为端侧智能体基座,Sage 可接入 OpenClaw、Hermes 等主流 Agent 框架,为更多端侧智能体落地提供焦点支撑,可笼罩出行、家庭等全场景。 Sage 的实力,已经于国际公然评测中获得印证。于公然 Agent 评测基准 PinchBench 中,Sage 端侧年夜模子最好使命完成率到达 94%,逾越Claude-Opus-4.6(93.3%)、Claude-Sonnet-4.6(88.0%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)、Google-Ge妹妹a-4(83.9%)、Qwen3.5-27B(90.0%)、MiniMax-M2.7(89.8%)、MiMo-v2-Pro(87.4%)等国际主流云侧及端侧年夜模子。 Sage 以仅3B激活的小参数目,逾越浩繁年夜参数目云侧旗舰,打破 “只有年夜模子才能做好智能体使命” 的惯性认知,彰显端侧原生技能线路的高效上风。以 小米MiMo-v2-Pro 为例,其激活参数为 42B、总参数范围超 1T,而 Sage 激活参数仅 3B,所需激活算力仅为其 1/14;若按模子权重范围类似估算,显存占用约为其 1/31,但于 PinchBench 上的最好使命完成率仍超出跨越 6.6 个百分点。 PinchBench 是龙虾之父Peter Steinberger保举的公然 Agent 评测基准。作为面向真实 Agent事情流的评测榜单,PinchBench 不依靠固定稳定的静态题库,而是跟着公然使命库连续扩充及版本迭代不停演进。其公然使命库笼罩写作、研究、编码、阐发、邮件、文件处置惩罚、日程治理、影象与技术挪用等典型场景,重点考查模子于东西挪用、多步推理及使命闭环履行中的综合能力。 与此同时,PinchBench 评测要求模子完成真实使命履行,并综合权衡乐成率、速率与成本,是以测试周期更长、资源耗损更高,单使命token耗损就可达数十万量级。正因云云,模子于 PinchBench 上取患上的精度体现,更能表现其于繁杂真实场景中的综合能力与不变性。 于北京车展时期,商汤绝影将正式推出搭载 Sage 端侧多模态智能体基座年夜模子的Sage Box,为汽车迈入超等智能体时代筑牢焦点根底。 Sage 端侧年夜模子于 PinchBench跑赢一众国际主流云/端年夜模子暗地里真实的元勋,是商汤绝影缭绕 Sage 后练习阶段自研的两项要害技能:SCOUT 及 ERL。 以 SCOUT 及 ERL 为焦点的后练习技能系统,一项让模子 学患上又快又省 ,一项让模子 干事不堕落 ,重点冲破智能体于进修效率、练习成本及繁杂使命不变履行上的行业挑战,解决了让车载年夜模子从 能听懂指令 进化到 能自力办成一件繁杂的事 的行业公认难题。 SCOUT(Sub-Scale Collaboration On Unseen Tasks,分级协同窗习框架) 技能重点解决年夜模子进修繁杂出行场景使命时成本高、试错慢的问题,于繁杂使命能力注入历程中可节省约 60% 的 GPU 小时耗损。 许多使命触及空间计划、装备联动、多步决议计划,直接让年夜模子本身试错进修,既慢又烧算力。SCOUT 的思绪是 探路与接收解耦 ——先派一个轻量小模子快速于使命里跑一遍,把走患上通的路径筛出来,再把这些高价值经验喂给年夜模子进修,形成 小模子先探路,年夜模子再接收 的进修机制,于降低练习成本的同时,也可以快速把握更多真实用车场景技术。 (上述技能结果论文已经上传arXiv:https://arxiv.org/abs/2601.21754) 已经被呆板进修顶级集会 ICLR 2026 收录的ERL(Erasable Reinforcement Learning,可擦除了强化进修) 技能,聚焦繁杂使命链路中的过错辨认与纠偏。用户于真实利用中提出的需求,往往需要模子跨多个步调完成推理及履行,中间一旦某一步呈现误差,整个使命流程就可能掉效。 ERL 让模子可以或许主动辨认推理历程中的过错步调,对于过错内容举行擦除了并从头天生,从源头阻断误差扩散,就像给模子装上了 边想边纠错 的能力。这项技能让 Sage 于多跳繁杂推理基准上较此前 SOTA 取患上显著晋升,装车后 Sage 于繁杂使命上的完成率晋升了 20%。 (上述技能结果论文已经上传arXiv:https://arxiv.org/abs/2510.00861) SCOUT 及 ERL 两项技能先后协同配合鞭策 Sage 从语言年夜模子演进为可以或许自力完成繁杂使命的智能体。叠加一体化多模态架构与原生练习数据的上风,Sage 于能力、成本与量产可行性之间取患了均衡,为打造智能体中枢提供了焦点 AI 支撑。 假如说 PinchBench 94% 的使命完成率证实了 Sage 能 办成繁杂的事 ,那末真正决议座舱体验的,是模子于各个专业维度上是否是都 够用、够稳、够智慧 。差别能力维度的公然基准上,Sage 周全领先本月最新发布的同量级端侧旗舰模子 Google-Ge妹妹a4,把端侧模子的能力天花板抬到了一个新的水位。 MMLU Pro(跨学科专业常识)测试中,Sage 获 76 分,领先同级端侧模子约 10%,证实端侧模子具有云端级通用常识密度;GPQA Diamond(研究生级专业推理)测试中,Sage 得到 77 分,晋升 33%,凸显繁杂推理深度;Human Semantic Understanding(座舱语义与视觉理解)测试中获 91 分,晋升 32%,依托原生数据成立怪异上风。 于重点考查使命履行能力的 τ2-bench(东西挪用与使命闭环)基准上,Sage 以 80 分的成就相较 Ge妹妹a 4 实现 38% 的晋升,靠近翻倍领先。这项基准专门评估模子挪用东西、走完多步使命的实战能力,也是区别 会谈天的模子 与 会服务的智能体 的要害分水岭。τ2-bench 上近一倍的领先,直接印证了 Sage 作为端侧智能体基座于真实使命履行环节上的绝对于上风。 这些专业能力落到真实车舱,转化为一组直接影响用户体验的指标:Sage 场景推理精度跨越 90%,长链路东西挪用、逻辑计划、情况感知使命乐成率别离达 92%、89%、94%,繁杂指令遵照率晋升 40%。 于 Orin X 平台部署下,Sage 可实现首字相应(TTFT)约0.5秒、单 Token 推理延迟(TPOT)低至0.03秒、天生吞吐到达80 tk/S,平均使命时长优在主流API 模子,为座舱智能体提供不变、及时、可连续于线的运行能力。 模子可以一次性解析用户的复合指令,主动联动空调、影音、导航等车载体系完成使命闭环;联合传感器对于乘员状况与路况的感知,还有能自动提供儿童模式、智能线路调解等办事。 Sage 再也不是 被动叫醒、单次相应 的语音助手,而是一个真正懂场景、会思索、能办事的出行伙伴。 商汤绝影 Sage 端侧多模态智能体基座年夜模子为舱驾一体方案买通了量产可行的模子路径,打破了技能与落地之间的壁垒,鞭策智能座舱从基础交互向高阶舱驾交融智能体办事超过。 雷峰网版权文章,未经授权禁止转载。详情见转载须知。


