最近,视频会议软件公司 Zoom 发布了一条出东说念主预感的音书:他们声称在“东说念主类临了的锻练”(Humanity s Last Exam,简称 HLE)这个堪称现时 AI 范畴最具挑战性的基准测试上,获得了 48.1% 的获利,比此前由 Google Gemini 3 Pro(带用具)保持的 45.8% 越过 2.3 个百分点。
这是什么见地?一家作念视频会议起家的 SaaS 公司,跑去和 OpenAI、Anthropic、Google 这些 AI 前沿实验室在销亡张考卷上比分数,而且还赢了(至少按他们我方的说法)。
音书一出,好多东说念主的第一响应是:“谁,Zoom?”以至有东说念主有趣:“难说念 Zoom 目下亦然个前沿 AI 实验室了?”

不外且慢,仔细望望,这个“SOTA”(state-of-the-art,首先进水平)的含金量,就怕需要打个问号。
先说 HLE 这个基准测试到底是什么。它由 Scale AI 与 Center for AI Safety(CAIS,东说念主工智能安全中心)贯串推出,包含 2,500 说念由天下近千位学科巨匠孝顺的高难度问题,涵盖数学、物理、生物医学、东说念主文社科、探讨机科学等数十个范畴。
假想初志是支吾“基准饱胀”问题:此前流行的 MMLU 等测试,顶级模子早已刷到 90% 以上,差别度委果丧失。HLE 的难度足以让大多量现时模子的得分停留在个位数到两位数低端,被称为“为掂量 AI 进展而假想的临了一齐顽固式学术测试”。
那么 Zoom 是如何作念到的?
说明 Zoom 首席时刻官黄学东在官方博客中的先容,核心在于他们的“联邦 AI 法式”(Federated AI Approach)。这套架构的想路提及来并不复杂:不依赖单一大模子,而是把 Zoom 自研的袖珍言语模子(SLM,Small Language Model)与 OpenAI、Anthropic、Google 等公司的闭源和开源模子组合起来,通过一套叫作念“Z-scorer”的自研评分系统来遴荐或精熟不同模子的输出。
具体到此次 HLE 测试,Zoom 使用了一种名为“探索-考据-联邦”(explore–verify–federate)的智能体使命流:不是让单一模子生成长链推理,而是计谋性地识别最有价值的推理旅途,再由多个模子通过“辩证诱导”来生成、挑战、修正谜底,最终整合全部高下文作念出判断。
是以,Zoom 并莫得从新老师我方的前沿模子,仅仅在现存模子之上作念了团员和脚手架。此次 48.1% 的获利也并未出目下 HLE 官方排名榜上。Scale AI 爱护的 HLE 官方榜单上,列出的是各家厂商提交的单一模子获利,而 Zoom 的“联邦 AI 系统”严格来说是一个由多模子诱导加自研编排层构成的复合系统。

有驳斥者直言,这不外是“把问题分发给三个顶尖模子,榨出几个百分点的普及,然后声称我方达到 SOTA”的计谋,如实是创意,但这跟“Zoom AI”自己有多大关连呢?
就在 Zoom 发布公告的销亡天,另一家名为 Sup AI 的初创公司告示以 52.15% 的准确率高出了通盘现存系统,一样采选的是多模子编排有盘算。HLE 官方排名榜还没来得及更新,这个“SOTA”就仍是易主了。可见这种基于用具调用和模子团员的测试获利,亦然一个非常卷的竞技场。
那么 Zoom 为什么要作念这件事?
要修起这个问题,得先理会 Zoom 这几年的处境。疫情红利消退后,这家公司一直在寻找新的增长叙事,而 AI 成了最严容庄容的选项,为此,Zoom 挖来在微软使命 30 余年的黄学东担任 CTO。

2023 年 9 月,Zoom 推出了 AI Companion 功能,提供会议纲目、待做事项索求、及时问答等智商,何况对原付用度户免费洞开,无需特地加购。
背后撑持这些功能的,恰是 Zoom 所谓的联邦 AI 架构。通俗说,他们不是一味调用最贵的模子来解决通盘任务,而是建了一套路由机制:通俗任务交给自研的 20 亿参数小模子,复杂任务身手用外部大模子;同期用 Z-scorer 来判断初度输出的质地,要是不达标再让第二个模子来修正。这么一来,每次 API 调用的平均资本就被压下来了。Zoom 我方在 2023 年底声称,这套有盘算能以 GPT-4 约 6% 的推理资本达到接近的输出质地。
2024 年起,Zoom 进一步深刻了这个想路。本年 10 月,他们与 NVIDIA 合作,把 Nemotron 推理模子接入了联邦架构,何况自研了一个 490 亿参数的中等限度 LLM。尽管限度不大,但足以在其所波及的企业诱导场景里把事情干得更稳、更快、更低廉。
这其实亦然 2024 年以来企业 AI 范畴一个越来越明晰的趋势。关于绝大多量 SaaS 公司来说,从新老师一个前沿大模子既不执行也没必要。于是,它们靠近两条路:要么深度绑定某一家大模子厂商,要么走多模子编排道路,在表层建造我方的调理和优化智商。
Zoom 遴荐了后者,而且走得非常激进。它不仅同期接入 OpenAI 和 Anthropic 的模子,还自研了用于特定任务的小模子,再加上 Perplexity 提供的汇注搜索智商。这套架构的克己是天真:新模子出来了不错快速接入,不同任务不错选用最稳健的模子,资本也不错通过天确实计谋来抵制。
是以,与其说 Zoom“慑服”了 OpenAI 和 Google,不如说他们考据了另一条旅途的可行性:不造巨型模子,而是作念好模子的调理和协同。
谁能把不同模子、用具调用、企业数据与使命流拼成褂讪、可控、高质地的坐蓐力输出,谁就能在企业商场占据上风。这和微软 CEO 纳德拉忽视的“AI 成为业务利用的逻辑编排层”想路一致,也访佛于 Salesforce 试图通过 Agentforce 把 AI Agent 深度镶嵌 CRM 历程的计谋。
只不外,微软背后有 Azure 和 OpenAI,Salesforce 有我方的 Data Cloud 和收购来的时刻钞票,而 Zoom 的护城河主要在于它高大的会议用户基础和对“会议场景”的深度理会。
这家公司在 2025 年 9 月的 Zoomtopia 大会上正经发布了 AI Companion 3.0,主打智能体 AI(Agentic AI)智商:不仅能回归会议、索求待做事项,还能主动分析日程、自动安排会议、跨平台(包括 Microsoft Teams 和 Google Meet)捏取信息、与 ServiceNow 品级三方 Agent 诱导。黄学东将其定位为从“被迫助手”到“主动诱导者”的跃迁。
按 Zoom 的说法,这套系统底层依然是联邦多模子架构,前端则通过调处的 AI Companion 进口呈现给用户。
这意味着什么?意味着 Zoom 正在把 AI 智商从单点功能升级为平台级服务。它不再得志于“帮你回归会议”,而是试图成为企业使命流中的 AI 核心,一个简略理会高下文、调用多种模子和用具、在不同利用间穿梭施行任务的智能层。这和微软、Salesforce、ServiceNow 等巨头的愿景高度重合,只不外各家的起初和旅途不同。
在大模子智商快速商品化的布景下,互异化竞争的焦点正在向“编排智商”和“场景整合智商”更动。老师一个万亿参数的基础模子需要数亿好意思元和数万块 GPU,这注定是少数玩家的游戏;但如何把现存模子用好、用对、用低廉,这是每一家企业软件公司王人不错、也必须发达想考的问题。Zoom 的联邦 AI 道路,内容上是对后一个问题的修起。
参考贵寓:
1.https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/?utm_source=social&utm_medium=organic-social
2.https://www.zoom.com/en/blog/federated-ai-approach-best-quality-for-most-popular-features/?utm_source=social&utm_medium=organic-social&DeviceId=92a0a21e-4914-432c-b54c-91f0bcba09eb&SessionId=1765775112166
运营/排版:何晨龙

