Meta重组AI团队后首个模型来了:不是最强、不再开源、可能够用
当地时间 4 月 8 日,Meta 终于发布了 Muse Spark,九个月来第一个新模型,也是 Meta 超级智能实验室(MSL)成立以来的第一个产品。消息公布后 Meta 股价盘中涨超 10%。扎克伯格在 Threads 上说,这是一个“世界级助手”。但一位 Meta 高管也比较坦诚地向媒体表示:Muse Spark 并不代表新的技术前沿,只是在部分任务上与领先模型“有竞争力”。
不差,但也没好到让人直呼牛 X。对 Meta 来说,更重要的信号可能是:它终于又能坐回牌桌了。
经历一系列大动荡之后,Muse Spark 是 Meta AI 大重组后的第一个产物,Alexandr Wang 在 X 上说:我们从零开始重建了整个 AI 技术栈。
Meta 给出的一个关键数字是:Muse Spark 达到 Llama 4 Maverick 同等性能所需的计算量减少了 10 倍以上。这说明过去九个月不只是在旧体系上缝补,而是确实换了一套引擎。在预训练阶段的 scaling law 对比中,Muse Spark 的计算效率也优于 DeepSeek-V3.1 和 Kimi-K2 的基座模型。
在 Benchmark 分数上 Meta 这次虽然没有作弊,但还是耍了个小花招。对比表格中只有 Muse Spark 一列的数字用蓝色高亮,其余模型一律白色,视觉上很容易让人觉得 Muse Spark 全面领先。
图丨基准测试成果(来源:Meta)
重新按每行最高分标绿、最低分标红之后再看,Muse Spark 的观感会差很多。在多模态和健康类任务上它确实领先,但在编程、抽象推理和 agentic 任务这些当下最热门的应用场景中,它全面落后于 Gemini 和 GPT-5.4。
具体来看。ARC AGI 2(抽象推理)上 Muse Spark 拿到 42.5 分,Gemini 3.1 Pro 是 76.5,GPT-5.4 是 76.1,差了近一倍。LiveCodeBench Pro(编程竞赛)80 对 GPT-5.4 的 87.5;Terminal-Bench 2.0(终端编程)59 对 75.1;GDPval-AA Elo(办公任务)1444 对 GPT-5.4 的 1672 和 Opus 4.6 的 1606。Meta 自己也在博客中承认“在长时序 agentic 系统和编程工作流方面仍有差距”。
图丨重新标准后的基准测试结果(来源:X)
第三方评测机构 Artificial Analysis 给 Muse Spark 的综合智能指数打了 52 分,排在 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6 之后,位列第四。在 Humanity's Last Exam(无工具)上,Artificial Analysis 追踪到的成绩是 39.9%,低于 Meta 自报的 42.8%,也低于 Gemini 3.1 Pro 的 44.7%。
博主 Ritesh Khanna 用同一组 prompt 对五个前沿模型做了零重试实测。结论是:Muse Spark 在视觉理解和金融分析上排名第一,但代码生成垫底。在生成雪花玻璃球的实测中,它写出了技术上最漂亮的 Three.js 代码,然后渲染出几个黑糊糊的物体。
图丨测试结果(来源:Ritesh Khanna)
Muse Spark 真正拉开差距的领域集中在两个方向:多模态视觉理解和健康。
CharXiv Reasoning(图表理解)上它以 86.4 分领先所有对手;ScreenSpot Pro(截图定位)84.1 分,仅次于 GPT-5.4 的 85.4;HealthBench Hard(开放式健康问答)得分 42.8,是 Gemini 3.1 Pro(20.6)的两倍多。Meta 说他们与超过 1000 名医生合作策划了健康领域的训练数据。
这两个方向恰好对应 Meta 的产品需求,理解用户在 Instagram 上拍的食物照片、在 Ray-Ban 智能眼镜里识别周围物体、为 Meta AI 助手增加健康问答能力。
Muse Spark 的另一个推理模式“Contemplating”(沉思模式)通过多智能体并行推理来处理更难的任务,在 Humanity's Last Exam(含工具)上拿到 50.2 分,略高于 Gemini Deep Think 的 48.4 和 GPT-5.4 Pro 的 43.9。但物理奥赛(IPhO 2025 Theory)上 82.6 对 GPT-5.4 Pro 的 93.5,差距仍然明显。
换句话说,Muse Spark 是一个为 Meta 自身产品场景高度定制的模型,不是一个通用前沿模型。从发布方式上也能看出来。
和 Llama 系列不同,Muse Spark 是闭源的。Meta 只向“精选合作伙伴”提供私有 API 预览,普通开发者用不了。
它直接部署在 Meta AI 聊天助手中,未来几周会扩展到 Facebook、Instagram、WhatsApp 和 Ray-Ban 眼镜。Meta 还为它配套了一个“购物模式”,结合用户在社交平台上的兴趣数据做个性化推荐。基本上是把 AI 能力直接接到广告和电商的变现链路上。
沃顿商学院教授 Ethan Mollick 评论说,Muse Spark 最重要的意义在于 Meta 现在有了自己的前沿模型,可以用它从现有用户基础中提取更多价值。但他也说:没有开源权重,就很难预判 Spark 的长期价值,因为此前的 Llama 之所以重要,主要是因为它开源。
Meta 过去三年靠 Llama 系列建立了开源 AI 领域最大的生态:累计下载量 12 亿次,日均下载约 100 万次,企业自部署 Llama 模型的成本比使用闭源 API 低 88%。但到 2025 年底,阿里的 Qwen 3.6 Plus 和 DeepSeek 等中国模型在 Hugging Face 上的下载占比已经达到 41%,美国只占 35%。Llama 4 的失利加速了侵蚀。Muse Spark 闭源发布,某种程度上是承认了现实:与其继续做开源基础设施供应商,不如先把自家产品的 AI 能力补上来。
Alexandr Wang 说未来会有开源版本。扎克伯格也承诺“将发布越来越先进的模型,包括新的开源模型”。但眼下的优先级很清楚:先产品,再生态。
Meta 今年的资本支出预算在 1150 亿到 1350 亿美元之间,几乎是 2025 年的两倍。Muse Spark 是这笔投资的第一个可见产出。它证明了 MSL 团队能在九个月内从零搭出一套有效的技术栈,计算效率在快速提升,多模态和健康方向的差异化也初步成立。Gizmodo 的评价是:扎克伯格的百亿美元投入,让 Meta 从“彻底掉队”升级到了“竞争陪跑”。
但它发布的前一天,Anthropic 公布了据说强大到只能限量开放的 Claude Mythos,智谱 AI 发布了在编程基准上领先的 GLM-5.1。扎克伯格承诺更大、更强的模型正在路上。问题是,其他对手也并不会停下来原地等 Meta。
参考资料:
https://ai.meta.com/blog/introducing-muse-spark-msl/
https://www.riteshkhanna.com/blog/muse-spark-arena
声明:如有信息侵犯了您的权益,请告知,本站将立刻删除。




