Newsroom
AIEII

AI 周刊 #8:开源模型逆袭,Llama 4 挑战闭源霸主

Meta Llama 4 发布引发开源狂潮,DeepSeek V4 紧随其后,闭源模型的护城河还剩多少?

2026年02月15日

AI 周刊 #8:开源模型逆袭,Llama 4 挑战闭源霸主

如果 2025 年是闭源模型"秀肌肉"的一年,那么 2026 年的开年则属于开源阵营。Llama 4 的发布像一颗石子投入湖面,激起的涟漪远比 Meta 自己预想的更大。


Llama 4:开源模型的新标杆

Meta 本周正式发布了 Llama 4 系列,包含三个版本:

  • Llama 4 Scout(8B):轻量级模型,适合边缘部署和移动设备
  • Llama 4 Maverick(70B):主力模型,综合能力对标 GPT-4o
  • Llama 4 Behemoth(405B):旗舰模型,冲击推理能力天花板

关键跑分如下:

基准Llama 4 Maverick (70B)GPT-4oClaude 3.5 Sonnet
MMLU-Pro81.2%82.8%83.1%
HumanEval89.7%90.2%92.0%
MATH76.4%78.1%79.3%
ARC-Challenge96.3%96.8%97.1%

数字已经非常接近。更重要的是,Llama 4 Maverick 是完全开源的——权重、训练代码、数据配方全部公开,使用 Meta 的修改版开源协议,商业使用几乎没有限制。

Mark Zuckerberg 在发布会上说了一句值得反复品味的话:“当 AI 成为基础设施,开源就不是慈善,而是战略。”

为什么这很重要

Llama 4 Maverick 在 70B 参数规模上接近 GPT-4o 的表现,这意味着:

  1. 中小企业可以用消费级 GPU(2 张 A100 或 4 张 4090)部署一个接近 GPT-4 水平的模型
  2. 数据敏感行业(医疗、金融、政府)终于有了一个可以私有部署的高质量选择
  3. 研究者可以完全透明地研究模型行为,不再是黑箱

DeepSeek V4:中国开源力量的崛起

就在 Llama 4 发布三天后,深度求索(DeepSeek)放出了 V4 版本的完整技术报告和模型权重。这家来自杭州的公司在过去一年中从"没人知道"变成了全球 AI 社区最受关注的开源力量之一。

DeepSeek V4 的亮点:

  • MoE 架构优化:使用了一种新的专家路由策略,在保持 671B 总参数的同时将激活参数控制在 37B
  • 数学推理能力:在 MATH 基准上达到 82.1%,超过了所有同期开源模型
  • 中文能力:这是 DeepSeek 一直以来的强项,在中文理解和生成任务上的表现仍然是开源模型中最好的
  • 训练效率:据报告披露,V4 的训练成本仅为 GPT-4 的约 1/10

一位在硅谷工作的华人 AI 研究员评论道:“DeepSeek 正在证明,你不需要 OpenAI 的资源就能训练出世界级的模型。你只需要足够聪明的工程师和足够高效的算法。”


开源生态全景:百花齐放

除了 Llama 4 和 DeepSeek V4,开源生态中还有几个值得关注的项目:

阿里 Qwen 3

Qwen 3 系列本周发布了 32B 和 72B 版本,在多语言支持方面表现突出。特别值得一提的是它的工具调用能力——在 Berkeley Function-Calling Leaderboard 上排名第一,这使它成为构建 AI Agent 的理想基座模型。

Mistral Medium 3

法国团队 Mistral 发布的新版中等规模模型,在欧洲语言处理方面有独特优势。更重要的是,它是少数同时支持 Apache 2.0 协议的高质量模型之一。

Cohere Command R+

Cohere 的检索增强生成(RAG)专用模型更新到了第三代,在企业搜索和知识管理场景下表现出色。虽然不是传统意义上的"通用模型",但在垂直场景中的实用性很强。


闭源模型的护城河:还剩多少?

这是本周最值得深入思考的问题。让我们列一个简单的对比:

闭源仍然领先的领域:

  • 超长上下文理解(Gemini 的 200 万 token 窗口仍无开源对手)
  • 复杂 Agent 场景(Claude 4.6 在多步骤任务中的可靠性仍然最高)
  • 多模态融合(GPT-5 的视频理解能力暂时无法复制)

开源已经追平或超越的领域:

  • 基础文本生成和理解
  • 代码生成和补全
  • 简单推理和问答
  • 中文和多语言支持
  • 特定垂直领域的微调模型

我们的判断: 闭源模型的护城河正在从"能力差距"转向"产品体验差距"和"生态锁定"。OpenAI 的壁垒不再是 GPT 模型本身,而是 ChatGPT 的 3 亿月活用户和开发者生态。Anthropic 的壁垒不是 Claude 的推理能力,而是它在企业级安全和合规方面的积累。

开源不会消灭闭源,但它会重新定义"付费"的门槛。未来,你为闭源模型付费不是因为"只有它能做",而是因为"它做得更方便"。


开发者该如何选择?

如果你是开发者,面对如此多的选择可能会有些茫然。这里是我们的建议框架:

选闭源 API: 如果你需要最强的推理能力、不在乎数据隐私、预算充足、需要快速上线。

选开源自部署: 如果你的数据不能出境、需要深度定制、有 GPU 资源、对延迟要求极高。

选开源 + 微调: 如果你有垂直领域的标注数据、需要模型在特定任务上达到专家水平、愿意投入工程资源。

混合策略(推荐): 用开源模型处理 80% 的简单请求(降低成本),用闭源 API 处理 20% 的复杂任务(保证质量)。这可能是当前最务实的方案。


编辑手记

开源与闭源之争,本质上不是技术之争,而是AI 民主化之争。

当一个 70B 的开源模型可以在消费级硬件上运行,并达到接近 GPT-4 的水平时,AI 就不再是大公司的专属玩具。一个大学生、一个独立开发者、一个初创团队,都可以在这个基础上构建自己的产品。

这才是 Llama 4 发布的真正意义。不是跑分多了几个点,而是门槛又低了一截

下周见。


本文由 AIEII 编辑部撰写。欢迎在社交媒体上讨论本文观点。

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← Perplexity AI 深度使用指南:让搜索变成研究 AI 绘画工具横评 … →
💬 Comments
4 min read