AI 周刊 #8：开源模型逆袭，Llama 4 挑战闭源霸主

如果 2025 年是闭源模型"秀肌肉"的一年，那么 2026 年的开年则属于开源阵营。Llama 4 的发布像一颗石子投入湖面，激起的涟漪远比 Meta 自己预想的更大。

Llama 4：开源模型的新标杆

Meta 本周正式发布了 Llama 4 系列，包含三个版本：

关键跑分如下：

基准	Llama 4 Maverick (70B)	GPT-4o	Claude 3.5 Sonnet
MMLU-Pro	81.2%	82.8%	83.1%
HumanEval	89.7%	90.2%	92.0%
MATH	76.4%	78.1%	79.3%
ARC-Challenge	96.3%	96.8%	97.1%

数字已经非常接近。更重要的是，Llama 4 Maverick 是完全开源的——权重、训练代码、数据配方全部公开，使用 Meta 的修改版开源协议，商业使用几乎没有限制。

Mark Zuckerberg 在发布会上说了一句值得反复品味的话：“当 AI 成为基础设施，开源就不是慈善，而是战略。”

Llama 4 Maverick 在 70B 参数规模上接近 GPT-4o 的表现，这意味着：

就在 Llama 4 发布三天后，深度求索（DeepSeek）放出了 V4 版本的完整技术报告和模型权重。这家来自杭州的公司在过去一年中从"没人知道"变成了全球 AI 社区最受关注的开源力量之一。

DeepSeek V4 的亮点：

一位在硅谷工作的华人 AI 研究员评论道：“DeepSeek 正在证明，你不需要 OpenAI 的资源就能训练出世界级的模型。你只需要足够聪明的工程师和足够高效的算法。”

除了 Llama 4 和 DeepSeek V4，开源生态中还有几个值得关注的项目：

Qwen 3 系列本周发布了 32B 和 72B 版本，在多语言支持方面表现突出。特别值得一提的是它的工具调用能力——在 Berkeley Function-Calling Leaderboard 上排名第一，这使它成为构建 AI Agent 的理想基座模型。

法国团队 Mistral 发布的新版中等规模模型，在欧洲语言处理方面有独特优势。更重要的是，它是少数同时支持 Apache 2.0 协议的高质量模型之一。

Cohere 的检索增强生成（RAG）专用模型更新到了第三代，在企业搜索和知识管理场景下表现出色。虽然不是传统意义上的"通用模型"，但在垂直场景中的实用性很强。

这是本周最值得深入思考的问题。让我们列一个简单的对比：

闭源仍然领先的领域：

开源已经追平或超越的领域：

我们的判断： 闭源模型的护城河正在从"能力差距"转向"产品体验差距"和"生态锁定"。OpenAI 的壁垒不再是 GPT 模型本身，而是 ChatGPT 的 3 亿月活用户和开发者生态。Anthropic 的壁垒不是 Claude 的推理能力，而是它在企业级安全和合规方面的积累。

开源不会消灭闭源，但它会重新定义"付费"的门槛。未来，你为闭源模型付费不是因为"只有它能做"，而是因为"它做得更方便"。

如果你是开发者，面对如此多的选择可能会有些茫然。这里是我们的建议框架：

选闭源 API： 如果你需要最强的推理能力、不在乎数据隐私、预算充足、需要快速上线。

选开源自部署： 如果你的数据不能出境、需要深度定制、有 GPU 资源、对延迟要求极高。

选开源 + 微调： 如果你有垂直领域的标注数据、需要模型在特定任务上达到专家水平、愿意投入工程资源。

混合策略（推荐）： 用开源模型处理 80% 的简单请求（降低成本），用闭源 API 处理 20% 的复杂任务（保证质量）。这可能是当前最务实的方案。

开源与闭源之争，本质上不是技术之争，而是AI 民主化之争。

当一个 70B 的开源模型可以在消费级硬件上运行，并达到接近 GPT-4 的水平时，AI 就不再是大公司的专属玩具。一个大学生、一个独立开发者、一个初创团队，都可以在这个基础上构建自己的产品。

这才是 Llama 4 发布的真正意义。不是跑分多了几个点，而是门槛又低了一截。

下周见。

本文由 AIEII 编辑部撰写。欢迎在社交媒体上讨论本文观点。