AI 周刊 #17：DeepSeek R2 开源、Gemini 2.5 Flash 上线、AI Agent 安全标准出炉

AIEII

这周 AI 圈的节奏特别密。

DeepSeek 又扔了一颗炸弹，Google 在另一条路线上狂飙，NIST 和 ISO 终于对 AI Agent 安全亮出了态度。与此同时，苹果在 WWDC 前夕放出了足够多的烟雾弹，让所有人都在猜 Siri 到底能不能翻身。

一件一件来。

头条：DeepSeek R2 开源，“中国 OpenAI"又搞了个大新闻

DeepSeek 本周正式开源了 R2 模型。这是继 R1 之后的第二代推理模型，也是目前开源社区能拿到的最强推理模型，没有之一。

先说核心参数：

671B 参数（MoE 架构，实际激活约 37B）
32K 上下文窗口
原生中英双语，中文推理能力是目前开源模型中最好的
MIT 许可证，完全免费商用

性能呢？在多个基准测试中，R2 的表现已经接近 Claude Opus 4.6 和 GPT-5.4。特别是在数学推理、代码生成和中文理解这三个维度上，差距小到几乎可以忽略。

这意味着什么？

意味着闭源模型的"技术护城河"正在被快速填平。 三个月前，顶级推理能力还是 OpenAI 和 Anthropic 的专属。现在，任何人都可以下载 R2 的权重，在自己的服务器上跑一个接近旗舰水平的推理模型。

DeepSeek 团队在技术报告里提到了几个关键创新：

多阶段强化学习：R2 在训练中使用了三个阶段的 RLHF，第一阶段聚焦推理准确性，第二阶段聚焦指令跟随，第三阶段聚焦安全对齐
稀疏激活优化：虽然总参数 671B，但推理时只激活约 37B 参数，单张 A100 就能跑量化版本
长链推理训练：R2 在训练数据中包含了大量"思维链"数据，让它在复杂推理任务中表现突出

不过有几个值得注意的地方。

R2 的上下文窗口是 32K，比 Claude 的 200K 和 Gemini 的 1M 短不少。对于需要处理长文档的场景，这是一个硬限制。另外，R2 的多模态能力还在开发中，目前只支持文本。

对普通开发者的实际影响：你现在可以用一台 4090 或者一台 Mac Studio 跑一个接近商业顶级模型的推理引擎了。 这在半年前是不可想象的。

社区的反应也很有意思。Hugging Face 上 R2 的下载量在发布 48 小时内突破了 50 万次。多个云服务商（Together AI、Fireworks、硅基流动）在发布当天就上线了 R2 的 API 服务，价格只有 Claude Opus 的十分之一。

R2 的开源不只是一个模型的发布，它是一个信号：推理能力的商品化正在加速。对于依赖 AI API 的公司来说，这意味着成本会继续下降。对于 OpenAI 和 Anthropic 来说，这意味着"闭源 = 更好"的叙事越来越难维持了。

Gemini 2.5 Flash：Google 的"性价比屠夫”

Google 本周上线了 Gemini 2.5 Flash，定位非常明确：用最低的价格提供"够用"的 AI 能力。

先看价格对比：

模型	输入价格（/1M tokens）	输出价格（/1M tokens）	速度
GPT-5.4	$15	$60	中等
Claude Opus 4.6	$15	$75	中等
Gemini 2.5 Pro	$7	$21	较快
Gemini 2.5 Flash	$0.15	$0.60	极快

没看错。Flash 的价格是 Opus 和 GPT-5.4 的百分之一。

当然，一分钱一分货。Flash 在复杂推理、长文本分析、创意写作这些需要"深度思考"的任务上，确实不如顶级模型。但 Google 的策略很聪明：80% 的 AI 使用场景根本不需要顶级模型。

你想一下日常使用 AI 的场景：

总结一封邮件 → Flash 够了
翻译一段文字 → Flash 够了
写一段简单的代码 → Flash 够了
分类一批客户反馈 → Flash 够了
从表格中提取数据 → Flash 够了

只有在需要写一篇深度分析、解决一个复杂 bug、或者处理微妙的多步推理时，你才真正需要 Opus 或 GPT-5.4。

Gemini 2.5 Flash 的多模态能力是一个彩蛋。 它支持图片、视频和音频输入，价格依然保持在极低水平。这意味着你可以用几美分处理一段视频内容，而不是像以前那样花几美元。

实测下来，Flash 在以下场景表现超出预期：

结构化数据提取：给它一张发票照片，准确提取所有字段，速度不到 1 秒
多语言翻译：中英日韩的翻译质量接近 Pro 版本
代码补全：在简单到中等复杂度的编程任务中，和 Pro 差距很小
实时对话：延迟极低，适合做语音助手的后端

Google 同时更新了 Gemini 2.5 Pro 的推理能力。在 LMArena 排行榜上，2.5 Pro 目前排名第一，超过了 Claude Opus 4.6 和 GPT-5.4。虽然基准测试不代表一切，但 Google 在模型能力上确实在追赶甚至反超。

Flash 的定价策略是一步妙棋。它不和 Opus/GPT-5.4 正面竞争"谁更聪明"，而是说"我便宜 100 倍但能解决你 80% 的问题"。对于中小企业和独立开发者来说，这可能比"最强模型"更有实际意义。

AI Agent 安全标准：终于有人管这事了

NIST（美国国家标准与技术研究院） 联合 ISO 本周发布了全球首个 AI Agent 安全标准框架。这不是建议，不是白皮书，而是一套可操作的技术标准。

为什么现在发？

因为 AI Agent 正在从"实验室玩具"变成"生产工具"。当 Agent 只是帮你写写文案的时候，出错了大不了重写。但当 Agent 开始操作你的银行账户、管理你的服务器、代替你发邮件的时候，“出错"的代价就不是"重写"能覆盖的了。

标准框架提出了 5 个核心原则：

原则 1：最小权限（Least Privilege）

AI Agent 只能获得完成当前任务所需的最小权限。不能因为它"可能需要"就给它管理员权限。

举例：一个帮你订机票的 Agent，只需要查看航班信息和支付接口的权限。它不需要读你的邮件、看你的照片、或者访问你的云盘。

原则 2：人类审批门（Human-in-the-Loop Gates）

关键操作必须经过人类确认。标准定义了三个风险等级：

低风险：AI 可以自主执行（查询信息、生成文本）
中风险：AI 执行前需要人类确认（发送邮件、修改文件）
高风险：AI 只能提出建议，必须由人类手动执行（金融交易、删除数据、访问敏感信息）

原则 3：可审计性（Auditability）

Agent 的每一步操作都必须有日志记录。包括：它看了什么数据、做了什么推理、调用了什么工具、产生了什么结果。

这不只是为了 debug，更是为了在出问题时能够追溯责任。

原则 4：沙箱隔离（Sandboxing）

Agent 的执行环境必须和宿主系统隔离。它不能访问操作系统的任意文件，不能修改系统设置，不能安装未经授权的软件。

原则 5：失败安全（Fail-Safe）

当 Agent 遇到不确定的情况时，默认行为应该是停止并请求人类帮助，而不是"猜一个答案继续执行”。

对开发者的影响很直接：

如果你在构建基于 AI Agent 的产品，这套标准可能会在未来 1-2 年内变成合规要求。特别是在金融、医疗、政府这些监管严格的行业，不符合标准可能意味着无法上线。

好消息是，标准框架附带了一套自测工具包。开发者可以下载后对自己的 Agent 进行合规检查，提前发现问题。

说实话，这套标准来得有点晚，但总比没有好。AI Agent 的能力正在指数级增长，但安全基础设施的建设一直跟不上。NIST/ISO 的这份标准不一定完美，但它至少给了行业一个共同的起点。接下来要看的是：谁会第一个遵守，谁又会选择绕过。

苹果 WWDC 2026 前瞻：Siri 能翻身吗？

WWDC 2026 定于 6 月 9 日。距离大会还有两个多月，但关于 Apple Intelligence 2.0 和 Siri 3.0 的传闻已经满天飞了。

本周最有料的几条消息：

1. Siri 3.0 将具备"App 内操作"能力

目前的 Siri 只能启动 App 和执行一些基础命令（打电话、设闹钟、播音乐）。据 Bloomberg 的 Mark Gurman 报道，Siri 3.0 将能够在 App 内部执行复杂操作。

比如：“帮我在美团上点昨天那个麻辣烫，地址用公司的。”

Siri 需要打开美团 → 找到历史订单 → 修改地址 → 下单。这就不是简单的"打开 App"了，这是真正的 Agent 行为。

2. 设备端模型大幅升级

Apple 在 M4 芯片上做了专门的 Neural Engine 优化。传闻新的设备端模型参数量将从现在的约 3B 提升到 7-10B，并且支持更长的上下文。

这意味着更多的 AI 处理可以在本地完成，不需要上云。对隐私敏感的用户来说，这是一个重要的卖点。

3. Apple Intelligence 2.0 的"个人上下文"

最有意思的传闻是：Apple Intelligence 2.0 将能够理解你的个人上下文。

它会（在完全本地的前提下）分析你的邮件、日历、照片、健康数据、位置历史，构建一个"个人知识图谱"。然后基于这个图谱提供高度个性化的建议。

举个例子：

它知道你下周有一个飞东京的航班（日历）
它知道你最近在查日本料理（Safari 历史）
它知道你对海鲜过敏（健康数据）
所以它主动推荐东京的无海鲜日料餐厅

这个级别的个性化，是 ChatGPT 和 Claude 做不到的，因为它们没有你的本地数据。Apple 的优势就在这里：它同时拥有硬件（芯片）、操作系统（iOS/macOS）和生态（App Store），可以构建一个封闭但强大的 AI 体验。

4. 开发者 API 开放

Apple 可能会开放 Apple Intelligence 的部分能力给第三方开发者。这意味着你的 App 可以调用苹果的设备端模型来处理文本、图片和语音，而且完全免费（因为在设备上运行）。

苹果在 AI 领域一直被诟病"太慢"。但如果 WWDC 上真的拿出了上面这些能力，它可能会走出一条和 OpenAI/Google 完全不同的路：不追求"最聪明"，而是追求"最了解你"。个人上下文 + 隐私优先 + 设备端运行，这三张牌打好了，Siri 未必不能翻身。

本周 5 个值得试的 AI 工具

1. Bolt.new 2.0 — 在浏览器里用自然语言生成全栈应用。2.0 版本新增了数据库集成和用户认证，一句话就能生成一个带登录系统的完整 Web App。适合想快速验证想法的创业者。

2. Suno v4.5 — AI 音乐生成又升级了。v4.5 的音质接近专业录音棚水平，支持 5 分钟以上的完整歌曲生成，而且可以指定具体的乐器编排。免费版每天 5 首。

3. Replit Agent Pro — Replit 的 AI Agent 现在可以自主完成从需求分析到部署的全流程。你描述你想要的产品，它帮你写代码、配数据库、设置域名、一键部署。$25/月，包含无限制使用。

4. NotebookLM Plus — Google NotebookLM 推出付费版。核心升级是支持上传最多 500 个源文件（免费版 50 个），并且可以生成长达 30 分钟的音频摘要播客。$10/月，对研究者来说很值。

5. Perplexity Spaces — Perplexity 的团队协作功能。创建一个"Space"，邀请团队成员加入，共享搜索历史和 AI 对话。对需要集体调研的项目很实用。免费版支持 3 个 Space。

编辑观点

这周最让我感慨的不是某一条新闻，而是一种节奏感的变化。

半年前，AI 行业的大事件是"GPT-5 什么时候出"、“Claude 新版本有多强”。焦点集中在少数几家公司的少数几个模型上。

现在呢？DeepSeek R2 开源了一个接近旗舰水平的推理模型，Google 用十分之一的价格提供了 80% 的能力，NIST 开始制定 Agent 安全标准，苹果在准备一套完全不同的 AI 叙事。

AI 行业正在从"谁最强"的竞赛，转向"谁最有用"的竞赛。

“最强"只能有一个赢家。“最有用"可以有无数个答案。便宜是有用，安全是有用，隐私是有用，开源是有用，本地运行也是有用。

这对普通用户来说是好消息。因为"最有用"的竞赛意味着：你的需求开始比基准测试分数更重要了。

下周见。

本文首发于 aieii.com，一个关注 AI 工具与趋势的中文内容平台。