这周 AI 圈的节奏特别密。
DeepSeek 又扔了一颗炸弹,Google 在另一条路线上狂飙,NIST 和 ISO 终于对 AI Agent 安全亮出了态度。与此同时,苹果在 WWDC 前夕放出了足够多的烟雾弹,让所有人都在猜 Siri 到底能不能翻身。
一件一件来。
头条:DeepSeek R2 开源,“中国 OpenAI"又搞了个大新闻
DeepSeek 本周正式开源了 R2 模型。这是继 R1 之后的第二代推理模型,也是目前开源社区能拿到的最强推理模型,没有之一。
先说核心参数:
- 671B 参数(MoE 架构,实际激活约 37B)
- 32K 上下文窗口
- 原生中英双语,中文推理能力是目前开源模型中最好的
- MIT 许可证,完全免费商用
性能呢?在多个基准测试中,R2 的表现已经接近 Claude Opus 4.6 和 GPT-5.4。特别是在数学推理、代码生成和中文理解这三个维度上,差距小到几乎可以忽略。
这意味着什么?
意味着闭源模型的"技术护城河"正在被快速填平。 三个月前,顶级推理能力还是 OpenAI 和 Anthropic 的专属。现在,任何人都可以下载 R2 的权重,在自己的服务器上跑一个接近旗舰水平的推理模型。
DeepSeek 团队在技术报告里提到了几个关键创新:
- 多阶段强化学习:R2 在训练中使用了三个阶段的 RLHF,第一阶段聚焦推理准确性,第二阶段聚焦指令跟随,第三阶段聚焦安全对齐
- 稀疏激活优化:虽然总参数 671B,但推理时只激活约 37B 参数,单张 A100 就能跑量化版本
- 长链推理训练:R2 在训练数据中包含了大量"思维链"数据,让它在复杂推理任务中表现突出
不过有几个值得注意的地方。
R2 的上下文窗口是 32K,比 Claude 的 200K 和 Gemini 的 1M 短不少。对于需要处理长文档的场景,这是一个硬限制。另外,R2 的多模态能力还在开发中,目前只支持文本。
对普通开发者的实际影响:你现在可以用一台 4090 或者一台 Mac Studio 跑一个接近商业顶级模型的推理引擎了。 这在半年前是不可想象的。
社区的反应也很有意思。Hugging Face 上 R2 的下载量在发布 48 小时内突破了 50 万次。多个云服务商(Together AI、Fireworks、硅基流动)在发布当天就上线了 R2 的 API 服务,价格只有 Claude Opus 的十分之一。
R2 的开源不只是一个模型的发布,它是一个信号:推理能力的商品化正在加速。对于依赖 AI API 的公司来说,这意味着成本会继续下降。对于 OpenAI 和 Anthropic 来说,这意味着"闭源 = 更好"的叙事越来越难维持了。
Gemini 2.5 Flash:Google 的"性价比屠夫”
Google 本周上线了 Gemini 2.5 Flash,定位非常明确:用最低的价格提供"够用"的 AI 能力。
先看价格对比:
| 模型 | 输入价格(/1M tokens) | 输出价格(/1M tokens) | 速度 |
|---|---|---|---|
| GPT-5.4 | $15 | $60 | 中等 |
| Claude Opus 4.6 | $15 | $75 | 中等 |
| Gemini 2.5 Pro | $7 | $21 | 较快 |
| Gemini 2.5 Flash | $0.15 | $0.60 | 极快 |
没看错。Flash 的价格是 Opus 和 GPT-5.4 的百分之一。
当然,一分钱一分货。Flash 在复杂推理、长文本分析、创意写作这些需要"深度思考"的任务上,确实不如顶级模型。但 Google 的策略很聪明:80% 的 AI 使用场景根本不需要顶级模型。
你想一下日常使用 AI 的场景:
- 总结一封邮件 → Flash 够了
- 翻译一段文字 → Flash 够了
- 写一段简单的代码 → Flash 够了
- 分类一批客户反馈 → Flash 够了
- 从表格中提取数据 → Flash 够了
只有在需要写一篇深度分析、解决一个复杂 bug、或者处理微妙的多步推理时,你才真正需要 Opus 或 GPT-5.4。
Gemini 2.5 Flash 的多模态能力是一个彩蛋。 它支持图片、视频和音频输入,价格依然保持在极低水平。这意味着你可以用几美分处理一段视频内容,而不是像以前那样花几美元。
实测下来,Flash 在以下场景表现超出预期:
- 结构化数据提取:给它一张发票照片,准确提取所有字段,速度不到 1 秒
- 多语言翻译:中英日韩的翻译质量接近 Pro 版本
- 代码补全:在简单到中等复杂度的编程任务中,和 Pro 差距很小
- 实时对话:延迟极低,适合做语音助手的后端
Google 同时更新了 Gemini 2.5 Pro 的推理能力。在 LMArena 排行榜上,2.5 Pro 目前排名第一,超过了 Claude Opus 4.6 和 GPT-5.4。虽然基准测试不代表一切,但 Google 在模型能力上确实在追赶甚至反超。
Flash 的定价策略是一步妙棋。它不和 Opus/GPT-5.4 正面竞争"谁更聪明",而是说"我便宜 100 倍但能解决你 80% 的问题"。对于中小企业和独立开发者来说,这可能比"最强模型"更有实际意义。
AI Agent 安全标准:终于有人管这事了
NIST(美国国家标准与技术研究院) 联合 ISO 本周发布了全球首个 AI Agent 安全标准框架。这不是建议,不是白皮书,而是一套可操作的技术标准。
为什么现在发?
因为 AI Agent 正在从"实验室玩具"变成"生产工具"。当 Agent 只是帮你写写文案的时候,出错了大不了重写。但当 Agent 开始操作你的银行账户、管理你的服务器、代替你发邮件的时候,“出错"的代价就不是"重写"能覆盖的了。
标准框架提出了 5 个核心原则:
原则 1:最小权限(Least Privilege)
AI Agent 只能获得完成当前任务所需的最小权限。不能因为它"可能需要"就给它管理员权限。
举例:一个帮你订机票的 Agent,只需要查看航班信息和支付接口的权限。它不需要读你的邮件、看你的照片、或者访问你的云盘。
原则 2:人类审批门(Human-in-the-Loop Gates)
关键操作必须经过人类确认。标准定义了三个风险等级:
- 低风险:AI 可以自主执行(查询信息、生成文本)
- 中风险:AI 执行前需要人类确认(发送邮件、修改文件)
- 高风险:AI 只能提出建议,必须由人类手动执行(金融交易、删除数据、访问敏感信息)
原则 3:可审计性(Auditability)
Agent 的每一步操作都必须有日志记录。包括:它看了什么数据、做了什么推理、调用了什么工具、产生了什么结果。
这不只是为了 debug,更是为了在出问题时能够追溯责任。
原则 4:沙箱隔离(Sandboxing)
Agent 的执行环境必须和宿主系统隔离。它不能访问操作系统的任意文件,不能修改系统设置,不能安装未经授权的软件。
原则 5:失败安全(Fail-Safe)
当 Agent 遇到不确定的情况时,默认行为应该是停止并请求人类帮助,而不是"猜一个答案继续执行”。
对开发者的影响很直接:
如果你在构建基于 AI Agent 的产品,这套标准可能会在未来 1-2 年内变成合规要求。特别是在金融、医疗、政府这些监管严格的行业,不符合标准可能意味着无法上线。
好消息是,标准框架附带了一套自测工具包。开发者可以下载后对自己的 Agent 进行合规检查,提前发现问题。
说实话,这套标准来得有点晚,但总比没有好。AI Agent 的能力正在指数级增长,但安全基础设施的建设一直跟不上。NIST/ISO 的这份标准不一定完美,但它至少给了行业一个共同的起点。接下来要看的是:谁会第一个遵守,谁又会选择绕过。
苹果 WWDC 2026 前瞻:Siri 能翻身吗?
WWDC 2026 定于 6 月 9 日。距离大会还有两个多月,但关于 Apple Intelligence 2.0 和 Siri 3.0 的传闻已经满天飞了。
本周最有料的几条消息:
1. Siri 3.0 将具备"App 内操作"能力
目前的 Siri 只能启动 App 和执行一些基础命令(打电话、设闹钟、播音乐)。据 Bloomberg 的 Mark Gurman 报道,Siri 3.0 将能够在 App 内部执行复杂操作。
比如:“帮我在美团上点昨天那个麻辣烫,地址用公司的。”
Siri 需要打开美团 → 找到历史订单 → 修改地址 → 下单。这就不是简单的"打开 App"了,这是真正的 Agent 行为。
2. 设备端模型大幅升级
Apple 在 M4 芯片上做了专门的 Neural Engine 优化。传闻新的设备端模型参数量将从现在的约 3B 提升到 7-10B,并且支持更长的上下文。
这意味着更多的 AI 处理可以在本地完成,不需要上云。对隐私敏感的用户来说,这是一个重要的卖点。
3. Apple Intelligence 2.0 的"个人上下文"
最有意思的传闻是:Apple Intelligence 2.0 将能够理解你的个人上下文。
它会(在完全本地的前提下)分析你的邮件、日历、照片、健康数据、位置历史,构建一个"个人知识图谱"。然后基于这个图谱提供高度个性化的建议。
举个例子:
- 它知道你下周有一个飞东京的航班(日历)
- 它知道你最近在查日本料理(Safari 历史)
- 它知道你对海鲜过敏(健康数据)
- 所以它主动推荐东京的无海鲜日料餐厅
这个级别的个性化,是 ChatGPT 和 Claude 做不到的,因为它们没有你的本地数据。Apple 的优势就在这里:它同时拥有硬件(芯片)、操作系统(iOS/macOS)和生态(App Store),可以构建一个封闭但强大的 AI 体验。
4. 开发者 API 开放
Apple 可能会开放 Apple Intelligence 的部分能力给第三方开发者。这意味着你的 App 可以调用苹果的设备端模型来处理文本、图片和语音,而且完全免费(因为在设备上运行)。
苹果在 AI 领域一直被诟病"太慢"。但如果 WWDC 上真的拿出了上面这些能力,它可能会走出一条和 OpenAI/Google 完全不同的路:不追求"最聪明",而是追求"最了解你"。个人上下文 + 隐私优先 + 设备端运行,这三张牌打好了,Siri 未必不能翻身。
本周 5 个值得试的 AI 工具
1. Bolt.new 2.0 — 在浏览器里用自然语言生成全栈应用。2.0 版本新增了数据库集成和用户认证,一句话就能生成一个带登录系统的完整 Web App。适合想快速验证想法的创业者。
2. Suno v4.5 — AI 音乐生成又升级了。v4.5 的音质接近专业录音棚水平,支持 5 分钟以上的完整歌曲生成,而且可以指定具体的乐器编排。免费版每天 5 首。
3. Replit Agent Pro — Replit 的 AI Agent 现在可以自主完成从需求分析到部署的全流程。你描述你想要的产品,它帮你写代码、配数据库、设置域名、一键部署。$25/月,包含无限制使用。
4. NotebookLM Plus — Google NotebookLM 推出付费版。核心升级是支持上传最多 500 个源文件(免费版 50 个),并且可以生成长达 30 分钟的音频摘要播客。$10/月,对研究者来说很值。
5. Perplexity Spaces — Perplexity 的团队协作功能。创建一个"Space",邀请团队成员加入,共享搜索历史和 AI 对话。对需要集体调研的项目很实用。免费版支持 3 个 Space。
编辑观点
这周最让我感慨的不是某一条新闻,而是一种节奏感的变化。
半年前,AI 行业的大事件是"GPT-5 什么时候出"、“Claude 新版本有多强”。焦点集中在少数几家公司的少数几个模型上。
现在呢?DeepSeek R2 开源了一个接近旗舰水平的推理模型,Google 用十分之一的价格提供了 80% 的能力,NIST 开始制定 Agent 安全标准,苹果在准备一套完全不同的 AI 叙事。
AI 行业正在从"谁最强"的竞赛,转向"谁最有用"的竞赛。
“最强"只能有一个赢家。“最有用"可以有无数个答案。便宜是有用,安全是有用,隐私是有用,开源是有用,本地运行也是有用。
这对普通用户来说是好消息。因为"最有用"的竞赛意味着:你的需求开始比基准测试分数更重要了。
下周见。
本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。