又是一个让人应接不暇的 AI 周。如果你上周五下班后选择了"数字断联",那恭喜你,你错过了至少三个足以改变行业格局的发布。没关系,这就是 AIEII 存在的意义——我们替你盯着这个永不休眠的行业。
本周头条:Claude 4.6 Opus 来了
Anthropic 本周正式发布了 Claude 4.6 Opus,这是迄今为止在复杂推理任务上表现最强的大语言模型之一。我们不喜欢用"碾压"这种词,但数据确实令人侧目:
- GPQA Diamond(研究生级别科学推理)得分突破 72%,较上代提升 9 个百分点
- SWE-bench Verified(真实软件工程任务)达到 74.2%,首次在该基准上实现"大多数任务可解"
- 长上下文理解窗口扩展至 256K tokens,且在 200K 以上仍保持极低的信息衰减
真正让开发者兴奋的不是跑分,而是 Claude 4.6 在 agentic coding 场景下的表现。它能在 Claude Code 中连续执行数十步复杂操作,几乎不需要人工干预就能完成从"读懂需求"到"提交 PR"的全流程。
Anthropic CEO Dario Amodei 在发布博客中写道:“我们相信 Claude 4.6 代表了一种质变——模型不再只是回答问题,而是能够完成工作。”
这话听起来有些营销味,但从实际使用体验来看,确实如此。我们在过去 48 小时内用 Claude 4.6 重构了一个中等规模的 TypeScript 项目,它在理解项目架构、识别技术债务和生成高质量代码方面的表现,已经接近一个经验丰富的中级工程师。
GPT-5 Turbo:OpenAI 的反击
就在 Anthropic 发布后不到 24 小时,OpenAI 以一种近乎"赌气"的速度放出了 GPT-5 Turbo 的技术预览。虽然正式发布要等到三月中旬,但从已公开的信息来看:
- 推理速度提升约 3 倍,首 token 延迟降至 200ms 以下
- 多模态能力大幅增强,支持视频输入理解(最长 10 分钟)
- API 定价比 GPT-4o 降低 40%,这是一个极具攻击性的价格策略
Sam Altman 在 X 上发了一条意味深长的推文:“Speed is a feature."(速度即功能)
我们的观点
两家的竞争路线正在分化:Anthropic 押注深度推理和可靠性,OpenAI 押注速度和多模态。对开发者来说,这是最好的时代——两条技术路线都在快速推进,而且价格战已经打响。
Google Gemini 2.5 Pro:低调但不容忽视
Google 本周悄悄更新了 Gemini 2.5 Pro,带来了几个值得关注的改进:
- 200 万 token 上下文窗口正式对所有开发者开放(此前仅限白名单用户)
- Grounding with Google Search 功能升级,支持实时信息检索并附带来源链接
- 代码生成在 HumanEval+ 上达到 92.1%,追平了 Claude 4.6
Google 的策略很明确:用超长上下文和搜索整合来构建差异化优势。对于需要处理大量文档的企业用户来说,Gemini 2.5 Pro 的 200 万 token 窗口确实是一个杀手级功能。
行业动态速览
融资与商业:
- Anthropic 完成 40 亿美元 D 轮融资,估值达到 800 亿美元
- AI 编程公司 Poolside 以 50 亿美元估值融资 7 亿美元
- 字节跳动旗下豆包大模型日调用量突破 20 亿次
开源生态:
- Mistral 发布 Pixtral Large 2,在视觉理解任务上追平 GPT-4o
- DeepSeek V4 开源版本泄露的跑分数据令人期待
- Hugging Face 推出 SmolLM 3,2B 参数模型可在手机端流畅运行
应用与产品:
- Notion AI 全面接入 Claude 4.6,文档理解能力显著提升
- Adobe 发布 Firefly Video 2.0,支持 4K 视频生成
- 微软 Copilot 开始在 Windows 12 中深度集成系统级 Agent 功能
本周值得关注的论文
“Scaling Reasoning without Scaling Parameters”(MIT)——提出了一种通过搜索时间计算来提升推理能力的方法,无需增大模型参数。这可能是小模型逆袭的关键路径。
“Constitutional AI 2.0”(Anthropic)——详细阐述了 Claude 4.6 背后的安全对齐技术升级,首次披露了"多层宪法"架构。
“The Bitter Lesson Revisited”(DeepMind)——对 Rich Sutton 经典论文的重新审视,结论是:规模定律仍然有效,但数据质量的重要性正在超过数据数量。
编辑手记
每一期周刊写到最后,我都会问自己一个问题:如果读者只能记住一件事,应该是什么?
这一期的答案是:AI 行业正在从"谁的模型更强"转向"谁的产品更好用”。Claude 4.6 的真正突破不在于跑分,而在于它让普通开发者第一次觉得"AI 真的能帮我干活了"。GPT-5 Turbo 的杀手锏不是参数量,而是那个令人发指的响应速度。
我们正在见证一个转折点:大模型的能力差距在缩小,产品体验的差距在扩大。
下周见。
本文由 AIEII 编辑部撰写。如果你觉得这篇周刊有价值,欢迎分享给你的朋友。