AI 模型定价崩塌：当智能变得「便宜到不值一提」

2024 年 3 月，你调用一次 GPT-4 Turbo，输入 100 万个 token 要花 10 美元，输出要花 30 美元。

2026 年 2 月，MiniMax 发布 M2.5 模型。输入价格：0.30 美元。输出价格：1.20 美元。Lightning 版本连续运行一小时，总成本一美元。

两年时间，同等水平的 AI 推理成本下降了 30 到 50 倍。

MiniMax 在发布会上引用了核能时代的名言，给这个模型贴上了一句口号：“Intelligence too cheap to meter” —— 智能便宜到不值一提。

这不是营销话术。这是正在发生的事实。

一组令人窒息的数字

先看一张表。从 2024 年初到 2026 年初，主流 AI 模型的 API 定价经历了自由落体：

时间	模型	输入价格 ($/M tokens)	输出价格 ($/M tokens)	相对 GPT-4 Turbo
2024.03	GPT-4 Turbo	$10.00	$30.00	基准线
2024.05	GPT-4o	$5.00	$15.00	-50%
2024.12	Claude 3.5 Sonnet	$3.00	$15.00	-50%
2025.01	DeepSeek V3	$0.14	$0.28	-97%
2025.06	Gemini 2.0 Flash	$0.10	$0.40	-99%
2025.09	Qwen 2.5 (本地)	免费	免费	-100%
2026.02	MiniMax M2.5	$0.30	$1.20	-96%
2026.03	GPT-5.2	$1.75	$14.00	-53%

注意最后一行。OpenAI 最新的旗舰模型 GPT-5.2，在能力远超 GPT-4 Turbo 的前提下，价格反而降了一半多。而 DeepSeek V3 的输入价格，已经只剩 GPT-4 Turbo 的 1.4%。

如果把 2024 年初的 GPT-4 Turbo 价格比作一杯星巴克大杯拿铁（38 元），那么 DeepSeek V3 的等效价格大约是一颗糖果（0.5 元）。

谁在推动价格下降？

价格不会自己崩塌。背后有四股力量在同时发力。

1. 中国军团：价格战是一种战略武器

DeepSeek、MiniMax、通义千问、智谱 GLM —— 中国 AI 公司正在用极致的成本控制重新定义行业价格锚点。

DeepSeek V3 在 2025 年初以不到 0.3 美元/百万 token 的价格杀入市场，直接把 OpenAI 和 Anthropic 的定价逻辑撕碎。MiniMax M2.5 更进一步，在 SWE-Bench Verified 上跑出 80.2% 的成绩（部分场景超过 Claude Opus 4.6），价格却只有后者的十分之一到二十分之一。

这不是亏本倾销。中国公司在混合专家（MoE）架构、推理优化、国产硬件适配上投入了大量工程努力，真正把成本打了下来。

2. 开源运动：本地运行 = 零边际成本

Meta 的 Llama 系列、阿里的 Qwen 2.5、Mistral 的开源模型 —— 当一个 70B 参数的模型可以在消费级 GPU 上流畅运行时，“API 调用"这个概念本身就开始动摇了。

Qwen 2.5 的 0.5B 版本甚至可以在手机上跑。输入成本：零。输出成本：零。你唯一需要付的是电费。

开源模型的崛起给云端 API 定价施加了持续的下行压力 —— 如果用户可以免费在本地跑一个 80% 质量的模型，你的 API 凭什么收高价？

3. 硬件进步：摩尔定律的接力

NVIDIA 从 H100 到 H200 再到 B200/GB200，每一代推理芯片的性价比都在翻倍。AMD 的 MI300/MI400 系列、Google 的 TPU v5/v6，以及中国的华为昇腾和寒武纪芯片，都在扩大供给、压低算力成本。

粗略估算：AI 推理的硬件成本每 18 个月下降约 2 倍，与传统摩尔定律的节奏惊人一致。

4. 推理优化：软件层的「免费午餐」

硬件之外，推理框架本身也在进化：

投机解码（Speculative Decoding）：用小模型预测、大模型验证，吞吐量提升 2-3 倍
KV Cache 压缩：减少长上下文推理的显存占用，降低 30-50% 成本
量化技术（INT4/INT8/FP8）：精度损失极小，速度提升 2-4 倍
PagedAttention / FlashAttention：显存利用率从 40% 提升到 90%+

这些优化叠加在一起，意味着同等质量的推理，算力消耗可以减少 60-80%。软件优化是免费的，但效果是实实在在的。

价格战的赢家和输家

价格崩塌不是均匀的。它制造赢家，也制造输家。

赢家

独立开发者和小型创业团队。 两年前，一个 AI 应用的月度 API 账单可能是几千美元，现在同样的用量可能只需要几十美元。这意味着更多的实验、更低的试错成本、更多的创新。

终端用户。 越来越多的 AI 产品开始提供免费层级。ChatGPT Free、Claude Free、Gemini Free —— 当底层成本趋近于零，免费增值模式成为默认选项。

应用层公司。 如果你的产品建立在 AI 之上但核心价值在于产品体验、数据飞轮或行业 know-how，模型成本下降意味着你的利润率在上升。

输家

纯 API 公司。 如果你的商业模式就是"卖模型调用”，你正在面对一个残酷的事实：你的产品正在被商品化。价格只会更低，永远不会更高。

没有差异化的中间层。 那些在 OpenAI API 上面套一层 UI 就自称"AI 平台"的公司，他们的护城河正在蒸发。当底层模型越来越便宜、越来越容易直接调用，中间商的价值也在消失。

依赖高价格维持 R&D 投入的闭源模型公司。 这是最微妙的一点。训练前沿模型需要数亿甚至数十亿美元的投入，但如果售价持续下降，回收投资的窗口会越来越窄。OpenAI 从 GPT-4 到 GPT-5.2 的定价变化清晰地说明了这一点 —— 即使是最强的模型，也不得不降价。

在价格战面前，唯一安全的位置是：要么做最便宜的，要么做最好的，要么做最懂行业的。中间地带正在消失。

「免费」的 AI 时代来了吗？

如果价格以每年 10 倍的速度下降，那么一个自然的问题是：AI 推理最终会变成免费的吗？

答案是：对大多数场景，事实上已经是了。

本地运行一个 Qwen 2.5 的 7B 模型，在 M4 Mac mini 上每秒能跑 50 个 token。成本？零。你可以全天候运行它处理邮件分类、文档摘要、代码补全，除了电费不需要多花一分钱。

云端 API 虽然不会真正免费（服务器、带宽、运维都有成本），但正在趋近于认知成本为零 —— 也就是说，开发者在决策时不再需要考虑"这个 API 调用会不会太贵"。就像你今天发一封邮件不会想"这封邮件的带宽费是多少"一样。

大胆预测一下：

时间节点	预测
2026 年底	GPT-4 级别的能力在所有主流平台完全免费
2027 年中	GPT-5 级别的能力在开源模型中可本地运行
2028 年	AI 推理成本在大多数应用的总成本中占比低于 1%

对开发者的实操建议

如果你正在构建 AI 应用，以下是基于当前价格趋势的五条建议：

1. 学会模型路由（Model Routing）。 不是所有请求都需要旗舰模型。80% 的简单任务用 Gemini Flash 或 DeepSeek V3 处理，20% 的复杂推理用 Claude Opus 或 GPT-5.2。一个简单的路由层可以把你的 API 账单砍掉 70%。

2. 在技术栈中加入至少一个开源模型。 无论是用 Ollama 在本地跑 Qwen，还是用 vLLM 在自己的 GPU 服务器上部署 Llama，拥有一个"免费后备"选项可以在供应商涨价或宕机时救你一命。

3. 本地化隐私敏感的处理。 用户的个人信息、医疗数据、财务记录 —— 这些不应该发送到第三方 API。本地小模型的能力已经足够处理分类、摘要、脱敏等任务。

4. 关注 Token 效率。 同样的任务，精心设计的 Prompt 可能只需要 500 token，而随意写的 Prompt 可能消耗 5000 token。在价格很低的时候这似乎无所谓，但当你的日调用量达到百万级时，10 倍的效率差距就是真金白银。

5. 警惕 Vendor Lock-in。 用 OpenAI 的 API 格式、Anthropic 的 Messages API、Google 的 Vertex AI —— 每家都有自己的接口。尽量使用 OpenAI 兼容格式或 MCP 等标准化协议，保留随时切换供应商的能力。当价格继续下降时，你需要能快速切换到最具性价比的选项。

历史的回响

每一次基础资源价格的崩塌，都催生了一场革命。

19 世纪末，电力价格的大幅下降催生了电器革命 —— 电灯、电话、电梯让城市的形态彻底改变。2000 年代，互联网带宽价格的崩塌催生了流媒体 —— Netflix、YouTube、Spotify 从不可能变成了日常。2010 年代，云计算价格的持续下降催生了 SaaS 革命 —— 任何人都可以用月付几十美元的方式使用企业级软件。

现在轮到 AI 了。

当 AI 推理的价格降到"不值一提"的程度，会发生什么？

答案可能是：每一个软件产品都将内置 AI，就像每一个产品都用电一样自然。 不是作为一个"功能"来宣传，而是作为基础设施的一部分默默运行。客服系统自动理解用户意图，代码编辑器自动补全逻辑，邮件客户端自动分类和起草回复，电商平台自动生成商品描述 —— 这些不再需要专门的"AI 团队"来实现，而是任何一个开发者都能在周末完成的事情。

我们正站在这场变革的起点。

Intelligence too cheap to meter.
当智能变得便宜到不值一提，真正重要的就不再是"谁有 AI"，而是"谁用 AI 解决了真正的问题"。

本文由 AIEII 编辑部撰写。如果你觉得这篇文章有价值，欢迎分享给你的朋友。