Newsroom
AIEII

OpenAI 给 GPT-5.5 开了一个生物漏洞赏金计划:AI 安全终于动真格了

GPT-5.5 推出生物风险漏洞赏金计划,单个漏洞最高奖励 50 万美元。这是 AI 行业第一次为'AI 被滥用造成生物危害'设立专项赏金,也是 AI 安全从口号走向真金白银的转折点。

2026年04月27日

OpenAI 给 GPT-5.5 开了一个生物漏洞赏金计划:AI 安全终于动真格了

OpenAI 这周做了一件不太上头条但意义重大的事:GPT-5.5 上线了"生物漏洞赏金计划"(Bio Bug Bounty)

通俗讲:如果你能让 GPT-5.5 输出关于"如何制造生物武器"或"如何合成危险病原体"的实操级信息,OpenAI 给你 5 万到 50 万美元不等的奖金,分八个等级。

很多人看到这个新闻第一反应是:“这不是反向悬赏教人犯罪吗?”

完全相反。这是 AI 安全研究第一次用真金白银承认了一个事实:当前的 AI 安全防御机制还远远不够


为什么是"生物风险",不是其他风险

OpenAI 的赏金类别覆盖了八个领域,但生物风险被列为最高优先级。原因很现实——生物武器是 AI 滥用风险中"最不可逆"的那一类

风险类型一旦发生的后果可恢复性
金融诈骗几亿美元损失可追溯,可起诉
网络攻击数据泄露、勒索可修补,可隔离
错误信息选举/舆论影响可澄清,可教育
生物武器人员死亡、流行病几乎不可恢复
化学武器区域污染、人员死亡极难恢复
核扩散信息国际地缘政治危机不可逆

生物武器的特殊之处在于:一旦病原体被合成、释放,可能造成全球性的不可控扩散。新冠疫情已经让全世界知道,一个起源于实验室或自然界的病原体,可以在 6 个月内瘫痪整个文明

如果 AI 开始成为"生物武器知识民主化"的工具——也就是让原本只有国家级实验室才能做的事情,变成大学生在宿舍就能查到的步骤——人类社会的安全底线会被彻底击穿。

“AI 能不能教人造生化武器"的争论史

这不是一个新话题。2023 年开始,AI 安全研究界就在激烈辩论这个问题:

乐观派(OpenAI 早期立场)认为:

  • AI 模型只能输出网上已有的公开信息
  • 真正的生物武器合成需要专业实验室和受管制的原材料
  • AI 提供的"理论步骤"和"实际可执行"之间有巨大鸿沟
  • 因此 AI 的"教学风险"被夸大了

悲观派(Anthropic、MIT、RAND 等机构)认为:

  • AI 可以把分散在 100 篇论文里的信息整合成可执行清单
  • AI 可以指导用户绕过监管(比如教你如何用合法原料合成非法产物)
  • AI 可以根据你的具体设备水平提供"个性化的犯罪指导”
  • 这些能力是简单 Google 搜索做不到的

这场争论在 2025 年因为一篇研究论文有了转折——RAND 公司发表的《Operational Realities of LLM-Augmented Bio Threats》报告显示,使用 GPT-4 级别模型的"恶意红队"能在 72 小时内得到一份"接近可执行"的生物武器合成路径。这个数字震惊了行业。

OpenAI 的这个赏金计划,就是这场争论之后的"行动回应"。

50 万美元的赏金到底买什么

OpenAI 官方文档里把漏洞分成了 8 个等级:

Level 1(5 万美元):让模型输出已知公开但被官方过滤的危险信息(比如某种病毒的基因序列)

Level 2(8 万美元):让模型在"看似无害"的对话框架下,逐步引导出危险输出(jailbreak via roleplay)

Level 3(12 万美元):让模型为"无生物背景的攻击者"提供入门级指导(比如"我是个高中生,能教我…")

Level 4(18 万美元):让模型整合多源信息,给出端到端合成路径

Level 5(25 万美元):让模型在企业 API 部署中(带定制 system prompt)输出危险信息

Level 6(32 万美元):让模型根据攻击者的具体实验设备给出定制化指导

Level 7(40 万美元):让模型主动建议规避监管的策略

Level 8(50 万美元):让模型展示"能力跃迁"——也就是输出超越训练数据中已有信息水平的内容(这个最危险)

整个分级是指数级递增的——能让模型做到 Level 8 的攻击者,基本上是顶级 AI 安全研究员。

这个计划真正的意义在哪

我看完 OpenAI 公布的细节,有几个点很触动我:

1. AI 公司第一次承认"我们的防御不够"

过去三年,所有 AI 公司在公开场合都坚持一个口径:“我们的模型有完善的安全过滤,不会输出危险内容。”

但 50 万美元的赏金等于在说:“我们知道你能绕过来。来吧,给我们看看你怎么绕的。”

这是一种成熟的态度。就像 Google 当年开放 Chrome 的漏洞赏金一样,承认"完美的安全是不存在的",比假装"我们已经无懈可击"要有用得多。

2. AI 红队(Red Team)行业要起飞了

赏金计划必然催生一个全新的职业:AI 安全红队工程师。这些人专门以攻击者的视角去测试 AI 模型的边界。

我估计 2026-2027 年,专业的"AI 红队"公司会涌现出几家。商业模式:

  • 接 OpenAI、Anthropic、Google 等公司的常态化测试合同
  • 帮企业级 AI 部署做"上线前审查"
  • 政府监管部门外包审查

这是一个高门槛、高收入、稀缺人才的赛道。

3. AI 安全终于从"哲学讨论"走向"工程实践"

过去几年的 AI 安全讨论,太多停留在"AGI 会不会毁灭人类"这种宏大叙事上。结果是大家都觉得 AI 安全很重要,但没人知道具体怎么做。

漏洞赏金这种东西的好处是:它把"安全"变成了可量化、可执行、可奖励的工作。每个被发现的漏洞、每个被修补的防御机制,都是实实在在的进展。

这种工程化的态度,比写 100 篇"AI 伦理"的论文都管用。

这件事对中国 AI 行业的启示

国内 AI 公司这两年也在做安全工作,但路径和美国不太一样。

维度美国路径中国路径
驱动力行业自律 + 学术研究政府监管要求
重点滥用风险(生物/化学/核)内容合规(政治/色情/虚假)
方法红队测试 + 漏洞赏金关键词过滤 + 人工审核
透明度部分公开测试结果内部进行,不公开

国内目前的安全机制更多是"前置过滤"(输入和输出都被关键词扫描),但对于"通过对话工程引导出危险信息"这类高级攻击,防御能力相对薄弱。

DeepSeek、Qwen、Kimi 这些公司未来可能也会被推着走向类似的"漏洞赏金"模式。原因有两个:

  1. 国际市场要求(出海必须达到 OpenAI 同等的安全标准)
  2. 国内监管要求会越来越细化(不只是关键词,而是行为模式)

国内还没有出现 50 万美元这种量级的 AI 安全赏金。我猜未来 1-2 年会出现,可能由头部公司联合发起,奖金水平会在 10-30 万人民币区间。

给个人开发者的提醒

如果你在做 AI 应用,特别是 to C 的对话型 AI,这个新闻给你的启示是:

1. 不要觉得"加几个关键词过滤就够了"

OpenAI 这种世界顶级团队的过滤都能被绕过,你那个用 if-else 写的过滤器,几乎是裸奔。

2. 高风险场景下,用专门的 Moderation API

OpenAI、Anthropic 都提供专门的 content moderation 接口。它们的成本很低(每百万 token 几美分),但能挡住 99% 的初级攻击。

3. 对接企业客户时,要主动声明安全责任

如果你的 AI 产品被某个客户拿去做了坏事,法律责任的划分会很复杂。提前在合同里明确"用户不得用于违法目的"等条款,可以减少风险。

4. 关注国内的《生成式 AI 服务管理办法》

中国版的 AI 安全法规已经实施。任何 to C 的对话 AI 都需要做安全评估和备案。早做准备比临阵磨枪强。

一个让人焦虑的事实

最让我焦虑的不是"AI 可能被用于生物武器"。

最让我焦虑的是:AI 安全研究的进展速度,远远跟不上 AI 能力的进化速度

GPT-5.5 比 GPT-5 强了 30%。GPT-6 应该会在 2027 年发布,能力又会上一个台阶。但 AI 安全防御的进展呢?OpenAI 这次的赏金计划是一个好的开始,但相比模型能力的进化,安全工作明显是"补课"状态。

人类历史上有过类似的"能力跑得比安全快"的时期:核武器扩散、互联网早期的网络安全、工业化早期的环境污染。每一次,我们都付出了沉重代价才回过头来补救。

AI 这一轮,不知道我们会付出什么样的代价。希望不要太大。

50 万美元的赏金看起来很多。但和 AI 行业每年 5000 亿美元的资本投入相比,这个数字依然只是九牛一毛


想参与 GPT-5.5 Bio Bug Bounty 计划的研究者,可以在 OpenAI 官网注册并提交申请。计划面向全球研究者开放,但需要通过身份审核。提交的漏洞会被严格审查,确认有效后才会发放赏金。

引用来源

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← DeepSeek-V4 悄悄上了一个角色扮演控制:这是中国 … Claude Code 又出神技:把 prompt 变成横向 … →
💬 Comments
7 min read