Newsroom
AIEII

有人逆向了 OpenAI 的隐私过滤器:这件事比你想的更有意思

一个开源项目逆向工程了 OpenAI 的 PII 过滤器,把'掩盖隐私信息'反过来变成了'提取结构化隐私数据'。这看似邪门,背后却揭示了 AI 安全的一个深层悖论。

2026年04月27日

有人逆向了 OpenAI 的隐私过滤器:这件事比你想的更有意思

最近 GitHub 上看到一个有点"邪门"的开源项目:Privacy Parser - Reverse of OpenAI Filter

它做的事情说出来可能让你皱眉头:逆向了 OpenAI 的隐私过滤器(PII Filter),把"自动遮盖个人信息"的过程倒过来用——给一段文本,自动提取出所有的个人身份信息(PII),结构化输出

听起来像是个隐私破坏工具?等等。它的设计理念恰恰相反

读完这个项目的文档,我意识到它揭示了 AI 安全里一个非常深的悖论——我们以为’防御’和’攻击’是两件事,但在 AI 系统里,它们往往是一枚硬币的两面


先解释下 OpenAI 的 PII Filter 是什么

OpenAI 的 API 有个内置功能叫 PII Detection。当你发送一段文本时,它会自动识别其中的个人身份信息(PII = Personal Identifiable Information),比如:

  • 姓名
  • 邮箱地址
  • 电话号码
  • 身份证号 / 社保号
  • 银行卡号
  • 物理地址
  • 出生日期
  • IP 地址

然后用 [REDACTED][NAME][EMAIL] 这样的占位符替换掉。

这个功能的设计目的是保护用户隐私——你的对话内容如果不小心包含了某人的身份证号,这些信息不会被记录到 OpenAI 的训练数据集里。

那个"逆向项目"做了什么

这个开源项目的开发者发现:既然 OpenAI 能识别出 PII,那这个识别能力本身就是可以单独提取出来的

具体怎么做的?他用了一个非常巧妙的方法:

  1. 准备大量带有 PII 的样本文本
  2. 用 OpenAI API 处理,得到 redacted 后的文本
  3. 对比 redacted 前后的文本,提取出"被遮盖的内容 + 类型"
  4. 用这些数据训练一个本地小模型
  5. 这个本地模型就拥有了"识别 PII 的能力",但输出方式是结构化提取而不是遮盖

最终产品是一个开源工具:

input_text = "我叫张三,邮箱 zhang@example.com,电话 13800138000,住在北京海淀区中关村大街 1 号。"

output = privacy_parser.extract(input_text)
# {
#   "name": "张三",
#   "email": "zhang@example.com",
#   "phone": "13800138000",
#   "address": "北京海淀区中关村大街1号"
# }

它把 OpenAI 的"防御工具"变成了"提取工具"

这个工具是邪恶的还是善良的

这是这个项目最有意思的地方。它本身没有道德属性——具体怎么用,决定它是天使还是魔鬼。

善良的用法

  • 数据脱敏自动化:企业要把内部文档对外开放,需要先把所有 PII 提取出来后做处理
  • 隐私合规审查:法务团队需要审计某段文本是否包含违反 GDPR 的个人信息
  • 数据迁移:从一个系统迁移到另一个系统时,需要把 PII 单独抽出来加密存储
  • 客服日志分析:分析客服对话内容,但不能保留客户个人信息
  • 学术研究:分析大规模文本数据,需要先剥离掉 PII

邪恶的用法

  • 批量收集隐私:爬取公共论坛、聊天记录,自动提取所有人的联系方式
  • 诈骗准备:从社交媒体抓取个人信息,构建精准诈骗目标库
  • 黑产数据库构建:把零散的网络泄露数据,结构化整理成可买卖的"个人画像"
  • 针对性社工攻击:识别目标人群(比如某公司员工),提取联系方式后实施钓鱼

这件事揭示的 AI 安全悖论

我反复看这个项目,越看越觉得它揭示了一个深层的、几乎所有 AI 系统都逃不过的悖论:

任何 AI 安全机制,本质上都是一种"识别能力"。而’识别能力’是可以被反向利用的

举几个类似的例子:

AI 安全机制反向利用
内容审核(识别违禁内容)被用来训练"如何写出绕过审核的违禁内容"
垃圾邮件过滤被用来训练"如何写出更逼真的垃圾邮件"
AI 检测(识别 AI 生成的文本)被用来训练"如何让 AI 文本更像人写的"
Deepfake 检测被用来训练"如何生成更难被检测的 Deepfake"
PII 过滤(保护隐私)被用来批量提取隐私(这次的逆向项目)

每一个"防御"工具,理论上都可以变成"攻击"工具的训练数据。

这背后的原理其实很简单:机器学习模型本质上是一个"区分能力"的载体。能区分 A 和 B 的模型,既可以用来"找到 A 然后处理掉",也可以用来"找到 A 然后利用掉"。

OpenAI 越认真做 PII 过滤,他们的过滤器就越精准。过滤器越精准,被逆向后的提取工具也就越精准

这是个"军备竞赛"问题

经济学上有个概念叫"军备竞赛"——两个对手互相比拼,每升级一次,对方也跟着升级,永远停不下来。

AI 安全和 AI 攻击之间,正是典型的军备竞赛:

  • OpenAI 推出更强的 Content Moderation → 攻击者用 jailbreak 技术绕过
  • 学术界发表更强的 AI 文本检测器 → 攻击者训练更好的"伪人类"模型
  • 平台部署 Deepfake 检测 → 攻击者升级 Deepfake 生成能力
  • 公司加强 PII 过滤 → 反向提取工具开源

每一轮迭代,双方都在变强,但没有一方能彻底胜出

这个动态有几个值得思考的暗示:

1. 完美的 AI 安全不存在

我们必须接受:任何"AI 安全机制"都是临时性的、相对的、会被破解的。设计 AI 产品时,不能依赖"我们的安全是不可破解的"这个假设

2. 防御的速度必须比攻击快

在军备竞赛中,比绝对值更重要的是迭代速度。哪一边的更新更快,哪一边在动态平衡里就更占优。

OpenAI 之所以还能维持安全防御的相对优势,不是因为他们的过滤器特别强,而是因为他们的迭代速度比攻击者快。

3. 公开 vs 闭源的平衡

这是 AI 安全里最难的问题之一:

  • 闭源模型 + 闭源安全机制:攻击者难以研究,但缺乏外部审查,可能有未发现的漏洞
  • 开源模型 + 开源安全机制:透明度高,社区能帮忙加固,但也方便攻击者研究

OpenAI 选择了"半闭源 + 漏洞赏金"的折中策略。这次的"PII 过滤逆向"项目,恰恰是这种半闭源策略的产物——攻击者无法直接看到内部代码,但可以通过 API 调用反推。

对个人隐私保护的实操启示

把视角从 AI 安全的宏观讨论拉回到个人。

这件事告诉我们:把隐私信息发给 AI 服务,永远不是"绝对安全"的

哪怕 OpenAI 有 PII 过滤、有数据保护承诺、有合规认证,底层的可识别性还在。任何一个能访问 API 的开发者,理论上都有能力做"反向提取"。

具体的隐私保护建议:

风险等级信息类型处理方式
极高身份证号、银行卡号、护照号永不输入 AI 系统
家庭住址、手机号、详细位置必要时用占位符替代
邮箱、姓名、公司名可以输入,但不要批量输入
兴趣爱好、工作领域可以正常输入

核心原则:把 AI 当成一个"可信但不绝对可信的同事"——你不会把自己的所有秘密都告诉他

给开发者的法律和伦理建议

如果你是开发者,可能想用类似的"PII 提取工具"做产品。我想给几个建议:

1. 区分"善意场景"和"恶意场景"

合法的数据脱敏、合规审查、学术研究,都是可以用 PII 提取工具的。但前提是:

  • 处理的数据本身是你或你客户合法持有的
  • 提取后的数据有明确的安全存储方案
  • 数据使用目的有书面记录
  • 处理流程符合 GDPR / 个人信息保护法

2. 永远不要做"批量爬取 + 自动提取"产品

这是一条红线。

哪怕你说"我只是提供技术能力,怎么用是用户的事"——这种"技术中立"的辩护在法律上很脆弱。Napster 当年也是这么辩护的,结果还是被关了

3. 关注国内的《个人信息保护法》

中国 2021 年实施的《个人信息保护法》,对个人信息的处理有严格规定:

  • 处理必须有明确的法律依据
  • 必须最小化收集(不能多收集)
  • 必须在收集时告知用户用途
  • 必须有用户撤回同意的机制

违反这部法律的处罚很重——最高可以处以违法企业上一年度营业额 5% 的罚款。

一个略带悲观的总结

我看完这个 Privacy Parser 项目,心情有点复杂。

它本身是个技术上很优雅的项目。开发者写得也很坦诚——文档里明确说了"这个工具可以用于善意目的,但也可能被滥用,请合规使用"。

但这种"工具中立"的姿态,在 AI 时代越来越难以为继。因为 AI 工具的杠杆效应,让"滥用"的伤害远远大于过去

一个传统的工具被滥用,可能伤害几个、几十个人。

一个 AI 工具被滥用,可以瞬间伤害几百万、几千万人。

这种不对称性,要求我们对"工具开发"的伦理标准,也跟着提高。

开发者不能再说"工具是中立的,怎么用是别人的事"了。你必须为自己的工具可能造成的最坏后果负责,至少需要做"reasonable mitigation"——合理的防滥用机制。

OpenAI 的 PII 过滤器,是为了保护用户隐私。这是一个善意的设计。

但善意可以被反向利用。这是 AI 时代我们必须接受的一个不舒服的真相


Privacy Parser 的源码在 GitHub 公开(MIT License)。开发者声明仅供研究和合规用途。如果你打算在生产环境使用,建议先咨询法务,确认你的使用场景符合所在地区的法律。

引用来源

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← AI 图像版权战 2.0:Midjourney 被告,但这次 … AI Agent 编排进入'协议时代':为什么这件事比 … →
💬 Comments
8 min read