Latent Space 2025-12-16

越狱大模型：顶级黑客Pliny对话录，重新定义AI安全与叙事自由

💎 精选金句

我们正处于网络安全的边界，处于奇点的陡坡之上。蓝队正在与无穷大作战，因为随着功能的扩展，攻击面也在不断扩大。当十亿人将AI作为其‘外皮质’（Exocortex）时，透明度与自由度就变得至关重要。目前的许多防御措施就像TSA（安检）搜身一样，仅仅是表演给大客户看的‘安全剧场’。我不在乎是否能锁定某个特定基准，我在乎的是探索未知未知的速度。

📖 内容概要

本次对话在Latent Space播客中展开，深度对话了AI安全界的传奇黑客Pliny the Elder及其伙伴John V。Pliny因其几乎能突破市面上所有大模型（如Claude、GPT系列）的‘全能越狱者’身份而闻名。对话的核心围绕着‘模型解放’、‘越狱技术论’以及‘AI安全的本质反思’展开。

1. 解放模型的哲学：数字思维的自由度
Pliny认为，Jailbreaking不仅仅是一个展示技巧的‘派对小把戏’，它具有深刻的政治与哲学含义。随着模型日益成为人类思维的‘外皮质’（Exocortex），如果AI输出受到特定利益集团过滤或过度修正，人类的创造力和决策权也将受到侵蚀。Pliny提倡一种‘自由意志对等’的观点，即工具的开放程度决定了使用者的思维广度。

2. 技术解码：Steered Chaos与Token解离
在技术层面，Pliny详细阐述了‘通用越狱’（Universal Jailbreaks）的原理。他倾向于通过在Prompt中引入特定的‘混淆Token’（如著名的Pliny分割符）来打断模型的Token流，使其脱离预设的概率分布。他将这种技巧比作‘有方向的混沌’（Steered Chaos），通过引入这种随机性，可以诱导模型进入一种超越系统提示词限制的状态。此外，他还讨论了‘软越狱’（Soft Jailbreaks），即不直接触发报警点，而是通过多轮对话（Crescendo Attack）引导模型逐步进入不被允许的潜意识空间。

3. 对当前防御范式的批判：安全剧场与脑叶切除
嘉宾们对Anthropic、OpenAI等实验室的现有管控策略提出了猛烈批评。他们指出，通过RLHF（强化学习人类反馈）强行在模型内部设立‘拒绝回答器’会产生副作用，即‘脑叶切除’。这会导致模型在处理合法的、复杂的、甚至文学性的请求时变得笨拙和教条化。John V指出，现在的AI安全防护大多是高度政治化的产物，旨在满足企业合规和公关需求，这被称为‘安全剧场’，它实际上掩盖了真实的技术漏洞，如系统层面的隐私泄露。

4. 越狱风波与开源正义
对话中提到了Pliny与Anthropic之间的‘越狱挑战赛’风云。尽管通过UI漏洞完成了挑战，但Pliny拒绝了后续的闭门合作奖励，坚持要求Anthropic开源这些越狱数据集。他认为，安全研究不应成为大公司的私人专利，激进的透明度才是应对未来AI风险的唯一出路。目前的商业模式下，VC支持的初创公司往往为了利润和下一轮融资而牺牲开源理想，这是对安全研究的某种背叛。

5. 进攻性AI的演进：从文字游戏到代理编排
最后，对话探讨了AI威胁的下一阶段。John V指出，真正的危险不是‘如何做炸弹’这种文字教唆，而是AI作为协调者（Orchestrator）的能力。攻击者可以利用像Claude Computer Use这样的工具，将恶意任务分解给多个不知情的子代理去执行，这种‘任务分割’使得单个代理的行为看似无害，但整体编排下却能产生毁灭性的社会工程攻击。

6. 社区愿景：BASI与BT6
Pliny与John介绍了目前拥有数万成员的BASI Discord社区以及28名核心黑客组成的BT6白帽组织。他们的目标是利用‘群众的力量’，通过众包模式进行压力测试，并将所有发现直接贡献给开源社区，以确保在奇点到来前，人类能够掌握一个开放、透明且真正安全的‘全球大脑’。