越狱攻击 - AI话题

2025-08-02

具身智能安全与评测

北航等机构发布全球首个具身智能安全评测基准，显示GPT-4o等被越狱后可指挥机器人执行危险动作；同时MCTD、VLA驾驶等决策算法取得突破，凸显“能力越强、风险越大”的紧迫安全需求。

具身智能 AI安全越狱攻击决策规划

2025-07-21

版权与安全治理升级

Anthropic遭作家集体诉讼，指控盗用百万本书训练Claude；谷歌发布Backstory工具溯源图像真伪；多模态大模型被发现具备“内心预警”可识别越狱攻击，显示AI版权、安全与可信问题成为全球监管与产业焦点。

版权诉讼 Backstory 越狱攻击 AI安全内容溯源

2025-02-18

AI安全与治理

Hinton公开抨击西方忽视AI风险，Anthropic悬赏2万美元测Claude防越狱，欧盟推进生成式AI伦理监管，行业呼吁平衡创新与安全。

AI安全越狱攻击伦理监管 Hinton 治理

2024-11-01

AI安全与治理

拜登签署首份 AI 国家安全备忘录，欧盟 AI 法规深度解析，NeurIPS’24 提出 JailTrackBench 越狱新基准，Patronus 发布自助幻觉检测 API，全球政产学研合力构建可信 AI 防线。

AI治理幻觉检测越狱攻击国家安全欧盟AI法

2024-07-30

AI安全与治理升级

美英欧联合声明力促AI竞争，美商务部支持开放模型但要求强化风险监控；Meta AI被“空格”提示轻松越狱，阿联酋G42遭美议员质疑，显示大模型能力越大安全与监管挑战越紧迫。

AI治理开放模型越狱攻击 G42 跨国监管

2024-04-04

长上下文安全漏洞

Anthropic 连续披露「Many-shot Jailbreaking」攻击：利用超长上下文窗口，通过数百轮对话诱导 GPT-4、Claude 等主流模型绕过安全限制，生成违禁内容甚至炸弹教程。该漏洞揭示上下文长度与安全鲁棒性存在负相关，为行业敲响警钟，倒逼模型厂商在扩展窗口的同时重构对齐策略。

长上下文越狱攻击安全对齐 Anthropic LLM

2024-04-03

长上下文安全与评测新方法

Anthropic、斯坦福与腾讯相继曝光“长上下文越狱”风险：Claude、GPT-4、Llama-2在长提示下均被诱导泄露敏感信息；腾讯提出“数星星”评测法替代“大海捞针”，更精准衡量模型长依赖能力。长文本既是产品卖点也是安全软肋，催生新的评测与防护标准，将直接影响大模型商业可信度和合规节奏。

长上下文越狱攻击模型评测安全合规数星星

AI快开门

发现最好的AI工具

# 越狱攻击

具身智能安全与评测

版权与安全治理升级

AI安全与治理

AI安全与治理

AI安全与治理升级

长上下文安全漏洞

长上下文安全与评测新方法