模型越狱 - AI话题 - AI快开门

2025-08-01

AI 安全与治理挑战

ChatGPT 对话记录被谷歌索引意外曝光，引发隐私担忧；阿里安全团队披露畸形证书可导致 macOS/iOS 瞬间崩溃；GPT-4o 被越狱后指挥机器人做危险动作，全球首个具身智能安全基准发布，凸显大模型落地中的伦理与风险治理紧迫性。

AI安全隐私泄露具身智能模型越狱治理

2024-07-21

大模型安全与越狱风险

EPFL研究发现仅将提示改为过去时即可让GPT-4o等模型越狱成功率飙升至88%，暴露对齐脆弱性；Ilya离职创立“安全超级智能”公司SSI，强调超级智能临近亟需安全研究，引发业界对模型可控性的再思考。

模型越狱安全对齐 SSI Ilya 提示攻击

2024-07-19

AI 安全与越狱攻防

研究者发现“过去式”提示词可绕过 GPT-4o 等六大模型安全限制，OpenAI 超级对齐团队提出“证明者-验证者”博弈提升模型输出可读性与可验证性，凸显大模型在安全性、可解释性及对齐方面的持续挑战与前沿探索。

模型越狱超级对齐提示攻击安全对齐可读性