AI快开门

发现最好的AI工具

2025-08-02

具身智能安全与评测

北航等机构发布全球首个具身智能安全评测基准,显示GPT-4o等被越狱后可指挥机器人执行危险动作;同时MCTD、VLA驾驶等决策算法取得突破,凸显“能力越强、风险越大”的紧迫安全需求。
2025-07-21

版权与安全治理升级

Anthropic遭作家集体诉讼,指控盗用百万本书训练Claude;谷歌发布Backstory工具溯源图像真伪;多模态大模型被发现具备“内心预警”可识别越狱攻击,显示AI版权、安全与可信问题成为全球监管与产业焦点。
2025-02-18

AI安全与治理

Hinton公开抨击西方忽视AI风险,Anthropic悬赏2万美元测Claude防越狱,欧盟推进生成式AI伦理监管,行业呼吁平衡创新与安全。
2024-11-01

AI安全与治理

拜登签署首份 AI 国家安全备忘录,欧盟 AI 法规深度解析,NeurIPS’24 提出 JailTrackBench 越狱新基准,Patronus 发布自助幻觉检测 API,全球政产学研合力构建可信 AI 防线。
2024-07-30

AI安全与治理升级

美英欧联合声明力促AI竞争,美商务部支持开放模型但要求强化风险监控;Meta AI被“空格”提示轻松越狱,阿联酋G42遭美议员质疑,显示大模型能力越大安全与监管挑战越紧迫。
2024-04-04

长上下文安全漏洞

Anthropic 连续披露「Many-shot Jailbreaking」攻击:利用超长上下文窗口,通过数百轮对话诱导 GPT-4、Claude 等主流模型绕过安全限制,生成违禁内容甚至炸弹教程。该漏洞揭示上下文长度与安全鲁棒性存在负相关,为行业敲响警钟,倒逼模型厂商在扩展窗口的同时重构对齐策略。
2024-04-03

长上下文安全与评测新方法

Anthropic、斯坦福与腾讯相继曝光“长上下文越狱”风险:Claude、GPT-4、Llama-2在长提示下均被诱导泄露敏感信息;腾讯提出“数星星”评测法替代“大海捞针”,更精准衡量模型长依赖能力。长文本既是产品卖点也是安全软肋,催生新的评测与防护标准,将直接影响大模型商业可信度和合规节奏。