AI快开门

发现最好的AI工具

2025-11-16

大模型可解释性与安全对齐

OpenAI重启“开放”节奏,发布可解释性新方法,让小模型透明化以窥视大模型内部机制;NeurIPS 2025同步聚焦量子-大模型交叉评测基准。研究侧正把“黑盒”问题拆解为可验证、可度量、可干预的工程任务,为AGI安全铺路。
2024-05-26

大模型安全与治理

中美同步推进AI大模型出口管制与国内立法,Science刊文警示极端风险,Anthropic首次“打开”Claude黑盒,可解释性突破为安全对齐提供新工具,标志全球进入“强监管+技术治理”双轨阶段。