AI快开门

发现最好的AI工具

2025-10-05

蛋白质语言模型可解释突破

InterPLM利用稀疏自编码器从ESM-2表示中提取数万个人类可读特征,首次揭示PLM以“叠加”方式编码结合位点、结构基序等概念,为药物设计提供可解释基石。
2025-04-20

推理模型可解释性突破

Goodfire开源基于DeepSeek-R1的稀疏自编码器,首次把推理模型“黑箱”拆解为可观测特征,为幻觉、对齐、安全研究提供显微镜级工具;伯克利同期发现推理链可跳过仍保精度,双重冲击将重塑模型训练与评测范式。
2024-06-07

AI可解释性与安全对齐进展

OpenAI联合Ilya发布GPT-4稀疏自编码器,提取1600万可解释特征;复旦郑骁庆团队用表征工程实现攻击防御与人类偏好对齐,显示大模型“黑盒”正被逐步打开,为AI安全、合规及监管提供关键技术支撑。