稀疏自编码器 - AI话题 - AI快开门

2025-10-05

蛋白质语言模型可解释突破

InterPLM利用稀疏自编码器从ESM-2表示中提取数万个人类可读特征，首次揭示PLM以“叠加”方式编码结合位点、结构基序等概念，为药物设计提供可解释基石。

蛋白质语言模型稀疏自编码器可解释AI 叠加假说药物设计

2025-04-20

推理模型可解释性突破

Goodfire开源基于DeepSeek-R1的稀疏自编码器，首次把推理模型“黑箱”拆解为可观测特征，为幻觉、对齐、安全研究提供显微镜级工具；伯克利同期发现推理链可跳过仍保精度，双重冲击将重塑模型训练与评测范式。

可解释性稀疏自编码器推理链 DeepSeek 对齐

2024-06-07

AI可解释性与安全对齐进展

OpenAI联合Ilya发布GPT-4稀疏自编码器，提取1600万可解释特征；复旦郑骁庆团队用表征工程实现攻击防御与人类偏好对齐，显示大模型“黑盒”正被逐步打开，为AI安全、合规及监管提供关键技术支撑。

可解释性稀疏自编码器表征工程 AI安全对齐