2025-10-05
蛋白质语言模型可解释突破
InterPLM利用稀疏自编码器从ESM-2表示中提取数万个人类可读特征,首次揭示PLM以“叠加”方式编码结合位点、结构基序等概念,为药物设计提供可解释基石。
2025-04-20
推理模型可解释性突破
Goodfire开源基于DeepSeek-R1的稀疏自编码器,首次把推理模型“黑箱”拆解为可观测特征,为幻觉、对齐、安全研究提供显微镜级工具;伯克利同期发现推理链可跳过仍保精度,双重冲击将重塑模型训练与评测范式。