2025-04-20
推理模型可解释性突破
Goodfire开源基于DeepSeek-R1的稀疏自编码器,首次把推理模型“黑箱”拆解为可观测特征,为幻觉、对齐、安全研究提供显微镜级工具;伯克利同期发现推理链可跳过仍保精度,双重冲击将重塑模型训练与评测范式。
2025-03-14
大模型架构革新
何恺明、LeCun等团队提出无归一化Transformer,用9行代码替代LayerNorm,性能不降反升;同时出现SCoT动态推理链、TokenSwift长文本3×加速等底层创新,标志着大模型效率与泛化能力进入新阶段。