可解释性 - AI话题

2025-12-23

AI安全与可解释性升温

OpenAI承认浏览器提示注入难根除，推出“忏悔机制”自曝模型黑料；谷歌DeepMind开源Gemma Scope 2提供全栈可解释工具，学界与业界同步聚焦大模型可控与对齐。

AI安全可解释性提示注入 Gemma Scope OpenAI

2025-12-16

大模型训练范式革新

CMU、Mamba作者等团队提出“压缩即智能”、无预训练76K小模型登ARC-AGI榜三，OpenAI开源99.9%稀疏模型，挑战堆数据、堆算力传统Scaling Law，揭示推理能力可脱离巨量预训练，为低算力、高可解释新路线奠基。

无预训练压缩即智能稀疏模型 Scaling Law 可解释性

2025-11-16

大模型可解释性与安全对齐

OpenAI重启“开放”节奏，发布可解释性新方法，让小模型透明化以窥视大模型内部机制；NeurIPS 2025同步聚焦量子-大模型交叉评测基准。研究侧正把“黑盒”问题拆解为可验证、可度量、可干预的工程任务，为AGI安全铺路。

可解释性超级对齐黑盒量子基准 NeurIPS

2025-11-15

多模态决策机制与3D视觉突破

研究首次揭示多模态大模型在冲突信息下“振荡”决策的内部机制，为提升可靠性提供理论依据；字节Depth Anything 3用极简自回归方案刷新3D视觉指标，获谢赛宁点赞，预示多模态技术正从性能走向可解释与高效。

多模态冲突可解释性 Depth Anything 3D视觉

2025-10-24

模型可解释与安全对齐突破

Meta提出CRV实现思维链92%错误检测，埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量，北航InSUR框架把3D语义攻击成功率提升119%，共同指向“让AI可被观测、可被攻击评估”的新阶段，为高可信AI落地提供方法论。

可解释性思维链可视化潜变量安全对齐对抗攻击

2025-09-06

大模型可解释与涌现机制

学界正把复杂性科学的多重分形、自组织理论引入大模型，试图量化“涌现”并打开黑箱；集智俱乐部与北大、清华团队已发布系统综述与读书会，为下一代可控、可信AI奠定方法论。

大模型可解释性涌现能力多重分形黑箱问题跨学科

2025-08-16

算法机制可解释进展

斯坦福CS25课程与最新研究用可解注意力模型揭示“思维切换”相变，为理解大模型推理、涌现与幻觉提供理论框架，有望指导更安全可控的模型设计。

可解释性注意力机制相变推理理论框架

2025-07-06

数据与模型可靠性

MIT 774页博士论文系统提出“可预测、可验证”机器学习设计原则，上海交大发布HERGAST破解超大规模空间转录组计算瓶颈，二者共同指向高可信AI的技术底座：数据可追溯、模型可解释、失效可预测，为医疗、自动驾驶等高风险场景铺路。

模型可靠性可解释性空间转录组失效预测高风险AI

2025-07-03

AI安全与治理热议

Bengio团队质疑CoT推理可解释性为“假象”，北邮研究指出长链推理加重幻觉，Science刊文呼吁全球合作引导AI“向善”，上海交大探索大模型可解释性，显示学界对AI可信性与极端风险的担忧升温，技术与治理需同步推进。

AI安全可解释性幻觉治理 CoT

2025-06-15

AI安全与可解释进展

多模态黑箱诊断工具可精准定位模型犯错源头；首次系统揭示大模型“可逆遗忘”规律，为隐私合规与机器遗忘提供理论支撑；美团成立外部算法顾问委员会，推动平台算法透明与骑手权益保护。

可解释性算法透明机器遗忘隐私安全模型诊断

2025-06-01

大模型可解释性突破

Anthropic与Claude团队相继开源“归因图”与“电路追踪”工具，把LLM内部运算可视化，支持节点级干预，帮助研究者像研究大脑一样剖析模型“脑回路”，为对齐、压缩与安全提供新抓手。

归因图电路追踪可解释性 LLM

2025-05-30

AI安全与可解释性

Anthropic开源“电路追踪”工具、阿里揭示供应链投毒风险、Zochi自动论文暴露大模型安全防线，显示AI可控性研究已走到台前，成为监管与产业共同关注的核心议题。

可解释性供应链安全模型投毒 AI安全自动科研

2025-05-24

推理模型可解释与可控性

新基准暴露GPT-4o文档理解短板，软推理方法降低token消耗并提升抽象能力，InternThinker首次打开围棋思维黑盒，显示业界正集中攻克大模型推理过程不透明、指令遵循率低等可控性难题，为可信AI与科学发现提供新路径。

可解释性思维链指令遵循软推理围棋

2025-05-18

模型可解释性危机

ChatGPT行为“舔狗化”暴露黑箱失控，谷歌10年可解释性研究仍无解，机制可解释性路线分歧撕裂学界，凸显AI安全与治理的紧迫性。

黑箱可解释性谷歌 Anthropic AI安全

2025-04-20

推理模型可解释性突破

Goodfire开源基于DeepSeek-R1的稀疏自编码器，首次把推理模型“黑箱”拆解为可观测特征，为幻觉、对齐、安全研究提供显微镜级工具；伯克利同期发现推理链可跳过仍保精度，双重冲击将重塑模型训练与评测范式。

可解释性稀疏自编码器推理链 DeepSeek 对齐

2025-04-02

AI安全与版权争议升温

OpenAI被曝未经授权使用O'Reilly付费书籍训练模型；英国智库建议放宽AI版权以维护跨大西洋合作；Anthropic用“AI显微镜”揭示Claude内部机制，行业在数据合规、模型可解释性与安全治理间寻找平衡。

AI版权数据合规模型可解释性 AI安全 Anthropic

2025-03-29

AI黑箱可解释突破

Anthropic 与 Claude 团队连续发布“电路追踪”与“AI 显微镜”方法，首次可视化大模型内部概念激活与推理路径，显著降低幻觉检测成本。该突破为对齐、安全监控与模型审计提供通用工具，被视作通往可信 AGI 的关键基础设施，预计快速被工业界采纳。

可解释性 Anthropic Claude 黑箱对齐

2025-02-08

o3思维链公开争议

OpenAI突然展示o3-mini“思维链”，被质疑仅展示摘要而非原始token，奥特曼承认“部分隐藏”引发信任危机；事件由DeepSeek竞争压力触发，标志业界对可解释性与商业机密平衡的新博弈。

OpenAI o3 思维链可解释性 DeepSeek

2025-02-07

o3思维链公开

OpenAI罕见展示o3-mini思维链，回应社区对可解释性的呼声，虽部分遮蔽但已标志闭源模型向透明化让步，业内认为DeepSeek开源压力是主因。

OpenAI o3 思维链可解释性

2024-09-19

AI for Science与脑模拟突破

复旦发布860亿神经元数字孪生脑平台，MIT提出可解释新架构助力科学发现，AlphaFold绘制病毒族谱揭示进化史，显示AI正向基础科学反向输出，成为破解大脑、生命与量子现象的新工具。

数字孪生脑 AI for Science AlphaFold 可解释性量子纠缠

AI快开门

发现最好的AI工具

# 可解释性