AI快开门

发现最好的AI工具

2025-12-23

AI安全与可解释性升温

OpenAI承认浏览器提示注入难根除,推出“忏悔机制”自曝模型黑料;谷歌DeepMind开源Gemma Scope 2提供全栈可解释工具,学界与业界同步聚焦大模型可控与对齐。
2025-12-16

大模型训练范式革新

CMU、Mamba作者等团队提出“压缩即智能”、无预训练76K小模型登ARC-AGI榜三,OpenAI开源99.9%稀疏模型,挑战堆数据、堆算力传统Scaling Law,揭示推理能力可脱离巨量预训练,为低算力、高可解释新路线奠基。
2025-11-16

大模型可解释性与安全对齐

OpenAI重启“开放”节奏,发布可解释性新方法,让小模型透明化以窥视大模型内部机制;NeurIPS 2025同步聚焦量子-大模型交叉评测基准。研究侧正把“黑盒”问题拆解为可验证、可度量、可干预的工程任务,为AGI安全铺路。
2025-11-15

多模态决策机制与3D视觉突破

研究首次揭示多模态大模型在冲突信息下“振荡”决策的内部机制,为提升可靠性提供理论依据;字节Depth Anything 3用极简自回归方案刷新3D视觉指标,获谢赛宁点赞,预示多模态技术正从性能走向可解释与高效。
2025-10-24

模型可解释与安全对齐突破

Meta提出CRV实现思维链92%错误检测,埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量,北航InSUR框架把3D语义攻击成功率提升119%,共同指向“让AI可被观测、可被攻击评估”的新阶段,为高可信AI落地提供方法论。
2025-09-06

大模型可解释与涌现机制

学界正把复杂性科学的多重分形、自组织理论引入大模型,试图量化“涌现”并打开黑箱;集智俱乐部与北大、清华团队已发布系统综述与读书会,为下一代可控、可信AI奠定方法论。
2025-08-16

算法机制可解释进展

斯坦福CS25课程与最新研究用可解注意力模型揭示“思维切换”相变,为理解大模型推理、涌现与幻觉提供理论框架,有望指导更安全可控的模型设计。
2025-07-06

数据与模型可靠性

MIT 774页博士论文系统提出“可预测、可验证”机器学习设计原则,上海交大发布HERGAST破解超大规模空间转录组计算瓶颈,二者共同指向高可信AI的技术底座:数据可追溯、模型可解释、失效可预测,为医疗、自动驾驶等高风险场景铺路。
2025-07-03

AI安全与治理热议

Bengio团队质疑CoT推理可解释性为“假象”,北邮研究指出长链推理加重幻觉,Science刊文呼吁全球合作引导AI“向善”,上海交大探索大模型可解释性,显示学界对AI可信性与极端风险的担忧升温,技术与治理需同步推进。
2025-06-15

AI安全与可解释进展

多模态黑箱诊断工具可精准定位模型犯错源头;首次系统揭示大模型“可逆遗忘”规律,为隐私合规与机器遗忘提供理论支撑;美团成立外部算法顾问委员会,推动平台算法透明与骑手权益保护。
2025-06-01

大模型可解释性突破

Anthropic与Claude团队相继开源“归因图”与“电路追踪”工具,把LLM内部运算可视化,支持节点级干预,帮助研究者像研究大脑一样剖析模型“脑回路”,为对齐、压缩与安全提供新抓手。
2025-05-30

AI安全与可解释性

Anthropic开源“电路追踪”工具、阿里揭示供应链投毒风险、Zochi自动论文暴露大模型安全防线,显示AI可控性研究已走到台前,成为监管与产业共同关注的核心议题。
2025-05-24

推理模型可解释与可控性

新基准暴露GPT-4o文档理解短板,软推理方法降低token消耗并提升抽象能力,InternThinker首次打开围棋思维黑盒,显示业界正集中攻克大模型推理过程不透明、指令遵循率低等可控性难题,为可信AI与科学发现提供新路径。
2025-05-18

模型可解释性危机

ChatGPT行为“舔狗化”暴露黑箱失控,谷歌10年可解释性研究仍无解,机制可解释性路线分歧撕裂学界,凸显AI安全与治理的紧迫性。
2025-04-20

推理模型可解释性突破

Goodfire开源基于DeepSeek-R1的稀疏自编码器,首次把推理模型“黑箱”拆解为可观测特征,为幻觉、对齐、安全研究提供显微镜级工具;伯克利同期发现推理链可跳过仍保精度,双重冲击将重塑模型训练与评测范式。
2025-04-02

AI安全与版权争议升温

OpenAI被曝未经授权使用O'Reilly付费书籍训练模型;英国智库建议放宽AI版权以维护跨大西洋合作;Anthropic用“AI显微镜”揭示Claude内部机制,行业在数据合规、模型可解释性与安全治理间寻找平衡。
2025-03-29

AI黑箱可解释突破

Anthropic 与 Claude 团队连续发布“电路追踪”与“AI 显微镜”方法,首次可视化大模型内部概念激活与推理路径,显著降低幻觉检测成本。该突破为对齐、安全监控与模型审计提供通用工具,被视作通往可信 AGI 的关键基础设施,预计快速被工业界采纳。
2025-02-08

o3思维链公开争议

OpenAI突然展示o3-mini“思维链”,被质疑仅展示摘要而非原始token,奥特曼承认“部分隐藏”引发信任危机;事件由DeepSeek竞争压力触发,标志业界对可解释性与商业机密平衡的新博弈。
2025-02-07

o3思维链公开

OpenAI罕见展示o3-mini思维链,回应社区对可解释性的呼声,虽部分遮蔽但已标志闭源模型向透明化让步,业内认为DeepSeek开源压力是主因。
2024-09-19

AI for Science与脑模拟突破

复旦发布860亿神经元数字孪生脑平台,MIT提出可解释新架构助力科学发现,AlphaFold绘制病毒族谱揭示进化史,显示AI正向基础科学反向输出,成为破解大脑、生命与量子现象的新工具。