2025-10-25
Transformer架构颠覆
Meta发布“自由Transformer”打破8年自注意力铁律,模型首次具备“潜意识”打腹稿能力;同时Transformer作者Llion Jones公开批评领域僵化。双重信号预示大模型底层架构进入换代窗口,可能重塑训练范式与硬件需求。
2025-08-16
算法机制可解释进展
斯坦福CS25课程与最新研究用可解注意力模型揭示“思维切换”相变,为理解大模型推理、涌现与幻觉提供理论框架,有望指导更安全可控的模型设计。
2025-07-08
模型架构与训练效率革新
清华SageAttention3实现5倍注意力提速,循环模型500步突破256k长度泛化,基于能量Transformer提升35%性能,后训练与量化技术成为缓解算力瓶颈的关键路径。
2025-06-19
模型效率与数据优化
谷歌DataRater自动筛除75%低质数据,弗吉尼亚理工LensLLM选型框架降本90%,普林斯顿&Meta线性注意力机制提速15倍,共同指向“更少数据、更低算力、更高性能”的新训练范式。
2025-06-08
后Transformer架构革新
谷歌提出“注意力+保留门”新架构,清华团队三连击改进注意力机制,参数减少40%、训练速度提升5-8倍,显示Transformer统治地位首次遭遇系统性挑战,底层范式换代窗口已开启。
2025-06-02
大模型高效推理与量化
微软BitNet v2实现原生4bit量化几乎无损,Mamba作者提出Grouped-Tied Attention专为推理加速,两条路线同步把大模型部署成本砍半,为端侧和云端规模化落地扫清算力障碍,行业进入“低价高密”新阶段。
2025-01-16
长序列架构革新
谷歌Titans、MiniMax Lightning Attention、姚期智团队TPA等新架构通过引入长期记忆、动态张量分解或线性注意力,把上下文窗口推高至400万token,同时显存降低90%,为长文档、多轮对话及科学计算打开新空间。
2024-11-03
大模型推理效率突破
中科大提出Ada-KV自适应缓存压缩,微软清华借降噪思路升级注意力,RAG引入块状注意力,显著降低延迟与显存,为千亿级模型落地铺平道路。
2024-10-10
模型效率与架构创新
清华&微软Differential Transformer将注意力精度提升30%,NeurIPS 2024 SparseLLM实现全局剪枝,MIT SciAgents自动科研,多路研究共探大模型降本增效与科学发现自动化。
2024-05-27
Transformer架构再进化
DCFormer、OmniGlue、傅立叶微调等多项ICML 2024研究提出对Transformer注意力、微调与匹配模块的创新改造,显著降低算力或提升泛化,为下一代大模型降本增效提供新路径。
2024-01-18
模型效率与部署优化
AMC 自动压缩、Lightning Attention-2、DCNv4 等新技术在 CNN 与 Transformer 上实现 40% 无损加速、无限序列长度恒定算力、显存占用减半,为大模型端侧落地与实时应用铺平道路。