2025-12-07
Scaling终结与架构革新
Ilya、LeCun等顶尖学者公开宣告“纯靠堆参数”的Scaling Law进入收益递减期,行业开始转向原生多模态、视频推理、酶设计等新架构。NEO、Sora2、RFdiffusion2等模型验证“小算力+聪明结构”可超越传统大模型,标志AI研发范式从“越大越好”迈入“越巧越好”的新阶段,对芯片需求、创业路径和投资逻辑产生连锁冲击。
2025-10-31
线性注意力架构革新
月之暗面Kimi Linear、智源Emu3.5等相继开源线性注意力或多模态世界模型,KV缓存降低75%、推理速度提升6倍,首次在性能上超越传统全注意力,标志着大模型架构从“平方代价”向“线性扩展”的关键拐点,为端侧部署与实时交互打开新空间。
2025-06-17
模型架构与推理优化
谷歌承认Transformer注意力机制瓶颈,计划重写架构;R-KV把KV Cache压至10%无损推理;CMU&英伟达Multiverse实现原生并行出token;多路径创新共同追求更长上下文、更低功耗、更高吞吐。
2025-04-04
Transformer架构革新与多Token注意力
Meta FAIR提出多Token注意力(MTA)一次关注多线索,将简单任务错误率压至近0;同期谷歌Gemini 2.5 Pro换帅加速迭代,国产即梦3.0亦借MTA思路登顶中文海报生成。注意力机制从“单点”到“多焦”演进,有望重塑大模型基础架构。
2025-03-14
大模型架构革新
何恺明、LeCun等团队提出无归一化Transformer,用9行代码替代LayerNorm,性能不降反升;同时出现SCoT动态推理链、TokenSwift长文本3×加速等底层创新,标志着大模型效率与泛化能力进入新阶段。
2024-04-18
大模型架构革新
Megalodon、Diffusion-LM等新架构接连出现,试图打破Transformer在超长上下文、文本生成等方面的垄断,标志着后Transformer探索进入实质验证阶段,对算力效率与模型能力上限有潜在颠覆意义。