2024-06-05
Mamba-2架构突破
普林斯顿与CMU团队发布Mamba-2,用统一数学框架将Transformer与SSM合二为一,状态空间扩大8倍、训练提速50%,为后Transformer时代提供新基座,可能重塑大模型底层架构。
2024-06-04
大模型架构革新
Mamba-2、DCFormer等新架构在训练效率与性能上挑战Transformer;Meta多token训练将推理提速3倍,上下文学习研究探索无需微调的新范式,推动大模型底层技术进入新一轮迭代。