2025-07-25
AI编程与科学计算新范式
阿里Qwen3-Coder登顶代码榜,南洋理工多token预测微调编程准确率提升11.67%,北航OmniArch求解11类PDE,微软BioEmu加速蛋白质模拟10万倍,显示AI在科研与工程计算中正形成“模型即实验”的新范式。
2025-04-04
Transformer架构革新与多Token注意力
Meta FAIR提出多Token注意力(MTA)一次关注多线索,将简单任务错误率压至近0;同期谷歌Gemini 2.5 Pro换帅加速迭代,国产即梦3.0亦借MTA思路登顶中文海报生成。注意力机制从“单点”到“多焦”演进,有望重塑大模型基础架构。
2024-06-04
大模型架构革新
Mamba-2、DCFormer等新架构在训练效率与性能上挑战Transformer;Meta多token训练将推理提速3倍,上下文学习研究探索无需微调的新范式,推动大模型底层技术进入新一轮迭代。
2024-05-04
多Token预测提速大模型
Meta法国团队提出一次并行预测多个Token的新训练目标,13B模型在HumanEval与MBPP编程 benchmark 上分别提升12%与17%,推理速度提高3倍,为低成本加速大模型推理提供新思路。
2024-05-03
模型架构新探索
Transformer核心组件MLP遭遇KAN挑战,Meta推出一次预测多token的编程模型实现3倍推理加速,显示基础架构仍在快速迭代,潜在重塑未来大模型计算效率与扩展范式。