多token - AI话题 - AI快开门

2025-07-25

阿里Qwen3-Coder登顶代码榜，南洋理工多token预测微调编程准确率提升11.67%，北航OmniArch求解11类PDE，微软BioEmu加速蛋白质模拟10万倍，显示AI在科研与工程计算中正形成“模型即实验”的新范式。

2025-04-04

Meta FAIR提出多Token注意力（MTA）一次关注多线索，将简单任务错误率压至近0；同期谷歌Gemini 2.5 Pro换帅加速迭代，国产即梦3.0亦借MTA思路登顶中文海报生成。注意力机制从“单点”到“多焦”演进，有望重塑大模型基础架构。

2024-06-04

Mamba-2、DCFormer等新架构在训练效率与性能上挑战Transformer；Meta多token训练将推理提速3倍，上下文学习研究探索无需微调的新范式，推动大模型底层技术进入新一轮迭代。

2024-05-04

Meta法国团队提出一次并行预测多个Token的新训练目标，13B模型在HumanEval与MBPP编程 benchmark 上分别提升12%与17%，推理速度提高3倍，为低成本加速大模型推理提供新思路。

2024-05-03

Transformer核心组件MLP遭遇KAN挑战，Meta推出一次预测多token的编程模型实现3倍推理加速，显示基础架构仍在快速迭代，潜在重塑未来大模型计算效率与扩展范式。

# 多token