并行推理 - AI话题

2026-01-13

腾讯微信AI团队提出WeDLM，首次用因果注意力重构扩散语言模型，兼容KV缓存，实现并行生成与高效推理兼得，突破GPT类自回归模型速度瓶颈，为大模型端侧部署提供新范式。

2025-06-17

谷歌承认Transformer注意力机制瓶颈，计划重写架构；R-KV把KV Cache压至10%无损推理；CMU&英伟达Multiverse实现原生并行出token；多路径创新共同追求更长上下文、更低功耗、更高吞吐。

2024-11-10

清华、厦大等提出LLMxMapReduce框架，让Llama、Qwen等主流模型实现“无限长”上下文，百万token大海捞针全召回，为长文档理解、法律、金融等场景扫清记忆瓶颈。

AI快开门