AI快开门

发现最好的AI工具

2026-01-13

扩散模型并行推理革新

腾讯微信AI团队提出WeDLM,首次用因果注意力重构扩散语言模型,兼容KV缓存,实现并行生成与高效推理兼得,突破GPT类自回归模型速度瓶颈,为大模型端侧部署提供新范式。
2025-06-17

模型架构与推理优化

谷歌承认Transformer注意力机制瓶颈,计划重写架构;R-KV把KV Cache压至10%无损推理;CMU&英伟达Multiverse实现原生并行出token;多路径创新共同追求更长上下文、更低功耗、更高吞吐。
2024-11-10

超长上下文技术突破

清华、厦大等提出LLMxMapReduce框架,让Llama、Qwen等主流模型实现“无限长”上下文,百万token大海捞针全召回,为长文档理解、法律、金融等场景扫清记忆瓶颈。