AI快开门

发现最好的AI工具

2024-11-08

大模型效率与成本革命

NeurIPS 2024 Oral提出DuQuant 4-bit量化新SOTA,50秒完成7B模型压缩;无问芯穹MoA稀疏注意力长文本吞吐提升8倍;Meta免训练AdaCache让DiT视频生成快2.6倍,大模型“又快又小”成为新赛场。