AI快开门

发现最好的AI工具

2025-06-02

大模型高效推理与量化

微软BitNet v2实现原生4bit量化几乎无损,Mamba作者提出Grouped-Tied Attention专为推理加速,两条路线同步把大模型部署成本砍半,为端侧和云端规模化落地扫清算力障碍,行业进入“低价高密”新阶段。