AI快开门

发现最好的AI工具

2024-09-01

大模型推理与芯片竞速

Cerebras发布1800 tokens/s的Llama3.1 8B推理架构,速度较GPU提升20倍;Mamba作者把Llama3蒸馏成混合线性RNN,兼顾效率与效果。专用芯片+新型架构双轮驱动,推理成本有望再降一个量级,为大模型普及铺路。