AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
线性RNN
相关话题
2024-09-01
大模型推理与芯片竞速
Cerebras发布1800 tokens/s的Llama3.1 8B推理架构,速度较GPU提升20倍;Mamba作者把Llama3蒸馏成混合线性RNN,兼顾效率与效果。专用芯片+新型架构双轮驱动,推理成本有望再降一个量级,为大模型普及铺路。
Cerebras
推理加速
芯片
线性RNN
Llama3