线性RNN - AI话题 - AI快开门

2024-09-01

Cerebras发布1800 tokens/s的Llama3.1 8B推理架构，速度较GPU提升20倍；Mamba作者把Llama3蒸馏成混合线性RNN，兼顾效率与效果。专用芯片+新型架构双轮驱动，推理成本有望再降一个量级，为大模型普及铺路。

# 线性RNN