AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
OneDiff
相关话题
2024-04-19
模型效率与推理优化
GPU短缺背景下,vLLM、OneDiff、MambaByte等新框架通过显存管理、编译优化及无Token化自回归等手段,显著降低大模型推理成本;产业界将“效率”视为与“参数”同等重要的核心竞争力,推动端侧部署与云边协同。
推理加速
vLLM
OneDiff
MambaByte
显存优化