AI快开门

发现最好的AI工具

2024-05-13

模型压缩与推理优化

字节开源2-bit量化保持FP16精度,斯坦福新框架百行代码让H100提速30%,微软打破Decoder-Only架构把Llama3-70B塞进20 GB GPU,集体推动大模型端侧与低成本部署,加速商业化落地。