2026-01-06
大模型开源与推理新范式
DeepSeek-R1、Falcon H1R 7B、华为openPangu-VL-7B等轻量级开源模型轮番登顶榜单,以7B-30B参数实现千亿级性能,打破“唯规模论”;字节DLCM、清华LingoEDU提出概念级推理与结构化预处理,准确率最高提升51%,推动低成本、高可靠的行业微调落地,开源生态进入“小而强”时代。
2025-12-30
端侧AI模型瘦身与离线部署
腾讯混元1.5、三星Exynos2600、WitNote等集中展示“模型压缩+端侧落地”路径:翻译、笔记、芯片级优化把大模型塞进手机与PC,无需联网即可运行,既降本又解决隐私与延迟痛点,标志着AI从云端走向普惠硬件的关键拐点。
2025-05-28
国产超大规模模型与算力突围
中石油3000亿参数昆仑大模型、华为昇腾72B MoE盘古大模型相继亮相,叠加北大5%参数比肩DeepSeek-R1的FairyR1-32B,显示国产模型在参数规模、效率优化和垂直场景(能源)上集体突破,配合华为Pangu Light框架打破“剪枝降智”魔咒,标志国产算力-模型协同进入新阶段。
2025-04-28
模型压缩与推理优化
莱斯大学DFloat11实现30%无损压缩且推理速度最高提升39倍,字节QuaDMix统一数据质量与多样性框架,ChatDLM提出扩散式语言模型新架构,共同指向大模型“瘦身”与“提速”成为继Scaling Law之后的新赛场,降低端侧与中小企业部署门槛。
2024-11-17
大模型训练与推理效率提升
谷歌DeepMind提出过程奖励模型PRM+PAV,将数学推理准确率提升8%;同时“删除冗余token”策略让视频大模型训练时间减少30%,显示后训练与模型压缩正成为性能与成本优化关键路径。
2024-10-10
模型效率与架构创新
清华&微软Differential Transformer将注意力精度提升30%,NeurIPS 2024 SparseLLM实现全局剪枝,MIT SciAgents自动科研,多路研究共探大模型降本增效与科学发现自动化。
2024-08-21
AI模型降本与开源趋势
行业正在推动AI模型的小型化和成本优化,英伟达推出4B参数Llama-3.1-Minitron,谷歌每日赠送15亿Token,OpenAI免费开放GPT-4o微调。同时HuggingFace发布机器人开源指南,多模态评测框架lmms-eval开源。这些举措将加速AI技术的民主化进程。
2024-08-08
AI硬件与终端落地
清华太极-II光训练芯片、面壁端侧多模态、360 AI浏览器、汉王新品等集中发布,显示“大模型+硬件”进入规模落地期,终端算力与模型压缩技术成熟,推动AI向边缘与消费级场景渗透。
2024-08-04
大模型压缩与高效推理
Llama 3.1 405B被压缩至单卡80 GB可跑,GitHub向1亿开发者开放顶级模型API,显示“大模型瘦身”与“普惠化”同步加速,将显著降低算力门槛、刺激应用爆发。
2024-08-03
模型小型化与端侧部署
Google发布仅2.6B参数的Gemma 2 2B并配套ShieldGemma安全分类器,加上行业人士关于“大模型重走CNN瘦身老路”的讨论,显示高效小模型正成为端侧、边缘及低成本场景的新焦点。
2024-08-02
大模型压缩与端侧部署
LLMC、Gemma 2 2B等工具与模型让405B参数大模型可在单卡甚至iPhone上运行,CPU服务器也能跑千亿模型,显著降低硬件门槛,推动大模型在边缘与中小企业的普及。
2024-07-29
端侧小模型与硬件创新
Meta发布350M MobileLLM,性能比肩7B Llama-v2;英特尔推出百米级光学互连芯片,突破GPU扩展瓶颈;SpinQuant等压缩技术助力大模型上车、上手机,边缘AI进入实用快车道。
2024-07-19
GPT-4o mini 轻量模型潮
OpenAI 发布 GPT-4o mini,API 降价 60%,性能与速度兼顾,引发轻量级大模型竞赛;微软 Azure、Mistral-NVIDIA 12B 等迅速跟进,降低门槛、加速端侧与低成本应用落地,成为 2024 年模型降本增效风向标。
2024-07-02
模型效率与架构革新
韩国团队提出拆分注意力机制的Transformer新架构,解码提速20倍;北大&腾讯等通过医疗持续预训练将8B模型推至GPT-4级性能;LayerNorm非线性表达研究挑战传统激活函数。后训练优化与高效架构成为降低算力门槛、推动端侧及垂直场景落地的关键。
2024-06-19
具身智能与机器人数据缺口
CVPR 2024具身智能成最热赛道,黄仁勋预言物理AI下一浪潮,但高质量机器人训练数据极度稀缺;北航等提出无需训练压缩Diffusion新方法,为端侧部署提供可能,硬件+算法+数据三角开始受资本追捧。
2024-06-11
模型效率与架构创新
Yandex开源LLM训练工具节省20%GPU;研究提出无矩阵乘法LLM,10亿参数FPGA推理逼近大脑功耗;神经架构搜索给大模型瘦身反而提升精度,反映行业在算力紧缺背景下对高效训练与边缘部署的迫切需求。
2024-06-10
模型压缩与能效革新
港大、北航等提出BiLLM方法,将大模型参数压缩至1.1 bit,在IEEE获评为“解决AI能源需求”的关键进展; Northwestern博士论文系统阐述多级智能体建模,为城市、医疗等复杂系统提供低耗高效决策支持。极致压缩与高效建模双轨并进,助力大模型可持续落地。
2024-04-24
端侧小模型爆发
微软Phi-3系列以3.8B参数在手机端跑出ChatGPT级能力,引爆“边缘AI”赛道;OpenAI、谷歌同步加码,标志大模型轻量化进入可用阶段,将重塑移动应用、IoT与隐私计算格局。
2024-04-21
终端侧生成式AI崛起
高通高管在中国AIGC产业峰会宣称“终端侧生成式AI时代已经来临”。随着芯片算力提升与模型压缩技术成熟,手机、PC、汽车等本地设备运行大模型成为新赛道,将推动低延迟、隐私友好的AI应用快速普及并重塑硬件生态。
2024-03-12
字节级原生模型与极限压缩
微软亚研发布bGPT,直接对二进制字节建模,CPU行为预测准确率99.99%,无需token化;清华&哈工大OneBit框架把大模型压至1 bit、体积缩水90%仍保留83%能力。一端走向“原生数据”,一端走向“极限瘦身”,大模型部署范式双轨革新。