2026-01-10
科学计算Agent化提速
MIT、深势科技分别用“抄顶级模型作业”与“两AI互喷”思路,把5万开源科学工具一键部署可用率提升至95%,大幅降低科研门槛;同时MIT指出AI for Science仍处“死记硬背”阶段,呼吁统一表征而非堆算力,预示科研自动化从工具集成走向认知升级。
2025-12-30
端侧AI模型瘦身与离线部署
腾讯混元1.5、三星Exynos2600、WitNote等集中展示“模型压缩+端侧落地”路径:翻译、笔记、芯片级优化把大模型塞进手机与PC,无需联网即可运行,既降本又解决隐私与延迟痛点,标志着AI从云端走向普惠硬件的关键拐点。
2025-12-14
小模型高效革命
英伟达80亿参数Orchestrator以30%预算在困难任务获37%成绩,阶跃星辰8B框架解锁百万token测试时计算,苹果、OpenAI亦开源稀疏化小模型。通过“小脑指挥大脑”与动态推理,小参数模型在边缘与实时场景逼近大模型性能,显著降低算力与能耗门槛。
2025-12-11
中国模型轻量化与落地
北大提出2比特复数量化框架,手机端流畅运行大模型;阿里妈妈生成式召回模型为搜索广告带来8%营收增长;美图、美团、蚂蚁数科成立AI创新工作室或引入前字节大模型负责人,聚焦多模态、智能体及行业解决方案。国产模型在压缩效率、场景落地、人才流动上形成闭环,加速边缘部署与商业变现。
2025-10-18
轻量化模型与端侧OCR
百度0.9B PaddleOCR-VL横扫4项SOTA并登顶Hugging Face,证明“小模型+多模态”在文档解析场景已可替代大模型,实现PC级本地部署。端侧轻量化趋势将降低开发者门槛,推动OCR、文档理解在政企、教育、金融场景快速渗透。
2025-10-05
推理效率优化新进展
Meta提出新方法将大模型思维链推理token减少46%,显著降低长链推理成本,为端侧部署和实时应用打开空间。
2025-09-27
多模态与推理效率优化
华为诺亚ViSpec实现多模态大模型推理3.2倍加速;谷歌DeepMind让机器人具备“思考”能力,推理侧硬件需求骤降。算法级优化正打破“堆卡”迷信,为端侧部署与实时应用打开空间,推动大模型从云端走向边缘。
2025-09-10
端侧Agent与开源工具链
上海交大开源MobiAgent全栈工具链,实现手机端个人助手本地部署,性能宣称超越GPT-5;清华开源GUAVA 0.1秒照片转3D数字人。标志着端侧智能体进入“人人可炼”阶段,降低开发者门槛,加速AI应用碎片化落地。
2025-08-26
国产多模态大模型爆发
阿里国际Ovis2.5、通义万相Wan 2.2、面壁MiniCPM-V4.5、DeepSeek-V3.1等国产多模态模型密集发布,在视觉推理、视频音频同步、端侧部署等方向刷新SOTA,标志国产大模型进入“多模态+垂直场景”深水区,为AI原生应用奠定新基座。
2025-08-17
大模型轻量化与量化突破
北大提出首个复数域2比特大模型iFairy,把权重压缩到1/8且推理仅需加减法,手机可跑;Meta开源70亿参数DINOv3,自监督视觉模型刷新SOTA。两者共同标志“大模型小型化”进入实用拐点,为端侧部署、低成本落地打开空间。
2025-08-16
端侧超小模型爆发
谷歌开源0.27B Gemma 3、4B Jan-v1等“小钢炮”模型,可在浏览器或手机本地运行,性能对标数十亿参数大模型,标志端侧AI进入实用阶段,将重塑移动应用、IoT与隐私计算生态。
2025-08-15
超小模型端侧爆发
谷歌Gemma 3 270M、西班牙“苍蝇脑”94M、国产MoE等<1B参数模型密集开源,可在手机/手表/家电离线流畅运行,标志端侧AI进入“轻量可用”阶段,将重塑IoT与消费电子成本结构。
2025-06-27
开源多模态小模型潮
谷歌Gemma 3n、腾讯混元-A13B、北大RewardAnything等密集开源,2B-13B参数即可本地部署,多模态+工具调用+长文本能力逼近云端大模型,标志“边缘AI”进入可用阶段,降低开发者门槛,催化端侧应用爆发。
2025-06-03
AI推理加速新框架
英伟达联合MIT、港大推出Fast-dLLM,通过稀疏激活与并行调度把大模型推理速度提升27倍,显著降低延迟与算力成本,为端侧部署和实时交互打开新空间。
2025-06-02
大模型高效推理与量化
微软BitNet v2实现原生4bit量化几乎无损,Mamba作者提出Grouped-Tied Attention专为推理加速,两条路线同步把大模型部署成本砍半,为端侧和云端规模化落地扫清算力障碍,行业进入“低价高密”新阶段。
2025-05-05
小模型推理革命
微软Phi-4系列以≤14B参数实现媲美甚至超越大模型的数学与推理表现,3.8B版本即可击败DeepSeek-R1蒸馏8B,宣告“本地可跑”的高性能时代到来,将重塑端侧AI、边缘部署与成本结构,引发模型瘦身与高效训练新赛道。
2025-05-02
超长上下文与高效推理突破
英伟达与UIUC把Llama上下文扩至400万token创SOTA;微软Phi-4系列以小参数量逼近GPT-4o推理表现;LoRA冗余研究称可剪枝95%参数不降性能,推动端侧与低成本部署。
2025-04-23
端侧与行业大模型落地
宝马在华新车植入DeepSeek,东风发布“天元智能”,中关村科金+华为云推行业大模型解决方案,显示大模型正从云端走向汽车、制造、医疗等垂直场景,边缘部署与私有化需求爆发,带动芯片、安全、合规新市场。
2025-04-10
开源代码模型竞速
Llama-4、Nemotron-253B、DeepCoder-14B、Cogito-v1等开源代码/推理模型相继上线,性能对标OpenAI o1/o3,参数效率与推理速度刷新SOTA,推动“本地部署+低成本微调”成为开发者新默认。
2025-04-06
端侧与推荐模型新进展
中科大&华为发布生成式推荐大模型,可在昇腾NPU端侧高效部署,公开完整认知框架;英伟达开源双目深度估计大模型FoundationStereo获CVPR满分,推动机器人与AR/VR端侧感知能力升级。