近期多模态大模型在视觉理解、视频生成、3D建模等方向密集突破:港大-英伟达高分辨率视觉注意力提速84倍,小红书开源1420亿参数“dots.llm1”,谷歌Veo 3一键生成360° 3D视频,Direct3D-S2以8卡GPU实现影视级3D开源。技术簇呈现“高质量+高效率+开源”趋势,将显著降低内容创作与具身智能门槛,推动XR、机器人和设计工业落地。
大模型数学推理7个月内从2%提至22%,超越人类平均;o3-mini-high被曝靠直觉破解顶尖难题,14位数学家集体评估。同时,Time-R1用三阶段强化学习让3B小模型时间推理反超671B大模型,浙大InftyThink实现“思维分段”无限深度推理。研究揭示模型可自发形成类脑概念地图,为迈向AGI提供认知机制线索。
“小模型+高效推理”成为新赛道:清华&面壁0.5B模型端侧SOTA,4090可跑;Adobe单卡4090实现实时视频生成;港科大-快手进化搜索让小模型作画媲美大模型;Prot42仅依赖序列即可8k长程建模蛋白质。低算力需求+本地部署,将加速AI在移动、IoT、生物设计等场景渗透。
苹果WWDC25发布Xcode 26内置ChatGPT、开放本地Foundation Models、Spotlight升级为AI操作平台,但万众期待的AI Siri缺席。端侧模型全面开放意味着iOS生态将迎第三方AI应用爆发,而Siri跳票显示苹果在对话Agent领域仍落后于OpenAI/Google,市场反应股价6分钟蒸发750亿。
银河通用Galbot亮相北京智源大会,全球首个零售VLA大模型OpenWBT开源;理想汽车成立两大机器人部门瞄准车载生态;XRobotics比萨机器人月产2.5万张;北大-伯克利新基准揭示最强Agent仅40分。技术+场景双轮推动,零售、餐饮、汽车成为具身智能率先规模化的试验田。
Meta拟百亿美元投资Scale AI创私募融资纪录;亚马逊200亿美元扩建宾州数据中心;硅基流动再获数亿元A轮,阿里云领投;ChatGPT年收入破百亿。大厂与独角兽同步加码算力、数据与平台,巩固云+模型+应用全栈优势,行业进入“资本+生态”双轮驱动的寡头竞争阶段。