【概览】
6月10日,AI领域呈现“生成”与“理解”双螺旋突破:多模态大模型在视觉、视频、3D方向集体提速并走向开源,推理模型七个月内把数学难题正确率从2%拉到22%,端侧小模型以0.5B参数拿下消费级显卡SOTA。资本端百亿美元级融资与200亿美元数据中心扩建同步落地,行业进入“模型即基础设施”的寡头竞速时代。
01 | 多模态大模型技术突破
港大与英伟达将高分辨率视觉注意力提速84倍,小红书开源1420亿参数“dots.llm1”,谷歌Veo 3一键生成360° 3D视频,Direct3D-S2用8块GPU实现影视级3D开源。高质量、高效率、全开源的技术簇正把XR、机器人和设计工业的创意门槛拉到消费级。
02 | 推理与数学能力跃升
o3-mini-high凭“直觉”破解顶尖数学难题,14位数学家评估确认其已超人类平均水平;3B参数的Time-R1用三阶段强化学习在时间推理上反超671B大模型,浙大InftyThink通过“思维分段”实现无限深度推理。模型自发形成类脑概念地图,为通往AGI提供可解释的认知线索。
03 | 端侧与高效小模型崛起
清华&面壁0.5B模型在4090单卡拿下端侧SOTA,Adobe同卡实现实时视频生成,港科大-快手进化搜索让小模型作画媲美大模型,Prot42仅凭序列完成8k长程蛋白质建模。低算力+本地部署的组合让AI走出数据中心,向移动端、IoT与生物设计快速渗透。
04 | 苹果WWDC25 AI矩阵
Xcode 26内置ChatGPT,苹果首次向开发者开放本地Foundation Models,Spotlight升级为AI操作平台,但“AI Siri”意外跳票。端侧模型全面解禁将引爆iOS第三方AI应用,而对话Agent的缺席显示苹果仍落后OpenAI/Google半步,市场以6分钟蒸发750亿美元市值回应。
05 | 具身智能与机器人落地
银河通用Galbot发布全球首个零售VLA大模型OpenWBT并开源,理想汽车成立两大机器人部门切入车载生态,XRobotics比萨机器人月产2.5万张,北大-伯克利新基准测试显示最强Agent仅得40分。零售、餐饮、汽车成为具身智能率先规模化的试验田。
06 | 巨头AI生态与资本竞赛
Meta拟百亿美元投资Scale AI创私募融资纪录,亚马逊200亿美元扩建宾州数据中心,硅基流动再获数亿元A轮并由阿里云领投,ChatGPT年收入首次破百亿。算力、数据、平台三线并举,云+模型+应用的全栈寡头竞争进入资本加速期。
07 | 中国大模型开源与产品潮
小红书1420亿参数“dots.llm1”开源正面对标国际闭源,豆包视频生成模型支持多镜头叙事,SeedEdit 3.0实现“一句话P图”,科大讯飞星火X1升级版即将发布,比亚迪接入阿里通义升级智能座舱。国产模型在参数规模、多模态能力与场景落地三线并进,开源策略加速社区与商业双向繁荣。
【展望】
当“生成”进入360° 3D时代、“推理”逼近人类顶尖水平、“部署”下沉到每一块消费级显卡,AI已不再是云端的昂贵实验。随着百亿美元级资本注入和开源生态的爆发,多模态与推理能力将快速商品化,具身智能与端侧应用将在年内迎来首批规模化落地,而“模型即基础设施”的新寡头格局也将进一步固化。