SAM 2.0、混元3D 2.1、图中心RDB模型等集中开源,视觉-语言-3D统一架构成为新共识,推动CVPR 2025最佳论文与工业落地双丰收,标志着多模态基础模型进入“分割/生成/推理”一体化时代。
百度史上最大规模AI校招扩岗60%,Meta 143亿美元挖角Scale AI创始人,OpenAI引入记忆与人格方向顶尖研究员,显示头部机构正为下一代AGI囤积顶尖人才与算力资源,行业格局或将重塑。
康奈尔Eso-LM将扩散模型与自回归融合,速度提升65倍,英伟达下注;Transformer“混血”引发对自回归范式的再思考,或成通往AGI的又一技术路线,学术与资本同时加注。
清华OneTwoVLA实现“边想边做”的通用机器人控制,在火锅、炒菜、调酒等复杂任务中验证,标志着视觉-语言-动作大模型从实验室走向场景落地,加速家庭与商业服务机器人成熟。
多模态黑箱诊断工具可精准定位模型犯错源头;首次系统揭示大模型“可逆遗忘”规律,为隐私合规与机器遗忘提供理论支撑;美团成立外部算法顾问委员会,推动平台算法透明与骑手权益保护。
Comet、Dia、Fellou、豆包等“Agentic Browser”集中亮相,内置多模态Agent可自主比价、写高考作文、跨网页执行任务,传统浏览器厂商被迫跟进,人机交互入口或迎来新一轮洗牌。