【概览】李飞飞团队RTFM以单卡H100实现实时3D世界生成,刷新“视觉-语言-动作”统一模型天花板;OpenAI Sora 2登陆Azure按秒计费,视频AIGC进入商业化元年。中美监管同步收紧,垂直大模型与Agent自动化加速落地,AI正从“能用”走向“好用、敢用”。
01 | 多模态大模型突破
李飞飞团队RTFM在单张H100上跑出实时3D世界生成,首次让“动态宇宙”摆脱千卡集群;谷歌Gemini 3.0 Pro、百度PaddleOCR-VL轮番刷新OCR与复杂推理纪录,开源LLaVA-OneVision-1.5登顶多模态榜单。视觉-语言-动作统一模型集体跨过实用红线,为下一代交互、内容生产及机器人决策奠定新基座。
02 | 视频生成商业化加速
OpenAI Sora 2登陆Azure,公开定价0.1美元/秒,Pro版可一次生成25秒高一致性视频;谷歌Veo 3.1紧跟着升级,爱诗科技ARR突破4000万美元并再获1亿元融资。巨头与初创共同把“长时长、高连贯”视频AIGC推向付费商用,内容营销、广告及短剧赛道进入产能爆发前夜。
03 | 垂直领域大模型崛起
清华长庚与北电数智推出国内首个药学大模型,专注特殊人群用药安全;谷歌DeepMind 27B参数C2S-Scale模型生成癌症治疗路径,阿里妈妈“淘宝星辰·图像编辑”直接服务千万商家。医疗、电商、法律等核心场景进入“专用大模型”周期,行业知识+合规审查成为落地硬门槛。
04 | AI安全与治理落地
重庆一日下架十余款违规AI产品,纽约州率先立法禁止算法操控租金,OpenAI主动暂停Sora生成马丁·路德·金视频以免形象滥用。中美两地监管同步从“倡议”走向“执法”,算法备案、数据合规与历史人物保护成为产品上线必答题,安全成本正式计入商业模型。
05 | 企业自动化与Agent生态
Anthropic为Claude新增Skills,支持Excel、PPT自动生成与自定义代码模块;微软把Copilot深度嵌入Windows 11,实现语音控制与本地自动化;字节豆包1.6首次开放“可调思考深度”。头部厂商围绕办公、操作系统、搜索构建Agent级自动化,AI从“助手”升级为“数字员工”,企业流程人力成本面临再评估。
06 | 具身智能与硬件新进展
智元机器人发布精灵G2工业级双臂,定位产线柔性装配;上海交大开源仅400元的U-Arm遥操作平台,北京人形WoW世界模型获斯坦福团队引用。低成本硬件+开源算法降低具身数据收集门槛,推动通用机器人技能迁移从实验室走向真实产线与家庭场景。
【展望】当“单卡实时3D”打破算力迷信、“按秒计费”确立商业闭环,多模态与视频AIGC已进入规模落地拐点;而监管利剑同步落下,垂直专用模型与Agent自动化成为合规红利下的新赛道。下一步,谁能把具身智能的低成本硬件与通用大模型无缝耦合,谁就可能定义下一代计算平台。