2025-10-18 AI简报 - AI快开门

【概览】李飞飞团队RTFM以单卡H100实现实时3D世界生成，刷新“视觉-语言-动作”统一模型天花板；OpenAI Sora 2登陆Azure按秒计费，视频AIGC进入商业化元年。中美监管同步收紧，垂直大模型与Agent自动化加速落地，AI正从“能用”走向“好用、敢用”。

01 | 多模态大模型突破

李飞飞团队RTFM在单张H100上跑出实时3D世界生成，首次让“动态宇宙”摆脱千卡集群；谷歌Gemini 3.0 Pro、百度PaddleOCR-VL轮番刷新OCR与复杂推理纪录，开源LLaVA-OneVision-1.5登顶多模态榜单。视觉-语言-动作统一模型集体跨过实用红线，为下一代交互、内容生产及机器人决策奠定新基座。

02 | 视频生成商业化加速

OpenAI Sora 2登陆Azure，公开定价0.1美元/秒，Pro版可一次生成25秒高一致性视频；谷歌Veo 3.1紧跟着升级，爱诗科技ARR突破4000万美元并再获1亿元融资。巨头与初创共同把“长时长、高连贯”视频AIGC推向付费商用，内容营销、广告及短剧赛道进入产能爆发前夜。

03 | 垂直领域大模型崛起

清华长庚与北电数智推出国内首个药学大模型，专注特殊人群用药安全；谷歌DeepMind 27B参数C2S-Scale模型生成癌症治疗路径，阿里妈妈“淘宝星辰·图像编辑”直接服务千万商家。医疗、电商、法律等核心场景进入“专用大模型”周期，行业知识+合规审查成为落地硬门槛。

04 | AI安全与治理落地

重庆一日下架十余款违规AI产品，纽约州率先立法禁止算法操控租金，OpenAI主动暂停Sora生成马丁·路德·金视频以免形象滥用。中美两地监管同步从“倡议”走向“执法”，算法备案、数据合规与历史人物保护成为产品上线必答题，安全成本正式计入商业模型。

05 | 企业自动化与Agent生态

Anthropic为Claude新增Skills，支持Excel、PPT自动生成与自定义代码模块；微软把Copilot深度嵌入Windows 11，实现语音控制与本地自动化；字节豆包1.6首次开放“可调思考深度”。头部厂商围绕办公、操作系统、搜索构建Agent级自动化，AI从“助手”升级为“数字员工”，企业流程人力成本面临再评估。

06 | 具身智能与硬件新进展

智元机器人发布精灵G2工业级双臂，定位产线柔性装配；上海交大开源仅400元的U-Arm遥操作平台，北京人形WoW世界模型获斯坦福团队引用。低成本硬件+开源算法降低具身数据收集门槛，推动通用机器人技能迁移从实验室走向真实产线与家庭场景。

【展望】当“单卡实时3D”打破算力迷信、“按秒计费”确立商业闭环，多模态与视频AIGC已进入规模落地拐点；而监管利剑同步落下，垂直专用模型与Agent自动化成为合规红利下的新赛道。下一步，谁能把具身智能的低成本硬件与通用大模型无缝耦合，谁就可能定义下一代计算平台。

AI快开门

发现最好的AI工具