2026-01-08
物理AI与具身智能爆发
Mobileye 9亿美元收购Mentee Robotics、小鹏/FF/Arm齐推“物理AI”战略,阿里开源3D动画模型,割草机器人海外落地。资本、整车厂、芯片巨头同步押注“具身智能”,2026年被视为量产元年,硬件载体与AI模型深度融合。
2025-12-31
多模态大模型竞速
谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先,国产商汤、豆包、Qwen3-VL紧随其后;阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型,显示中美在视觉-语言-动作一体化赛道进入密集迭代期,直接决定下一代交互与内容生成标准。
2025-12-25
具身智能与机器人升级
京东物流“智狼”机器人海外仓规模化落地,原力灵机发布GeoVLA赋予机器人3D视觉,清华-开创电气联合研究中心揭牌,亚马逊整合芯片+模型+机器人转向实体AI,显示具身智能正走出实验室进入产业闭环。
2025-12-12
视频/3D生成与多模态应用
Runway发布通用世界模型GWM-1,智谱开源视频生成核心技术,港大ViMax实现AI自编自导自演,谷歌升级虚拟试穿,Medeo AI推视频Agent一键改剧本,多模态生成从2D图像迈向可推理、可交互的3D世界,内容生产门槛进一步降低。
2025-12-09
多模态大模型突破
原生多模态架构NEO、Gemini 3、GPT-5.2等新一代模型密集发布,实现视觉-语言-3D统一生成与推理,推动“零门槛”创作与交互,标志生成式AI进入全模态时代。
2025-12-07
谷歌Gemini 3高价争议
谷歌发布迄今最强Gemini 3 Deep Think,草图秒变可交互3D场景,创意能力惊艳业界,但付费定价在DeepSeek等开源冲击下被批“太贵”。该事件凸显闭源巨头与开源社区之间的性价比鸿沟,或加速企业客户转向更具成本优势的替代方案,倒逼谷歌调整商业策略。
2025-11-23
具身智能融资与低成本硬件
蚂蚁投资腾讯系具身智能公司、范浩强凭5000元“丐版硬件”获10亿融资,显示资本对高性价比机器人方案的追捧;同时3D仿真生成技术降低训练门槛,推动具身智能从Demo走向落地。
2025-11-22
多模态大模型激战升级
谷歌连发 Nano Banana Pro、Gemini 3 融合 Veo 3,一键 UI 与 3D 重建引爆设计圈;Meta SAM 3D 单图生成可遮挡 3D 模型;xAI Grok 4.1 推理版反超 Gemini,马斯克同步启动 150 亿美元融资,多模态军备赛再提速。
2025-11-21
多模态大模型军备竞赛
OpenAI、谷歌、腾讯、Meta 72 小时内连环发布 GPT-5.1/Codex-Max、Gemini 3 系、HunyuanVideo 1.5、SAM-3D 等旗舰模型,上下文窗口、视频生成、3D 理解同步刷新 SOTA。巨头以「周」为单位迭代,标志生成式 AI 进入多模态长序列新战场,直接决定云算力需求与开发者生态归属。
2025-11-19
视频/3D 生成进入实时时代
AI 视频生成提速 30% 并支持细节随手编辑,字节 Seed 发布单 Transformer 任意视角 3D 重建模型 DA3,影眸 Rodin 获头部游戏大单,30 秒即可输出可交互 3D 资产,UGC 二创与粉丝经济迎来全新内容供给范式。
2025-11-15
多模态决策机制与3D视觉突破
研究首次揭示多模态大模型在冲突信息下“振荡”决策的内部机制,为提升可靠性提供理论依据;字节Depth Anything 3用极简自回归方案刷新3D视觉指标,获谢赛宁点赞,预示多模态技术正从性能走向可解释与高效。
2025-11-14
世界模型3D生成大众化
李飞飞World Labs推出Marble公测,单图+一句话即可生成可交互3D世界,Pro版月费仅7元;华为投资极佳视界,国内首家物理AI世界模型公司再获亿元融资,3D内容生产门槛被彻底打穿,元宇宙基建迎来“GPT时刻”。
2025-11-13
空间智能与世界模型商用化
李飞飞World Labs发布首款3D世界模型Marble并开放免费版,可灵2.5Turbo上线“首尾帧”可控视频生成,宇树G1-D工作站实现人形机器人采集-训练-部署闭环,显示AI正从语言空间走向三维物理世界,空间智能进入可商用落地拐点。
2025-10-23
多模态大模型竞速
阿里Qwen、字节Seed 3D、腾讯WorldMirror等密集发布多模态/3D生成大模型,性能与落地场景全面内卷,推动AIGC进入3D与实时交互时代。
2025-10-17
多模态大模型突破
李飞飞团队RTFM实现单卡实时3D世界生成,谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录,开源LLaVA-OneVision-1.5登顶多模态榜单,显示视觉-语言-动作统一模型正快速走向实用化,为下一代交互与内容生产奠定基础。
2025-10-01
AI 科研与科学发现
前 OpenAI/DeepMind 科学家获 3 亿美元种子轮,打造“自动化科学家”;浙大/人大团队分别在 3D 高斯泼溅与生成式推荐提出新框架,提升三维重建与 item-ID 推理效果。AI 加速科学计算与实验自动化成为资本与学术双热点。
2025-09-28
机器人具身智能突破
谷歌 DeepMind 推出首个“具身推理”大模型 Gemini Robotics 1.5,实现零样本技能迁移;腾讯混元发布原生 3D 组件生成模型,让机器人“先思考再行动”,加速通用机器人和自动化落地。
2025-09-22
AI视频/3D生成进入落地爆发期
阿里开源Wan-Animate一张图生成动画并支持人物替换,YouTube发布AI视频生成与面部保护工具,Tripo等平台推动3.0原生工作流,标志生成式AI正从“能生成”走向“可生产”,大幅降低影视、游戏、设计行业的内容制作成本。
2025-09-19
AI生成式视频与3D创作爆发
Luma Ray3、通义万相Wan2.2-Animate、腾讯混元3D Studio等模型/工具集中发布,实现4K HDR视频、分钟级3D生成并开源,大幅降低创作门槛,标志AIGC正式迈入可商用的高保真时代,影视、游戏、XR等内容产业面临重塑。