2025-12-31
多模态大模型竞速
谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先,国产商汤、豆包、Qwen3-VL紧随其后;阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型,显示中美在视觉-语言-动作一体化赛道进入密集迭代期,直接决定下一代交互与内容生成标准。
2025-11-04
国产多模态与长文本大模型突破
蚂蚁数科多语种视觉大模型、月之暗面Kimi Linear长上下文提速2.9倍、字节Seed团队循环语言模型Ouro、百度文心魔法漫画等集中发布,显示国产模型在视觉-语言一体化、长文本效率、创意生成等方向进入世界第一梯队,降低落地成本。
2025-10-17
多模态大模型突破
李飞飞团队RTFM实现单卡实时3D世界生成,谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录,开源LLaVA-OneVision-1.5登顶多模态榜单,显示视觉-语言-动作统一模型正快速走向实用化,为下一代交互与内容生产奠定基础。
2025-06-15
机器人与VLA大模型落地
清华OneTwoVLA实现“边想边做”的通用机器人控制,在火锅、炒菜、调酒等复杂任务中验证,标志着视觉-语言-动作大模型从实验室走向场景落地,加速家庭与商业服务机器人成熟。
2025-05-17
端侧轻量视觉语言模型
苹果开源FastVLM,在iPhone端实现85倍速视觉问答,证明高压缩视觉Token方案可行,为移动端AR/VR、实时翻译等场景打开落地窗口,或改变“云端大模型”垄断格局。
2025-03-24
多模态大模型技术突破
谷歌Gemini Live上线屏幕共享与实时视频交互,伯克利TULIP、腾讯混元-T1、阿里LHM等视觉-语言-动作模型集中发布,标志着多模态理解与生成交互进入可用阶段,为机器人、自动驾驶、3D内容创作打开新空间。
2025-02-20
多模态模型突破
视觉-语言模型密集升级:DeepSeek-R1推理框架首次迁移到视觉领域,谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家,VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA,降低创作与研究门槛。
2025-01-20
AI安全与幻觉治理
MIT等揭示视觉语言模型无法理解否定表达,淘天提出新对齐方法抑制视觉幻觉,ChatGPT API被曝DDoS漏洞,凸显大模型安全与可信研究紧迫性。
2024-06-15
多模态大模型学术前沿
CVPR‘24满分论文提出神经场网格模型三大定理,字节&中科大发布统一表格理解大模型TabPedia,中山大学&联想提升连环画角色一致性,显示多模态表征与交叉场景理解正快速收敛,为下一代通用视觉-语言模型奠定理论与工程基础。
2024-05-18
视觉-语言与开源生态
Google开源PaliGemma多分辨率VLM家族,HuggingFace发布视觉大模型训练 cookbook,腾讯光子开源ID-Animator实现照片+文字生成定制视频,降低多模态门槛并丰富开源工具链。
2024-04-17
多模态大模型爆发
GPT-4、Mini-Gemini、MM1等视觉-语言大模型密集发布,图像、视频、文本统一理解生成能力逼近商用临界点,Adobe、亚马逊等平台级集成加速落地,标志AI进入“看听说写”一体化时代。