视觉语言 - AI话题

2025-12-31

多模态大模型竞速

谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先，国产商汤、豆包、Qwen3-VL紧随其后；阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型，显示中美在视觉-语言-动作一体化赛道进入密集迭代期，直接决定下一代交互与内容生成标准。

多模态 Gemini 国产大模型视觉语言模型 3D生成

2025-11-04

国产多模态与长文本大模型突破

蚂蚁数科多语种视觉大模型、月之暗面Kimi Linear长上下文提速2.9倍、字节Seed团队循环语言模型Ouro、百度文心魔法漫画等集中发布，显示国产模型在视觉-语言一体化、长文本效率、创意生成等方向进入世界第一梯队，降低落地成本。

多模态长文本国产大模型视觉语言创意生成

2025-10-17

多模态大模型突破

李飞飞团队RTFM实现单卡实时3D世界生成，谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录，开源LLaVA-OneVision-1.5登顶多模态榜单，显示视觉-语言-动作统一模型正快速走向实用化，为下一代交互与内容生产奠定基础。

多模态实时3D OCR 开源视觉语言模型

2025-06-15

机器人与VLA大模型落地

清华OneTwoVLA实现“边想边做”的通用机器人控制，在火锅、炒菜、调酒等复杂任务中验证，标志着视觉-语言-动作大模型从实验室走向场景落地，加速家庭与商业服务机器人成熟。

VLA 机器人控制清华视觉语言动作场景落地

2025-05-17

端侧轻量视觉语言模型

苹果开源FastVLM，在iPhone端实现85倍速视觉问答，证明高压缩视觉Token方案可行，为移动端AR/VR、实时翻译等场景打开落地窗口，或改变“云端大模型”垄断格局。

端侧AI FastVLM 视觉语言模型苹果移动推理

2025-03-24

多模态大模型技术突破

谷歌Gemini Live上线屏幕共享与实时视频交互，伯克利TULIP、腾讯混元-T1、阿里LHM等视觉-语言-动作模型集中发布，标志着多模态理解与生成交互进入可用阶段，为机器人、自动驾驶、3D内容创作打开新空间。

多模态实时交互视觉语言模型 3D重建

2025-02-20

多模态模型突破

视觉-语言模型密集升级：DeepSeek-R1推理框架首次迁移到视觉领域，谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家，VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA，降低创作与研究门槛。

多模态视觉语言模型 VLM-R1 VideoRoPE Gemini2.0

2025-01-20

AI安全与幻觉治理

MIT等揭示视觉语言模型无法理解否定表达，淘天提出新对齐方法抑制视觉幻觉，ChatGPT API被曝DDoS漏洞，凸显大模型安全与可信研究紧迫性。

AI安全幻觉视觉语言模型漏洞

2024-06-15

多模态大模型学术前沿

CVPR‘24满分论文提出神经场网格模型三大定理，字节&中科大发布统一表格理解大模型TabPedia，中山大学&联想提升连环画角色一致性，显示多模态表征与交叉场景理解正快速收敛，为下一代通用视觉-语言模型奠定理论与工程基础。

多模态神经场表格理解 CVPR 视觉语言

2024-05-18

视觉-语言与开源生态

Google开源PaliGemma多分辨率VLM家族，HuggingFace发布视觉大模型训练 cookbook，腾讯光子开源ID-Animator实现照片+文字生成定制视频，降低多模态门槛并丰富开源工具链。

视觉语言模型开源 PaliGemma ID-Animator

2024-04-17

多模态大模型爆发

GPT-4、Mini-Gemini、MM1等视觉-语言大模型密集发布，图像、视频、文本统一理解生成能力逼近商用临界点，Adobe、亚马逊等平台级集成加速落地，标志AI进入“看听说写”一体化时代。

多模态视觉语言模型 GPT-4 Adobe 商用落地

2024-01-04

多模态大模型爆发

2023年底至2024年初，LLaVA、CogAgent、MobileVLM、清华-NUS分割模型等国产开源方案密集发布，在视觉-语言理解、边缘端实时推理、对话式图像标注等场景逼近GPT-4V水平，标志多模态能力从实验室走向落地，大幅降低开发者门槛，将加速教育、车载、安防等垂直应用爆发。

多模态视觉语言模型开源 GPT-4V 边缘计算

AI快开门

发现最好的AI工具

# 视觉语言

多模态大模型竞速

国产多模态与长文本大模型突破

多模态大模型突破

机器人与VLA大模型落地

端侧轻量视觉语言模型

多模态大模型技术突破

多模态模型突破

AI安全与幻觉治理

多模态大模型学术前沿

视觉-语言与开源生态

多模态大模型爆发

多模态大模型爆发