视觉理解 - AI话题

2025-06-15

SAM 2.0、混元3D 2.1、图中心RDB模型等集中开源，视觉-语言-3D统一架构成为新共识，推动CVPR 2025最佳论文与工业落地双丰收，标志着多模态基础模型进入“分割/生成/推理”一体化时代。

多模态 3D生成视觉理解开源 CVPR

2025-05-12

苹果FastVLM、腾讯混元T1-Vision等模型把多模态能力压缩到手机端，实现本地实时看图聊天；谷歌Gemini 2.5 Pro一次看懂6小时视频，标志视觉理解进入长视频时代，将重塑移动交互与内容生态。

2025-01-29

除夕夜阿里云通义开源Qwen2.5-VL系列与Qwen2.5-Max，3B/7B/72B多尺寸模型在视觉理解、长视频解析等任务上超越GPT-4o-mini与Claude 3.5，巩固国产开源大模型领先地位。

2025-01-28

除夕夜阿里通义开源Qwen2.5-VL系列，7B模型在视觉理解基准上超越GPT-4o-mini；DeepSeek同步发布多模态Janus-Pro。国产模型形成“语言+视觉”双轨开源潮，降低开发者门槛，加速AI应用落地，2025或成国产开源生态拐点。

2024-12-18

李飞飞团队、豆包、谷歌等相继发布多模态大模型，实现动作-语言统一、视觉理解、4K视频生成等能力，推动AI向通用感知-认知-生成一体化迈进，为机器人、内容创作、交互体验带来范式升级。

2024-08-26

国内外厂商密集发布视觉-语言-语音一体化大模型：Meta推出Sapien视觉分析、云知声发布山海多模态、摩尔线程开源音频理解MooER，标志着通用感知能力正快速收敛到统一架构，为端侧Agent与沉浸式交互奠定基座。

2024-08-21

近期多家科技巨头和研究机构发布多模态大模型新成果，包括微软Phi-3.5-vision、英伟达LongVILA、KAN2.0等，在视觉理解、长视频处理、物理定律发现等方面取得显著进展。这些突破将推动AI在科研、教育、内容创作等领域的深度应用，标志着通用人工智能发展进入新阶段。

2024-07-17

多家主流大模型在简单数字比较、视觉基础测试中出现集体翻车，暴露当前LLM与VLM在符号推理、细粒度视觉理解等基础能力上的共性缺陷，引发行业对模型评估与安全边界的重新审视。

2024-06-27

LeCun团队Cambrian-1、阿里Qwen-2、Claude-3.5等新一代多模态模型集中发布，在视觉理解、图文一致性等指标上全面超越GPT-4V，标志着开源阵营首次在通用多模态能力上反超闭源标杆，将加速下游应用落地并重塑模型格局。

多模态开源视觉理解 GPT-4V

AI快开门