2025-09-16
多模态大模型爆发
阿里、腾讯、上海AI Lab等密集发布语音、图像、3D生成新模型,开源与性能双突破,标志多模态进入2K高清、真人手办、超长视觉推理的可用阶段,将重塑内容创作与交互体验。
2025-08-26
国产多模态大模型爆发
阿里国际Ovis2.5、通义万相Wan 2.2、面壁MiniCPM-V4.5、DeepSeek-V3.1等国产多模态模型密集发布,在视觉推理、视频音频同步、端侧部署等方向刷新SOTA,标志国产大模型进入“多模态+垂直场景”深水区,为AI原生应用奠定新基座。
2025-06-22
大模型空间推理突破
ViLaSR-7B通过三阶段“边看边画”训练,在5项空间基准平均提升18.4%,刷新VSI-Bench SOTA,标志着大模型具备人类级空间思考与导航能力,为机器人、AR/VR应用奠基。
2025-05-28
多模态模型视觉-物理推理短板暴露
清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%,港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生,揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类,为下一代模型优化指明关键方向。
2025-05-25
推理模型新范式
强化学习让模型仅凭图像即可进行复杂推理与场景规划,打破“语言中心”范式,为机器人、自动驾驶等视觉主导任务提供新路径,有望重塑多模态智能体架构。
2025-04-18
OpenAI o3/o4-mini 推理革命
OpenAI 发布首批“用图像思考”的推理模型 o3 与 o4-mini,支持自主调用工具、多模态深度推理,性能十倍于 o1,同步开源 Codex CLI,标志视觉推理与 Agent 能力迈入新阶段,被业内视为 AGI 曙光。
2025-03-18
国产开源多模态大模型爆发
昆仑万维Skywork R1V、阿里Qwen2.5-VL、腾讯混元3D等国产模型密集开源,覆盖视觉推理、3D生成、长视频理解,参数规模从3B到72B,性能对标GPT-4o,标志中国大模型进入“开源+多模态”双轮驱动时代,显著降低开发者门槛并加速生态繁荣。
2025-02-23
视觉-多模态推理基准升级
港中文MMLab发布MME-CoT基准,首次系统评测大模型视觉链式思维能力;阿里国际开源Ovis2架构,同步提升视频/多图理解,推动多模态应用标准化。
2025-02-09
零标注视觉Agent降低数据门槛
吴恩达团队发布无需标注的目标检测Agent,通过语言-视觉对齐直接定位图像物体,打破传统CV对大量人工标签的依赖,为实时巡检、机器人等场景提供低成本落地路径。
2024-12-26
国产大模型密集上新
DeepSeek-V3、阿里QVQ、阶跃Step-1X-Medium等国产大模型在代码、视觉、多模态方向集中开源或发布,多项基准逼近或超越Claude 3.5,显示国内基础模型进入第一梯队,带动开源生态与下游应用创新。
2024-12-25
多模态视觉推理模型爆发
阿里开源 QVQ-72B、谷歌 DeepMind 推 MegaSaM,实现视觉问答、3D 景深与相机视角估计;QQ 音乐 14.0 上线首个 AI 大模型音效,多模态能力从科研走向消费级应用,降低内容创作门槛。
2024-12-23
多模态与空间智能突破
李飞飞团队提出多模态空间智能框架,显著提升MLLM视觉推理;谢赛宁等证明空间推理是性能突破关键;清华腾讯ColorFlow自动上色保持角色一致;华中科大VisionFM实现眼科精准诊断。空间感知与一致性成为多模态下一站核心。