视觉推理 - AI话题

2025-09-16

多模态大模型爆发

阿里、腾讯、上海AI Lab等密集发布语音、图像、3D生成新模型，开源与性能双突破，标志多模态进入2K高清、真人手办、超长视觉推理的可用阶段，将重塑内容创作与交互体验。

2025-08-26

国产多模态大模型爆发

阿里国际Ovis2.5、通义万相Wan 2.2、面壁MiniCPM-V4.5、DeepSeek-V3.1等国产多模态模型密集发布，在视觉推理、视频音频同步、端侧部署等方向刷新SOTA，标志国产大模型进入“多模态+垂直场景”深水区，为AI原生应用奠定新基座。

多模态国产大模型视觉推理端侧部署 SOTA

2025-06-22

大模型空间推理突破

ViLaSR-7B通过三阶段“边看边画”训练，在5项空间基准平均提升18.4%，刷新VSI-Bench SOTA，标志着大模型具备人类级空间思考与导航能力，为机器人、AR/VR应用奠基。

空间智能视觉推理 ViLaSR VSI-Bench 导航

2025-05-28

多模态模型视觉-物理推理短板暴露

清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%，港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生，揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类，为下一代模型优化指明关键方向。

视觉推理物理推理 o3 多模态评测模型短板

2025-05-25

推理模型新范式

强化学习让模型仅凭图像即可进行复杂推理与场景规划，打破“语言中心”范式，为机器人、自动驾驶等视觉主导任务提供新路径，有望重塑多模态智能体架构。

视觉推理强化学习场景规划多模态新范式

2025-04-18

OpenAI o3/o4-mini 推理革命

OpenAI 发布首批“用图像思考”的推理模型 o3 与 o4-mini，支持自主调用工具、多模态深度推理，性能十倍于 o1，同步开源 Codex CLI，标志视觉推理与 Agent 能力迈入新阶段，被业内视为 AGI 曙光。

o3 o4-mini 视觉推理 Agent OpenAI

2025-03-18

国产开源多模态大模型爆发

昆仑万维Skywork R1V、阿里Qwen2.5-VL、腾讯混元3D等国产模型密集开源，覆盖视觉推理、3D生成、长视频理解，参数规模从3B到72B，性能对标GPT-4o，标志中国大模型进入“开源+多模态”双轮驱动时代，显著降低开发者门槛并加速生态繁荣。

开源多模态国产大模型视觉推理 3D生成

2025-02-23

视觉-多模态推理基准升级

港中文MMLab发布MME-CoT基准，首次系统评测大模型视觉链式思维能力；阿里国际开源Ovis2架构，同步提升视频/多图理解，推动多模态应用标准化。

MME-CoT 视觉推理 Ovis2 多模态基准测试

2025-02-09

零标注视觉Agent降低数据门槛

吴恩达团队发布无需标注的目标检测Agent，通过语言-视觉对齐直接定位图像物体，打破传统CV对大量人工标签的依赖，为实时巡检、机器人等场景提供低成本落地路径。

零标注目标检测 Agent 吴恩达视觉推理

2024-12-26

国产大模型密集上新

DeepSeek-V3、阿里QVQ、阶跃Step-1X-Medium等国产大模型在代码、视觉、多模态方向集中开源或发布，多项基准逼近或超越Claude 3.5，显示国内基础模型进入第一梯队，带动开源生态与下游应用创新。

国产大模型开源 DeepSeek 视觉推理代码生成

2024-12-25

多模态视觉推理模型爆发

阿里开源 QVQ-72B、谷歌 DeepMind 推 MegaSaM，实现视觉问答、3D 景深与相机视角估计；QQ 音乐 14.0 上线首个 AI 大模型音效，多模态能力从科研走向消费级应用，降低内容创作门槛。

多模态 QVQ-72B MegaSaM 视觉推理 AI音效

2024-12-23

多模态与空间智能突破

李飞飞团队提出多模态空间智能框架，显著提升MLLM视觉推理；谢赛宁等证明空间推理是性能突破关键；清华腾讯ColorFlow自动上色保持角色一致；华中科大VisionFM实现眼科精准诊断。空间感知与一致性成为多模态下一站核心。

空间智能多模态 MLLM 视觉推理一致性

2024-05-06

李飞飞创业空间智能

斯坦福AI女神李飞飞学术休假两年创办新公司，聚焦“空间智能”前沿算法，模仿人类视觉推理，种子轮即获a16z等顶级VC注资，被视为下一代AI认知突破的重要信号。

李飞飞空间智能视觉推理种子轮 AI创业

AI快开门

发现最好的AI工具

# 视觉推理