2025-06-15
多模态大模型突破
SAM 2.0、混元3D 2.1、图中心RDB模型等集中开源,视觉-语言-3D统一架构成为新共识,推动CVPR 2025最佳论文与工业落地双丰收,标志着多模态基础模型进入“分割/生成/推理”一体化时代。
2025-05-12
端侧视觉-语言模型突破
苹果FastVLM、腾讯混元T1-Vision等模型把多模态能力压缩到手机端,实现本地实时看图聊天;谷歌Gemini 2.5 Pro一次看懂6小时视频,标志视觉理解进入长视频时代,将重塑移动交互与内容生态。
2025-01-29
阿里Qwen视觉升级
除夕夜阿里云通义开源Qwen2.5-VL系列与Qwen2.5-Max,3B/7B/72B多尺寸模型在视觉理解、长视频解析等任务上超越GPT-4o-mini与Claude 3.5,巩固国产开源大模型领先地位。
2025-01-28
国产多模态模型密集开源
除夕夜阿里通义开源Qwen2.5-VL系列,7B模型在视觉理解基准上超越GPT-4o-mini;DeepSeek同步发布多模态Janus-Pro。国产模型形成“语言+视觉”双轨开源潮,降低开发者门槛,加速AI应用落地,2025或成国产开源生态拐点。
2024-12-18
多模态大模型突破
李飞飞团队、豆包、谷歌等相继发布多模态大模型,实现动作-语言统一、视觉理解、4K视频生成等能力,推动AI向通用感知-认知-生成一体化迈进,为机器人、内容创作、交互体验带来范式升级。
2024-08-26
多模态大模型爆发
国内外厂商密集发布视觉-语言-语音一体化大模型:Meta推出Sapien视觉分析、云知声发布山海多模态、摩尔线程开源音频理解MooER,标志着通用感知能力正快速收敛到统一架构,为端侧Agent与沉浸式交互奠定基座。
2024-08-21
多模态大模型技术突破
近期多家科技巨头和研究机构发布多模态大模型新成果,包括微软Phi-3.5-vision、英伟达LongVILA、KAN2.0等,在视觉理解、长视频处理、物理定律发现等方面取得显著进展。这些突破将推动AI在科研、教育、内容创作等领域的深度应用,标志着通用人工智能发展进入新阶段。
2024-07-17
大模型基础能力短板暴露
多家主流大模型在简单数字比较、视觉基础测试中出现集体翻车,暴露当前LLM与VLM在符号推理、细粒度视觉理解等基础能力上的共性缺陷,引发行业对模型评估与安全边界的重新审视。