AI快开门

发现最好的AI工具

2025-05-04

长视频理解突破

Video-XL-Pro仅用3B参数在长视频大海捞针任务中准确率超98%,性能反超7B级模型,证明轻量模型通过架构创新可解决长时序依赖与显存瓶颈,为实时视频分析、监控、教育等场景落地打开空间。
2025-04-04

多模态生成与理解再升级

V²Flow实现视觉Token与LLM词表无缝对齐,高保真自回归图像生成刷新多模态统一框架;港理工+新国立VideoMind借角色化推理+链式LoRA在27分钟长视频理解上超越GPT-4o;Neural LightRig单图秒变3D影棚。生成与理解双向突破,推动多模态应用落地。
2024-11-12

多模态长视频理解突破

李飞飞团队发布 HourVideo 基准,推动 1 小时长视频多模态理解;谷歌“重拍”视频 AI、字节 SeedEdit 等工具同步升级,标志视觉-语言模型从单图迈向长时序、高分辨率、可编辑的新阶段。
2024-10-29

超长视频理解大模型突破

智源研究院联合高校推出Video-XL,单卡可理解小时级视频,95%“大海捞针”准确率刷新纪录,标志长视频理解进入实用阶段,为AGI补齐多模态长时序能力短板。
2024-10-28

超长视频理解大模型突破

智源Video-XL、极佳DriveDreamer4D及清华VERIFIED等研究,把单卡理解电影级长视频、4D场景重建与细粒度片段标注推向新高度,为自动驾驶、媒体生产解锁小时级甚至电影级AI理解能力,长视频赛道进入可用阶段。
2024-08-20

多模态长视频理解技术突破

阿里mPLUG-Owl3以4秒看完2小时电影,浙大ScanFormer迭代消除视觉冗余刷新指代表达理解,Salesforce开源xGen-MM加码视觉推理,Luma v1.5挑战Sora带来更快更真视频生成,多模态模型正在同时向“看得快、看得细、做得出”三重极限突进。
2024-07-19

多模态长视频理解突破

Goldfish 模型实现任意长度长视频精准理解,VoCoT 引入视觉思维链多步推理,谷歌 Gemini 将贯穿巴黎奥运直播,显示多模态大模型正向长时序、复杂事件与实时转播场景延伸,打开体育、娱乐、教育等全新交互体验。