CVPR - AI话题 - AI快开门

2025-06-17

自动驾驶Scaling Law验证

小鹏汽车在CVPR 2025首次验证Scaling Law于自动驾驶领域的有效性，6亿秒视频训练后实现“智能涌现”，被视为自动驾驶的ChatGPT时刻，带动车厂跻身AI顶会核心圈。

2025-06-15

多模态大模型突破

SAM 2.0、混元3D 2.1、图中心RDB模型等集中开源，视觉-语言-3D统一架构成为新共识，推动CVPR 2025最佳论文与工业落地双丰收，标志着多模态基础模型进入“分割/生成/推理”一体化时代。

多模态 3D生成视觉理解开源 CVPR

2025-06-14

顶级会议与学术亮点

CVPR 2025奖项公布，牛津&Meta王建元获最佳论文，谢赛宁获年轻研究者奖；Transformer八周年论文引用破18万，北大韦东奕散焦方程研究登数学顶刊，显示AI跨学科影响力持续扩大。

CVPR Transformer 学术奖项韦东奕

2025-05-05

视觉与多模态前沿

CVPR 2025 Oral DiffFNO实现任意尺度超分辨率，港科广亚毫米级3D人体生成；o3仅凭单图定位地球坐标，显示视觉大模型在精细几何与地理推理上的跨越，将推动AR/VR、遥感及内容创作升级。

超分辨率 3D人体地理定位多模态 CVPR

2025-04-26

具身智能与机器人数据革命

港中大(深圳)发布10万+人手交互视频数据集TASTE-Rob，结合语言指令提升模仿学习泛化；清华等提出Mona微调仅调5%参数即超全调，CVPR2025接连收录，预示机器人学习进入“大数据+小算力”阶段。

具身智能 TASTE-Rob Mona 机器人数据集 CVPR2025

2025-04-09

AI视频生成突破60秒

TTT方法与港中文-清华VideoScene模型实现“一镜到底”60秒《猫和老鼠》级动画，无需剪辑、拼接即可直出，CVPR 2025 Highlight认可，标志着长时序、高一致性视频生成进入消费级可用阶段。

视频生成 TTT VideoScene 60秒动画 CVPR

2025-03-17

多模态与3D生成技术突破

港科大广州与趣丸提出Uni-Renderer单模型完成渲染+逆渲染，腾讯混元3D开源，Thera开源超分、LBM一键改光照去路人，CVPR 2025多篇论文推进跨模态因果对齐，内容创作门槛进一步降低。

多模态 3D生成渲染 CVPR 超分

2025-03-15

Transformer架构革新

何恺明与LeCun团队提出DyT，用9行代码移除归一化层，性能不降反升，已被CVPR 2025收录；同期清华开源「赤兔」推理引擎，国产软硬协同加速落地。双重突破挑战Transformer「标配」认知，为高效大模型训练与端侧部署打开新路径。

DyT LayerNorm 赤兔引擎 Transformer优化 CVPR2025

2024-12-09

大模型评测与治理规范

Chatbot Arena成模型“生死榜”，CVPR 2025零容忍AI审稿，广电总局整治AI“魔改”经典，显示行业从“拼参数”转向“可信、可控、可评”，评测基准与政策监管同步升级，将左右技术落地与公众信任。

评测治理 Chatbot Arena CVPR 监管

2024-06-23

前沿算法与效率突破

南大&旷视提出无需人工或 GPT-4 标注的无监督对齐范式，显著降低视觉大模型训练成本；清华&哈佛 LangSplat 将 3D 语义高斯泼溅提速 199 倍；何恺明 MIT 首秀聚焦 AI 生成新框架。多项算法创新在 CVPR、ICML 等顶会亮相，为大模型降本增效提供底层技术支撑。

无监督对齐 3D高斯泼溅算法提速 CVPR 何恺明

2024-06-19

具身智能与机器人数据缺口

CVPR 2024具身智能成最热赛道，黄仁勋预言物理AI下一浪潮，但高质量机器人训练数据极度稀缺；北航等提出无需训练压缩Diffusion新方法，为端侧部署提供可能，硬件+算法+数据三角开始受资本追捧。

具身智能机器人数据缺口 CVPR 模型压缩

2024-06-15

多模态大模型学术前沿

CVPR‘24满分论文提出神经场网格模型三大定理，字节&中科大发布统一表格理解大模型TabPedia，中山大学&联想提升连环画角色一致性，显示多模态表征与交叉场景理解正快速收敛，为下一代通用视觉-语言模型奠定理论与工程基础。

多模态神经场表格理解 CVPR 视觉语言

2024-06-09

视频与3D生成新框架扎堆

CVPR 2024 329篇论文聚焦图像/视频生成，华科UniAnimate实现一分钟高清跳舞视频合成，上交&港中文5秒级3D生成开源数据集，显示AIGC正快速向长时、高保真、可控方向演进。

视频生成 3D生成 CVPR AIGC 开源数据

2024-06-06

多模态与CV前沿创新

CLIP-as-RNN无需训练即可开放词汇分割，快手「可灵」生成120s物理一致视频，LPSNet实现无透镜3D人体估计，多模态与视觉算法在CVPR 2024集中爆发，推动感知-生成一体化。

多模态 CLIP 视频生成无透镜成像 CVPR

2024-05-05

多模态学习新范式

港中文与腾讯CVPR‘24研究证实，即使与任务无关的视频、音频、点云数据也能显著提升Transformer性能，降低标注需求。该发现为低资源场景提供新思路，推动通用多模态大模型与数据效率优化。

多模态 Transformer 数据效率 CVPR 港中文

2024-04-06

CVPR 2024视觉顶会成果

CVPR 2024录用率23.6%，英伟达开源BOP榜6D姿态冠军方法，显示视觉算法持续突破。论文量与质量双高，标志学术与工业界对3D感知、生成等方向的高度关注，为自动驾驶、AR/VR等场景提供新基线。

CVPR 6D姿态录用率开源视觉算法

2024-03-21

多模态基础模型新标杆

CVPR 2024上华科&字节提出统一目标感知基础模型GLEE，哈佛医学院发布迄今最大计算病理学基础模型覆盖30+临床任务，显示视觉与医学领域基础模型正快速走向大一统。

基础模型 GLEE 计算病理学 CVPR 医学AI

2024-03-03

具身智能与仿生交互突破

北大发布单图指令驱动机械臂大模型入选CVPR 2024；第二代Ameca人形机器人借GPT-4实现多语言实时对话与微表情交互；Nature Communications报道仿生脑机接口恢复自然触觉，显示AI与机器人、神经科学正交叉融合。

具身智能人形机器人脑机接口 CVPR 仿生交互

2024-02-18

AIGC质量评估标准化

CVPR 2024同步启动AIGC质量评价挑战赛，旨在建立可量化的图像、视频、3D内容生成评估体系，为行业提供统一基准，推动生成式AI从实验室走向规模化落地。

AIGC 质量评价 CVPR 挑战赛基准

# CVPR