多模态评测 - AI话题

2025-05-28

清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%，港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生，揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类，为下一代模型优化指明关键方向。

2025-05-17

ACL 2025投稿破8000篇高分遭拒、General-Level提出多模态通才排行榜，反映AI研究量质齐升但评审内卷，呼唤更科学评测体系以引导资源聚焦真正通用智能突破。

2024-11-16

谷歌新Gemini重夺竞技场榜首，Claude 3.6在《我的世界》盖楼展现Agent迭代能力，MEGA-Bench评测显示CoT对开源多模态模型反而有害，反映多模态理解与复杂任务执行仍处快速演进期。

2024-01-27

智源研究院发布首个中文多模态评测基准CMMU，GPT-4V准确率仅约30%，凸显中文多模态短板；阿里Qwen-VL升级并限时免费，性能反超GPT-4V，国产模型加速追赶。

AI快开门