2025-05-28
多模态模型视觉-物理推理短板暴露
清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%,港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生,揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类,为下一代模型优化指明关键方向。
2025-05-17
学术顶会趋势与评测革新
ACL 2025投稿破8000篇高分遭拒、General-Level提出多模态通才排行榜,反映AI研究量质齐升但评审内卷,呼唤更科学评测体系以引导资源聚焦真正通用智能突破。
2024-11-16
多模态大模型技术竞速
谷歌新Gemini重夺竞技场榜首,Claude 3.6在《我的世界》盖楼展现Agent迭代能力,MEGA-Bench评测显示CoT对开源多模态模型反而有害,反映多模态理解与复杂任务执行仍处快速演进期。