基准测试 - AI话题

2025-12-13

谷歌Gemini深度研究反击

谷歌借Gemini 3 Pro推出增强版Deep Research智能体，主打低幻觉、复杂信息检索与多平台集成，并发布DeepSearchQA基准，意在以研究能力对抗GPT-5.2。此举显示搜索巨头正把模型优势快速产品化，争夺企业级知识工作入口。

2025-11-24

Gemini 3 反超 GPT 夺王座

谷歌 Gemini 3 系列（Pro/Nano）在 LMArena、数学与物理基准全面领先，获陶哲轩等顶尖学者实测背书，迫使 OpenAI 承认技不如人并加速推出“Shallotpeat”应对，标志着大模型竞赛进入谷歌反攻新阶段，行业格局面临重塑。

Gemini 3 GPT-5.1 基准测试谷歌 OpenAI

2025-11-20

Gemini 3系列震撼发布

谷歌连续推出Gemini 3 Pro/3.0及Nano Banana Pro，在代码、数学、多模态基准全面超越GPT-5.1，被业界视为“AGI级”里程碑，引爆全球模型军备竞赛，直接促使OpenAI紧急上线GPT-5.1-Codex-Max应对。

Gemini 3 GPT-5.1 AGI 多模态基准测试

2025-08-08

模型评测与基准升级

GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决，o3在首届大模型国际象棋对抗赛夺冠，显示行业竞争焦点正从参数规模转向可验证的综合能力。

模型评测 LMArena SWE-Bench 基准测试大模型对抗赛

2025-07-31

GPT-5 即将发布

多条信源指向 OpenAI 下一代旗舰模型 GPT-5（内部代号 Zenith）已进入客户端灰度测试，统一 GPT 与 o 系列架构，在 Minecraft 等基准中表现“魔法级”。若如期发布，将刷新大模型性能天花板并再度搅动全球 AI 竞赛格局。

GPT-5 OpenAI 大模型基准测试发布

2025-06-16

多模态大模型技术突破

蚂蚁Ming-Omni、字节Seaweed APT2、腾讯混元3D 2.1等开源或发布，实现语音-视觉-动作一体化生成；哈佛BRIDGE、哈工大EFFIVLM-BENCH等新基准同步推出，推动多模态理解与生成的标准化和可评测进程。

多模态 Ming-Omni Seaweed APT2 BRIDGE 基准测试

2025-05-13

医疗与科研 AI 评估标准化

OpenAI 开源 HealthBench，汇聚 262 名医生 5 千段对话；清华等提出 MCU 开放世界基准，推动医疗、抗体、天文等领域大模型可泛化评估，降低科研与临床落地风险。

HealthBench 医疗AI 基准测试 MCU 科研评估

2025-02-23

视觉-多模态推理基准升级

港中文MMLab发布MME-CoT基准，首次系统评测大模型视觉链式思维能力；阿里国际开源Ovis2架构，同步提升视频/多图理解，推动多模态应用标准化。

MME-CoT 视觉推理 Ovis2 多模态基准测试

2025-02-18

模型评测与基准

OpenAI推出SWE-Lancer真实软件工程基准，多模态新基准让GPT-4o得零分；北大几何模型基于DeepSeek-Coder达IMO金牌水平，刷新国产AI科研上限。

基准测试 IMO几何 SWE-Lancer 评测体系科研突破

2025-01-16

AI治理与安全评测

智谱被列入美国实体清单、苹果摘要功能频现假新闻、多国召开AI治理论坛，凸显技术扩散与信息真实性风险；同步推出的PRMBench、LONGPROC等新基准，为过程奖励与长文本生成提供安全与能力评估工具。

AI治理安全评测假新闻实体清单基准测试

2025-01-04

多模态长文档理解基准

LongDocURL新基准覆盖50-150页多模态文档，GPT-4o仅刚及格，凸显长上下文与跨模态推理仍是瓶颈，将推动模型架构、训练数据及评测方法的新一轮竞赛。

LongDocURL 多模态长文档基准测试 GPT-4o

2024-09-26

AI for Science 基础设施与评价

普林斯顿CORE-Bench基准揭示大模型科研可重复性准确率仅21%，智源发布CCI3.0中文语料库，Nature子刊连续发表药物重定位、分子忆阻器等跨学科研究，推动科学智能计算标准化与数据共建。

AI4Science 基准测试中文语料科学计算可重复性

2024-09-17

多模态基准与模型升级

MMMU-Pro将多模态评测推向“史诗级难度”，过滤纯文本、新增纯视觉问答；OPPO AndesGPT-2.0同步升级多模态能力，显示终端厂商与学术团队正把多模态理解作为下一代AI核心战场。

多模态 MMMU-Pro AndesGPT 基准测试视觉问答

2024-09-15

模型评测与基准危机

Reflection 模型被指成绩造假并道歉，MMLU-Pro 等新基准紧急上线，英伟达科学家称“现有测试已失灵”。行业面临基准饱和、刷榜泛滥的信任危机，推动更严格、可解释的评价体系成为共识。

基准测试 Reflection MMLU-Pro 模型评估可信度

2024-08-17

国产UI大模型突破

Motiff妙多发布国内首个专为UI设计场景打造的大模型，在多项基准测试中以显著优势超越苹果自研模型与GPT-4o，标志着中国在垂直领域大模型上首次实现国际领先，有望重塑界面设计生产流程并带动国产设计工具生态升级。

UI大模型 Motiff妙多国产超越界面设计基准测试

2024-08-07

长文本理解基准挑战

北大/通研院发布LooGLE超长文本基准，现有大模型全军覆没，暴露上下文记忆与推理短板，推动行业聚焦长文档理解技术突破，被视为下一代大模型核心门槛。

长文本 LooGLE 基准测试大模型北大

2024-07-18

大模型评测与缺陷暴露

多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象，贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架，揭示高分低能与token偏见问题，推动行业重新审视模型可靠性与评测标准。

大模型评测数学推理基准测试模型缺陷

2024-07-02

AI安全与治理监管升级

法国拟对Nvidia发起反垄断指控，多国研讨生成式AI治理框架；Instagram、YouTube调整AI内容标识与删除政策；Anthropic启动新基准资助计划。技术快速迭代倒逼监管规则、平台责任与评测标准同步更新，行业进入合规发展关键期。

反垄断 AI治理内容标识基准测试平台责任

2024-06-21

Claude 3.5 Sonnet 新王登基

Anthropic 发布 Claude 3.5 Sonnet，多项基准超越 GPT-4o，免费上线 Amazon Bedrock 与官网；实测在数学、玩梗、长文本等场景表现亮眼，成为目前最强商用大模型，直接搅动全球闭源模型竞争格局。

Claude 3.5 GPT-4o Anthropic 大模型基准测试

2024-05-29

顶级模型评测与认知框架

CoT提出者Jason Wei指出当前大模型基准存在「七宗罪」，难以全面评估能力；复旦&上海AI Lab上线3DGen-Arena，用众包方式360°评测3D生成；哈工大与度小满提出SAPT共享注意力框架，提升持续学习性能。行业开始反思评估体系本身，推动更科学的测试基准，将决定下一代模型的优化方向与竞争格局。

模型评测持续学习 3D生成基准测试共享注意力

AI快开门

发现最好的AI工具

# 基准测试