基准 - AI话题 - AI快开门

2026-01-02

多模态安全与评测

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench，揭示语调、语速即可攻破大音频模型；VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时，安全与评测体系同步升级。

多模态安全音频越狱视觉定位评测基准鲁棒性

2026-01-01

AI+生物与医疗新进展

RNA预训练大模型基准发布，DNA-Diffusion生成式框架设计合成调控元件，UniCardio扩散Transformer统一生成多模态心血管信号，AI正成为基因组学与可穿戴医疗的核心生产力工具。

AI生物 RNA基准 DNA-Diffusion 心血管信号

2025-12-27

AI治理与伦理提速

清华梁正连续出席无人系统伦理论坛与国家战略研讨会，WildVideo基准系统定义9类幻觉任务，全球同步把“安全、可控、负责任”从口号变成标准与法规，为AI大规模落地划红线。

AI治理伦理基准安全可控规则制定

2025-12-16

医疗AI专业化突破

南洋理工发布首个电子病历评测基准EHRStruct，北大推出多模态化学基准SUPERChem，OpenEvidence再获2.5亿美元融资估值120亿美元，国内OCT影像AI系统临床PK击败GPT-5，显示大模型在严肃医疗场景加速落地并逼近专家水平。

医疗AI 电子病历化学基准 OCT影像 OpenEvidence

2025-12-13

谷歌Gemini深度研究反击

谷歌借Gemini 3 Pro推出增强版Deep Research智能体，主打低幻觉、复杂信息检索与多平台集成，并发布DeepSearchQA基准，意在以研究能力对抗GPT-5.2。此举显示搜索巨头正把模型优势快速产品化，争夺企业级知识工作入口。

Gemini Deep Research 谷歌搜索智能体基准测试

2025-11-24

Gemini 3 反超 GPT 夺王座

谷歌 Gemini 3 系列（Pro/Nano）在 LMArena、数学与物理基准全面领先，获陶哲轩等顶尖学者实测背书，迫使 OpenAI 承认技不如人并加速推出“Shallotpeat”应对，标志着大模型竞赛进入谷歌反攻新阶段，行业格局面临重塑。

Gemini 3 GPT-5.1 基准测试谷歌 OpenAI

2025-11-20

Gemini 3系列震撼发布

谷歌连续推出Gemini 3 Pro/3.0及Nano Banana Pro，在代码、数学、多模态基准全面超越GPT-5.1，被业界视为“AGI级”里程碑，引爆全球模型军备竞赛，直接促使OpenAI紧急上线GPT-5.1-Codex-Max应对。

Gemini 3 GPT-5.1 AGI 多模态基准测试

2025-11-16

大模型可解释性与安全对齐

OpenAI重启“开放”节奏，发布可解释性新方法，让小模型透明化以窥视大模型内部机制；NeurIPS 2025同步聚焦量子-大模型交叉评测基准。研究侧正把“黑盒”问题拆解为可验证、可度量、可干预的工程任务，为AGI安全铺路。

可解释性超级对齐黑盒量子基准 NeurIPS

2025-11-16

游戏与Agent通用智能探索

字节跳动Lumine在《原神》《黑悟空》等复杂开放世界实现零样本通关，NeurIPS同步聚焦通用游戏Agent基准。高自由度游戏被视为多模态决策的“试车场”，其泛化能力指标被业内视为AGI进度条之一。

游戏AI 通用Agent 字节Lumine 多模态决策 AGI基准

2025-10-18

具身智能与机器人数据革命

穹彻智能获阿里新融资、RoboChallenge真机基准、上海交大400元U-Arm遥操开源，从资本、评测到数据链路全面提速。低成本遥操+统一真机测试场，有望快速积累高质量机器人多模态数据，推动“实验室智能”走向“现实世界可复制”。

具身智能机器人基准遥操作数据穹彻智能 RoboChallenge

2025-09-23

编程模型集体“挂科”引反思

SWE-Bench Pro新基准测试显示，GPT-5、Claude Opus 4.1、Gemini 2.5在真实复杂编程任务中正确率均低于25%。暴露出当前大模型在长程逻辑、需求理解、代码可维护性上的系统性短板，促使行业重新评估“代码智能”评价指标，并加速神经-符号混合、强化学习新范式的研究投入。

编程基准 SWE-Bench 模型局限神经符号代码智能

2025-08-24

AI训练数据透明化

上海AI实验室推出全球首个大模型数据竞技场OpenDataArena，通过公开可复现的数据评测对抗“炼丹玄学”。平台提供统一基准与实时排行榜，降低社区试错成本，有望推动行业从暴力堆参数转向精细数据工程。

OpenDataArena 数据评测上海AI实验室透明化基准

2025-08-15

GPT-5与评测基准拉锯

GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑；同时医疗推理测试GPT-5又超人类医生24%，凸显大模型能力评估体系分裂，行业呼吁统一标准。

GPT-5 评测基准推理能力大模型标准

2025-08-08

模型评测与基准升级

GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决，o3在首届大模型国际象棋对抗赛夺冠，显示行业竞争焦点正从参数规模转向可验证的综合能力。

模型评测 LMArena SWE-Bench 基准测试大模型对抗赛

2025-07-31

GPT-5 即将发布

多条信源指向 OpenAI 下一代旗舰模型 GPT-5（内部代号 Zenith）已进入客户端灰度测试，统一 GPT 与 o 系列架构，在 Minecraft 等基准中表现“魔法级”。若如期发布，将刷新大模型性能天花板并再度搅动全球 AI 竞赛格局。

GPT-5 OpenAI 大模型基准测试发布

2025-07-19

开源生态格局重塑

Kimi K2以万亿参数MoE架构登顶开源榜，DeepSeek让出王座；MMLU-CF发布2万题“0污染”评测集，为开源社区提供公平基准，标志开源大模型进入“工具调用+可信评测”双轨竞争新阶段。

开源模型 Kimi DeepSeek 评测基准 MMLU-CF

2025-07-12

科研专用LLM评估新基准

Ai2、耶鲁、NYU上线全球首个科研LLM竞技场SciArena，23款顶级模型实测，o3夺冠、DeepSeek-R1第四，暴露自动指标难捕捉科研人员偏好的痛点，将推动学术写作辅助模型迭代。

SciArena 科研LLM 评估基准 o3 DeepSeek

2025-06-24

大模型空间推理瓶颈突破

SolidGeo、SolidLM等立体几何基准与3D结构化建模新范式集中出现，标志着多模态大模型在三维空间理解与推理上的关键短板被系统评估并给出解决路径，为机器人、AR/VR、自主驾驶等应用奠定认知基础。

立体几何空间推理多模态基准 3D建模 SolidGeo

2025-06-16

多模态大模型技术突破

蚂蚁Ming-Omni、字节Seaweed APT2、腾讯混元3D 2.1等开源或发布，实现语音-视觉-动作一体化生成；哈佛BRIDGE、哈工大EFFIVLM-BENCH等新基准同步推出，推动多模态理解与生成的标准化和可评测进程。

多模态 Ming-Omni Seaweed APT2 BRIDGE 基准测试

2025-06-08

多模态慢思考与评估基准

复旦等发布首个多模态逻辑推理基准，Gemini 2.5 Pro仅得60分；VL-Rethinker框架让视觉模型学会“三思后行”，超GPT-o1近7个百分点，揭示多模态推理仍是短板，慢思考成提升核心路径。

多模态推理慢思考评估基准 Gemini 视觉模型

# 基准