评测基准 - AI话题

2026-01-02

多模态安全与评测

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench，揭示语调、语速即可攻破大音频模型；VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时，安全与评测体系同步升级。

多模态安全音频越狱视觉定位评测基准鲁棒性

2025-08-15

GPT-5与评测基准拉锯

GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑；同时医疗推理测试GPT-5又超人类医生24%，凸显大模型能力评估体系分裂，行业呼吁统一标准。

GPT-5 评测基准推理能力大模型标准

2025-07-19

开源生态格局重塑

Kimi K2以万亿参数MoE架构登顶开源榜，DeepSeek让出王座；MMLU-CF发布2万题“0污染”评测集，为开源社区提供公平基准，标志开源大模型进入“工具调用+可信评测”双轨竞争新阶段。

开源模型 Kimi DeepSeek 评测基准 MMLU-CF

2025-06-02

多模态与评测基准

360开源1200万细粒度图文对数据集FG-CLIP，浙大等发布5700问空间智能评测基准，双双瞄准“模型幻觉”与“空间盲区”，为多模态大模型提供更高阶的试金石。

多模态图文对齐空间智能评测基准 FG-CLIP

2025-05-23

AI 翻译与评测基准升级

首个 AI 翻译实战榜单发布，GPT-4o 居首；同时斯坦福、牛津提出“谄媚”新基准，显示所有主流模型均存在讨好倾向，为模型可信性与评估体系提供新标尺。

AI翻译评测基准 GPT-4o 谄媚可信AI

2025-05-10

大模型评测与治理升级

UGMathBench、RL下半场评估讨论及国家数据局重大课题中标，标志着AI已从“炼大模型”进入“评大模型、管大模型”的新阶段。科学、可信、场景化的评测基准和治理框架，将直接决定后续技术路线、资本投向与合规成本，是行业由狂热走向成熟的转折点。

评测基准 RL评估 AI治理数据局课题数学推理

2024-11-16

大模型数学与推理能力瓶颈

FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%，凸显其逻辑推理短板；同时业界持续争论LLM是否具备真正“推理”能力，提示通往AGI仍有关键缺口，亟需新算法与评测体系突破。

数学推理 FrontierMath 大语言模型 AGI 评测基准

2024-08-14

自动驾驶与智能体落地

文远知行获加州载客许可，毫末智驾里程破2亿公里，AgentQ、跨系统智能体基准等新框架将自动驾驶与通用智能体评测推向L4+及百任务级别，显示AI在物理世界交互能力快速成熟，商业化落地进入规模验证期。

自动驾驶智能体文远知行 AgentQ 评测基准

2024-07-12

大模型评测与可信危机

MMLU-PRO被曝偏袒闭源模型、上海交大发布BeHonest诚实性基准、剑桥呼吁儿童安全框架，凸显权威评测失真与模型可信风险，行业急需公正、安全、分级的评估体系以支撑AGI健康发展。

评测基准模型诚实性儿童安全可信AI

2024-06-29

多模态评测新基准密集上线

陈丹琦团队发布CharXiv图表推理集，真实arXiv图表2323张让Claude3.5仅及格；Resemble AI推出Detect-2B深度伪造检测模型，准确率94%；Video-MME同时上线。新基准聚焦图表、视频、语音伪造等细粒度能力，填补传统NLP评测空白，倒逼模型厂商提升多模态安全与可靠性。

评测基准多模态深度伪造图表推理 CharXiv

2024-06-20

高考与评测新战场

GPT-4o获AI高考榜眼、大模型竞技场排名引口水战、1342万考生用AI填志愿。高考、志愿、OlympicBench等新基准成为模型“刷榜”新阵地，也反映公众对AI智力水平的高度关注与信任度提升。

AI高考评测基准填志愿竞技场公众认知

2024-05-01

医疗AI突破与评估基准

上交大零湿实验实现蛋白质功能定向进化，RNA测序合成肿瘤图像登NBE；同时开源医疗大模型排行榜发布，为行业提供统一评测标准，加速AI制药与精准医疗落地。

医疗大模型蛋白质设计 RNA成像评测基准 AI制药

2024-02-03

多模态大模型评测与升级

谷歌Bard集成Imagen2并支持中文与40+语言；商汤日日新4.0抢先发布跨模态Assistant API；华科大等推出新基准全面测评14款多模态模型，显示GPT-4V并非绝对王者，中外模型竞争进入“多模态工具调用”新阶段。

多模态 GPT-4V Bard 商汤评测基准

AI快开门

发现最好的AI工具

# 评测基准