AI快开门

发现最好的AI工具

2026-01-02

多模态安全与评测

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench,揭示语调、语速即可攻破大音频模型;VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时,安全与评测体系同步升级。
2025-08-15

GPT-5与评测基准拉锯

GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑;同时医疗推理测试GPT-5又超人类医生24%,凸显大模型能力评估体系分裂,行业呼吁统一标准。
2025-07-19

开源生态格局重塑

Kimi K2以万亿参数MoE架构登顶开源榜,DeepSeek让出王座;MMLU-CF发布2万题“0污染”评测集,为开源社区提供公平基准,标志开源大模型进入“工具调用+可信评测”双轨竞争新阶段。
2025-06-02

多模态与评测基准

360开源1200万细粒度图文对数据集FG-CLIP,浙大等发布5700问空间智能评测基准,双双瞄准“模型幻觉”与“空间盲区”,为多模态大模型提供更高阶的试金石。
2025-05-23

AI 翻译与评测基准升级

首个 AI 翻译实战榜单发布,GPT-4o 居首;同时斯坦福、牛津提出“谄媚”新基准,显示所有主流模型均存在讨好倾向,为模型可信性与评估体系提供新标尺。
2025-05-10

大模型评测与治理升级

UGMathBench、RL下半场评估讨论及国家数据局重大课题中标,标志着AI已从“炼大模型”进入“评大模型、管大模型”的新阶段。科学、可信、场景化的评测基准和治理框架,将直接决定后续技术路线、资本投向与合规成本,是行业由狂热走向成熟的转折点。
2024-11-16

大模型数学与推理能力瓶颈

FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%,凸显其逻辑推理短板;同时业界持续争论LLM是否具备真正“推理”能力,提示通往AGI仍有关键缺口,亟需新算法与评测体系突破。
2024-08-14

自动驾驶与智能体落地

文远知行获加州载客许可,毫末智驾里程破2亿公里,AgentQ、跨系统智能体基准等新框架将自动驾驶与通用智能体评测推向L4+及百任务级别,显示AI在物理世界交互能力快速成熟,商业化落地进入规模验证期。
2024-07-12

大模型评测与可信危机

MMLU-PRO被曝偏袒闭源模型、上海交大发布BeHonest诚实性基准、剑桥呼吁儿童安全框架,凸显权威评测失真与模型可信风险,行业急需公正、安全、分级的评估体系以支撑AGI健康发展。
2024-06-29

多模态评测新基准密集上线

陈丹琦团队发布CharXiv图表推理集,真实arXiv图表2323张让Claude3.5仅及格;Resemble AI推出Detect-2B深度伪造检测模型,准确率94%;Video-MME同时上线。新基准聚焦图表、视频、语音伪造等细粒度能力,填补传统NLP评测空白,倒逼模型厂商提升多模态安全与可靠性。
2024-06-20

高考与评测新战场

GPT-4o获AI高考榜眼、大模型竞技场排名引口水战、1342万考生用AI填志愿。高考、志愿、OlympicBench等新基准成为模型“刷榜”新阵地,也反映公众对AI智力水平的高度关注与信任度提升。
2024-05-01

医疗AI突破与评估基准

上交大零湿实验实现蛋白质功能定向进化,RNA测序合成肿瘤图像登NBE;同时开源医疗大模型排行榜发布,为行业提供统一评测标准,加速AI制药与精准医疗落地。
2024-02-03

多模态大模型评测与升级

谷歌Bard集成Imagen2并支持中文与40+语言;商汤日日新4.0抢先发布跨模态Assistant API;华科大等推出新基准全面测评14款多模态模型,显示GPT-4V并非绝对王者,中外模型竞争进入“多模态工具调用”新阶段。