AI快开门

发现最好的AI工具

2025-12-13

谷歌Gemini深度研究反击

谷歌借Gemini 3 Pro推出增强版Deep Research智能体,主打低幻觉、复杂信息检索与多平台集成,并发布DeepSearchQA基准,意在以研究能力对抗GPT-5.2。此举显示搜索巨头正把模型优势快速产品化,争夺企业级知识工作入口。
2025-11-24

Gemini 3 反超 GPT 夺王座

谷歌 Gemini 3 系列(Pro/Nano)在 LMArena、数学与物理基准全面领先,获陶哲轩等顶尖学者实测背书,迫使 OpenAI 承认技不如人并加速推出“Shallotpeat”应对,标志着大模型竞赛进入谷歌反攻新阶段,行业格局面临重塑。
2025-11-20

Gemini 3系列震撼发布

谷歌连续推出Gemini 3 Pro/3.0及Nano Banana Pro,在代码、数学、多模态基准全面超越GPT-5.1,被业界视为“AGI级”里程碑,引爆全球模型军备竞赛,直接促使OpenAI紧急上线GPT-5.1-Codex-Max应对。
2025-08-08

模型评测与基准升级

GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决,o3在首届大模型国际象棋对抗赛夺冠,显示行业竞争焦点正从参数规模转向可验证的综合能力。
2025-07-31

GPT-5 即将发布

多条信源指向 OpenAI 下一代旗舰模型 GPT-5(内部代号 Zenith)已进入客户端灰度测试,统一 GPT 与 o 系列架构,在 Minecraft 等基准中表现“魔法级”。若如期发布,将刷新大模型性能天花板并再度搅动全球 AI 竞赛格局。
2025-06-16

多模态大模型技术突破

蚂蚁Ming-Omni、字节Seaweed APT2、腾讯混元3D 2.1等开源或发布,实现语音-视觉-动作一体化生成;哈佛BRIDGE、哈工大EFFIVLM-BENCH等新基准同步推出,推动多模态理解与生成的标准化和可评测进程。
2025-05-13

医疗与科研 AI 评估标准化

OpenAI 开源 HealthBench,汇聚 262 名医生 5 千段对话;清华等提出 MCU 开放世界基准,推动医疗、抗体、天文等领域大模型可泛化评估,降低科研与临床落地风险。
2025-02-23

视觉-多模态推理基准升级

港中文MMLab发布MME-CoT基准,首次系统评测大模型视觉链式思维能力;阿里国际开源Ovis2架构,同步提升视频/多图理解,推动多模态应用标准化。
2025-02-18

模型评测与基准

OpenAI推出SWE-Lancer真实软件工程基准,多模态新基准让GPT-4o得零分;北大几何模型基于DeepSeek-Coder达IMO金牌水平,刷新国产AI科研上限。
2025-01-16

AI治理与安全评测

智谱被列入美国实体清单、苹果摘要功能频现假新闻、多国召开AI治理论坛,凸显技术扩散与信息真实性风险;同步推出的PRMBench、LONGPROC等新基准,为过程奖励与长文本生成提供安全与能力评估工具。
2025-01-04

多模态长文档理解基准

LongDocURL新基准覆盖50-150页多模态文档,GPT-4o仅刚及格,凸显长上下文与跨模态推理仍是瓶颈,将推动模型架构、训练数据及评测方法的新一轮竞赛。
2024-09-26

AI for Science 基础设施与评价

普林斯顿CORE-Bench基准揭示大模型科研可重复性准确率仅21%,智源发布CCI3.0中文语料库,Nature子刊连续发表药物重定位、分子忆阻器等跨学科研究,推动科学智能计算标准化与数据共建。
2024-09-17

多模态基准与模型升级

MMMU-Pro将多模态评测推向“史诗级难度”,过滤纯文本、新增纯视觉问答;OPPO AndesGPT-2.0同步升级多模态能力,显示终端厂商与学术团队正把多模态理解作为下一代AI核心战场。
2024-09-15

模型评测与基准危机

Reflection 模型被指成绩造假并道歉,MMLU-Pro 等新基准紧急上线,英伟达科学家称“现有测试已失灵”。行业面临基准饱和、刷榜泛滥的信任危机,推动更严格、可解释的评价体系成为共识。
2024-08-17

国产UI大模型突破

Motiff妙多发布国内首个专为UI设计场景打造的大模型,在多项基准测试中以显著优势超越苹果自研模型与GPT-4o,标志着中国在垂直领域大模型上首次实现国际领先,有望重塑界面设计生产流程并带动国产设计工具生态升级。
2024-08-07

长文本理解基准挑战

北大/通研院发布LooGLE超长文本基准,现有大模型全军覆没,暴露上下文记忆与推理短板,推动行业聚焦长文档理解技术突破,被视为下一代大模型核心门槛。
2024-07-18

大模型评测与缺陷暴露

多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象,贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架,揭示高分低能与token偏见问题,推动行业重新审视模型可靠性与评测标准。
2024-07-02

AI安全与治理监管升级

法国拟对Nvidia发起反垄断指控,多国研讨生成式AI治理框架;Instagram、YouTube调整AI内容标识与删除政策;Anthropic启动新基准资助计划。技术快速迭代倒逼监管规则、平台责任与评测标准同步更新,行业进入合规发展关键期。
2024-06-21

Claude 3.5 Sonnet 新王登基

Anthropic 发布 Claude 3.5 Sonnet,多项基准超越 GPT-4o,免费上线 Amazon Bedrock 与官网;实测在数学、玩梗、长文本等场景表现亮眼,成为目前最强商用大模型,直接搅动全球闭源模型竞争格局。
2024-05-29

顶级模型评测与认知框架

CoT提出者Jason Wei指出当前大模型基准存在「七宗罪」,难以全面评估能力;复旦&上海AI Lab上线3DGen-Arena,用众包方式360°评测3D生成;哈工大与度小满提出SAPT共享注意力框架,提升持续学习性能。行业开始反思评估体系本身,推动更科学的测试基准,将决定下一代模型的优化方向与竞争格局。