AI快开门

发现最好的AI工具

2026-01-12

国产大模型编程突围

DeepSeek-V4 春节前后发布,主打长代码生成与理解,内部评测已超 Claude、GPT;叠加清华系数学证明模型 AxiomProver 在普特南竞赛 12 题满分,标志国产大模型在垂直专业领域首次实现全球领先,有望重塑开发者生态与科研范式。
2025-12-26

国产大模型开源与性能突破

通义千问、混元、Seed等国产大模型密集开源或升级:Qwen-Image-Edit解决图像漂移,混元T1-Vis上线,Seed Prover 1.5 IMO夺金,2.6B小参数LFM2在边缘端比肩百亿模型,显示国产模型正快速缩小与国际差距并探索差异化优势。
2025-11-28

国产多模态与数学大模型爆发

DeepSeek-Math-V2 首次以开源身份夺 IMO 金牌,快手 Keye-VL-671B、阿里 Z-Image、智谱清影 2.0 等国产多模态密集发布,性能对标 GPT-4o,标志中国在数学推理与视频/图像生成进入第一梯队。
2025-11-25

AI4S与数学推理突破

GPT-5早期科研版帮助数学家破解Erdős难题、将生物实验推理压缩至分钟级;陶哲轩借助Gemini十分钟攻克连续整数结构难题;吴恩达推出ICLR级论文自动评审Agent。AI正从“聊天工具”升级为“硅基科研员”,显著加速跨学科研究进程,推动科研范式转变。
2025-09-26

GPT-5与下一代模型突破

OpenAI官宣GPT-5通过“哥德尔测试”并破解数学猜想,同时推出个性化日报功能Pulse;基准显示其在多行业逼近人类专家,预示大模型正从“对话”走向“自主科研与推理”。
2025-09-04

顶级模型与科研突破

OpenAI、谷歌、DeepSeek等相继释放下一代大模型信号:GPT-5带动Codex用量暴涨10倍并助数学家解决难题,Gemini for Home新形态将登陆Nest,DeepSeek年底拟推“超强AI代理”。IMO金牌被AI两年内攻克、Hinton诺奖演讲再议玻尔兹曼机,均显示基础模型与科学智能正进入加速拐点,为行业树立新性能标尺。
2025-08-04

数学推理突破成焦点

谷歌Gemini 2.5 Deep Think获IMO金牌,字节Seed-Prover、清华校友提示词工程亦攻克IMO 2025,显示大模型在形式化数学推理赛道已逼近人类顶尖水平,为科研自动化与教育个性化打开新空间。
2025-07-22

IMO数学奥赛AI夺金争议

OpenAI与谷歌DeepMind先后宣称其大模型在2025国际数学奥林匹克(IMO)达到金牌水平,引发主办方与学界批评“抢发”“炒作”。事件折射AI高阶推理突破,也暴露竞赛伦理与公关规则缺失,全球瞩目AI数学能力边界。
2025-07-19

顶尖模型数学推理突破

Gemini 2.5 Pro在IMO 2025大模型数学竞赛中以30%+总成绩遥遥领先,8B参数的Goedel-Prover-V2更击败671B模型重夺定理证明王座,显示小参数也能在形式化推理上实现越级打怪,数学成为检验大模型极限能力的“试金石”。
2025-07-04

科研AI与方法论革新

MIT SPARKS系统独立发现两条蛋白质设计法则,华为“思维森林”数学推理准确率97%,谷歌“AI科学家”组团科研,北邮揭示长链推理加剧幻觉,显示AI正从辅助工具转向自主科研主体,也暴露反思机制缺陷。
2025-06-23

教育专用大模型轻量化

网易有道开源14B参数“子曰3”,以低成本实现数学推理超越更大模型,为教育普惠提供轻量高性能方案,带动AI教辅、公平化学习新趋势。
2025-06-10

推理与数学能力跃升

大模型数学推理7个月内从2%提至22%,超越人类平均;o3-mini-high被曝靠直觉破解顶尖难题,14位数学家集体评估。同时,Time-R1用三阶段强化学习让3B小模型时间推理反超671B大模型,浙大InftyThink实现“思维分段”无限深度推理。研究揭示模型可自发形成类脑概念地图,为迈向AGI提供认知机制线索。
2025-06-02

数据瓶颈与自进化训练

CMU的SRT与Ubiquant熵最小化方法相继实现“零标注”自迭代,数学推理暴涨100%,10步即可收敛,宣告后训练告别昂贵RLHF,为互联网数据枯竭背景下的AGI路径提供可持续方案。
2025-05-10

大模型评测与治理升级

UGMathBench、RL下半场评估讨论及国家数据局重大课题中标,标志着AI已从“炼大模型”进入“评大模型、管大模型”的新阶段。科学、可信、场景化的评测基准和治理框架,将直接决定后续技术路线、资本投向与合规成本,是行业由狂热走向成熟的转折点。
2025-05-01

数学与推理模型突破

DeepSeek-Prover-V2、Mona微调、浙大vivo一次示范终身掌握等成果,显示小参数模型在数学证明、复杂操作、终身学习上实现“大模型做不到”的新技能。推理侧Scaling Law后训练化,为端侧、教育、科研场景提供低成本高性能方案,国产小模型有望率先在奥数辅导、自动定理证明等 niche 市场商业化落地。
2025-04-26

小参数高效数学推理突破

英伟达1.5B模型在AIMO2奥赛击败14B级对手,验证“小模型+强数据”路线可行,开源OpenMath-Nemotron系列,为端侧数学推理、教育普惠与科研降本树立新标杆,陶哲轩公开点赞。
2025-04-03

多模态大模型突破

GPT-4.5通过图灵测试、Gemini-2.5-pro数学登顶、字节DreamActor-M1对标Runway Act,显示多模态理解与生成正逼近人类水平,奠定AGI下一跳关键基础。
2025-02-21

AI科研与数学推理升级

谷歌AI co-scientist独立提出可验证科研假设,普林斯顿ReasonFlux用500思维模板刷新奥数成绩,DeepSeek-R1通过步骤级对齐在AIME再提分,显示大模型在科研与数学深度推理上持续突破。
2025-02-17

AI4Science与算法前沿

MIT博士发布AI4Physics框架,上海AI Lab用纯RL突破数学推理,港大CytoMAD提升癌症检测,北师大提出网络粗粒化方案,Foldseek-Multimer极速比对蛋白复合物,显示AI正向基础科学、生物计算、数学证明等硬核领域输出新范式。
2025-02-16

数学推理新纪录

上海AI Lab无需蒸馏R1,仅通过强化学习在数学推理任务上超越DeepSeek,展示RL在极限推理场景的潜力,为后训练阶段性能挖掘提供新思路。