数学推理 - AI话题

2026-01-12

国产大模型编程突围

DeepSeek-V4 春节前后发布，主打长代码生成与理解，内部评测已超 Claude、GPT；叠加清华系数学证明模型 AxiomProver 在普特南竞赛 12 题满分，标志国产大模型在垂直专业领域首次实现全球领先，有望重塑开发者生态与科研范式。

DeepSeek-V4 代码生成数学推理国产大模型科研范式

2025-12-26

国产大模型开源与性能突破

通义千问、混元、Seed等国产大模型密集开源或升级：Qwen-Image-Edit解决图像漂移，混元T1-Vis上线，Seed Prover 1.5 IMO夺金，2.6B小参数LFM2在边缘端比肩百亿模型，显示国产模型正快速缩小与国际差距并探索差异化优势。

国产大模型开源多模态数学推理边缘AI

2025-11-28

国产多模态与数学大模型爆发

DeepSeek-Math-V2 首次以开源身份夺 IMO 金牌，快手 Keye-VL-671B、阿里 Z-Image、智谱清影 2.0 等国产多模态密集发布，性能对标 GPT-4o，标志中国在数学推理与视频/图像生成进入第一梯队。

DeepSeek 多模态数学推理开源模型

2025-11-25

AI4S与数学推理突破

GPT-5早期科研版帮助数学家破解Erdős难题、将生物实验推理压缩至分钟级；陶哲轩借助Gemini十分钟攻克连续整数结构难题；吴恩达推出ICLR级论文自动评审Agent。AI正从“聊天工具”升级为“硅基科研员”，显著加速跨学科研究进程，推动科研范式转变。

AI4S GPT-5数学推理自动评审科研范式 Erdős难题

2025-09-26

GPT-5与下一代模型突破

OpenAI官宣GPT-5通过“哥德尔测试”并破解数学猜想，同时推出个性化日报功能Pulse；基准显示其在多行业逼近人类专家，预示大模型正从“对话”走向“自主科研与推理”。

GPT-5 哥德尔测试数学推理个性化AI OpenAI

2025-09-04

顶级模型与科研突破

OpenAI、谷歌、DeepSeek等相继释放下一代大模型信号：GPT-5带动Codex用量暴涨10倍并助数学家解决难题，Gemini for Home新形态将登陆Nest，DeepSeek年底拟推“超强AI代理”。IMO金牌被AI两年内攻克、Hinton诺奖演讲再议玻尔兹曼机，均显示基础模型与科学智能正进入加速拐点，为行业树立新性能标尺。

GPT-5 Gemini AI科研大模型突破数学推理

2025-08-04

数学推理突破成焦点

谷歌Gemini 2.5 Deep Think获IMO金牌，字节Seed-Prover、清华校友提示词工程亦攻克IMO 2025，显示大模型在形式化数学推理赛道已逼近人类顶尖水平，为科研自动化与教育个性化打开新空间。

数学推理 IMO Gemini 形式化

2025-07-22

IMO数学奥赛AI夺金争议

OpenAI与谷歌DeepMind先后宣称其大模型在2025国际数学奥林匹克（IMO）达到金牌水平，引发主办方与学界批评“抢发”“炒作”。事件折射AI高阶推理突破，也暴露竞赛伦理与公关规则缺失，全球瞩目AI数学能力边界。

IMO 数学推理 OpenAI DeepMind 伦理争议

2025-07-19

顶尖模型数学推理突破

Gemini 2.5 Pro在IMO 2025大模型数学竞赛中以30%+总成绩遥遥领先，8B参数的Goedel-Prover-V2更击败671B模型重夺定理证明王座，显示小参数也能在形式化推理上实现越级打怪，数学成为检验大模型极限能力的“试金石”。

IMO 数学推理 Gemini 定理证明小参数越级

2025-07-04

科研AI与方法论革新

MIT SPARKS系统独立发现两条蛋白质设计法则，华为“思维森林”数学推理准确率97%，谷歌“AI科学家”组团科研，北邮揭示长链推理加剧幻觉，显示AI正从辅助工具转向自主科研主体，也暴露反思机制缺陷。

科研AI 蛋白质设计数学推理幻觉

2025-06-23

教育专用大模型轻量化

网易有道开源14B参数“子曰3”，以低成本实现数学推理超越更大模型，为教育普惠提供轻量高性能方案，带动AI教辅、公平化学习新趋势。

子曰3 教育大模型数学推理开源轻量化

2025-06-10

推理与数学能力跃升

大模型数学推理7个月内从2%提至22%，超越人类平均；o3-mini-high被曝靠直觉破解顶尖难题，14位数学家集体评估。同时，Time-R1用三阶段强化学习让3B小模型时间推理反超671B大模型，浙大InftyThink实现“思维分段”无限深度推理。研究揭示模型可自发形成类脑概念地图，为迈向AGI提供认知机制线索。

数学推理时间推理思维链类脑机制 AGI

2025-06-02

数据瓶颈与自进化训练

CMU的SRT与Ubiquant熵最小化方法相继实现“零标注”自迭代，数学推理暴涨100%，10步即可收敛，宣告后训练告别昂贵RLHF，为互联网数据枯竭背景下的AGI路径提供可持续方案。

自进化无监督数据枯竭数学推理 RLHF

2025-05-10

大模型评测与治理升级

UGMathBench、RL下半场评估讨论及国家数据局重大课题中标，标志着AI已从“炼大模型”进入“评大模型、管大模型”的新阶段。科学、可信、场景化的评测基准和治理框架，将直接决定后续技术路线、资本投向与合规成本，是行业由狂热走向成熟的转折点。

评测基准 RL评估 AI治理数据局课题数学推理

2025-05-01

数学与推理模型突破

DeepSeek-Prover-V2、Mona微调、浙大vivo一次示范终身掌握等成果，显示小参数模型在数学证明、复杂操作、终身学习上实现“大模型做不到”的新技能。推理侧Scaling Law后训练化，为端侧、教育、科研场景提供低成本高性能方案，国产小模型有望率先在奥数辅导、自动定理证明等 niche 市场商业化落地。

数学推理 DeepSeek-Prover 终身学习小模型

2025-04-26

小参数高效数学推理突破

英伟达1.5B模型在AIMO2奥赛击败14B级对手，验证“小模型+强数据”路线可行，开源OpenMath-Nemotron系列，为端侧数学推理、教育普惠与科研降本树立新标杆，陶哲轩公开点赞。

英伟达数学推理小模型开源 AIMO2

2025-04-03

多模态大模型突破

GPT-4.5通过图灵测试、Gemini-2.5-pro数学登顶、字节DreamActor-M1对标Runway Act，显示多模态理解与生成正逼近人类水平，奠定AGI下一跳关键基础。

多模态图灵测试数学推理 AGI

2025-02-21

AI科研与数学推理升级

谷歌AI co-scientist独立提出可验证科研假设，普林斯顿ReasonFlux用500思维模板刷新奥数成绩，DeepSeek-R1通过步骤级对齐在AIME再提分，显示大模型在科研与数学深度推理上持续突破。

AI科研数学推理 ReasonFlux AIME DeepSeek

2025-02-17

AI4Science与算法前沿

MIT博士发布AI4Physics框架，上海AI Lab用纯RL突破数学推理，港大CytoMAD提升癌症检测，北师大提出网络粗粒化方案，Foldseek-Multimer极速比对蛋白复合物，显示AI正向基础科学、生物计算、数学证明等硬核领域输出新范式。

AI4Science 数学推理生物计算网络粗粒化癌症检测

2025-02-16

数学推理新纪录

上海AI Lab无需蒸馏R1，仅通过强化学习在数学推理任务上超越DeepSeek，展示RL在极限推理场景的潜力，为后训练阶段性能挖掘提供新思路。

数学推理强化学习 RL 后训练

AI快开门

发现最好的AI工具

# 数学推理