推理模型 - AI话题

2025-12-06

谷歌Gemini 3系列霸榜

Gemini 3 Deep Think与Gemini 3 Pro相继发布，在IMO金牌级推理与多模态视觉基准上刷新SOTA，拉开与GPT-5系列差距，谷歌重夺“推理之王”称号，将全球基础模型军备竞赛推向新高点。

Gemini 3 推理模型多模态视觉

2025-12-02

智能体与自动驾驶推理

MIT OpenAGI、英伟达Alpamayo-R1、蚂蚁Agentar、阶跃GUI Agent等推出“先思考后行动”的推理型智能体，把链式思考引入自动驾驶与终端操控，降低幻觉提升决策可信度，开启物理AI落地元年。

AI Agent 自动驾驶推理模型物理AI 链式思考

2025-06-22

开源多模态与强化学习

OpenUni 1.1B多模态模型开源性能媲美8B BLIP3-o；同期RLHF→PPO→GRPO系统指南发布，降低推理模型训练门槛，推动中小团队低成本复现顶尖效果，加速社区创新。

开源多模态强化学习 RLHF 推理模型

2025-06-12

OpenAI最强推理模型o3-pro发布

OpenAI突然上线o3-pro，取代o1-pro成为默认专业模型，数学/编程/科学基准全面领先，价格却直降80%，被CEO奥特曼称为“太聪明了”。同步传出正与沙特、印度投资者洽谈400亿美元融资，估值或破3000亿美元，进一步巩固其在大模型性能与资本层面的双霸权。

o3-pro 推理模型 OpenAI 降价融资

2025-06-01

大模型推理极限预警

OpenAI o3在10倍算力助推下能力飙升，但多方预警“撞墙”仅剩一年：继续Scaling需突破显存、能耗与数据瓶颈，行业或将转向稀疏化、硬件-算法协同设计等新路线，影响全球大模型竞赛节奏与投资方向。

o3推理模型算力瓶颈 Scaling Law OpenAI

2025-05-20

推理模型范式升级与测试时计算

OpenAI、翁荔、北大联合强调“测试时计算”是下一代Scaling Law，AlphaEvolve矩阵乘法48次乘法突破获实证，单样本RLVR在数学任务上达73.6%准确率，推理能力成为大模型军备竞赛新焦点。

测试时计算推理模型 AlphaEvolve RLVR Scaling Law

2025-04-10

开源代码模型竞速

Llama-4、Nemotron-253B、DeepCoder-14B、Cogito-v1等开源代码/推理模型相继上线，性能对标OpenAI o1/o3，参数效率与推理速度刷新SOTA，推动“本地部署+低成本微调”成为开发者新默认。

开源代码生成推理模型本地部署开发者生态

2025-04-02

开源大模型激战升级

OpenAI六年来首次开源推理模型，阿里Qwen2.5-Omni登顶开源榜，DeepSeek-V3刷新性能纪录，蚂蚁+清华开源低成本训练框架，开源生态进入“多强”时代，直接撼动闭源护城河并加速全球AI平权。

开源推理模型 DeepSeek Qwen OpenAI

2025-03-27

谷歌Gemini 2.5 Pro登顶

谷歌深夜发布Gemini 2.5 Pro实验版，首次在LMArena榜单以40分优势超越GPT-4.5，代码、数学、推理全面屠榜，开启“思考模型”新范式；DeepSeek-V3-0324仅用后训练优化即实现同等超越，开源与闭源旗舰同频竞争，大模型性能天花板再被抬高。

Gemini 2.5 Pro DeepSeek-V3 推理模型 LMArena 性能突破

2025-03-20

推理大模型价格战升级

OpenAI推出百万token 600美元的o1-pro，定价达DeepSeek-R1的270倍；谷歌Gemini升级Canvas语音编程，国产240元数学多模态R1亦亮相。高价旗舰与低价高效模型并存，标志大模型进入“极致性能 vs 极致性价比”双轨竞争，将重塑云厂商、开发者及企业采购策略。

o1-pro DeepSeek 定价推理模型 Gemini

2025-03-06

开源轻量推理模型大战

阿里通义千问开源QwQ-32B，以1/10成本实现对标DeepSeek-R1的推理性能，消费级显卡可跑；360、Light-R1等跟进，掀起“小参数+强化学习”复现o1/R1热潮，显著降低大模型落地门槛，加速端侧与中小企业部署。

QwQ-32B DeepSeek-R1 开源推理模型轻量化

2025-03-05

推理大模型军备竞赛

DeepSeek-R1、OpenAI o3/o1、Anthropic Claude-3.7-Sonnet、xAI Grok-3等顶尖推理模型密集发布，竞技场排名瞬息变化；开源社区同步推出INT8量化、CoE内存优化、VFMGL多模态迁移等配套技术，标志着“长思维链+强化学习”成为头部厂商必争高地，直接决定下一代AI基础设施格局。

推理模型 DeepSeek-R1 Claude-3.7 Grok-3 长思维链

2025-02-16