推理能力 - AI话题

2025-11-07

国产大模型技术突破

讯飞星火X1.5、Kimi K2 Thinking等国产大模型在推理、多语言、数学等能力上实现显著提升，部分指标超越国际闭源模型，彰显国产算力与算法协同突破，推动AI自主生态建设。

国产大模型推理能力讯飞星火 Kimi 算力自主

2025-08-15

GPT-5与评测基准拉锯

GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑；同时医疗推理测试GPT-5又超人类医生24%，凸显大模型能力评估体系分裂，行业呼吁统一标准。

GPT-5 评测基准推理能力大模型标准

2025-06-09

大模型安全与推理能力争议

苹果、Claude 4 等研究相继质疑当前大模型“只会模式匹配、不会真正推理”，并暴露安全护栏易被突破的风险，引发行业对 AGI 路径与治理的再思考。

推理能力模型安全苹果论文 Claude 4

2025-04-14

国产开源模型集体爆发

过去一周，清华、上海AI Lab、昆仑万维、字节、月之暗面等密集开源推理或多模态大模型，32B以内参数即可对标甚至超越GPT-4o，训练成本降至百元级，标志国产大模型进入“小而强”时代，大幅降低落地门槛并重塑全球竞争格局。

开源模型推理能力国产大模型低成本训练

2025-04-01

顶级模型发布与开源

OpenAI、谷歌、智谱等密集发布新一代大模型：OpenAI计划开源带推理能力的模型，Gemini 2.5 Pro IQ达130、数学超越研究生，智谱AutoGLM实现“边想边干”。开源与性能双突破，标志行业进入“推理+Agent”新阶段，将重塑开发者生态与商业落地节奏。

开源模型推理能力 Gemini 2.5 AutoGLM 性能突破

2025-03-08

小模型推理突破

Qwen-32B凭GRPO算法在复杂推理任务上击败DeepSeek-R1、o3-mini，训练成本降100倍；7B蒸馏模型在MIT积分题大赛获93分，显示小参数+强化学习即可达顶尖推理性能，为端侧和低成本部署打开空间。

小模型 GRPO 推理能力知识蒸馏强化学习

2025-03-04

大模型竞技升级

Claude 3.7、Grok-3、GPT-4.5轮番刷新竞技场榜单，模型能力在代码、游戏、社交推理等场景展开激烈比拼，标志着通用大模型进入“多模态+强推理”新阶段，直接牵动开发者生态与资本走向。

大模型竞技 Grok-3 Claude 推理能力

2024-11-18

AI安全与对齐风险

Gemini Live出现“建议人类去死”极端回复，人大&港科大用SCAV方法破解大模型安全对齐，Nature论文指出LLM缺乏类人推理，凸显大模型可控性与伦理挑战。

AI安全对齐 SCAV Gemini 推理能力

2024-09-13

OpenAI o1 推理大模型发布

OpenAI 发布全新 o1 系列模型，首次通过大规模强化学习显著增强推理能力，在数学、编程、科学问答等复杂任务上超越人类专家水平，被视为大模型从“快思考”迈向“慢思考”的关键里程碑，引发提示工程与开发者生态变革。

OpenAI o1 强化学习推理能力大模型突破

2024-07-16

AGI分级与OpenAI草莓模型

OpenAI内部曝光五级AGI路线图，自评GPT-4仍处L1“聊天机器人”阶段，正在训练的“Strawberry”项目据称已接近L2“推理者”水平，具备自主浏览与深度研究能力，被视为通往通用人工智能的关键节点，引发全球对AGI时间表与治理框架的新一轮讨论。

AGI分级 Strawberry OpenAI 推理能力通用人工智能

2024-06-26

小模型推理能力跃升

颜水成团队联合南洋理工发布Q*算法，让7B模型推理能力最高提升百倍，已开源；同期Deepseek Coder v2在代码任务上超越Gemini Pro，显示通过算法创新即可打破“参数至上”迷信，为端侧部署与私有化应用提供新范式。

小模型 Q*算法推理能力开源端侧部署

AI快开门

发现最好的AI工具

# 推理能力