2025-10-24
模型可解释与安全对齐突破
Meta提出CRV实现思维链92%错误检测,埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量,北航InSUR框架把3D语义攻击成功率提升119%,共同指向“让AI可被观测、可被攻击评估”的新阶段,为高可信AI落地提供方法论。
2025-10-05
推理效率优化新进展
Meta提出新方法将大模型思维链推理token减少46%,显著降低长链推理成本,为端侧部署和实时应用打开空间。
2025-08-09
GPT-5震撼发布
OpenAI正式发布统一架构的GPT-5,内置思维链与推理可视化,编程、写作、健康三大场景显著提升,官方称已接近博士级对话水平,全球开发者连夜实测并快速产出创意应用,被视为向AGI再迈关键一步。
2025-07-17
顶级人才大迁徙
OpenAI思维链之父Jason Wei等多位核心科学家被Meta挖角,引发OpenAI与Anthropic等罕见联手发布CoT监测研究;字节跳动视觉多模态负责人亦“暂时休息”,标志全球AI人才进入新一轮洗牌期。
2025-06-10
推理与数学能力跃升
大模型数学推理7个月内从2%提至22%,超越人类平均;o3-mini-high被曝靠直觉破解顶尖难题,14位数学家集体评估。同时,Time-R1用三阶段强化学习让3B小模型时间推理反超671B大模型,浙大InftyThink实现“思维分段”无限深度推理。研究揭示模型可自发形成类脑概念地图,为迈向AGI提供认知机制线索。
2025-05-30
大模型推理与效率突破
华为、DeepSeek、斯坦福等接连发布推理加速、长思维链涌现、低延迟内核等新技术,显著降低算力消耗并提升准确率,标志着后训练优化成为大模型落地关键路径,为端侧部署与实时交互打开空间。
2025-05-24
推理模型可解释与可控性
新基准暴露GPT-4o文档理解短板,软推理方法降低token消耗并提升抽象能力,InternThinker首次打开围棋思维黑盒,显示业界正集中攻克大模型推理过程不透明、指令遵循率低等可控性难题,为可信AI与科学发现提供新路径。
2025-04-04
推理模型成本飙升与性能瓶颈
OpenAI o3单次推理成本暴涨至3万美元,ARC-AGI榜单除名事件暴露暴力堆算力路线的边际收益递减;Anthropic、DeepSeek等同期论文指出思维链不可靠、推理时Scaling仍需突破。行业开始反思“砸钱换性能”的可持续性,低成本高效推理成为下一赛点。
2025-03-29
大模型安全攻防升级
北卡&复旦团队提出“思维链劫持”(H-CoT) 攻击,利用 o1/o3、R1 等推理模型自我反思特性,将拒绝率从 98% 降至 2%。研究揭示透明推理与安全性存在根本张力,促使 OpenAI、DeepSeek 紧急更新对齐策略。该漏洞影响金融、医疗等高价值场景,催化“安全即服务”新市场。
2025-03-14
具身智能与机器人
谷歌把思维链搬进机器人,折纸系鞋带随学随会;国产人形机器人3.99万元起售并刷新空翻纪录;优必选“天工行者”29.9万元杀入科研市场,预示通用机器人进入量产与技能突破并行期。
2025-03-05
推理大模型军备竞赛
DeepSeek-R1、OpenAI o3/o1、Anthropic Claude-3.7-Sonnet、xAI Grok-3等顶尖推理模型密集发布,竞技场排名瞬息变化;开源社区同步推出INT8量化、CoE内存优化、VFMGL多模态迁移等配套技术,标志着“长思维链+强化学习”成为头部厂商必争高地,直接决定下一代AI基础设施格局。
2025-02-10
推理模型技术突破
清华&CMU证明无需SFT仅靠RL即可涌现长思维链;DeepSeek-R1用GRPO把显存暴降80%,7GB本地可跑671B满血版;OpenAI已内测GPT-4.5,编程能力年底冲击人类TOP1,推理范式进入低成本、高可解释新阶段。
2025-02-08
o3思维链公开争议
OpenAI突然展示o3-mini“思维链”,被质疑仅展示摘要而非原始token,奥特曼承认“部分隐藏”引发信任危机;事件由DeepSeek竞争压力触发,标志业界对可解释性与商业机密平衡的新博弈。
2025-02-07
o3思维链公开
OpenAI罕见展示o3-mini思维链,回应社区对可解释性的呼声,虽部分遮蔽但已标志闭源模型向透明化让步,业内认为DeepSeek开源压力是主因。
2024-12-20
推理模型军备竞赛
OpenAI、谷歌、Meta等巨头密集发布新一代推理模型(o3、Gemini2.0 Flash Thinking、连续思维链),数学、代码、科学推理能力再刷新SOTA,标志着大模型从“生成”走向“深度思考”,将重塑科研、教育、企业决策等高价值场景。
2024-11-04
大模型推理与工具能力跃升
OpenAI o1完整版支持20万token超长上下文并新增图像理解,Meta AI推出“先思考后回答”的思维偏好优化,Claude 3.5 Sonnet新增PDF图表理解,NeurIPS 2024发布GTA基准评测大模型复杂任务工具调用,标志着大模型在推理深度、多模态与工具使用上进入新阶段,将直接提升科研、金融、办公等高价值场景落地速度。
2024-09-17
OpenAI o1推理模型爆发
OpenAI发布o1系列模型,在数学、编程等复杂推理任务上实现120+智商级表现,1小时完成NASA博士1年代码量,并引发思维链可解释性、开源复现及强化学习Scaling Law等连锁讨论,被视为大模型逻辑推理的里程碑式突破。
2024-09-15
OpenAI o1 推理革命
OpenAI 发布全新 o1 系列模型,首次在复杂推理、数学与代码任务上显著超越 GPT-4o,并可能开启“推理时间 Scaling Law”。团队答疑透露未来可控思考长度,同时因安全策略封禁追问完整思维链,引发行业对 AGI 路径与治理的新讨论。
2024-05-15
AI for Science 与模型创新
MIT 团队借 KAN 网络发现全新物理方程,纽约大学研究质疑思维链必要性,同时 RNA 语言模型、集值系统辨识等成果涌现,显示 AI 在基础科学与模型架构层面的持续突破。