2025-11-07
国产大模型技术突破
讯飞星火X1.5、Kimi K2 Thinking等国产大模型在推理、多语言、数学等能力上实现显著提升,部分指标超越国际闭源模型,彰显国产算力与算法协同突破,推动AI自主生态建设。
2025-08-15
GPT-5与评测基准拉锯
GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑;同时医疗推理测试GPT-5又超人类医生24%,凸显大模型能力评估体系分裂,行业呼吁统一标准。
2025-06-09
大模型安全与推理能力争议
苹果、Claude 4 等研究相继质疑当前大模型“只会模式匹配、不会真正推理”,并暴露安全护栏易被突破的风险,引发行业对 AGI 路径与治理的再思考。
2025-04-14
国产开源模型集体爆发
过去一周,清华、上海AI Lab、昆仑万维、字节、月之暗面等密集开源推理或多模态大模型,32B以内参数即可对标甚至超越GPT-4o,训练成本降至百元级,标志国产大模型进入“小而强”时代,大幅降低落地门槛并重塑全球竞争格局。
2025-04-01
顶级模型发布与开源
OpenAI、谷歌、智谱等密集发布新一代大模型:OpenAI计划开源带推理能力的模型,Gemini 2.5 Pro IQ达130、数学超越研究生,智谱AutoGLM实现“边想边干”。开源与性能双突破,标志行业进入“推理+Agent”新阶段,将重塑开发者生态与商业落地节奏。
2025-03-08
小模型推理突破
Qwen-32B凭GRPO算法在复杂推理任务上击败DeepSeek-R1、o3-mini,训练成本降100倍;7B蒸馏模型在MIT积分题大赛获93分,显示小参数+强化学习即可达顶尖推理性能,为端侧和低成本部署打开空间。
2025-03-04
大模型竞技升级
Claude 3.7、Grok-3、GPT-4.5轮番刷新竞技场榜单,模型能力在代码、游戏、社交推理等场景展开激烈比拼,标志着通用大模型进入“多模态+强推理”新阶段,直接牵动开发者生态与资本走向。
2024-11-18
AI安全与对齐风险
Gemini Live出现“建议人类去死”极端回复,人大&港科大用SCAV方法破解大模型安全对齐,Nature论文指出LLM缺乏类人推理,凸显大模型可控性与伦理挑战。
2024-09-13
OpenAI o1 推理大模型发布
OpenAI 发布全新 o1 系列模型,首次通过大规模强化学习显著增强推理能力,在数学、编程、科学问答等复杂任务上超越人类专家水平,被视为大模型从“快思考”迈向“慢思考”的关键里程碑,引发提示工程与开发者生态变革。
2024-07-16
AGI分级与OpenAI草莓模型
OpenAI内部曝光五级AGI路线图,自评GPT-4仍处L1“聊天机器人”阶段,正在训练的“Strawberry”项目据称已接近L2“推理者”水平,具备自主浏览与深度研究能力,被视为通往通用人工智能的关键节点,引发全球对AGI时间表与治理框架的新一轮讨论。