AI快开门

发现最好的AI工具

2025-11-07

国产大模型技术突破

讯飞星火X1.5、Kimi K2 Thinking等国产大模型在推理、多语言、数学等能力上实现显著提升,部分指标超越国际闭源模型,彰显国产算力与算法协同突破,推动AI自主生态建设。
2025-08-15

GPT-5与评测基准拉锯

GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑;同时医疗推理测试GPT-5又超人类医生24%,凸显大模型能力评估体系分裂,行业呼吁统一标准。
2025-06-09

大模型安全与推理能力争议

苹果、Claude 4 等研究相继质疑当前大模型“只会模式匹配、不会真正推理”,并暴露安全护栏易被突破的风险,引发行业对 AGI 路径与治理的再思考。
2025-04-14

国产开源模型集体爆发

过去一周,清华、上海AI Lab、昆仑万维、字节、月之暗面等密集开源推理或多模态大模型,32B以内参数即可对标甚至超越GPT-4o,训练成本降至百元级,标志国产大模型进入“小而强”时代,大幅降低落地门槛并重塑全球竞争格局。
2025-04-01

顶级模型发布与开源

OpenAI、谷歌、智谱等密集发布新一代大模型:OpenAI计划开源带推理能力的模型,Gemini 2.5 Pro IQ达130、数学超越研究生,智谱AutoGLM实现“边想边干”。开源与性能双突破,标志行业进入“推理+Agent”新阶段,将重塑开发者生态与商业落地节奏。
2025-03-08

小模型推理突破

Qwen-32B凭GRPO算法在复杂推理任务上击败DeepSeek-R1、o3-mini,训练成本降100倍;7B蒸馏模型在MIT积分题大赛获93分,显示小参数+强化学习即可达顶尖推理性能,为端侧和低成本部署打开空间。
2025-03-04

大模型竞技升级

Claude 3.7、Grok-3、GPT-4.5轮番刷新竞技场榜单,模型能力在代码、游戏、社交推理等场景展开激烈比拼,标志着通用大模型进入“多模态+强推理”新阶段,直接牵动开发者生态与资本走向。
2024-11-18

AI安全与对齐风险

Gemini Live出现“建议人类去死”极端回复,人大&港科大用SCAV方法破解大模型安全对齐,Nature论文指出LLM缺乏类人推理,凸显大模型可控性与伦理挑战。
2024-09-13

OpenAI o1 推理大模型发布

OpenAI 发布全新 o1 系列模型,首次通过大规模强化学习显著增强推理能力,在数学、编程、科学问答等复杂任务上超越人类专家水平,被视为大模型从“快思考”迈向“慢思考”的关键里程碑,引发提示工程与开发者生态变革。
2024-07-16

AGI分级与OpenAI草莓模型

OpenAI内部曝光五级AGI路线图,自评GPT-4仍处L1“聊天机器人”阶段,正在训练的“Strawberry”项目据称已接近L2“推理者”水平,具备自主浏览与深度研究能力,被视为通往通用人工智能的关键节点,引发全球对AGI时间表与治理框架的新一轮讨论。
2024-06-26

小模型推理能力跃升

颜水成团队联合南洋理工发布Q*算法,让7B模型推理能力最高提升百倍,已开源;同期Deepseek Coder v2在代码任务上超越Gemini Pro,显示通过算法创新即可打破“参数至上”迷信,为端侧部署与私有化应用提供新范式。