SWE-bench - AI话题 - AI快开门

2025-10-28

AI编程与智能体落地

UCL开源Prometheus以71.2% Pass@1登顶SWE-bench，豆包AI编程推出PPT式拖拽+多Agent协作，国内首次SGLang Meetup聚焦大模型推理框架，行业共识：代码Agent已跨过“玩具”阶段，成为开发者效率的倍增器，也是初创公司切入AI原生应用的最短路径。

AI编程智能体开源 SWE-bench Agent

2025-10-11

国产模型与开源新进展

快手72B代码模型KAT-Dev登顶SWE-Bench，硅基流动DeepSeek-V3.2-Exp降价增容，13万被引ImageNet作者苏昊或加盟复旦，表明国产大模型在编程、推理与学术影响力上加速追赶，开源生态持续壮大。

国产模型 KAT-Dev DeepSeek-V3.2 开源 SWE-Bench

2025-09-23

编程模型集体“挂科”引反思

SWE-Bench Pro新基准测试显示，GPT-5、Claude Opus 4.1、Gemini 2.5在真实复杂编程任务中正确率均低于25%。暴露出当前大模型在长程逻辑、需求理解、代码可维护性上的系统性短板，促使行业重新评估“代码智能”评价指标，并加速神经-符号混合、强化学习新范式的研究投入。

编程基准 SWE-Bench 模型局限神经符号代码智能

2025-08-30

编程大模型激战

xAI、OpenAI、微软两周内连发专用代码模型：Grok Code Fast 1以256 k上下文、Top-5 SWE-bench成绩和1/10成本杀入市场；微软同步推出MAI-1-preview与MAI-Voice-1，形成语音+代码组合牌。开源、低价、高上下文成为新标配，预示“编程Copilot”进入性价比红海，开发者工具链将被重写。

代码大模型 SWE-bench xAI 微软低成本

2025-08-08