2025-10-28
AI编程与智能体落地
UCL开源Prometheus以71.2% Pass@1登顶SWE-bench,豆包AI编程推出PPT式拖拽+多Agent协作,国内首次SGLang Meetup聚焦大模型推理框架,行业共识:代码Agent已跨过“玩具”阶段,成为开发者效率的倍增器,也是初创公司切入AI原生应用的最短路径。
2025-10-11
国产模型与开源新进展
快手72B代码模型KAT-Dev登顶SWE-Bench,硅基流动DeepSeek-V3.2-Exp降价增容,13万被引ImageNet作者苏昊或加盟复旦,表明国产大模型在编程、推理与学术影响力上加速追赶,开源生态持续壮大。
2025-09-23
编程模型集体“挂科”引反思
SWE-Bench Pro新基准测试显示,GPT-5、Claude Opus 4.1、Gemini 2.5在真实复杂编程任务中正确率均低于25%。暴露出当前大模型在长程逻辑、需求理解、代码可维护性上的系统性短板,促使行业重新评估“代码智能”评价指标,并加速神经-符号混合、强化学习新范式的研究投入。
2025-08-30
编程大模型激战
xAI、OpenAI、微软两周内连发专用代码模型:Grok Code Fast 1以256 k上下文、Top-5 SWE-bench成绩和1/10成本杀入市场;微软同步推出MAI-1-preview与MAI-Voice-1,形成语音+代码组合牌。开源、低价、高上下文成为新标配,预示“编程Copilot”进入性价比红海,开发者工具链将被重写。
2025-08-08
模型评测与基准升级
GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决,o3在首届大模型国际象棋对抗赛夺冠,显示行业竞争焦点正从参数规模转向可验证的综合能力。
2025-06-28
幻觉治理与代码大模型突破
紫东太初VHR、西安交大Nullu提出即插即用幻觉抑制方法,蚂蚁开源代码大模型在SWE-Bench以44%修复率登顶开源榜,显示大模型可信性与自动编程能力同步取得关键进展。
2024-11-05
AI 编程与自动化软件工程
Claude 3.5 Sonnet 在 SWE-bench Verified 刷新 49% 纪录,字节豆包 MarsCode 登顶实战 Issue 解决榜,AI 编码助手从“补全”走向“独立交付”,软件生产范式面临重塑。
2024-08-15
大模型技术突破与评测
Llama-8B借助搜索引擎在部分任务上超越GPT-4o,OpenAI发布更可靠的SWE-bench Verified编程评测集,Claude与Grok2相继上线“提示缓存”与FLUX.1图像生成,显示基础模型在效率、多模态和工程化方面的持续迭代,为开发者提供更便宜、更快速的API选项。