2025-04-04
自主智能体科研复现能力突破
OpenAI PaperBench首次让大模型完整复现ICML 2024论文,Claude 3.5以21%成功率遥遥领先,GPT-4o等模型仍难望其项背。AI自主阅读、实验、撰写全流程的“无人科研”雏形显现,或加速科学发现范式变革。
2025-02-28
AI编程工具激战
Claude 3.7 Sonnet登顶编程竞技场,字节Trae免费集成Claude 3.7,谷歌/微软/OpenAI齐推免费代码助手,AI编程进入“零门槛”时代,开发者效率再翻倍。
2024-10-23
Claude 3.5升级电脑操控
Anthropic发布Claude 3.5 Sonnet/Haiku,新增Computer use能力,可像人一样点击、滚动、输入,12小时实测完成编码、浏览等任务,开启大模型从“对话”到“操作”的跃迁。
2024-06-23
大模型能力逼近博士级
OpenAI CTO 预告 GPT-5 将在 18 个月后达到“博士级智能”,Anthropic Claude 3.5 Sonnet 已在部分评测中超越人类博士分数。模型能力跃迁意味着科研、教育、专业服务等知识密集型行业将被率先重塑,AGI 向 ASI 的过渡节点或提前到来,引发全球人才与算力的新一轮军备竞赛。
2024-06-22
Claude 3.5 Sonnet 刷新 SOTA
Anthropic 发布 Claude 3.5 Sonnet,在多项基准上全面超越 GPT-4o,编码速度提升 10 倍并新增 Artifacts 交互,价格更低,被业内视为大模型性能与性价比的新标杆,直接搅动闭源模型竞争格局。
2024-06-21
Claude 3.5 Sonnet 新王登基
Anthropic 发布 Claude 3.5 Sonnet,多项基准超越 GPT-4o,免费上线 Amazon Bedrock 与官网;实测在数学、玩梗、长文本等场景表现亮眼,成为目前最强商用大模型,直接搅动全球闭源模型竞争格局。
2024-03-29
Claude 3专业领域碾压GPT-4
Anthropic Claude 3 Opus在化学、GPQA、MMLU等多基准全面领先GPT-4,亚马逊追加27.5亿美元投资,总融资达40亿美元,凸显顶尖闭源模型在垂直专业场景与云生态绑定带来的巨大商业价值。
2024-03-28
Claude 3 登顶与开源模型爆发
Anthropic Claude 3 系列在公开基准和 Chatbot Arena 同时超越 GPT-4,宣告闭源模型榜首易主;同期 1320 亿参数开源 DBRX 上线,性能、速度双杀 Llama 2,带动开源社区新一轮军备竞赛。模型能力、推理成本与生态主导权之争进入白热化阶段,将直接决定下游应用与云厂商的选型格局。
2024-03-06
Claude 3全面超越GPT-4
Anthropic发布Claude 3系列模型,旗舰版Opus在多项基准上全面超越GPT-4,引发“新王登基”讨论;同时出现“自我认知”实测现象,带动付费体验热潮,标志大模型竞争进入新阶段。