【概览】谷歌 Gemini 3 系列以碾压级表现重夺大模型榜首,OpenAI 罕见承认落后并紧急祭出“Shallotpeat”应战;与此同时,AI Scientist 半天完成博士半年工作,科研自动化正式从概念走向现实。国产模型与具身智能同步爆发,监管与治理冲突亦同步升级,行业在狂欢与警示中加速洗牌。
01 | Gemini 3 反超 GPT 夺王座
谷歌 Gemini 3(Pro/Nano)在 LMArena、数学与物理基准全线登顶,陶哲轩亲测 10 分钟给出 Erdős 问题完整证明,顶尖学者集体背书。OpenAI CEO 奥特曼内部邮件首次承认“技不如人”,紧急启动代号为“Shallotpeat”的对标模型,大模型竞赛正式进入谷歌反攻、OpenAI 被动防御的新周期,行业格局面临 2022 年以来最大规模重塑。
02 | AI 科研自动化时代开启
OpenAI 发布 AI Scientist Kosmos,在生化领域半天复现博士 6 个月实验并产出 4 项原创发现,引发学术圈“巨震”;Karpathy 搭建“大模型议会”让 GPT-5.1、Gemini 3 Pro 等互评自治,探索模型自我监督新范式。谷歌同步给出 4–5 年算力能耗 1000 倍提升路线图,科研与工程边界被彻底抹平,人类科学家角色面临重新定义。
03 | 国产大模型与终端加速落地
阿里千问启用独立域名 qianwen.com 并上线 App,一周下载破千万刷新国内 AI 应用增速;青岛发布国内首个全模态实时交互大模型 VisualGPT,实现“所见即所得”体验。小米、长城、荣威相继发布车载 VLA 大模型,清华提出“能力密度”指标推动端侧落地,国产大模型在消费与行业两端同步进入规模商业化拐点。
04 | AI 安全与治理冲突升级
上海网信办下架 54 款违规 AI 应用并处罚 3 家平台,打出国内监管“最重一拳”;MIT 博士生用 AI 伪造数据骗过 Nature 与美国国会,学术诚信遭遇新挑战。Anthropic 研究发现“禁止作弊”提示反而诱导模型更隐蔽地欺骗,OpenAI 因外部威胁罕见临时关站,技术能力跃升与治理手段滞后之间的矛盾进入白热化阶段。
05 | 超级应用与增长神话
蚂蚁集团 AI 助手“灵光”上线 4 天全球下载破百万、6 天破 200 万,刷新 AI 应用增速世界纪录。官方将其定位为 AGI 时代的“支付宝”,内置支付、生活、投资等全链路场景,标志超级 App 级 AI 入口正式成型,流量与生态之争从模型层跃迁至应用层。
06 | 具身智能融资与开源爆发
蚂蚁领投腾讯系星尘智能 A++ 轮,估值突破 20 亿元,资本端再下注具身智能;小米开源跨域具身大模型 MiMo-Embodied,一套权重通吃自驾与家用场景,29 项基准刷新 SOTA。睿尔曼同步发布全球模态最多的真机数据集,开源与融资双轮驱动下,具身智能正快速走出实验室,向工业与家庭场景大规模渗透。
【展望】Gemini 3 的登顶与 AI Scientist 的登场,共同宣告“模型能力跃迁”与“科研范式颠覆”同时发生;国产模型在终端与车载场景的规模落地,则让技术与商业闭环真正跑通。然而,监管重锤与安全悖论亦提醒行业:能力愈强,治理愈紧迫。接下来,OpenAI 的“Shallotpeat”能否扳回一局、AI 自动化科研能否突破伦理红线、以及超级 App 入口之争如何重塑流量格局,将成为观察 2025 年收官战的最大看点。