【概览】OpenAI正式发布Operator,拉开“AI智能体元年”帷幕;国产阵营DeepSeek、百川、联通同日亮剑,推理与多模态性能比肩GPT-4o。从浏览器自动化到蛋白质设计,大模型正加速从“对话”走向“行动”,科研、边缘、内容等多线落地,全球AI竞争进入Level-3新阶段。
01 | AI智能体爆发元年
OpenAI凌晨上线Operator,率先向Pro用户开放浏览器级操作能力,标志着大模型迈入Level-3“工具调用+行动执行”阶段;几乎同时,智谱GLM-PC、火山引擎等国产Agent集体抢跑,多模态交互、电商下单、科研检索一气呵成。产品形态已从编码助手扩展到文旅、电商、科研全场景,2025“AI智能体元年”正式启幕。
02 | 国产大模型技术突围
DeepSeek R1、百川Baichuan-M1、联通元景思维链同日发布,在数学推理、长上下文、多模态等基准上对标甚至超越GPT-4o;MoE+稀疏注意力架构将训练成本砍至1/10,引发Meta内部“紧急拆解”。国产模型完成从“可用”到“好用”的跨越,全球开源与商业闭环格局被重新书写。
03 | AI4S与科研新范式
上海AI Lab启动“AI4S攀登者计划”,英伟达Cosmos世界基础模型、DeepMind遗传算法Mind Evolution相继开源,可将蛋白质设计周期从月缩至天,酶活性提升42倍,胎儿心脏筛查准确率突破95%。大模型正从“辅助工具”升级为“自主发现引擎”,科学实验进入自动驾驶时代。
04 | 边缘轻量AI与端侧落地
Hugging Face推出1B级SmolVLM与MiniRAG,体积压缩300倍、显存节省75%,手机端跑通多模态RAG仍保持90%性能;JetBrains Junie、跃问App把代码生成与创意板直接搬进IDE和口袋设备。小模型+端侧方案显著降低云成本与隐私风险,AI普惠进入“轻量时代”。
05 | 多模态数字人与内容创作
HeyGen新增骨骼级运动控制,数字人可即兴跳舞、弹乐器;元象“日播”平台一句话切换多场景音色;剪映AI剪纸、商汤鉴伪齐白石《虾》相继落地文旅与电商直播。多模态大模型让“一句话生成视频、一张图识别真伪”成为标配,内容产业迎来降本增效新浪潮。
06 | AI基础设施与算力竞速
OpenAI“星际之门”联手甲骨文、信实集团拟在美印打造百万卡超级集群;Pipeshift模块化推理引擎、陈天奇团队FlashInfer将GPU利用率提升75%,显存接近零浪费。算力军备赛与效率革命同步升级,为Agent与AI4S爆发提供可持续底座。
【展望】Operator打响第一枪后,国产模型与Agent生态将以“成本+场景”双轮驱动加速迭代;边缘小模型与推理优化同步降低落地门槛,AI4S、数字人、电商等垂直赛道有望率先跑出商业模式。随着美印超级数据中心开建,Level-3通用智能的竞争将不仅是算法之战,更是算力与产业生态的全面对抗。