【概览】
多模态能力正快速下沉到手机端与超长视频场景,苹果、腾讯、谷歌同日秀出“本地实时看图聊天”与“6小时一眼看懂”的里程碑;开源代码模型与自我博弈训练法让中小开发者也能逼近闭源性能,具身智能赛道半年融资超十亿,AI在医疗、餐饮、电商等垂直场景进入规模化盈利期,平台与学界同步收紧幻觉与滥用治理。
01 | 端侧视觉-语言模型突破
苹果FastVLM首次把原生多模态推理压进iPhone内存,腾讯混元T1-Vision落地元宝App实现本地看图问答,谷歌Gemini 2.5 Pro一次吞吐6小时视频并输出结构化摘要,标志视觉理解进入“长视频时代”。三箭齐发,移动交互与内容生态将被重塑,离线隐私与实时体验成为新竞争点。
02 | AI编程工具升级与开源
字节跳动开源8B参数Seed-Coder,用“小模型管理大数据”范式在多项代码任务拿下SOTA;Cursor 0.50简化定价并上线长上下文补全;清华&通院“绝对零”训练法让模型零外部数据自我博弈解锁推理。低成本、可商用、可二次分发的小参数模型正在拉平与闭源的差距,开发者生态进入民主化拐点。
03 | 多模态生成与编辑新范式
腾讯HunyuanCustom、中科院MCA-Ctrl、ModelScope全能图像模型同日亮相,分别解决高一致性视频生成、多方协同注意力精准编辑及扩散模型误差累积难题。生成式AI从“能出片”走向“可量产”,广告、影视、电商等内容管线将获得像素级可控的AIGC工具链。
04 | 具身智能融资与通用大模型
“自变量机器人”一年半完成七轮融资、累计超10亿元,刷新国内具身智能速度;南智光电推出国内首个光子芯片专用大模型,清华系灵御智能获千万级天使轮。资本密集押注“通用机器人大脑”,硬件侧落地窗口已提前至2026年。
05 | AI+行业应用纵深落地
FDA将AI审评工具纳入药品加速通道,谷歌 dermatology AI 诊断皮疹准确率超越人类医生;北美1350家餐厅接入Momos AI语音点餐,快手上线电商作图工具Poify。AI正从“能力演示”转向“ROI验证”,细分场景进入商业正循环。
06 | AI安全与伦理治理行动
小红书批量封禁AI起号引流带货账号,Reddit因AI实验受挫强制身份验证,法国最新研究证实“简洁回答”会显著放大幻觉。平台与学界同步提高护栏高度,合规运营、可信输出成为产品上线必答题。
【展望】
当端侧模型把“看得懂”塞进每台手机、长视频理解突破小时级天花板,内容生产与交互入口将被重新洗牌;开源小模型与自我训练法降低创新门槛,具身智能与垂直应用同步吸金,AI商业化进入“场景深潜”阶段。接下来,谁能同步解决幻觉治理与隐私合规,谁就能在下一轮竞争中占据生态制高点。