【概览】
端侧2G显存即可跑通的多模态大模型集中开源,搜索、终端交互与内容生产范式一夜刷新;OpenAI被证实内测完全多模态版GPT-5,Meta同步组建“超级智能梦之队”,下一代AGI竞赛进入最后冲刺。模型、人才、场景三线并进,AI行业正从“能用”跃向“好用+可信”。
01 | 多模态大模型爆发
Qwen-VLo、Jina-Embeddings V4、Gemma 3n 在同一周相继开源,实现文本-图像-视频统一理解与生成,最低2G显存即可端侧部署。多模态能力首次进入“可用+开源”阶段,向量模型、搜索、终端交互与AIGC工作流将被集体重写。
02 | GPT-5与超级智能备战
OpenAI员工确认GPT-5已开启内测,完全多模态版本计划7月上线;Meta两周内从OpenAI挖走九位核心研究员,组建“超级智能”攻坚团队。模型能力与顶尖人才同步集中,AGI冲刺的发令枪正式打响。
03 | AI Agent商业化加速
阿里云百炼联合支付宝上线“AI打赏”与Agent Store,WebDancer在GAIA基准超越GPT-4o。行业共识快速从“卷模型”转向“卷交付”,垂直Agent成为创业者优先落地的现金流赛道。
04 | AI for Science与数学攻坚
DeepMind推出AlphaGenome解析基因组“暗物质”,谷歌内部团队三年密研的AI有望12个月内攻克200年数学悬案。深度学习正把基础科学从“发现”推向“证明”,缩短世纪难题的求解周期。
05 | 幻觉治理与代码大模型突破
紫东太初VHR、西安交大Nullu提出即插即用幻觉抑制模块,蚂蚁代码大模型在SWE-Bench以44%修复率登顶开源榜。大模型可信性与自动编程能力同步取得关键进展,为严肃场景落地扫清障碍。
06 | 具身智能与硬件落地
享刻厨房机器人获数千万融资并拿下北京首张具身智能机器人食品经营许可证,小米1999元AI眼镜定位“随身AI入口”。具身智能与可穿戴同步迈入消费级,硬件成本与合规门槛首次被击穿。
07 | 情感AI与伦理反思
Anthropic报告显示Claude深夜情感陪伴需求激增,哲学家赵汀阳在方塘论坛质疑“人性对齐”迷思。当AI成为情绪价值供给方,技术边界、伦理框架与心理影响亟需同步再定义。
【展望】
多模态开源与端侧轻量化让“大模型无处不在”成为现实,GPT-5与超级智能的倒计时则把竞争推向终局。Agent商业化、幻觉治理、AI for Science与具身硬件的同步成熟,标志着行业从“技术验证”全面进入“价值兑现”。接下来半年,谁能率先在可信、交付与规模化三者间取得平衡,谁就能拿下AI新周期的第一张船票。