【概览】大模型“训练贵、健忘”两大顽疾同日迎来解法:DeepSeek-V3 论文公开低成本训练细节,MCP 上下文协议生态迅速壮大,显著降低算力与记忆门槛。多模态、软件工程与端侧场景同步刷新体验,算力基建与治理议题热度不减,AI 产业进入“降本增效”加速段。
01 | 模型架构与训练效率突破
DeepSeek-V3 详细披露低成本训练方案,MiniMax Speech-02 以自然语音质量登顶全球 TTS 榜,字节 Seed 提出 AttentionInfluence 无标签数据筛选,港科大-vivo PreSelect 将数据效率提升 10 倍,多项创新共同抬高模型性能天花板,显著降低算力门槛。
02 | 超长记忆与上下文协议
Supermemory、OpenMemory 等工具基于开源 MCP 协议,实现跨会话、跨应用的长久记忆共享,打破模型“健忘”与工具孤岛;Hugging Face 一日速成教程助推生态爆发,为个人与开发者效率跃升奠定统一上下文基础。
03 | 软件工程自动化新范式
Windsurf 发布 SWE-1 系列全流程软件工程模型,宣称提效 99%,CodeRabbit 同步接入主流 IDE 实现 AI 代码审查,Nous Research 借去中心化网络训练 40B 编程大模型,AI 正从“补全代码”迈向“端到端交付”。
04 | 多模态生成与3D内容创作
阿里开源 Wan2.1-VACE 全能视频模型,1.3B 版本消费级显卡可跑;阶跃星辰发布 Step1X-3D 引擎并开源训练链路;腾讯混元图像 2.0 实现毫秒级实时生图;Manus 推出图像生成 Agent,国内多模态与 3D AIGC 呈现集群式突破。
05 | 算力基建与硬件博弈
OpenAI 与 CoreWeave 签署 40 亿美元长期云计算协议至 2029 年,华为云发布超节点集群 CloudMatrix 384,美国议员提议为高端 GPU 植入地理追踪,算力供应链安全与出口管制继续成为大国竞争焦点。
06 | AI安全与治理监管
英国议会拟强制 AI 披露版权数据使用,美国国会讨论联邦禁令阻止州级监管;“一个提示攻破所有模型”暴露安全机制脆弱性,政策与伦理风险同步升温。
07 | 端侧与消费级AI体验
SmolVLM 借助 WebGPU 实现浏览器本地零服务器运行,Llamafile 0.9.3 单文件跑通 Qwen3,苹果 CarPlay Ultra 接入 ChatGPT 全屏接管座舱,大模型正向轻量化、车载与空间计算场景快速渗透。
【展望】当“训练成本”与“记忆断层”被同步击穿,AI 创新正从实验室飞入寻常设备;多模态、软件工程与端侧场景的快速产品化,将倒逼治理框架与算力供应链加速迭代。可以预见,低成本、长记忆、多模态的“轻量化大模型”将在年内重塑个人与企业的数字工作流,而政策与硬件的博弈也将决定技术扩散的地理边界。