2025-12-03
开源大模型井喷升级
DeepSeek V3.2、Mistral 3、商汤NEO等密集发布,性能对标GPT-4o/Gemini-3.0-Pro,稀疏注意力、原生多模态等架构创新显著降低训练与推理成本,推动开源阵营进入第一梯队,加速闭源模型压力与行业技术普惠。
2025-10-01
开源多模态与稀疏注意力
腾讯开源 80B 参数 HunyuanImage 3.0,宣称开源最强生图模型;DeepSeek 发布 V3.2,引入 DSA 稀疏注意力并 API 五折。两大开源项目推动图像与长文本生成成本骤降,加速下游应用落地,并挑战闭源模型性价比。
2025-09-30
硬件格局与成本拐点
Flash Attention作者预言英伟达GPU三年内终结统治,DeepSeek稀疏注意力+国产GPU适配将API成本砍半,寒武纪、华为Day0即完成模型适配,算法-硬件协同优化推动推理成本再降10倍,AI算力生态进入多元竞争时代。
2025-09-29
DeepSeek V3.2 稀疏注意力突破
DeepSeek 连续发布 V3.2-Exp 并开源 DSA 稀疏注意力机制,华为云、寒武纪第一时间完成适配,推理成本再降,国产大模型生态集体跟进,标志国产大模型从参数竞赛转向架构与系统级协同优化,对全球闭源模型形成技术对冲。
2025-08-01
国产大模型技术突破
DeepSeek 联合北大提出原生稀疏注意力 NSA 获 ACL 2025 最佳论文,推理提速 11 倍;字节发布扩散语言模型 Seed-Diffusion,推理速度达 2.1k tokens/s;阶跃星辰开源 Step-3、通义开源 Qwen3-Coder-Flash,国产模型在架构、效率与代码能力上集体跃升。
2025-02-24
国产大模型训练降本
月之暗面开源改进版Muon优化器,算力需求较AdamW锐减48%,已被用于DeepSeek架构新模型;华为诺亚提出高效稀疏注意力ESA,进一步降低长文本训练与推理成本,国产大模型进入“低成本、高效率”新阶段。