2025-09-08
超大规模模型突破
阿里Qwen3-Max-Preview突破万亿参数,微软14B小模型以强化学习逼近671B巨模型,Meta、字节等同步刷新长上下文与多模态极限,标志大模型进入“参数+算法”双轨竞争,算力效率与智能密度同步跃升。
2025-04-05
国产大模型技术突破
DeepSeek联合清华提出新奖励模型推理方法提升可扩展性,7B扩散LLM性能对标671B DeepSeek V3,显示国产大模型在架构创新与参数效率上的快速追赶,为行业提供更低成本、高可用的基座模型选择。
2024-12-02
模型效率与架构创新
NeurIPS 2024集中展示多项效率突破:FilterNet用简单滤波器替代Transformer实现时间序列预测精度提升;MobileMamba轻量化视觉模型在速度与效果上超越CNN/Transformer;杜克&谷歌提出SLED解码框架无需额外训练即可缓解幻觉。高效架构成为后训练时代新焦点。
2024-10-08
模型效率与评估
黑森林Flux 1.1 Pro速度提升6倍,新算法降能耗95%,LightEval开源评估套件应对“跑分造假”质疑,小型模型推理缺陷被揭露,行业从“拼参数”转向“拼效率+可信”。
2024-06-17
模型效率与安全研究
xFinder以96.88%答案抽取准确率抑制大模型「作弊」,上交Transformer分子动力学提速百倍,LLaMA-3 8B结合蒙特卡洛树搜索逼近GPT-4奥数水平。算法创新与算力优化并重,为行业降低训练与推理成本提供可行路径。
2024-05-27
Transformer架构再进化
DCFormer、OmniGlue、傅立叶微调等多项ICML 2024研究提出对Transformer注意力、微调与匹配模块的创新改造,显著降低算力或提升泛化,为下一代大模型降本增效提供新路径。
2024-05-19
Scaling Law受质疑与模型性能新解释
华为与多家研究机构接连挑战“参数越大越好”的Scaling Law,提出记忆力与任务匹配度才是决定性能的关键,为小模型逆袭提供理论支撑。该讨论可能改变大模型研发资源分配,促使行业探索更高效、绿色的AI架构。