MIT等机构提出Kolmogorov-Arnold Network(KAN),用可学习的单变量函数替代固定激活函数,在数学发现、物理模拟等任务上以200参数媲美30万参数MLP,兼具高精度与可解释性,被视为可能取代MLP的新一代神经网络范式。
Meta法国团队提出一次并行预测多个Token的新训练目标,13B模型在HumanEval与MBPP编程 benchmark 上分别提升12%与17%,推理速度提高3倍,为低成本加速大模型推理提供新思路。
清华SuperBench评测显示,Claude-3在完全合成数据上训练后拿下多项第一,超越GPT-4与Llama-3,证明高质量合成数据可缓解真实语料枯竭,为后续大模型训练提供新燃料。
多项研究指出,微软Phi-3、Mixtral 8x22B等热门小模型存在严重数据污染与过拟合,三分之二评测集被混入训练数据,导致性能虚高,引发社区对小型模型可信度的重新审视。
高盛、摩根大通内部报告预测,66%的初级分析师岗位将被生成式AI替代,金融分析软件“苏格拉底”已直接生成研报,华尔街正加速重构人才结构与工作流程。
在中国AIGC产业峰会上,美图、阿里等厂商强调“大模型+垂直工作流+创意场景”才是国产突围路线,多模态Agent成为落地关键,赛事与峰会同步推动生态繁荣。