参数效率 - AI话题

2025-11-18

微博Vibe Thinker以7800美元后训练成本、15亿参数在数学等任务上超越DeepSeek R1；国产Kimi K2接入Perplexity，显示中国团队凭数据与工程优化实现“小参数、高性能”的低成本突围，冲击海外大模型性价比格局。

2025-05-05

微软Phi-4系列以≤14B参数实现媲美甚至超越大模型的数学与推理表现，3.8B版本即可击败DeepSeek-R1蒸馏8B，宣告“本地可跑”的高性能时代到来，将重塑端侧AI、边缘部署与成本结构，引发模型瘦身与高效训练新赛道。

2024-12-08

Llama 3.3 70B性能追平405B、Gemini实验版重夺榜首，加上OpenAI 12天连发与Grok3、GPT-4.5即将登场，圣诞季成为头部厂商秀肌肉的关键窗口，标志着参数效率与迭代速度的新竞赛阶段。

2024-05-04

MIT等机构提出Kolmogorov-Arnold Network（KAN），用可学习的单变量函数替代固定激活函数，在数学发现、物理模拟等任务上以200参数媲美30万参数MLP，兼具高精度与可解释性，被视为可能取代MLP的新一代神经网络范式。

2024-02-10

北大、腾讯等推出的3B MoE-LLaVA以更少激活参数媲美7B稠密模型，Sebastian Raschka指出“大模型变小”已成年度趋势，模型合并+MoE成为主流方案，预示端侧部署与低成本推理将加速落地。

AI快开门