2025-10-15
大模型训练范式革新
谷歌、腾讯、斯坦福等相继提出“无需微调”或“极低成本”即可让大模型自我进化的新框架,标志传统重训练/微调模式正在被上下文学习、自我改进、无训练优化颠覆,显著降低算力与资金门槛,将加速模型平民化与行业落地。
2025-03-13
高效训练与推理优化成焦点
清华APBB框架长文推理提速10倍,腾讯UPFT前缀微调砍掉99%采样成本,CMU元强化微调在无需额外数据下提升模型推理9.3%。训练与推理成本双降,为大模型规模化部署和端侧落地提供可行路径,成为后训练优化阶段最受关注的技术方向。
2024-12-07
Meta Llama3.3 70B后训练反超旗舰
Meta发布Llama3.3 70B,仅用后训练优化即超越自家405B与GPT-4、Gemini1.5Pro,开源+高性价比策略再次搅动大模型竞争格局,降低企业与开发者部署顶级模型的硬件门槛,加速行业向“小而强”路线迁移。
2024-02-13
大模型效率与智能体框架突破
知乎公开2-3倍训练提速、成本减半的LLM落地经验;UIUC-苹果提出CodeAct用Python统一智能体行动,两者共同降低大模型应用门槛,加速Agent生态成熟。
2024-01-23
大模型训练与推理优化
Meta/NYU提出自我奖励机制让Llama2-70B击败GPT-4;综述梳理RAG迭代路径降低幻觉;图神经网络与LLM结合提升复杂推理;Mamba架构Swin版VMamba精度再涨,训练效率与效果双优化成为焦点。
2024-01-03
国产大模型架构与训练优化
华为盘古-π、百度GPU利用率90%训练宝典及知乎PyTorch调优实践,显示国产团队在Transformer改进、高效训练与推理加速上的持续突破,为追赶GPT-4提供工程化底座,降低大模型落地成本。