AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
在线RL
相关话题
2025-10-25
大模型训练效率革命
数据集蒸馏WMDD/GUARD用10%样本保持全量性能;斯坦福AgentFlow让7B模型在线强化学习超越GPT-4o;北大RiskPO针对低概率高信息路径优化后训练。三大研究齐指“降本增效”,缓解算力焦虑。
数据集蒸馏
在线RL
RiskPO
降本增效