在线RL - AI话题 - AI快开门

2025-10-25

数据集蒸馏WMDD/GUARD用10%样本保持全量性能；斯坦福AgentFlow让7B模型在线强化学习超越GPT-4o；北大RiskPO针对低概率高信息路径优化后训练。三大研究齐指“降本增效”，缓解算力焦虑。

# 在线RL