奖励模型 - AI话题

2025-04-06

DeepSeek联手清华发布推理时Scaling新论文，提出奖励模型扩展策略，显著提升推理任务性能，为即将发布的R2模型铺路；OpenAI随即调整路线图，数月内推出GPT-5，预示推理Scaling已成为大模型性能跃迁的核心战场。

AI快开门