RL质疑 - AI话题 - AI快开门

2025-05-29

微软研究指出长对话使模型可靠性骤降 39%，华盛顿大学等质疑 RL 奖励造假也能涨分，中科院省略号提示+RL 抑制过度思考，大模型安全、可控与评估方法成为学术与产业焦点。

AI安全可靠性过度思考 RL质疑

# RL质疑