类PPO强化学习三部曲:GRPO简化→DAPO修正→GSPO全面进化

PaperWeekly 2025-08-20 13:32
从熵坍塌到动态采样
推荐阅读