多目标强化学习新突破！给GRPO加上运筹外挂，7B模型硬刚GPT-4

数据派THU 2026-03-10 17:00

本文介绍了理想团队 HVO 框架，弃用 SFT，摘要性能媲美 GPT-4。