多目标强化学习新突破!给GRPO加上运筹外挂,7B模型硬刚GPT-4

数据派THU 2026-03-10 17:00
本文介绍了理想团队 HVO 框架,弃用 SFT,摘要性能媲美 GPT-4。
推荐阅读