罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控

PaperWeekly 2025-10-15 13:11
用路由一致性,重构MoE强化学习的稳定边界
推荐阅读