多轮任务Agentic RL新范式!中科大开源Agent-R1 v2,提升大模型长程规划能力

智猩猩AI 2026-03-27 16:04
强化学习迈入行动时代~
推荐阅读