多轮任务Agentic RL新范式！中科大开源Agent-R1 v2，提升大模型长程规划能力

智猩猩AI 2026-03-27 16:04

强化学习迈入行动时代~