清华团队打造TDRM:基于时间差分学习平滑奖励模型

学术头条 2025-10-09 12:00
所有代码均已开源。https://github.com/THUDM/TDRM
推荐阅读