OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

机器之心 2024-12-07 05:44
用强化学习做微调。
推荐阅读