AI大神Andrej Karpathy发布了2025 LLM Year in Review年度报告,以下是我们总结的5个确定性变化。 一、 RLVR成为能力增长引擎 过去的主流训练流程包含预训练、监督微调、RLHF。今年,基于可验证奖励的强化学习(RLVR)成为新的核心阶段。模型在数学、代码等可自动判定对错的环境里长周期训练,逐步学会拆解问题、写出中间步骤、反复校正答案。由于奖励信号客观且可规模化,训练周期可以拉长,能力提升效率很高,算力预算开始向强化阶段倾斜。与此同时,推理阶段出现新的可调维度:推理轨迹更长,测试表现更强。o1 的公开亮相与 o3 的拐点效应,使这一变化被广泛感知。 二、智能呈现锯齿状特征 Karpathy用“召唤幽灵”来描述模型智能:它不遵循生物智能的进化路径,目标函数也不同。结果就是能力分布不均匀:在结构化领域表现尖锐,在常识、边界条件、安全问题上却脆弱。这个形态决定了模型不会自然变得稳定,只会在特定能力上长出锋利的尖峰。 三、基准测试可信度下降 可验证任务天然容易被RLVR与定向数据“覆盖”。当实验室围绕测试特征空间做针对性训练,榜单提升变成一种工程化操作。benchmark越来越像训练目标的一部分,参考价值随之下降。 四、应用层出现Cursor式新层级 Cursor的意义在于揭示了应用的新分工:围绕模型做组织与编排。包括上下文工程、调用链路编排、人机协同界面、自主权控制。基础模型更像通识型能力载体,应用层通过私有数据、工具与反馈闭环,把它组织成能干活的系统。垂直应用仍有清晰空间。 五、智能体本地化与Vibe Coding Claude Code展示了可长期运行的智能体形态,并强调本地化:智能体“栖息”在用户电脑里,直接利用本地环境、私有数据、密钥与低延迟交互,实用价值更强。与此同时,Vibe Coding让自然语言驱动开发成为常态,代码更廉价、更可弃、更适合快速试验,编程门槛进一步下沉。 总结 Karpathy认为行业对这一新计算范式的挖掘仍不足10%。随着RLVR普及,竞争焦点将转向如何让模型更高效地思考与求解,2026年的主战场会围绕这一点展开。 原文链接:https://karpathy.bearblog.dev/year-in-review-2025/ 彦祖亦菲,你怎么看?

腾讯云开发者 2025-12-26 08:45
推荐阅读