AI大神Andrej Karpathy发布了2025 LLM Year in Review年度报告，以下是我们总结的5个确定性变化。一、 RLVR成为能力增长引擎过去的主流训练流程包含预训练、监督微调、RLHF。今年，基于可验证奖励的强化学习（RLVR）成为新的核心阶段。模型在数学、代码等可自动判定对错的环境里长周期训练，逐步学会拆解问题、写出中间步骤、反复校正答案。由于奖励信号客观且可规模化，训练周期可以拉长，能力提升效率很高，算力预算开始向强化阶段倾斜。与此同时，推理阶段出现新的可调维度：推理轨迹更长，测试表现更强。o1 的公开亮相与 o3 的拐点效应，使这一变化被广泛感知。二、智能呈现锯齿状特征 Karpathy用“召唤幽灵”来描述模型智能：它不遵循生物智能的进化路径，目标函数也不同。结果就是能力分布不均匀：在结构化领域表现尖锐，在常识、边界条件、安全问题上却脆弱。这个形态决定了模型不会自然变得稳定，只会在特定能力上长出锋利的尖峰。三、基准测试可信度下降可验证任务天然容易被RLVR与定向数据“覆盖”。当实验室围绕测试特征空间做针对性训练，榜单提升变成一种工程化操作。benchmark越来越像训练目标的一部分，参考价值随之下降。四、应用层出现Cursor式新层级 Cursor的意义在于揭示了应用的新分工：围绕模型做组织与编排。包括上下文工程、调用链路编排、人机协同界面、自主权控制。基础模型更像通识型能力载体，应用层通过私有数据、工具与反馈闭环，把它组织成能干活的系统。垂直应用仍有清晰空间。五、智能体本地化与Vibe Coding Claude Code展示了可长期运行的智能体形态，并强调本地化：智能体“栖息”在用户电脑里，直接利用本地环境、私有数据、密钥与低延迟交互，实用价值更强。与此同时，Vibe Coding让自然语言驱动开发成为常态，代码更廉价、更可弃、更适合快速试验，编程门槛进一步下沉。总结 Karpathy认为行业对这一新计算范式的挖掘仍不足10%。随着RLVR普及，竞争焦点将转向如何让模型更高效地思考与求解，2026年的主战场会围绕这一点展开。原文链接：https://karpathy.bearblog.dev/year-in-review-2025/ 彦祖亦菲，你怎么看？ - 腾讯云开发者