^__^ • 12 / 20
最新:AI 大神 Andrej Karpathy 的 2025 LLM 回顾早上醒来就看了 Andrej Karpathy 的最新英文 blog:2025 大模型年度回顾。文中有很多链接,我翻译后放到墨问里了:Andrej Karpathy:2025 大模型年度回顾,全文一共 4000 字左右。非常精彩。 2025 年,LLM 进展迅猛纷繁复杂,这份清单,包括了今年所有值得注意、甚至有点出人意料的“范式变化”——那些改变了版图结构、在概念上让人眼前一亮的事物。首先,RLVR(来自可验证奖励的强化学习)成为训练主舞台。实验室把更多算力投到可以自动验证的环境(比如数学、编程等等),模型通过更长的推理轨迹与“思考时间”获得实质能力增益,预训练被压缩,推理成了每家基座模型厂商重点产品特征。其次,Andrej 把 LLM 的智能形态比作“鬼魂”而非“动物”。由于优化压力与数据来源不同,模型在可验证领域出现尖刺般的“锯齿式智能”,既像通才天才又像困惑小学生。这也让很多基准测试失去了真正的价值,在测试集上训练成为新艺术:谁都能打爆基准,但距离 AGI 似乎越来越远了。应用层方面,Cursor 的走红代表了垂直领域编程在 LLM 上的新突破:上下文工程、复杂领域交互(GUI)、编程推理等等。他判断基础模型更像“通用大学生”,而应用会把他们组织成“在岗专业人士”,接入私域数据与执行流程里。在 Agent 方面,Claude Code 给出了样板:在本地把工具使用与推理循环起来处理长任务,强调与个人环境、低延迟、机密与上下文的结合。他认为这比云端容器化代理更符合当前“能力锯齿、渐进”的现实。事实上在国内 Agent 产品(Lovart、灵光、秒哒、MiniMax Agent 等)今年在 Agent 方面发展的也都非常快。 Vibe Coding 确实越来越强了,一切可 Vibe:用自然语言直接写出实用软件,让非专业者也能编程,也促使专业者用一次性、可塑的代码快速验证与造物,改变软件的生产方式与岗位描述。这一点和我昨天介绍秒哒的概念非常一致。谷歌的图片模型不得不提,作为 LLM 的 GUI 信号:把文本、图像生成与世界知识统一起来,推动 LLM 从命令行式对话走向人类偏好的视觉、空间化表达(图片、信息图、白板、Web 应用)。这与个人计算机、互联网等历史脉络是一致的。总结一下:今年的 LLM 更聪明也更笨,但极其有用;行业实现的潜力不到 10%。进展会持续加速,同时还有大量基础工作需要完成。系好安全带。