上午写完 AI Coding 的趋势，下午把这篇 Simon Willison 写的 2025 大模型之年看完了，这哥是 Django 框架的共同创造者、Lanyrd 联合创始人，自己做了 100 多个 AI 项目，非常过瘾。这是一篇作者每年回顾过去 12 个月 LLM 领域发展的系列文章，内容非常详实，我读完之后整理了一份中文完整版，包括文中的链接和图片，一共 1.7 万字： 2025，大模型之年回顾，建议收藏阅读。原文在这里： https://simonwillison.net/2025/Dec/31/the-year-in-llms/ 主要内容包括：这一年充满了很多不同的趋势。这是“推理”的一年这是 Agent 的一年这是代码 Agent 与 Claude Code 的一年这是 LLM 走进命令行的一年这是 YOLO 与“偏差常态化”的一年这是 200 美元/月订阅的一年这是中国开源权重模型登顶的一年这是“长任务”的一年这是“用提示词编辑图片”的一年这是模型在学术竞赛中拿金牌的一年这是 Llama 迷失方向的一年这是 OpenAI 失去领先优势的一年这是 Gemini 的一年这是“骑自行车的鹈鹕”的一年这是我做了 110 个工具的一年这是“告密者”的一年这是 vibe coding 的一年这是 MCP（也许是唯一）的那一年这是 AI 浏览器令人不安的一年这是“致命三要素”的一年这是我用手机写代码的一年这是一致性测试套件的一年这是本地模型变好、但云端模型更强的一年这是“AI 垃圾内容（slop）”的一年这是数据中心变得极不受欢迎的一年比如 “推理” 之年： OpenAI 在 2024 年 9 月用 o1 和 o1-mini 拉开了 “推理” 革命的序幕。到了 2025 年开年，DeepSeek R1 又加了一把火，自此推理成为几乎每一家大型 AI 实验室模型的标志性特征。……作者花了挺久才理解推理到底有什么用。最初的演示是解数学逻辑题、或者数 strawberry 里有多少个字母 R——这两个我都不太会在日常使用中遇到。结果证明，推理真正的解锁点在于驱动工具……一个显著的结果是 AI 辅助搜索现在真的好用了。以前把搜索引擎接到 LLM 上效果存疑，但现在即便是复杂的研究问题，常常可以由 ChatGPT 中的 GPT-5 Thinking 回答。推理模型在生成和调试代码方面也非常出色。推理的技巧使它们可以从一个错误出发，逐层穿过代码库去定位根因。即便非常棘手的 bug，也能被一个擅长推理、能读写与执行代码的模型诊断出来。把推理与工具用法结合，就得到…… Agent 之年… - MacTalk