腾讯云开发者
订阅
腾讯云官方社区公众号,汇聚技术开发者群体,分享技术干货,打造技术影响力交流社区。
腾讯云开发者微信公众号二维码
关注该公众号

会员可查看最新的全部文章

^__^ 12 / 26
AI大神Andrej Karpathy发布了2025 LLM Year in Review年度报告,以下是我们总结的5个确定性变化。 一、 RLVR成为能力增长引擎 过去的主流训练流程包含预训练、监督微调、RLHF。今年,基于可验证奖励的强化学习(RLVR)成为新的核心阶段。模型在数学、代码等可自动判定对错的环境里长周期训练,逐步学会拆解问题、写出中间步骤、反复校正答案。由于奖励信号客观且可规模化,训练周期可以拉长,能力提升效率很高,算力预算开始向强化阶段倾斜。与此同时,推理阶段出现新的可调维度:推理轨迹更长,测试表现更强。o1 的公开亮相与 o3 的拐点效应,使这一变化被广泛感知。 二、智能呈现锯齿状特征 Karpathy用“召唤幽灵”来描述模型智能:它不遵循生物智能的进化路径,目标函数也不同。结果就是能力分布不均匀:在结构化领域表现尖锐,在常识、边界条件、安全问题上却脆弱。这个形态决定了模型不会自然变得稳定,只会在特定能力上长出锋利的尖峰。 三、基准测试可信度下降 可验证任务天然容易被RLVR与定向数据“覆盖”。当实验室围绕测试特征空间做针对性训练,榜单提升变成一种工程化操作。benchmark越来越像训练目标的一部分,参考价值随之下降。 四、应用层出现Cursor式新层级 Cursor的意义在于揭示了应用的新分工:围绕模型做组织与编排。包括上下文工程、调用链路编排、人机协同界面、自主权控制。基础模型更像通识型能力载体,应用层通过私有数据、工具与反馈闭环,把它组织成能干活的系统。垂直应用仍有清晰空间。 五、智能体本地化与Vibe Coding Claude Code展示了可长期运行的智能体形态,并强调本地化:智能体“栖息”在用户电脑里,直接利用本地环境、私有数据、密钥与低延迟交互,实用价值更强。与此同时,Vibe Coding让自然语言驱动开发成为常态,代码更廉价、更可弃、更适合快速试验,编程门槛进一步下沉。 总结 Karpathy认为行业对这一新计算范式的挖掘仍不足10%。随着RLVR普及,竞争焦点将转向如何让模型更高效地思考与求解,2026年的主战场会围绕这一点展开。 原文链接:https://karpathy.bearblog.dev/year-in-review-2025/ 彦祖亦菲,你怎么看?
^__^ 12 / 19
很多人默认:给LLM足够多工具、环境感知能力,再写清Prompt,就能搞定复杂任务。这个假设站不住脚,因为复杂任务会掉进 p^n 困境:每多一步,整体成功率就下降,链路足够长,成功率趋近于零。给Agent堆上百个MCP,只会塞进更多无用信息,加速context衰退。 真正的解决方案需要从系统地设计协同流程。 原则一:确定性优先 能用程序化、工具化解决的,就不要用LLM。减少概率环节,可靠性才会上去。别幻想写个万能system prompt就能通吃所有项目:协同必须针对场景,把Unknown尽量变成 Known,让程序去做确定的事。 构建流程是典型:让AI每次自己决定编译参数、构建方式,就是把确定性流程变成概率操作——参数会不会漏?Debug/Release会不会搞混?优化选项会不会乱开?更好的做法是脚本固化:把构建、测试、部署写成build.sh。AI可以帮你写,但你必须投入精力review并固化;之后只让AI执行脚本。 代码检查同理。幻想“AI 写代码 + AI Review = 人类解放”,基本是自我安慰。更实际的是规则固化:让AI帮你配 .golangci.yml、.eslintrc,用静态扫描工具做确定性检查。规则确定,结果才可信。 关键启发:这是渐进式协同建设。识别可固化环节 → AI 辅助实现 → 人工验证 → 固化复用。每固化一个点,就少一次概率性执行,系统可靠性会产生复利。 原则二:减少可能性空间 给 AI 的选择越少,它越不容易犯错。LLM面对开放题很弱,面对约束题才像样。你说“优化性能”,它会在算法、结构、缓存、策略之间乱猜。正确做法是先收敛:方案已定、约束明确、目标清晰。把不确定性留给人,把执行空间交给AI。 原则三:阶段性交付,可累进验收 不要让AI一次性端到端交付复杂任务,那几乎等于赌博:token账单变厚、代码跑不起来、白瞎几个小时。正确方式是分阶段产出、逐段验收,让AI先交付可沉淀成果:需求文档、方案设计、任务拆分、验收标准。就算代码翻车,这些依然可复用,还能换模型继续推。 本质上:把一条 p^n 的长链路,拆成多个成功率更高的子任务,每一步都有人工校验窗口。人必须在场。你越指望AI端到端,越容易冲上绿化带。 完整版:万字详解AI悖论,戳破AI时代最大的谎言 各位彦祖亦菲,你怎么看?