MacTalk
订阅
MacTalk 开通于2012年末,内容起于 Mac 而不止 Mac,内容覆盖了技术、创业、产品和人文思考。文风有趣,又有一点力量。
MacTalk微信公众号二维码
关注该公众号

会员可查看最新的全部文章

^__^ 12 / 01
本来已经下班了,秃然发现 DeepSeek 发布了两款新模型,V3.2 和 V3.2‑Speciale。朋友圈里有人说,“达到了 GPT‑5 水平”,有人说,“仅次于 Gemini 3.0 Pro”。我打开公开榜单 Leaderboard,目前只有 deepseek-v3.2-exp 在列。这两款模型到底有多强,很快会有一个逻辑上的答案。看介绍,这两款模型的定位很清楚:V3.2 是“全能搭子”,日常问答、通用 Agent,话少、精确、不让你等。它在公开推理测试上是对标 GPT‑5 的,据说和 Gemini 3.0 Pro 差一丢丢。我们这些做产品的人,看到“少说话、快产出”,第一反应是成本和稳定性:如果它在 80% 的场景里把结果交付得又稳又快,那就不是参数上的胜负,而是业务上的加分了。DeepSeek 擅长干这个事儿。另一款 Speciale,是“逻辑怪兽”。长思考、定理证明、严谨而长情。官方文档说这货可能会“想得太多”,为此还做了上下文管理——学会做笔记、划重点、忘掉不重要的细节。这件事挺有意思的:模型也在学人类的认知经济学。我们的大脑靠丢弃与提炼维持效率,AI 也开始练同样的功夫。这款模型赢下了 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等一堆金牌,这当然是好事,但我更关心它在生产系统里的行为边界:如何控制长思考的成本,如何避免把“严谨”演化成“迟钝”。今天你在浏览器里切换模型、压缩上下文、限时推理;明天你在后端做自动路由,让不同任务走不同的“脑回路”。我常问自己:我们到底在追什么?是参数的极限,还是系统的可经营性。更好的模型,对用户意味着更好的答案、更短的等待时间;对团队意味着更明确的投入产出。这一点太重要的,否则都得亏掉裤衩。这几年我们见过太多情绪化的技术消费,今天惊叹、明天遗忘。真正留下来的,往往是那些把复杂能力装进简单流程的人。 DeepSeek 这次有一个朴素的信号:承认模型会“想太多”,然后设计机制去管理。这是我愿意看到的克制。人类的进步很多时候靠自我约束,而不是纵容。AI 也一样。长思考是能力,边界是文明。少说话,快交付;敢长思考,也会适度忘记。人类如此,模型亦然。后续蹲个榜单评测,现在咱们先把国产模型用起来。下班。
^__^ 12 / 01
有个发现,最近一年我在电脑上使用的 Web 程序原来越多了。什么是 Web 程序?在浏览器里打开 ChatGPT,Gemini,千问,NotebookLM,Kimi,秘塔,Google AI Studio,Claude,ZenMux,MiniMax M2,GLM 等等,你都是在使用 Web 程序。如果你使用了 AI 浏览器,比如 Dia、Comet、Atlas、夸克、豆包等等,那么你使用和浏览的所有 Web 网页,都可能变成一个 Web 程序。你在 AI 浏览器里使用墨问 Web 版,那么墨问也就有了 Web App。 墨问 Web 版本 - “我的笔记”正式发布 以前我们说互联网冲浪,主要是用浏览器消费信息,看网站,刷微博,看在线视频……创造性相对较弱,比如写个微博、推特、blog。更复杂的内容则需要在其他工具里做好,比如制作音视频、写作、处理图片等等,再传到网站上,供用户消费。既然是纯消费,那使用随时随地在手的手机当然更好了,这也是移动互联网能开启一个十年浪潮的核心原因。手机,变成了我们消费信息的另一只手,是我们信息边界的延伸。至于输入——写 140 个字、点支付按钮、人脸识别、录一段小视频——也就够了。这些只能叫微操作。 AI 时代来临,随着大模型应用的深入,大家开始意识到,大模型的重要场景是生成和创作,是效率工具。而创作的生产力,在个人电脑上远远大于手机,浏览器本身就是信息流通的枢纽。我们看到大量的 AI 应用都是从 Web 端起步的,比如 OpenAI 在 2022 年 11 月 30 日首次公开发布了Web 版本 ChatGPT,当时是以一个免费的“研究预览版”的形式通过网页浏览器供大众使用。这个易于访问的 Web 界面是其迅速走红的关键因素之一。大约六个月后,OpenAI 才推出了官方的移动应用程序。Google 的 NotebookLM 很长一段时间只有 Web 版本,今年才推出 App,还是功能缩减版。显然,在桌面端浏览器上更容易发挥 AI 的创造能力。对很多知识工作者来说,在 AI 时代,浏览器才是那个永远不会关的窗口,承载搜索、在线文档、企业后台、协作平台。同时,AI 又对浏览器产生了巨大的助推作用,各种 AI 浏览器诞生。可以说,AI 让 Web 重新回到互联网的中心。今天,你用 Web App 了吗?
^__^ 11 / 27
AI 到处刷榜,却在真实开发里犯低级错。看完 IIya 2 小时最新访谈,我释然了。这份最新访谈我整理后放墨问了,去掉了口语、重复部分,保留了 Ilya 的主要观点和细节,一共 6000 字。想看原文的点这里: 一个国家要把 1% 的 GDP 投在 AI 上?好的(AI 大神 IIya 最新访谈) OpenAI 联合创始人、前首席科学家 Ilya Sutskever 在最近一期访谈里,第一次系统谈了自己离开 OpenAI、创立 Safe Super intelligence(SSI)后的想法。 IIya 回顾了几个时代:2012–2020 是“研究时代”,AlexNet、Transformer 等工作,用的 GPU 也并不夸张;2020 之后进入“扩展时代”,大家找到预训练方法:更多数据、算力和参数,性能顺着幂律往上爬,巨头持续砸钱。预训练数据终会见顶,RL 的扩展越来越像围绕评测做“奖励黑客”。在他看来,单纯再乘 100 倍算力,很难再带来以前那种质变,行业迟早要回到“怎么学”的方法问题上。现在算力增加了,但人们需要重新进入“研究时代”。为什么 AI 会犯低级错误?关于“人类学习 vs 模型泛化”,Ilya 表示,今天的大模型在 benchmark 上到处刷榜,却在真实开发里犯低级错:修 bug 时在两个错误之间来回跳,对长链路任务缺乏稳定性。Ilya 说,现在的系统像刷了 1 万小时题目的竞赛选手,而不是只练几百小时、但更会迁移学习成果的学生。预训练的长处是“量大、自然”,短板是没学到人类那种稳健泛化的能力。人类在数学、编程这类进化史里几乎不存在的任务上,依然展现出惊人的样本效率,他据此推断:大脑里一定有更本质的“学习原理”,情绪、价值函数、社会需求很可能都是机制的一部分——而这正是现有 ML 框架基本没碰到的地带。 Ilya 一方面强调要“逐步、提前部署 AI”,让社会和政府通过真实使用了解能力边界;另一方面又抛出一个锋利的立场:希望首先出现的是“关心所有有感知生命”的超智能,而不是只服务人类利益的工具。未来他预期会有多家前沿公司、多个超智能并存,在能力上竞争、在安全上被迫合作。 llya 最后说,一个想法,在美学上应该是“简洁、优雅”的。不一定是最简单的,但要有一种“对的味道”;从多个角度看,它都说得通。