MacTalk
订阅
MacTalk 开通于2012年末,内容起于 Mac 而不止 Mac,内容覆盖了技术、创业、产品和人文思考。文风有趣,又有一点力量。
MacTalk微信公众号二维码
关注该公众号

会员可查看最新的全部文章

^__^ 6 / 30
A 厂封账号丧心病狂,DeepSeek V4 正式版 7 月发布,GPT 5.6 Sol 强得可怕。 Anthropic 现在封 Claude 账号可谓丧心病狂,最近收到大量用户(墨问和 x 上)的反馈,刚刚注册的新账号,访问两次就被封了;老账号无付费记录,封;付费账号,封。封你没商量。我前几天看到消息说 Fable 5 要回归,心里想是不是再给 Claude 一个机会呢(或者再给我一个机会呢 )。就用一个免费无订阅几乎没有访问记录的 Claude 账号登录了 iOS Claude 看了看模型列表。第二天收到邮件,嗷嚎~~ An internal investigation of suspicious signals associated with your account indicates you may be in violation of our Supported Countries Policy. As a result, we have revoked your access to Claude.(访问权限已撤销的意思) A 厂 CEO 一直不待见开源,他认为越强的模型,需要越高等级的部署和安全控制;包括对模型权重访问的限制、监控和多方授权。开源模型无法做到这一点,就很危险,代码开源后可以 patch,模型权重一旦扩散,很难收回,开放权重会带来不可逆风险。但是,如此一来,“安全”就会变成少数大公司闭源垄断的正当性,如果最强模型只能由少数公司控制,谁来监督这些公司?你说给谁用就给谁用?你咋那么牛呢?昨天还收到了 DeepSeek 的邮件,DeepSeek V4 正式版计划于 7 月中旬正式上线。本次版本更新将带来更多功能优化和性能提升。很多人说,纳尼,V4 不是 4 月份就发了么。其实那个是个预览版,正式版也许会有更多惊喜,如果能超过 GLM 5.2 那就太开心。先期待一把。另外,我现在还期待 OpenAI 尽快普及他们的新模型:GPT-5.6。今天读完了他们的产品报告,三个系列模型,Sol,旗舰模型;Terra,面向日常工作的均衡模型;以及 Luna,一个快速且价格亲民的模型,类似其他模型的 Flash 版本。Terra 的性能可与 GPT-5.5 竞争,同时价格降低一半;Luna 则以最低的成本带来强劲能力。作为 Agent 用户,我自然最关心 Sol 的能力,OpenAI 引入了一种新的 max reasoning effort,让 Sol 拥有最充分的时间进行深度推理。此外还有个 Ultra Mode,通过利用子代理来加速复杂工作,从而超越单个代理的能力。 GPT-5.6 Sol 在 Terminal-Bench 2.1 上的得分超过了 Mythos 5 和 Fable 5。Sol 的得分是 88.8%,Mythos 5 是 84.3%,Fable 5 是 83.4%。Sol 的 Ultra 更是高达91.9%。目前,arena.ai 上的数据还没出来,可以期待一下。比 A 厂靠谱。
^__^ 6 / 27
中国开源模型会被美国封印吗?今天 ChatGPT 5.6 发了,动静不大,因为老百姓用不上啊,即便你是 Pro 付费用户,也得老老实实用 GPT 5.5。看《华盛顿邮报》的报道,现在的状况是,过去在政策和安全领域讨论的问题,直接影响到了普通开发者:如果最先进的大模型被认为“过于危险”,谁有资格使用它?Fable 被禁、ChatGPT 5.6 受到限制,当模型能力越来越强,访问权限还就成了一种新的许可证了,神不神奇,生不生气?对岸现在着急了连自家模型都打,那中国的模型能力也越来越强了,会不会同样被限制呢?《华盛顿邮报》认为是的。比如有美国车主考虑购买一辆比亚迪电动汽车。以售价来看,即便加征 100%关税,仍然物超所值。后来才发现,这辆车在美国根本无法注册——它本身就是非法的。因为优秀,所以封掉了。但我觉得,中国模型这次有点不一样。国内厂商的一大部分模型都是开放权重模型,也就是开源的。一个已经被下载、复制、调教并部署到本地的模型,很难像一辆车那样通过注册系统直接拦住。开源的优势也在这里,它把使用变成了无数个分发和场景问题。中国模型已经把一部分能力释放到了公共空间。只要权重开放,全球开发者就会继续下载、蒸馏、量化、使用。监管能够提高使用成本,却很难完全收回已经扩散的能力。所以我不认为中国开源模型会被简单地“一刀切”禁止,但它们很可能进入另一个地带:可以研究,可以本地跑,商用,不能进政府项目;可以个人试验,企业使用要合规,等等。这会改变开发者的习惯。过去大家比较模型,关心上下文长度、推理速度、价格和效果。以后还得关注:模型从哪里来,能不能进生产,客户能不能接受,部署记录是否经得起审计。显然硅谷 AI 实验室也有自己的商业压力。闭源模型要走向 IPO,必须证明自己拥有稀缺性、定价权和监管护城河。如果开源模型能力相近、成本更低,商业叙事就会有点复杂了。安全当然是真问题,但安全也可能被用作竞争工具。当“只有少数公司能安全地提供先进模型”成为默认前提,创新就开始从工程问题走向准入问题。所以呢,对于国外用户,能下载模型就赶紧下,因为开放权重本身就是一种公共备份。先进模型不应该只存在于少数公司的审批名单里,也不应该被少数政策文件决定谁能用,谁不能用,开源的好处之一正在于此。至于国内用户,海外模型能用就用,用不上就用国内顶级模型好了,国产模型做得越来越好,我们越开心啊。这个趋势简直是一定的。