智谱回应马斯克:中国大模型什么时候达到 Fable 水平?咱不是搞大模型的,Fable 用两下就被米国政府禁了,这货水平到底高到什么程度,只有专业人士最清楚,比如智谱的朋友们。关于这个问题,独立研究者给出了“约 7 个月”的判断,马斯克认为可能要到 2027 年一季度,也就是更长一些的时间维度。智谱 CEO 唐杰回应说“不需要那么久”。我掐指一算,唐杰的意思是 2026 年底差不多。智谱和 5.2 现在这么火,他确实有这个底气。那怎么叫追上呢,榜单?营收?真实能力?闭源与开源?技术领先与商业模式,算算维度还真不少呢。华尔街见闻报道,GLM-5.2 最近的表现相当不错,在 FrontierSWE 上取得 74.4 分,与 Opus 4.8 的 75.1 分只差约 1 个百分点,并在 Code Arena 前端开发评估中仅次于 Fable-5……中国大模型与世界前沿的距离,已从“代际差距”缩小为“局部差距”。不过在 Agent 能力榜单,还有难度很高的 SWE-Marathon 上,GLM-5.2 虽然国内第一,但仍然落后海外旗舰模型。全方面超越仍需时间。模型的 Coding 和 Agent 能力,第一要看它能否在复杂工程中持续完成任务,第二就是用户是否为你花钱买单。二者是相互促进的。马斯克强调“真实实用性”,这个醒提的好。基准测试回答的是模型在标准条件下能做到什么,企业关心的却是它能否长期、低成本、可控地创造价值。性能高几个百分点固然重要,但价格、部署方式、数据安全和服务连续性同样决定采购选择。比如说,一个能力较强、但成本大幅下降且能够本地部署的模型——比如 GLM-5.2/M3/K27,其商业价值可能高于一个能力最强却昂贵、封闭且存在断供风险的模型——比如 Fable-5。 GLM-5.2 采用 MIT 协议开源,并主攻长程任务,使开源不再只是技术偏好,而成为企业经营安全和技术自主的重要选项。 这也是国内几家独立头部模型公司的优势所在。中国拥有丰富的产业场景,如果能把模型能力与真实业务深度结合,就可能在应用速度和成本曲线上建立自己的壁垒。中国大模型最值得期待的,是能够制定规则,现在大模型领域的规则和标准制定者,更多来自 A 厂,你别说,他们家的 Blog 质量还真是高。 AI 时代的发展实在是太快了。墨问 5 月底不是做了一个 Vibe Coding 计划么,我当时写了一篇2 | 选择好自己的工具和 Token Plan(已开始试读),昨天我把这篇重写了,大家都在实践中成长呢。 最近我用 GLM-5.2 比较多,欢迎一起加入社群 Vibe。 墨问 Vibe 年度计划

MacTalk 2026-06-20 12:20
推荐阅读