这周太炸裂了,多家 AI 公司连发新模型。 Kimi 刚发 K2.6,DeepSeek V4 就来了,还都是万亿参数的开源模型。但有个细节,比跑分超过 GPT、Claude 还值得聊。 DeepSeek V4 用了 Kimi 首次在万亿参数规模验证的 Muon 优化器,预训练全程零 Loss Spike,而且还写进了技术报告里。在传统的科技圈,这种借鉴一般是避而不谈的,比如你们看看每年的手机发布会。但在开源 vs 闭源的AI竞争下,氛围已经变了。因为中国的模型公司基本都是走开源路线,代码和论文都是公开的,谁好用就用谁的,不存在谁“抄”谁。 Kimi 这边也是一样。我查了一下,之前的 Kimi K2 也是用了 DeepSeek 的 MLA 架构,我都怀疑这两家公司私下有不少交流。反过来看美国那边,就精彩多了。 OpenAI 和 Anthropic 从去年开始,就打得有来有往。互相挖人,互相拆台,创始人之间的恩怨成了科技圈连续剧。你骂我打广告,我就举报你财务造假。太平洋两岸,一边是开源协作,一边是闭源内斗。或许,这可能就是 Deepseek 这些开源模型能追赶硅谷的原因。在芯片禁运、算力受限的背景下,做大开源生态,对资源紧缺的中国公司来说是绝对的利好。在急着分蛋糕之前,先把蛋糕做大。

唐韧 2026-04-24 21:55
推荐阅读