这周太炸裂了，多家 AI 公司连发新模型。 Kimi 刚发 K2.6，DeepSeek V4 就来了，还都是万亿参数的开源模型。但有个细节，比跑分超过 GPT、Claude 还值得聊。 DeepSeek V4 用了 Kimi 首次在万亿参数规模验证的 Muon 优化器，预训练全程零 Loss Spike，而且还写进了技术报告里。在传统的科技圈，这种借鉴一般是避而不谈的，比如你们看看每年的手机发布会。但在开源 vs 闭源的AI竞争下，氛围已经变了。因为中国的模型公司基本都是走开源路线，代码和论文都是公开的，谁好用就用谁的，不存在谁“抄”谁。 Kimi 这边也是一样。我查了一下，之前的 Kimi K2 也是用了 DeepSeek 的 MLA 架构，我都怀疑这两家公司私下有不少交流。反过来看美国那边，就精彩多了。 OpenAI 和 Anthropic 从去年开始，就打得有来有往。互相挖人，互相拆台，创始人之间的恩怨成了科技圈连续剧。你骂我打广告，我就举报你财务造假。太平洋两岸，一边是开源协作，一边是闭源内斗。或许，这可能就是 Deepseek 这些开源模型能追赶硅谷的原因。在芯片禁运、算力受限的背景下，做大开源生态，对资源紧缺的中国公司来说是绝对的利好。在急着分蛋糕之前，先把蛋糕做大。 - 唐韧