现在大模型推理能力的往前龟爬,主要依赖数据,而不是在模型架构层创新:一、训练时输入数据专用目标数据(比如编程大模型所需的开源代码数据)数据质量(这非常消耗人肉专家来整理)高质量数据的规模有高质量数据,还得与模型参数架构设计匹配。数据如水、模型如水瓶,水瓶不够大,再多的水装不进去。但模型也不能无限大,架构不好,模型就会如大厦一样坍塌。去年DeepSeek发布的mHC方法让大模型可以做大了。这样就能走上水多加面、面多加水的螺旋上升。二、微调时输入数据人工专家人肉构建思维链:给推导过程提示模板、给示例。比如现在流行的Skills本质就是这个。虽然现在大模型也能开始帮助人肉专家加速构建思维链,但还是需要人肉专家大量工作。比如现在流行的Palantir,本质上也是结构化构建这个思维链(对象-关系、对象-属性-行为-事件、属性-规则约束、对象-组合流程、历史数据样例)去年年初DeepSeek在微调阶段推出的GRPO方法算一个工程小技巧:消耗算力和推理效率,同时推出多个路径,然后这几个方案再左右手互搏校验与竞争,最后再融合成一个最佳方案。三、推理时输入数据输入上下文越大越好。但这也受制于注意力机制的创新。注意力机制不创新,输入上下文越多,大模型越自我混乱。很可惜,去年DeepSeek的DSA机制创新不在这个点上:DSA注意力机制,只是让KV寻找时由低效率的查询模式改成了高效率的搜索模式。不过这样一改,也确实平衡了效率/成本/上下文长度,所以可以导致最近DerpSeek可接受的上下文达到传闻中的1M。腾讯AI首席科学家姚顺雨前段时间发言说重心想在上下文学习这个方向突破。不过我更期待去年谷歌发布的Titans和HOPE理论,期望有业界能够在2026年做出来,这才是从模型架构级治本的事。

阿朱说 2026-02-13 08:51
推荐阅读