阿朱说
订阅
阿朱对产业的洞察与感悟
阿朱说微信公众号二维码
关注该公众号

会员可查看最新的全部文章

^__^ 2 / 13
现在大模型推理能力的往前龟爬,主要依赖数据,而不是在模型架构层创新:一、训练时输入数据专用目标数据(比如编程大模型所需的开源代码数据)数据质量(这非常消耗人肉专家来整理)高质量数据的规模有高质量数据,还得与模型参数架构设计匹配。数据如水、模型如水瓶,水瓶不够大,再多的水装不进去。但模型也不能无限大,架构不好,模型就会如大厦一样坍塌。去年DeepSeek发布的mHC方法让大模型可以做大了。这样就能走上水多加面、面多加水的螺旋上升。二、微调时输入数据人工专家人肉构建思维链:给推导过程提示模板、给示例。比如现在流行的Skills本质就是这个。虽然现在大模型也能开始帮助人肉专家加速构建思维链,但还是需要人肉专家大量工作。比如现在流行的Palantir,本质上也是结构化构建这个思维链(对象-关系、对象-属性-行为-事件、属性-规则约束、对象-组合流程、历史数据样例)去年年初DeepSeek在微调阶段推出的GRPO方法算一个工程小技巧:消耗算力和推理效率,同时推出多个路径,然后这几个方案再左右手互搏校验与竞争,最后再融合成一个最佳方案。三、推理时输入数据输入上下文越大越好。但这也受制于注意力机制的创新。注意力机制不创新,输入上下文越多,大模型越自我混乱。很可惜,去年DeepSeek的DSA机制创新不在这个点上:DSA注意力机制,只是让KV寻找时由低效率的查询模式改成了高效率的搜索模式。不过这样一改,也确实平衡了效率/成本/上下文长度,所以可以导致最近DerpSeek可接受的上下文达到传闻中的1M。腾讯AI首席科学家姚顺雨前段时间发言说重心想在上下文学习这个方向突破。不过我更期待去年谷歌发布的Titans和HOPE理论,期望有业界能够在2026年做出来,这才是从模型架构级治本的事。
^__^ 1 / 30
地域文化(1)我最喜欢上海人的:讲精致,对产品 / 服务的品质、细节、体验要求高,注重品牌和口碑算得细(精细化成本/利益核算)把问题都细细地明确地想在最前头,注重权责清晰谈好了,签好白纸黑字合同了,就严格遵守(2)我最喜欢浙江人的:市场嗅觉敏锐,能快速捕捉商机,立即动手干敢干务实、小处着手(不挑生意大小,小钱也赚)老乡抱团取暖。不过外乡人想打入商圈,最好得圈内人引荐坦诚展示实力和落地能力,少讲空的商业模式,多谈实际利润、回款节奏(回款及时,不拖欠账款)(3)我感觉江苏人和浙江人的特点挺多相似之处,但是有一个明显的不同:浙江人能快速捕捉商机,立即动手干。而江苏人,稳扎稳打,不那么快。(4)我最喜欢福建人的:敢闯敢拼(爱冒险):敢做高风险、高回报的生意宗族抱团(5)我最喜欢广东人的:低调不炫富务实,讲实在利益、讲落地,不看头衔不看排场边喝茶边聊,氛围轻松,没有正式的商务谈判压迫感(6)我最喜欢深圳人的:只看结果,深圳不相信眼泪沟通直奔主题,不绕弯高效、快节奏,回复消息提供资料及时不拖延创新,对新思路、新赛道、新模式接受度高(7)我其实不喜欢北京的商业套路:吹牛逼谈大格局大趋势要人脉关系、要垄断资质要面子(8)总结吸收好的,摒弃不好的:一、文化文化:敢干敢闯敢拼(爱冒险):敢做高风险、高回报的生意文化:务实,讲实在利益、讲落地文化:小处着手(不挑生意大小,小钱也赚)文化:只看结果,不相信眼泪文化:低调不炫富,不看头衔不看排场二、创新创新:对新思路、新赛道、新模式接受度高创新:市场嗅觉敏锐,能快速捕捉商机,立即动手干三、交易谈判:边喝茶边聊,氛围轻松,没有正式的商务谈判压迫感谈判:把问题都细细地明确地想在最前头,注重权责清晰。签好白纸黑字合同了,就严格遵守沟通:沟通直奔主题,不绕弯四、执行注重产品/服务质量:对产品 / 服务的品质、细节、体验要求高注重执行效率:高效、快节奏,回复消息提供资料及时不拖延注重精细成本:精细化成本/利益核算