除去与公司产品非直接关联,或是基本没有数据需求的业务岗位,大概80%的员工可以直接使用数据产品,这个数据是从字节日常业务经验中得出的。另一方面,在资产的建设管理上,从最开始就划定交付的数据指标,包括报表、数据集等交付物。对于日常业务场景中经常使用的GMV、DAU以及转化率等指标,是否充足交付最直观的判断就是能否覆盖到80%的日常分析。“这个数据为什么是80%,而不是100%呢?关键原因在于很多业务是长尾的,还有一些不太常用的场景,这类偏小量的边缘需求就不会覆盖很细节的业务指标。”即便要求不是100%,想要实现两个80%的目标依然不简单。字节跳动能完成两个80%的目标,主要采用了“三个All”的方法论:All Business(业务应用)、All journey(资产运营),All in one(产品普惠)。从业务应用、资产运营到产品普惠,这套方法的核心思想就是:数据应用更懂业务、对数据资产的全盘管控,高度一体化构建数据产品。郭东东通过抖音电商的案例来解释“三个All”的逻辑是如何运作的:
给到用户的产品尽量做到“All in one”,通过可视化、智能化、一体化,让产品的使用门槛降到足够低,即使是刚刚入行的运营人员也可轻松掌握、快速决策。
大模型:数据飞轮的进一步探索
如果说,使用门槛是阻碍数据消费的关键难关,那么“All in one”就是突破这道难关的一柄利刃。新的技术带来新的理念,也为原本难以解决的问题带来新的答案。火山引擎不断探索新的技术,推出新的数据产品,其核心的驱动力基于“All in one”的产品普惠理念。将新兴技术赋能产品升级迭代,不断构建对外开放的数据产品联动能力,正是All in one的产品普惠理念。去年,火山引擎发布了数智平台 VeDI,覆盖数据引擎、数据建设与管理、数据应用等全链路相互协同的数据产品。在今年4月的发布会上,进一步升级了湖仓一体分析服务 LAS,Serverless流式计算Flink服务,并发布管理驾驶舱 Plus。今年6月,火山引擎推出了大模型服务平台火山方舟,来拥抱大模型时代的到来。在此次大会中,火山引擎数智平台VeDI对数据产品大数据研发治理套件DataLeap和智能数据洞察DataWind进行了升级,以AI加持,降低企业数据消费门槛。字节跳动数据平台负责人罗旋表示:“无论何种技术赋能,其核心都在于进一步降低业务使用门槛,更好地探索数据价值。此次为数据飞轮引入大模型能力,主要基于对数据链路上各个环节的探索。”字节跳动数据平台负责人罗旋想要消费数据,首先要找到数据。“‘找数’是资产管理的一大场景。在过去,当要查询某个不常见的数据指标时,可能需要随时查用哪张表、哪个字段,一个数据指标可能经手很多人,其中有人员更迭的情况,这个过程的成本就很高。”罗旋说。DataLeap-找数助手,让资产查询的方式变得更加“拟人化”:通过大语言模型的嵌入,在与用户进行对话的过程中,模型可以理解用户真实意图,实现包括Hive表、数据集、仪表盘、数据指标、维度等多种数据类型及相关业务知识的问答式检索。相比关键词的检索,基于大模型方式的检索的整体准确率无疑会更高。原始的数据是没有任何价值的,是数据的生产和加工给予了数据新的意义。在数据研发的日常工作中,有较大部分的精力被各类基础需求所充斥,比如经常帮各个业务部门从多张数据表中,通过关联,自动查询、统计指标数据。这类工作虽然基础,但往往多且繁杂,占用数据研发不少精力。针对这样的问题,此次升级的DataLeap-开发助手,借用大模型的能力,在很大程度上帮助数据研发人员从繁杂的需求中释放出来。比如业务部门可以通过代码生成的功能自己探查数据。当面临“忘了某个函数怎么写”这类问题时,也可以直接通过智能问答功能得到答案。
对于有一定SQL查询基础但不十分精通业务的同学来说,SQL查询修复功能可以帮助业务一键修复代码中的问题,从而提升查询效率。不同的数据有不同的答案,唯有真正洞察数据背后的意义,才能做好数据消费。虽然传统采用拖拉拽等操作方式的BI工具已在很大程度上降低了数据的使用门槛,但在使用中还是能感受到智能化程度的欠缺。此次升级的DataWind-分析助手,一方面,可以通过大模型的能力帮助业务从自身配置报表一步步下钻分析,凭借自然语言对话快速完成取数和图表搭建,通过进一步解读分析直接得出结果,缩短数据分析的时间;另一方面,通过与飞书等IM的联动,可以实现订阅提醒、消息推送、监控提醒等功能,在与DataWind分析助手的对话过程中实现快速查询,同时该功能也支持自言语言自由提问。可以说,大模型的出现进一步帮助企业降低了数据消费的难度。罗旋这样解释:“这次将数据产品与大模型结合,帮助企业在找数、加工处理、取数、用数等数据链路中,更全面应用到AI的能力。而产品之间本身的联动性,也就是产品All in one这个理念,也是我们一直追求和不断提升用户体验的地方。从发布的能力上也可以看出,用户可以通过自然语言实现在数据资产找数,到数据生产自动写SQL取数和加工,再到数据洞察探索分析拿到结果,形成这样一个完整的链路,降低了数据消费的门槛。”