数据治理,是时候打破刻板印象了
降低数据治理门槛,降低企业用好数据资产的门槛,让企业数据消费更便捷。
文|徐鑫 游勇
编|周路平
过去,数据中台面临一些挑战和误解。由于动辄投入成百上千万元,数据中台曾给人留下了又贵又重的印象。高昂的建设成本,成了数据量不大的中小企业的拦路虎,但同时,这些企业对数据建设和治理有旺盛需求。
更大的问题在于,狂飙猛进的技术演进对企业数据治理框架的可扩展性提出了新的挑战。Gartner报告就指出,到2028年,50%构建于2023年之前的中国数据分析和AI平台,也将因为与生态系统脱钩而过时。数据建设领域正呼唤一场革新。
日前,阿里巴巴集团副总裁、瓴羊CEO朋新宇在云栖大会瓴羊Data×AI专场论坛中指出,企业要拥抱AI时代,需要完成场景解构、业务重构。其中,数据基础设施领域也正在迎来一波重构浪潮。
针对行业里数据治理高成本和难扩展等建设难题,瓴羊Dataphin产品全面升级,新推出的敏捷版用以解决企业数据量不大但需构建数据的场景问题,Dataphin可演进扩展的数据架构体系为企业数据治理预留发展空间,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
01
数据治理正当时
数据建设和治理,最为人熟知的概念可能就是数据中台。
几年前,大数据浪潮席卷全球,各行各业的先锋企业都十分重视挖掘企业的数据价值。2017年时,《经济学人》还在一篇封面文章提及,数据已取代石油,成为世界最有价值的资源。
当时,一批积攒了大量数据的先锋企业率先意识到,要打破企业内的数据孤岛,集中管理、统一处理企业内部数据的重要性,“数据中台”概念应时而出,阿里作为数据中台理念的提出者也率先在企业内建设数据中台并面向企业提供产品和服务。一批传统行业的龙头企业,也从战略布局、积极求变的角度,将数据中台建设作为整合内部海量数据资产,充分发挥数据价值的重要抓手。
也由于先期入局者自身的数据复杂度高,规模体量大,在数据治理和建设时,投入巨大,建设周期也比较长。这使得行业内也产生过一些争议,比如一位行业内人士就曾观察,数据中台投入大,效果难量化,在一般规模的企业难落地。
今年Gartner在《中国数据分析及人工智能成熟度周期》报告里就把“数据中台”概念列为逐步过时的技术发展区间。
不过,行业资深人士认为,不能仅从产品和工具的层面来理解“数据中台”,也不能仅从概念热度来看“数据中台”的价值。
“数据中台更是一种理念和模式,它意味着,对一家企业来说,数据资产是企业资产的重要组成部分。对于这一重要资产,企业需要有一种方式,把数据整合,统一清洗、加工和治理,从而形成便于利用的数据资产。”上述人士说。
Gartner在报告里也提到,当下的技术浪潮下,围绕着数据集成、元数据管理和数据质量等技术能力建设相关的“数据基建”正处于快速上升期,它将是企业内数据分析和AI应用的可复用基座。“数据中台”所代表的理念仍然在引领行业发展,同时技术层面也在继续高速演进。
另外,国家政策层面推进数据要素市场化,也在让广大企业加速构建更全面的数据治理和应用能力。
今年1月1日,《企业数据资源相关会计处理暂行规定》(以下简称《暂行规定》)正式实施,上市公司的数据资源作为新增会计科目列示在资产负债表下,构成股东权益的一部分。据中国证券报统计,截止今年8月31日,39家上市公司披露数据入表相关情况,总金额达到13.57亿元。对不少企业而言,如何实现全域的数据治理,构建数据资产,甚至成为一道必答题。
业界的共识是,这些走在前列的企业,之所以能率先实现数据资产入表,与它们对数据治理工作的长期且持续的重视密不可分。
在宏观政策和科技浪潮的推动下,以数据驱动业务发展的理念日益深入人心,越来越多的企业意识到了数据治理平台和数据资产建设的重要性。
在这股浪潮里,中小企业的需求也已经不容小觑。比如瓴羊副总裁王赛就看到,中小型企业有强烈的数据治理及数据资产建设的需求。“企业的数据量相比龙头企业们可能不是很大,但有复杂度和多样性,这些企业需要把这些数据做一些轻度的治理。”
但这些企业的数据治理之路面临不少问题。“中小企业大数据相关的人才储备可能不足,也没有太多的预算投入到数据治理领域。”一位资深人士认为,许多企业还对数据资产建设和数据治理的认知也有所欠缺。
基于这些痛点,瓴羊把基于阿里巴巴内部数据治理的经验,加之服务外部大型企业客户打造推出的智能数据建设与治理平台Dataphin,进行了轻量化改造,推出Dataphin敏捷版。
在新推出的Dataphin敏捷版中,产品的架构变得更轻量,能够帮助中小型企业更低成本地启动数据治理。以对操作人员的要求为例,Dataphin的敏捷版能兼容关系型数据库,企业的数据管理人才无需掌握大数据前沿技术,只需掌握SQL就能操作,后续的运维难度也很小,大大降低了数据治理的人才门槛。
“企业最低只需要投入三台硬件设备,投资仅二三十万元就能基于Dataphin敏捷版,启动数据治理工作。”瓴羊数据系统产品线总经理董芳英告诉数智前线。这也意味着,相比于之前功能强大、架构复杂的Dataphin版本,广大中小企业现在多了一个选择。
02
数据治理,如何兼顾当前和长远
当数据量较小的企业,在开启数据治理工作后,都会考虑一个问题:随着业务发展,数据量变得庞大之后,是否需要重新更换一套系统?是否会给未来的数据治理留下麻烦?
比如国内一家头部零售企业,这些年遇到了“成长的烦恼”。由于业务布局广泛,企业数据需求的复杂程度和处理难度变得极高。
此前,他们基于业务的实际需求,构建了许多不同功能的业务应用系统。但由于企业发展多品牌多渠道,数据量变得极为庞大。同时,不同的业务数据在不同的系统里,存在数十个独立的数据烟囱。另外,不同的业务线的数据定义还不一样,数据治理的难度变得极大。
之所以出现这种情况,与企业缺乏长期的数据治理视角有关,此前的数据架构都是从孤立的业务需求出发。这家企业的数据负责人也把数据中台建设当成了一项长期工作,为此他们还形成了未来三到五年的规划,来建设企业的数据中台。
无独有偶,另一家消费金融企业的数据负责人也察觉到了数据治理的建设思路需要发生变化,“之前更重视产生了什么数据,哪些业务流程是可以数字化的,以及数据合规问题”,但他发现往后看5年,随着企业数据量越来越大,传统的数仓建设思路已经不能再支撑企业的存数、管数、用数的需求。
这也是不少企业在数据治理中的共性问题——数据架构如何为未来的发展预留出空间,从而满足未来更多更复杂的数据治理需求。
基于这一行业普遍痛点,瓴羊的Dataphin产品创新性推出了数据系统的全新架构。这套架构的一个核心特点是可扩展、可演进。
简单来说,小企业可以基于自身的考量,在早期选择轻量化且低成本的Dataphin敏捷版产品。而随着企业的规模扩大,企业可以扩展底层的算力引擎,自如地向上升级,平滑演进,满足未来的数据治理需求和企业业务发展需要。而这得益于Dataphin敏捷版和原生版本之间采用了同一套底层架构。
这有利于满足企业数据规模扩大后更复杂的数据治理需求。从敏捷版升级到Dataphin智能研发版后,底层的数据库可从关系型扩展为交互式、MPP类数据库,比如StarRocks、ClickHouse、Hologres、Lindorm、Impala等分析能力更强,算力更强的数据库等,从而支撑起更多维的数据调度和运维等治理任务。
而随着企业规模的进一步扩大,企业底层的数据支撑还能进一步升级成大数据引擎,甚至可扩展支持湖仓一体。“小型、中型和大型,我们都在一套部署结构之下,可以帮助企业无缝升级。”王赛说。
这考虑到了企业数据治理的长期发展特性,企业可以自如地基于自身的数据规模和治理要求,选择合适的产品。
另外,在数据治理和运营领域,企业还面临另一大问题,朋新宇将之界定为个性化和和性价比之间的矛盾。大企业基于自身的业务需求,往往追求私有化部署,但这也意味着更高成本。而标准化的云产品明显更便宜,但也失去了个性化配置的能力。
针对这个问题,瓴羊Dataphin的解题思路是,在传统的公共云租户模式和私有化部署之外,给企业提供“半托管”模式,既能独享可控的环境,又能享受公共云的弹性调度。
比如,一些集团型企业,不同的业务模块或者子业务的数据处理要求不一样。一些财务类、会员类的数据要求本地运行计算,另外一些安全敏感性不高的数据可以上云,与云上业务联动及数据处理。
这类企业就适合半托管模式,相比公共云模式的“租公寓”式服务,和独立物理部署的“造别墅”式服务,半托管类似于“租独栋别墅”,既能满足这些希望提升数据处理能力,具有个性化定制需求,但同时考量经济性的企业的需求。
总体而言,在数据治理和数据运营领域,Dataphin正基于阿里巴巴集团多年数据治理的系统化建设经验,为大中小不同规模的企业,提供横跨多类引擎,适应多种环境要求的,可扩展可升级的产品。
数据治理领域,企业正迎来按需采购、自如升级的新阶段。
03
AI时代,如何让数据真正用起来
董芳英看过很多数据治理平台的项目,她发现一个规律,如果对方是一个纯IT团队,没有数据资产运营的理念,这类项目的成功率往往不会很高。
数据如果只存储在数据库里,只会成为成本和负担。“我们刻在骨子里的理念就是数据构建好之后,一定要把数据用起来。”董芳英告诉数智前线。所以,瓴羊非常强调资产运营,光把数据聚合在一起还不够,还要让数据更好地用起来。
而要让企业用好数据,客观存在着一个巨大的鸿沟。董芳英发现,表面看企业有数据,业务有问题,把二者匹配就解决了问题,但两者如何连接起来面临巨大的考验。
对业务人员而言,理解业务和理解数据是两码事。很多时候业务人员缺乏数据思维,数据获取依然要求助于数据专家,这面临着大量的沟通和时间成本。
而在具体的获取数据环节,数据团队压力也很大。他们经常会面临大量的关于数据在哪里、数据是什么意思、该如何使用、在哪里使用的咨询。并且,要在海量的数据资产中找到想要的数据,也并不容易。
这反映出,企业用数需求,不止是从Chatbot中获得一个具体的数据结果,还涉及到基于业务去找到和使用好内部的数据资产的需求。董芳英提到一个具体的例子,她经常碰到客户提这样的问题:企业的商机转化率低,有什么样的数据能解决问题?
解决问题的核心在业务流程里,先回到业务中,问题涉及哪些人员和组织,涉及哪些流程,这样才有可能给用户有价值的指导,而不是就数据返回一个数据结果。
从这一痛点出发,瓴羊今年推出业内首个数据资产智能体——Dataphin·DataAgent,在大模型的加持下,用户能自定义专属的Agent,业务人员能更便捷实现从问题到思路、数据、用法的全链路自助化操作。
自动播放
“未来每个人都有一个专属的数据助手。”王赛说,它不只是工具层面帮用户取数,还能帮助连接业务,输入问题后直接给到数据视角的内容。
某一家头部乳业品牌的数据中台已经建设多年,形成了超过20个数据域,上千指标,几百用户标签和近百个应用。但目前业务的需求总是通过数据工程师人工满足,业务人员觉得响应慢,而工程师又被压得喘不过气来。现在通过Dataphin的智能DataAgent,每次都能快速找到资产,研发效率翻倍。
这个过程里,Dataphin·DataAgent的三大能力也展露无遗。首先是基于全域的数据资产,可以快速便捷帮助企业构建向量数据库,完成知识库的搭建;其次是,基于对知识库的理解,提供了不少辅助工具和元素化的交互能力,加速智能体的设计和编排;再次,数据智能体一键发布,能帮助企业更方便去消费数据。
DataAgent平台背后,瓴羊还提供了一整套解决方案,底层是基于Dataphin的全域资产,这也是区别一般智能Agent之处。模型能力上,接入了通义千问模型,用户还可基于百炼平台按需求选择其他模型。
大模型升级后,效果也非常明显。以前在数据资产平台搜索,只能进行关键词关联,现在通过Dataphin·DataAgent不仅仅可以把相关数据一并列出,还能基于业务需求,挖掘数据资产,把关键数据信息一目了然呈现。
从降低中小企业启动数据治理的门槛,到降低企业兼具个性化和性价比的前提下用好数据资产的门槛,到基于DataAgent智能体更便捷地消费和使用数据,瓴羊的数据产品和服务正在重构企业数据服务的价值。