面向业务的数据资产建设方法论:标签类目体系

2020-12-07 05:57任寅姿
关键词:数据服务

任寅姿

摘要:给出了一种面向业务侧的数据资产建设新方法。数据资产是数据中台概念中核心一环,需要一种业务导向的资产映射来完成资产业务化过程。标签类目体系方法论是一种将数据资产按照树状结构组织的方法,根目录为对象,枝干分支为类目,叶/花末端为标签。各种对象树之间存在能量连接,并通过业务供给生长。标签类目体系实例化可以采用整体规划、局部截取两种模式。资产结果分为资产清单和资产实体两大部分,它们可以通过服务管理工具快速配置成可供业务使用的数据服务结果,以实现数据资产价值。

关键词:标签类目体系;树状结构:数据服务:资产价值

中图分类号:TP391 文献标志码:A DOI:10.3969/j.issn。1000-5641.202091009

0引言

在数据中台概念中,数据资产位于核心位置。首先要对数据资产定义有正确的认知:广义上,企业拥有所有权的数据资源都是其数据资产。但是这个广义定义过于宽泛:所有资源都有价值等于所有资源都没有价值。因此需要更多关注其精准定义——企业所拥有的能够带来经济价值的数据资源。数据资产一般都有较好的组织形式来保障完成“看-选-用一治-评”的经济价值链路。对数据资产的最佳“组织形式”研究成为数据中台建设的重中之重。

大数据行业内至今衍生出了众多的数据资产建设管理办法。但是当前主流方法,包括国际数据管理协会DAMA、数据仓库管理、数据治理等多偏向于底层技术实现,而非从上层业务应用角度对资产进行整合优化。

数据资产之所以称为资产,必须从价值出发,整理、管理、优化对业务真正有帮助、能给企业带来效益的数据资源。把数据资源封装成业务人员能理解的形态,是后续资产价值化的必要前提。因此迫切需要一种新的思路来研究面向业务侧的数据资产建设方法。

1基础结构

标签类目体系方法论是一种面向业务的数据资产建设方法:用“标签”来作为数据资产的最小单元组织载体,用“标签类目体系”作为数据资产目录的整体组织结构载体。

1.1根目录

标签类目体系的基础结构就像一棵树,如图1所示,树的根决定了这是一颗什么树。

设计、管理、使用标签类目体系必须从根目录开始。根目录所对应的数据含义为对象,对象分两大类型:实体对象(人、物)和关系对象(强关系、弱关系),因此存在两大类标签类目树:实体树和关系树。

1.2枝干分支

树的枝干部分对应于标签类目体系中的类目分层,因此类目是一种分形结构,可以不断地分化下去,也可以根据需要截取任意一个子系统出来作为独立的标签体系(小系统范围)使用。

1.3叶/花末端

树的叶/花部分,对应的就是对象的各种属性,即标签,物理存储中映射为字段粒度,是通过大量经验验证后最合适的数据资产最小单元粒度。叶和花都属于枝干延伸的末端组织分化,相互之间存在联系。标签也可以分为动态标签和静态标签,动静区分点在于某个个体在这个标签下的标签取值是否具有经常发生变化的可能。

某一类对象的标签类目体系的构建实际上完成了对某一类对象的模式设计。设计好的标签类目体系就像模具一样,能将该类对象下的具体个体的形象特征快速标准地刻画出来。例如,消费者标签类目体系设计好后,所有的消费者都拥有相同的标签及标签类目结构,但具有不同的标签取值,如图2所示,每个个体的标签取值不同,用颜色来示意区分不同的标签取值。

通过标签体系设计,可以把个体观察升级为群体观察。找到了一种统一的数据描述方法来对对象进行本质刻画,而非过去现象的总结,更具有场景化适应能力。

2连接赋能

标签类目体系是基于“对象”的标签分类刻画,“对象”是类目体系的奇点。

2.1实体树间通过关系树连接

例如,消费者(实体)与商品(实体)之间会通过某些浏览、交易、評价等行为(关系)产生连接,通过这种连接,消费者(实体)与商品(实体)除了静态标签之外,还衍生出了许多动态标签,实体对象360度的全面刻画变得更为丰富和完整,如图3所示。

2.2关系树是一种能量赋予

实体对象身上的标签,会随着关系对象的增多而相应地增多。每新增一种动作、行为、连接,即关系树,就会在实体树上映射出一片新类型的叶子,如图4所示。

实体树要想长出足够多类型的叶/花就需要通过关系树的能量映射。关系树自身越茂盛,能映射孵化出的实体树叶/花也会越繁多;反之,关系树自身枯萎、能量不足,实体树的叶/花也会随之枯萎消失。

2.3业务使用是养分供给

标签如果在业务中被广泛使用则生长非常牢固,得到了业务的重视而获得更多资源倾斜。而某些标签如果只被使用一次即搁置,则会因为营养不足而凋零下架。

3生长优化

经典标签类目体系的完整结构是一棵可以不断分化下去的树形结构。因此可以通过不断地增加、修剪、插枝等方式来完善。

标签类目树就像生命进化树一样,类目分支受到能量环境影响形成丰富的标签簇,标签会经历优胜劣汰的自然选择。整个标签类目树需要自己生长出来,而非人为控制得到最终形态。

最终的标签类目树形态是适应环境自然生长的结果,但是不意味着不能提前规划一个较好的标签类目树初始形态。通过在实验室环境中将植被进行理想的扦插塑形,可以使得树木在真实环境中更好地生长。

因此当一家企业需要构建其自身的标签类目体系时,可以基于一个已沉淀好的××行业某对象标签类目体系模板,进行快速的规划设计和修正优化。根据建设数据资产的目的节奏不同,有以下两种模式可以参考借鉴。

3.1完整规划,由浅入深

当企业构建资产的目的是形成数据资产的完整规划,指导数据收集、整理、加工、挖掘等各阶段工作,并愿意花费较长时间来实施数据资产的整体规划时可以选用下述模式。

(1)首先选取蓝色圈内主要枝干体系,添加少量标签并完成数据开发和映射工作,形成V1.0版本的消费者标签类目体系,如图5所示。

(2)再根据企业现有数据情况及业务需求,进行黄圈、绿圈……的全面扩展,此时标签类目树上挂有的标签越来越丰富,如图6所示。

(3)当现有基础数据/业务比较单一,或某一业务发展迅速滋养某一类型的标签快速发展,也可能会出现红圈式的指向性单侧扩展,如图7所示。

不管以上哪种具体实施方法都是从根部最基础树干到分支再到细支,体现了一种整体规划的完整思路。这种模式的好处是全面规划、面向未来,可以指导企业在数据端的全面布局;缺点是建设周期长,见效慢,因此遇到的阻力也会很大,必须是一把手工程才能完成全面的数据资产从规划到落地实施。

3.2纵深打穿,从局部直接截取

当企业构建资产的目的是完成对业务场景的支撑,特别是多个业务场景间能快速复用标签资产,希望可以快速见到数据对业务产生的商业价值时可以选用下述模式。

直接从经典的完整对象标签类目树上截取所需的部分分支即可。因为标签类目体系是一种分形结构,整体和局部有同构性,任何一个局部分支都可以剪切出来作为独立的标签类目树。例如,当前某业务部门只需要研究用户的基础特征,就可以直接从经典类目树上截取左上角的基础特征分支作为独立的类目树,如图8中圈选部分所示。此时该用户的一级类目就是基础特征,直接跳过“静态特征”和“动态特征”这两个更基础的类目。

这种模式的优点是:标签直接作用于业务,可以快速得到业务滋养并得到数据价值的认可,阻力较小。但缺点是:当业务、标签不断生长变化时,整个类目结构可能会有较大的变动,甚至是重构,带来的影响较大。

标签类目树的优化过程可以参考生物进化论,是遗传变异+自然选择的作用结果。

企业构建具有其自身特点的标签类目树,在初始创建时,可以遗传自经典标签类目树的基因组:从经典标签类目树结构中筛选出合适的类目结构进行设计组装(遗传);并根据企业自身实际情况进行变异调整(变异);将设计好的具体标签类目树放到实践业务中去使用优化,完成环境选择的过程(自然选择);并最终不断地进化迭代。

在进化过程中,重要的不是对某一条线的极致进化,而是不断分化的分支。因此对于数字化转型的企业,面对未来变化莫测的环境场景时,需要做的不是在某个单一领域上将数据治理透彻。因为极致和典型态未必就是方向和出路。而应该梳理出全集团多业态多部门数据,不断通过能量影响、基因交叉形成丰富有趣的标签簇,使其能够适应将来各种场景对数据标签的使用需求,同时自身具有非常旺盛的生命力和延续性。

4资产结果

通过标签类目方法论所形成的企业数据资产库包括资产清单和资产实体两部分。

4.1资产清单

资产清单类似资产门户,可以在门户集市中,清晰明了地看到企业中一共构建了哪些对象的标签类目体系,并在选中某种树后,可以看到这种树的具体枝干轮廓:一级类目、二级类目、三级类目……选中某级标签类目后,可以看到其下所涵盖的标签列表,如图9所示。

每个标签就像每一片不同的叶子一样,拥有自己的ID、名称、逻辑、类型、值字典等元标签信息,元标签就是对标签的属性描述。例如,百科全书要让读者对某一事物有充分全面的正确认识,则必须要有充分全面的信息描述,并且以通俗易懂的方式描述。因此标签是否能让业务人员、信息人员、技术人员等理解认知,重点就在于元标签信息是否充足及描述是否符合读者的心理认知。

元标签中涉及业务元标签部分的,应该以业务人员日常沟通交流的方式来进行描述,如标签名、标签业务逻辑、标签场景示例、标签价值等都属于业务元标签范畴。涉及技术元标签部分的,应该以技术人员日常工作沟通的方式来进行刻画,如标签血缘、标签质量、标签加工逻辑、标签源表、标签物理存储方式、标签映射字段、标签所在葉子类目ID等都属于技术元标签范畴。

4.2资产实体

资产实体是指在设计好的标签类目体系规范下的每个具体个体实例。实例可以简单认为是具体不同颜色的树,因此在实体库中,会存在非常多的颜色各异但是轮廓形状相同的树所组成的树林,如图10所示。在物理存储层面可以映射为加工后的数据表中每一条具体的数据记录,这些数据记录拥有统一、相同的列信息,但是具体的列取值各不相同。

5落地实用

数据资产构建完成后,需要把资产合理高效地使用起来。这里列举最常见的3种数据服务方式:查询、分析、圈选,来解释经标签类目体系梳理后的数据资产是如何快速实现这3种数据服务过程的。

5.1查询服务

查询服务经常会运用在业务系统中的联机事务处理(on-Line Transaction Processing,OLTP)事务型数据操作中,如在海量数据中快速查找某辆汽车的违章信息,或在营销活动中实时判断某位消费者是否达到准入门槛或完成活动任务。

因此首先要确定需要查找的对象是什么,是车辆、消费者还是订单记录?

选中对象(某种树),如“消费者”后,可以在服务管理中选中“查询”服务类型,进入“消费者查询”服务的创建过程中。

查询服务有几个配置项必须选择:查询输入项的ID标签和查询输出项的标签。其中ID标签指的是能作为唯一识别属性的标签,即每个实例在该标签下的标签值,不允许出现标签取值相同的两个不同个体,如会员号、身份证号、驾照号、指纹图形等都属于ID标签。例如,我们可以选择【会员号】标签作为输入项,【户籍地】标签作为输出项。

查询服务创建好后生成API接口或交互界面,具体业务系统或业务人员即可调用或通过界面系统操作使用该服务:输入一个具体的会员号码1000234,后台系统即可通过该ID标签取值,在资产实体库中找到唯一对应的个体实例,并根据所需要输出的标签信息,定位到该个体在【户籍地】标签上的具体取值

浙江,并将该取值传递到接口输出或通过界面呈现,如图11所示。

5.2分析服务

分析服务经常会运用在业务系统中的联机分析处理(0n-Line Analytical Processing,OLAP)分析型数据操作中,如对消费者群体进行客户透视画像或对企业经营状况进行财务分析等。

和资产构建过程一样,对象的确认仍然是第一位的。分析也要先梳理清楚分析的对象是什么。客户画像的对象比较单一,就是客户;企业财务报表的对象比较多,有资产、订单、项目、商品等。

选中对象(某种树),如“消费者”后,可以在服务管理中选中“分析”服务类型,进入“消费者分析”服务的创建过程中。

分析服务有几个配置项可以选择:待分析的维度(标签)及分析类型(求和、求平均、最大值、最小值、取值分布等)。例如,我们可以选择【性别】这一维度并设置“取值分布”这一分析类型。

分析服务创建好后生成API接口或交互界面,具体业务系统或业务人员即可调用或通过界面系统操作使用该服务。后台系统根据“消费者”对象的确认,找到消费者对象库中的所有具体实例树(具体消费者个体);根据【性别】标签的类目信息索引找到所有实例树中“性别”树叶位置;将所有有颜色的“性别取值”树叶提出来排列好,根据“取值分布”的要求对不同颜色的树叶进行颜色归类并进行分类汇总计算,最终业务人员可以在API接口或界面系统中查看到消费者在性别上的取值分布图,如图12所示。

从以上的处理过程中,我们可以发现,数据分析就是对某一对象群体在某一属性标签上的取值处理,即对有颜色的树叶在某一维度切面上的不同变形,取值分布就是将颜色分布变形为不同数据轴上的数量表示,求平均就是将各种颜色在数量上差异变形为最终的调和色彩。处理数据的最终结果和数据资产不同,是数据资产实体在不同维度切面上的变形结果。

5.3圈选服务

圈选服务经常会运用在对特定目标对象的操作中,如广告系统中的精准营销,或LBS服务中的地理围栏,或数据化运营中的定向投放等。

同样需要先确认对象,如“消费者”,然后可以在服务管理中选中“圈选”服务类型,进入“消费者圈选”服务的创建过程中,选择需要作为圈选条件的标签,并设置圈选的目标群体输出时需要带有的标签信息。例如,选择【性别】、【年龄】等标签作为目标群体圈选的条件维度,设置【会员号】标签作为目标群体的输出信息项。

圈选服务创建好后生成API接口或交互界面,具体业务系统或业务人员即可调用或通过界面系统操作使用该服务,如选择【性别】等于“女”且【年龄】小于“30"的消费者群体。后台系统根据“消费者”对象的确认,找到消费者对象库中的所有具体实例树(具体消费者个体);根据【性别】标签的类目信息索引找到所有实例树中“性别”树叶位置,筛选留下“性别”树叶具体取值为“女”的实例树集合;同样操作筛选留下“年龄”树叶取值小于“30”的实例树集合;将以上两个实例树集合取交集(业务人员制定规则为“且”);对最终交集中的每个个体树上找出【会员号】标签上的具体取值;并将该取值集合传递到接口输出或通过界面呈现,如图13所示。

6结论

本文给出了一种面向业务、以数据价值实现为核心目标导向的数据资产建设方法论,具有3个特征:①是一种桥接数据和业务的中间逻辑层,让数据变得可阅读、易理解;②是一种统一的对象数据描述方法,把个体刻画升级为群体刻画,研究本质;③是一种构建数据资产的第一性原理,通过学习方法论+演绎推导即可构建具体的企业资产。

通过标签类目体系方法构建的数据资产,可以将难以理解的數据信息转化为业务人员“看一选一用一治一评”的资产操作对象,降低了数据资产使用门槛,加快了试错和使用频率,能够切实有效地保障数据资产价值真正在业务端得到实现,并保持长久运营的生命力。

猜你喜欢
数据服务
大数据环境下高校图书馆数据馆员建设研究
大数据时代校园一卡通数据分析与应用研究
基于大数据的智慧型医学图书馆构建策略
图书馆数据服务合作开展的博弈策略及保障机制研究
高校图书馆数据素养教育问题与对策研究
一种基于领域本体的数据服务语义标注方法
公共图书馆流通外包管理研究
胜利油田智慧社区建设研究
高分辨率影像服务在国土资源管理中的应用
辽宁省环境数据中心建设探讨