摘要:元数据作为“描述数据的数据”,是企业数据的DNA。数据使用者或者数据系统可以通过元数据管理工具发现数据、查找数据、理解数据以及使用数据。传统的元数据收集依靠人工收集,确保元数据的完整性和准确性一直都是难点所在,导致元数据管理工具的价值不高。而设计态和实现态不一致也是一个问题,进一步影响了元数据管理工具的效用。“主动”元数据管理通过元数据的自动采集,可以为用户呈现实现态的最准确的元数据。然而,仅仅依靠自动采集元数据并不是“主动”元数据管理的全部。本文对“主动”元数据管理进行了一些思考和总结,希望能够对元数据管理工具的建设起到启发的作用。
关键词:主动元数据管理;传统元数据管理;元数据管理;主动元数据
一、引言
Gartner发布的2021年技术成熟度曲线中,主动元数据管理(Active Metadata Management)赫然在列。这一概念当前持续火爆,国内外甚至已经产生了相关产品,但其概念并不容易阐释清楚。尽管Gartner也对主动元数据管理做了相应解释,即“一组能够持续访问和处理并支持持续分析的元数据的功能……”。但当前由此派生的众多概念都过于抽象,例如主动元数据、活动元数据、智能元数据、现代元数据平台等。同时,各个厂家也是你方唱罢我登场,都在基于自己的产品能力诠释着对主动元数据管理的理解,令人看得云里雾里。
根据Gartner发布的《主动元数据市场指南》,主动元数据是一个永远在线、智能驱动、面向行动、API驱动的系统。Prukalpa Sankar认为主动元数据听是现代数据工具箱中的一个必备工具。包括五个关键组成部分:元数据湖统一存储各种元数据,构建在开放的API之上并由知识图谱进行驱动;可编程智能机器人,用于创建机器学习或数据科学算法来驱动智能化的框架;嵌入式协作插件,将数据工具与日常工作流程无缝集成;数据流程自动化,提供构建、部署和管理工作流程自动化机器人。反向元数据,可通过编排使相关的元数据随时随地提供给需要的最终用户。领英(LinkedIn)的现代元数据平台(DataHub),可大规模集成、处理和提供丰富的元数据,以应对许多复杂的组织数据挑战,为诸如数据来源、数据治理、数据集成、MLOps 和API开发等场景提供支持。Guido De Simoni、Alan Dayley等认为主动元数据管理是一组能够持续访问和处理元数据的功能,这些功能支持对不同成熟度、用例和供应商解决方案的持续分析。以上众多概念定义及产品类别,很容易令初次接触主动元数据管理的人陷入迷惑。费曼学习法认为,能通俗易懂地解释清楚概念(定义),才是真正的掌握某个概念(定义)。基于个人理解,尝试对主动元数据管理的本质作一阐述。
二、主动元数据管理的背景
主动元数据管理是数据管理市场新兴的一种功能或趋向,源于持续的元数据管理创新。由于数据来自不同的IT系统,因此组织管理这些数据成为IT团队的职责。IT团队希望借助工具来维护和管理公司已有的数据表清单以及这些数据库表的元数据。在这一需求背景下,元数据管理工具主要面向企业的IT团队,并用于处理企业内部不同业务系统数据库中的数据库表。
企业使用多种类型的数据,越来越多的不同类型的数据开始被企业收集和利用,例如用户行为数据、广告投放的媒体数据等。在实践中,对这些数据进行元数据管理非常困难。主要挑战在于数据的不稳定性和数据库结构的经常变化,以及如何保证元数据的信息与真实数据情况一致。因此,需要制定数据集的列表,涵盖从数据初步采集到加工为最终数据应用产品的整个数据流程,同时包括每个阶段的每个数据集的数据分布。基于这些需求,元数据管理工具应具备数据源管理、数据资源分析等功能,这就要求企业拥有强大的数据团队。
物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种传感器都是数据的来源或承载平台。数据类型和格式的爆炸式增长间接推动元数据变得更加复杂和异构,其规模也开始暴增。随着企业使用数据的场景越来越丰富,每个版本的表结构都被获取和存储,以及每一列、每个看板、数据湖中的每个数据集、每个查询、每个作业运行、每个访问历史等。很快,元数据的查找和存储将面临与大数据曾经面临的诸多问题,元数据管理工具也需要进入新的阶段。在这个阶段,元数据管理的目标用户开始变成企业使用数据的所有人,基于云平台、面向最终用户、数据协同等要求,成为新的元数据管理工具应具备的特性,主动元数据管理正是出于这种原因产生的。
三、主动元数据管理的定义
主动元数据管理是一个永远在线、智能驱动、以行动为导向的系统。永远在线意味着持续收集元数据,通过主动元数据管理技术与各个源系统实时交互,实时获取最新的元数据,并根据使用者的需求虚拟地调取元数据信息。主动元数据管理使得元数据可以毫不费力地在整个数据栈中快速流动,并在数据栈中的每个工具中嵌入丰富的背景和信息。智能化不仅体现在主动收集元数据,还应呈现为主动地扫描这些數据源的数据变化和数据使用习惯(频次、频率等),从而智能地调整底层的数据存储位置和格式等。通过智能化的识别和知识图谱相关的技术,帮助理解元数据和数据之间的关系,最终协助数据平台进行自我升级。面向行动是指利用关键的元数据指标来启用AI/ML算法,产生关于数据管理和整合的超前预测,生成建议或警报等。甚至在自动检测到数据质量问题时,可以自动停止下游管道。主动元数据管理将通过API作为嵌入式协作插件与现代数据栈中的各种工具相连接,使元数据管理工具成为“随处可见”的编排平台。主动元数据管理这个名称十分贴切,可以把主动元数据想象成一个病毒传播的过程。它会在短短几秒钟内出现在人们生活的各个方面,可以立即与其他信息进行交叉检查,并与其他信息相结合,将相关背景的网络汇集成更大的趋势或故事。它引发了对话,最终使信息。
四、主动元数据管理与传统元数据管理的区别
遍历元数据管理工具,可以发现一般都具备以下基础功能:元数据采集、元数据存储、元数据应用。要进行元数据管理,首先得有元数据,因此,元数据采集是进行管理的第一步。元数据采集是指获取数据生命周期中的元数据,并对其进行组织,然后将元数据写入数据库的过程[1]。元数据的存储需要建立元数据的模型(元模型),以便统一存储各类元数据和导入、交换不同系统、类型的元数据。除了帮助了解数据信息外,元数据还用于血缘分析和数据问题影响分析。血缘分析可以快速了解一个数据表的上下游关系,了解数据的来龙去脉和数据逻辑。而影响分析则根据数据的血缘关系判断某个数据出现错误或问题时会影响哪些数据,从而评估可能带来的影响[2]。
具备基础功能的传统元数据管理工具通常在相关业务实现后,通过抽取功能加载元数据,需要在事后人工启动加载或维护元数据,并事后补录业务属性。这种传统元数据管理往往很难及时获取元数据的变化,确保元数据与实际情况保持一致性。传统的元数据管理工具主要是靠简单的编目或存储元数据,属于静态工具,依赖于人工整理和记录数据。其成功与否取决于实施活动。传统元数据管理工具无法通过元数据信号驱动任何行动,减少了元数据对数据平台和数据消费者的影响。因此,传统元数据管理工具往往只能成为一个昂贵的存储平台,最终导致失败。究其原因,可能是传统元数据管理工具过于“被动”。元数据需要通过手动登记采集编目,并通过简单的搜索和查询场景来支持使用。未对元数据自身进行深度挖掘,在这种情况下,要管理企业的数据资产,工作量是非常大的,而且也很容易导致阶段性的元数据管理。因为项目验收时进行了良好的元数据注册,但一旦项目验收完成,手动注册的元数据就跟不上变化。而主动元数据管理则可以主动扫描这些数据源的数据变化,通过智能化的识别和知识图谱相关的技术,帮助人们理解元数据和数据之间的关系。传统元数据管理基本上是将元数据聚合并存储到静态数据目录中的方式,依赖人力整理和记录数据。而主动元数据管理则着眼于发现,识别独立的物理设计、发掘行为模式和内容规则、突显错误和异常值、鼓励创新并进行验证。
五、主动元数据管理的实现
要达到主动元数据管理,需要具备以下几种能力。
(一)可以自动采集各种数据源的元数据
发现并连接所有形式的元数据,形成独特并不断变化的关系。支持与数据相关的所有元数据,例如表、报表、模型、指标、数据处理脚本、数据使用行为等。
可以基于本体技术实现元数据的动态集成。本体技术比较复杂,以下举一个例子进行说明:以车管所数据为例,可以建立一种人-车-罚单的本体模型,人与车之间为拥有关系,人与罚单之间通过“闯红灯”事件相连接,而罚单本身则以文档的形式展现。完成本体模型后,就可以基于元数据建立知识图谱,如图1所示。
接下来,就需要将真实的数据映射到本体模型上。同时,要在字段级别上对多源异构数据进行归一化[3]。仍以车管数据为例,具体过程如图2所示,可以看出,通过本体映射将车管所3张表的数据映射到了 7个本体上(2个实体、3个关系、1个事件和1个文档),并将车主名称和姓名进行了统一,将日期的不同表示方式进行了归一化。
通过以上的建模过程,在应用侧就建立了一个多源数据统一的逻辑视图。即从分析人员的角度对所有数据构建成了一个图模型。分析人员无需关注底层数据源差异和存储细节,只需关注如何在此图模型上进行集成设计。任何数据要集成进来,都需要进行以上过程,在元数据层面进行拉通和融合。这个集成具有动态的特点,核心逻辑在于采用元数据与存储分离查询的方案,来赋予知识图谱“动态”特性。例如,当表字段发生变更时,只需直接更改与元数据的映射关系,而无需在应用端重新导入数据。
(二)自动生成灵活的数据目录
能够基于ML/AI能力对数据的语义进行分析,打上数据的标签,从而加深对数据的业务理解。例如,针对文档进行语义分析给出分类,针对关键字段的数据进行分析给出枚举的说明,通过字段的上下文智能判断敏感级别。能够基于元数据构建知识图谱,将碎片化的元数据有机地组织起来(比如建立关系和对象),让数据目录更加容易被人和机器理解和处理,并为搜索、挖掘、分析等提供便利,为后续AI的实现提供知识库的基础[4]。
(三)基于知识图谱实现设计和分析智能
知识图谱可实现源端连接配置、源端表和字段等信息的快速检索和自动填充,使其更直观和易于解释。可自动发现全域数据资产,让企业能在统一平台上盘点和管理所有数据资产。可以进行数据的智能推荐,例如基于数据的历史使用情况进行推荐。简单概括来说,就是将正确的数据,在正确的时间内,提供给正确的人。基于元数据语义知识图谱和AI增强的敏感数据识别,能够实现对全域数据资产的自动化分类分级,让企业数据治理能够精准施策。
(四)嵌入式协作
通过Open API,数据工具可无缝集成主动元数据。例如,在BI工具中集成数据口径,在营销平台中集成数据质量说明等,以帮助用户在数据旅程的各个阶段及时获得相关元数据信息。基于元数据智能应用编程框架,开发者可自主定制多样化的元数据智能应用,如数据资产答疑助手、数据质量预警助手等,帮助企业实现数据管理的全方位智能化。
六、结束语
主动元数据管理通過AI/ML辅助生成的,是支持自动化数据集成和数据交付的基础能力。主动元数据的形成依赖于发现并连接所有形式的元数据,形成独特且不断变化的关系,并以易于理解的元数据关系图的方式来链接和呈现元数据间的关系。通过持续访问和分析元数据关系图,可以不断发现和形成关键指标、统计数据等新的关系,如访问频次、数据血缘、数据性能、数据质量等。将元数据关系数据作为特征用于训练和丰富AI算法,同时这些算法可以产生或迭代元数据的语义,以及改进数据集成的设计和自动化流程。对主动元数据的研究才刚刚开始,需要共同努力探索它在当前和未来的数据生态系统中可能扮演的角色。希望这篇文章能给相关工作人员带来一些启示,将主动元数据从抽象的概念转化为可行的实践。
作者单位:张艳 北京金蝶天燕云科技有限公司
参考文献
[1]马张迪.基于Spark的元数据管理系统的设计与实现[D].电子科技大学,2022.
[2]刘蓓,禄凯,程浩,等.基于异构数据融合的政务网络安全监测平台设计与实现[J].信息安全研究,2020,6(06):491-498.
[3]百分点认知智能实验室,倪路. 基于动态知识图谱的大规模数据集成技术[OL].https://wenku.so.com/d/1df34174224b8ec4e8c7ba382d130fed,2023-5-21
[4]秦铎.货运列车安全数据一体化集成模型研究与应用[D].北京交通大学,2020.
张艳(1982.05-),女,汉族,山东临沂,硕士,资深解决方案顾问,研究方向:数据治理及大数据应用。