陈氢 刘文梅
关键词:关联数据;企业;数据治理:数据可视化
随着社会信息化技术的不断发展,数据已逐渐成为企业经营发展的核心资产。激烈的商业竞争环境使得企业更加专注于自身所产生的数据。数据是企业分析与决策的重要基础.其数据质量直接影响到数据分析的结果,进而决定企业的商业决策。为了减轻低数据质量、可视化工具缺乏以及数据基本属性所带来的风险,实现对已有数据的最大利用度,企业必须建立数据治理框架。数据治理是确保整个企业重要数据资产被正式化管理的重要手段。它不仅能保障数据的可靠性,还可确定谁应为低数据质量产生的不良后果负责。企业数据治理作为数据资产发挥价值的前提与基础,能够保障数据以及决策质量,有效提升企业数据治理的能力。
强化企业数据最大程度可视化是数据治理的关键组成部分。传统的集中式管理方式已不再适用复杂化的组织结构,单一的管理者会使企业错过捕获和纠正信心的几率更高。为了实现对企业数据资产更有效的治理,组织必须对描述、创建、格式、转换、移动和管理的信息进行全面控制,从根本上提升企业数据治理的能力。因此,本文主要借助本体、关联数据以及Protege工具,实现企业数据全局可视化。通过赋予组织成员不同的权限与责任,实现对数据共享最大化,从而改善企业数据治理水平,以提升企业数据质量。与此同时,本文还制定了模型更新策略、数据传输捕获策略和数据可视化查询方法,为企业数据治理的实施提供了可操作指导。
1相关研究
1.1数据治理
数据治理作为社会信息化的产物,表明数据从排他性到共享,从封闭到开放。相对于信息,数据具有不同的特征,产生了新的治理需求,并推动了传统信息管理模式的变革。目前国内外学者对于数据治理的相关研究也甚多。
数据治理是一门集人员、工具及相关管理工作流程于一体的学科,表明当事人拥有决策权并对组织数据资产决策负责。DAMA(国际数据管理协会)把数据治理定义为通过对数据和信息进行组织与管理,实现对数据资产的控制与使用;在企业数据管理过程中.数据治理则是通过对决策权和职责的分配,以实现企业数据资产价值最大化;而依托于数据治理的目标.数据治理则被定义为通过规范数据标准、简化数据内容、制定数据质量标准等,使得数据管理思路清晰,以构建良好数据体系,获得高质量数據;依托于数据治理领域,数据治理是聚焦于数据来源、质量、隐私安全、责任等关键领域,其重点在于保护数据信息与挖掘数据价值,以免受数据安全隐患,进而保障数据的准确性、完整性、安全性以及真实性,从而实现数据的高度共享。
数据治理的价值体现在保障数据质量、改善数据报告可信度、减少低数据质量带来的成本、保证不违反制度规则、提升数据使用者的满意度以及改善企业市场地位等方面的价值:在一定程度上可保障数据质量,从而尽可能规避低数据质量在数据检测和更正过程中带来的大量时间与运营成本的浪费,以及造成数据决策无效和数据预测结果错误等问题;提高了数据透明度,保障了数据质量以及增强了数据的规范性和利用率:数据治理是保障数据质量的关键,其价值在于保障数据的准确性、安全性以及易用性,以实现数据合规使用与适度分享。也有学者对数据质量、数据隐私、数据共享等方面进行研究,提出了大数据时代数据治理能力和数据素养等能力已逐渐成为企业的核心竞争力。可见,数据治理对于企业的经营发展具有重要意义。
数据管理活动与数据治理紧密相关。数据管理需了解企业当前及未来需求.并使得数据在支撑管理活动中实用且高效。通过数据治理,数据管理能有效地支持和执行企业战略目标。在数据治理的基础上,建立一个企业数据全局可视化图是非常有必要的。通过清晰认识企业数据可视化图,以便正确地管理和治理企业数据资产。
1.2数据可视化
数据可视化是信息技术领域一个不断发展的跨学科技术,其目的是通过图像等方式将抽象且无序的数据以一种易于理解的形式汇集起来。可视化更加强调视觉表达、互动方式以及心理感知,结合跨学科的知识来呈现数据并传达其隐含的意义。随着语义Web、本体论等技术的发展,知识图谱的目的是描述现实世界中实体之间的关系。国内外学者在知识图谱可视化领域已经取得了显著的成果,包括各种可视化技术和可视化查询方法。
在2007年提出的“关联开放数据”项目中,通过RDF链接将不同的知识图谱组合成一个大型的知识图谱。随后,国内外学者开始研究相关的开放数据可视化技术。通过对不同数据间的抽象级别进行定义,实现关联数据的动态可视化,并提出关联数据的可视化模型。由于数据可视化不存在标准化的数据模型,因此需要不同的查询语言来实现查询与管理。例如,由万维网联盟开发的用于映射RDF知识的标准查询语言SPARQL已经被创建,其基本单元是三元组模式.允许多个运算符将基本图扩展到复杂图。但SPARQL查询语言在文本结构化查询时面临一个共同问题.即用户们需要一定的时间才能掌握查询语言的结构和语义信息对应的不同的关键词和运算符。
本体的可视化查询方法侧重于本体的层次结构,而本体适用于概念及其复杂关系的形式化表示。Protege是一种基于Java语言的知识获取和编辑软件,它允许可视化本体层次结构,并为多个继承复制概念。其中,树视图和欧拉图是最适合体现层次结构的视觉模型,以缩进列表的形式清晰地呈现本体的类名及其层次关系.其不足之处在于无法体现同一层级本体间的实际关系。相比较之下,欧拉图能够以节点嵌套的方式呈现本体间的层次关系,以及通过节点大小与距离反映实体间的相似性.但是同树视图一样,存在无法体现多层继承的关系。
知识图谱可视化被广泛应用于卫生医疗、舆情分析、网络社交等领域,是实现人工智能背景下认知智能的核心工具。由于每个领域不断地生成知识图谱,因此通用的可视化查询方法可能不适用于描述每个领域的特定问题。
1.3关联数据
关联数据是利用Web技术在不同数据源之间创建语义关联的最佳手段,它允许用户通过万维网或企业内部网发布、共享以及关联数据。与其他存储数据方式相反,关联数据的主要特点在于认为跨数据库关系与数据本身同等重要,可以关联完全分散的数据集。另外,关联数据遵从以下原则:使用URIs作为任何事物的标识名称:使用HTTP URIs访问这些标识;当访问某个URI时,采用标准形式提供有用信息;尽可能关联到其他URI,使人们发现更多的资源和信息。
当统一标准被采用后.关联数据就具有明确定义和机器可读。由于应用程序可以通过关联数据定义,则自描述型数据可将数据格式与表示完全分离.以便于发布者在发布语义本体时不受单个词汇限制。在机器可读性方面,将HTTP协议作为一种检索机制。结合灵活且链接友好的RDF图结构,以自动化的形式爬取或梳理程序中的大量互联数据集,以发现新的数据源及其后续的关联。正是这种发布数据的灵活性和友好性,使得关联数据特别适合对企业数据进行建模。RDF作为关联数据的关键基础,用于描述元数据资源的属性及其关系的标记语言。本质上,RDF最初基于XML语法,是关联数据的数据模型。通过三元组形式描述元数据间的关系,其基本结构由主语、谓语及宾语3个部分组成。主语和宾语可以通过统一的URI来标识Web或内网上的资源。最重要的是RDF不需要关联其他数据,也能很好地描述实体以及实体与实体之间的关系。而资源描述框架模式(RDFS)是一种在RDF中通过使用类和rdfs:type属性来定义词汇表的方式。RDF类是一组具有特定rdfs:class类型的RDF源。而类或源可通过rdfs:subclass属性进一步分组。Web本体语言是语义Web的基础,实质上是一个词汇表,也是RDF的扩展。
关联数据为关联的结构化数据提供了一种新的支持,使机器能够更好地读取这些数据。但是关联数据本身没有语义意义.它们更好地承载了用户可以访问的语义数据。因此,尽管关联数据本身没有语义特征,但它们可以在数据级别上建立关系,从而为真正的语义Web技术提供桥梁。
2大数据背景下企业数据治理面临的挑战
2.1低数据质量问题
高数据质量通常被认为是企业经营、计划和决策的核心竞争力,是实现企业战略目标的关键前提。据调查显示,低数据质量是导致客户关系管理系统障碍的主要原因。在低数据质量的环境下,企业通常无法实现商业决策时的附加价值。由于缺乏数据治理与管理的能力.企业往往造成跨组织低数据质量问题。其主要体现在数据不一致、不准确、不及时和来源不明确等。低数据质量不仅会产生流程进度失败、信息废料和返工等成本,还会削弱组织对数据的信任,甚至造成客户不愿意接受基于此数据的商业计划項目。海量而复杂的数据给企业管理带来挑战的同时,也增加了低数据质量的风险。良好的数据治理和健全的全局数据可视化可有效提升数据质量。
2.2缺乏数据治理工具
除了低数据质量问题外.缺乏数据治理工具也为企业带来了进一步的挑战。当前,企业数据管理工作主要依赖于详细目录或注册技术,或者是一些专有和开源的工具。然而,大部分工具仍然停留在对驱动项目和数据所有者信息的收集和整合。在最近的数据治理研究中,主要通过建立自顶而下的方法实现数据治理与管理。虽然实现了对项目的更多控制,但是阻碍了整个组织人员以“众包”输入形式实现对数据的管理、定义及移动。在企业数据治理过程中.由于难以量化工作优先级带来的好处.因此很难授权实际优先级.进而企业商业项目难以推进。在该情况下,各部门会形成孤立的数据集,从而导致业务人员无法了解数据间的依赖性。因此,企业需要一个合适的可视化工具,实现整个企业的全局数据可视化图,以映射企业数据流及业务范围。
2.3数据基本属性问题
在企业元数据类型与数据管理计划的并行问题中,主要由两个方面驱动:一是数据属性问题;二是关于元数据管理活动相关的问题。对于数据属性问题,主要存在数据不完整、数据不一致、数据来源不明确以及数据异常等问题;而对于元数据管理活动问题,主要包括数据的创建、收集、共享、更新以及查询等问题。不同类型的元数据在整个企业中面临着不同的挑战。然而企业管理活动与元数据类型间的维度是相互交织的。在数据创建、转换和移动过程中,有效的元数据管理需要重点解决数据在收集、共享、更新和查询中的数据来源问题。与此同时,管理者和用户在查询数据时也应该尤其注意数据治理的问题。
3基于关联数据的企业数据治理可视化框架设计
3.1以关联数据和本体为基础
关联数据和本体是企业数据可视化的通用技术基础。由于语义Web技术和图数据结构的灵活性和可表达性,关联数据可更好地通过增加元数据的可视化效果来提高企业数据质量。为有效提高企业数据质量水平,数据的可视化远远超出了可描述的实际数据结构(库、行、列等)。企业的数据可视化还包括企业数据在整个组织中如何被使用、被谁使用、如何分布以及数据属于哪个业务概念或流程。在整个组织中,通过建立一种可共享的标准化方式来关联这些复杂关系,用以描述数据与组织的交互,借此实现企业数据最大程度地可视化。
在建立企业数据可视化框架过程中,所需关联数据和本体的关键属性包括:
1)可表达性。通过使用三元组构建企业数据、流程及人员间的复杂关系,形成一个图数据结构。在整个组织中将企业数据与其他实体关联起来,从而建立一个以图结构捕获数据、流程及人员的集成方式。其次,通过使用OWL本体语言扩展RDF,以本体的形式建立复杂规则与关系,以此为推理引擎提供基础。其中,关系允许数据是“自描述的”,因此在处理图信息的工具上可以是轻量级的,不需要关注关系或规则的维护。
2)灵活性。语义Web技术提供了在不同级别上指定数据的灵活性。基于对开放世界的假设,数据可以对任何事物具体化。在组织控件上可以以规则、推断或公理的形式来保持高度灵活性和标准化。在处理实际问题时,灵活性也非常重要。例如,在不同级别上团队可以输入他们拥有的信息。通过以标准化方式存储企业元数据,以提供强大的数据源,为企业范围内建立高水平战略元数据视图提供数据支撑。
3)易发布性。语义Web内容的发布仅需一个公开的URI。当发现被引用时,Web浏览器会自动访问该资源并集成为当前视图。该方法易于将事实信息公布于语义网中,使得多方轻松实现数据共享,从而提供一种“众包”方法来构建知识库。然而,大规模的元数据管理工作需要跨组织的参与才能取得成功。因此通过建立企业数据可视化,不仅可以迅速增加知识库内容,还可以实现数据共享的最大化。
4)可推断性。推断是OWL的主要优点之一,推理引擎可根据数据中的断言和规则推断出新的数据。这种推断数据的能力是维护企业数据图灵活性所不可或缺的。在元数据管理过程中,团队必须能够在一定级别上输入数据,以保持推断的实时性。例如,一个团队提交特定系统由多个个人访问,这些个人从干系人到技术所有者。另一种情况,他们仅允许特定部门访问其系统。推论可得知干系人和技术所有者来自组织的哪个部门。类似地,推断也可协调不同系统的信息级别:推理引擎还可创建隐含事实,将不同级别的组织信息和系统信息关联起来。
5)丰富的框架和工具。语义Web技术还提供了许多成熟的开源框架、工具、三重存储、推理引擎和可视化工具。此外,还有一种称之为Prot6g6的本体开发工具,可以实现企业数据的可视化,从而提高数据的可共享程度。在本例中,相比于电子表格,组织图能更好地看到数据移动及其依赖关系,并且让组织员工对公司数据有更好的认识。另外.存在开源和专有的几种RDF存储类型,以有效处理大量三元组。
丰富的开源工具组合和准入的低成本,使得语义Web技术成为相对于高成本、专有和集中化元数据管理更具吸引力。此外,企业范围内的元数据项目依赖于高参与率,企业数据的高度可视化促进了企业元数据管理以及更高质量的输入,更多的个体可看到组织内部系统、数据和人员间的依赖关系。
3.2企业整体框架体系
企业整体框架体系是构建企业数据可视化的核心。它是图数据存储的基础,并存储着贯穿于整个企业的核心元数据。随后,公司其他部门人员将企业数据图及其本体应用于部门数据图,并扩展与数据结构和组织相关的附加信息。如同任何数据模型工具.图结构的通用性和一致性对于准确反映组织状态是至关重要的。图1所示为企业整体框架体系。
其中,关键组成部分包括:
企业图:核心数据图是实现企业整体数据可视化的关键要素。它是一种包含企业主数据的本体。企业图不仅包括职能部门、业务部门、监管实体和人员等组织信息:还包括描述数据移动和公司计划相关的信息,例如信息来源、项目相关信息和业务主体信息。与所有本体一样,除了包含这些特定实体外,还包括其关联关系。该核心数据图将通过在OWL中导人指令:http://ww.owl-ontolo.gies.com//NEW_ONTOLOGY,从而使企业所有信息集成在一起。
部门图:部门图包含特定部门或其他原子工作组的本地化信息。其主要目的是鼓励企业广泛参与并发布有关数据使用和管理的信息。通过分解任务,将责任交付给定期使用数据的人员。部门图包括尽可能多或少的数据来描述局部环境.以促进实现企业范围内目标。而特定部门或其他原子工作组拥有的最好信息包括:与基础设施相关的数据信息、管理信息以及数据移动的信息来源和抽象信息,如业务领域的对象映射。在部门图中导入核心数据图,提供对整个公司所有其他部门图的访问.同时也为企业范围内的元数据提供一个共同的“中心”。
企业资产元数据:这些是整个组织的实际技术资产,如引用的系统和数据库。在其生命周期中用于捕获并跟踪数据移动、使用和治理。
组织、人和治理信息:这些是组织结构,如部门、法人实体和人员。这些信息形成了数据管理和治理基础,将人和数据有机结合起来。
定义业务流程:此信息与技术资产和业务关系密切相关。企业数据可视化是业务流程的一部分,而业务流程又由一个或多个功能领域“拥有”。如大型组织的招聘流程,招聘流程由招聘部门“拥有”,但人力资源部门的其他部门也会参与。拥有与关键数据元素相关的功能流程对于识别数据结构更改(如升级或转换)的影响是必须的。此外,定义业务是组织中使用的与实体、度量、属性等相关的术语。在定义企业业务时,若出现含义混淆或支持数据无法明确识别时,就会出现数据异常等问题。
图更新过程:此过程包括手动更新和自动更新两种方式,根据组织状态实时更新图。类似爬虫与代理机制,其更新过程是完全动态的,根据数据结构图、组织结构的变化更新图结构实体和业务流程图。同时,更新过程可由操作员手动干预提取信息并加载到图结构中。尽管此方法在许多大型组织和复杂层次结构中具有一定的局限性,但关联数据的灵活性可支持各种方式的进行。
图维护和浏览实用程序:该程序允许用户浏览企业數据可视化图来观察整个组织内的全局数据视图,还可以根据需要和许可更新企业数据视图。大部分与流程定义相关的手动更新都通过这一机制来实施,各部门也可根据组织内需求来更新特定的图表。
数据请求实用程序:该程序用于追踪组织中的数据来源。为了捕获组织内的数据需求,需开发一个实用程序用于捕获这些请求。如果实现了数据请求,就需要进行数据传输。所有数据请求将通过一个工具输入,该工具将捕获所查找的信息、请求的个人以及数据目标。用户根据现有的数据视图来选择其所需领域的数据。此方法不仅可以为管理者提供可视化数据图,还可为创建信息来源奠定基础,从而实现真正的数据追踪。
报告与查询:该组件允许组织以标准化或交互式的方式从图表中提取信息。随着组织内系统的逐渐成熟化,图形界面将允许业务工作人员查询可用数据及如何使用和传输数据。由于部门及工作人员被清晰地标识为企业数据的创建者、管理者和使用者.增加对企业数据的可视化程度将有助于企业数据治理的能力。一旦形成高度成熟化的企业可视化图,企业将获得更高质量的数据用于支撑更精准的商业决策。
3.3本体分类
企业数据可视化图的核心是本体。本体是构建企业数据可视化图的核心基础。本体将对组织内特有概念(如部门级别、系统组件、人员及委员会等)进行建模,以实现更大的跨组织标准化。业务概念也可通过本体建模,并关联到支撑它们的底层数据和团队。基于上述与断言和规则相关的类组成了一个词汇表,以反映企业数据资产与相关实体间的交互。其中,大部分本体是基于包含而不是继承关系。为了克服这一问题,需要适当地命名约束和对象属性以建立恰当的关系模型。
现在将继续定义本体中的关键类:
组织实体:该类通常用于企业组织结构建模。在组织中,通常存在多种方式组织这些实体。例如:财务、金融或信息技术等职能部门,或地区、城市等地理位置。语义web允许任意不同的组织结构,但许多组织结构是基于组合而不是继承关系,因此需要建立合适属性以确定其组织顺序。其中,组织人员是元数据图的重要组成成分,分配个人责任制对于数据管理工作至关重要。在很多情况下,只需关注关键任务.如技术开发人员或用于解决部门、地区等组织实体的团队。
元数据实体:元数据组件用于反映组织内实际技术构件。本研究利用结构化表格数据,以表格格式形成RDBMS和文件。顶层系统通过一系列技术和流程来支撑组织业务流程。该系统由用户界面和数据库等组件构成,而数据库由后续实体组成,实体又包含属性。通过使用对象属性,元数据信息被关联到组织和数据来源类,以便对数据在其整个生命周期的使用情况进行建模。此外,业务概念类也关联到这些类以标识业务抽象概念的持久性位置。元数据组件需要得到不同团队的关注,这些团队再使用特定信息来填充本体。为准确反映客观现实,可以通过自动化代理来梳理数据库目录或控制文件,以实现元数据的实时更新。
来源实体:数据来源指的是数据在整个生命周期的轨迹,包括数据在哪如何被创建,还包括数据的移动与转换。其集中于捕获数据从一个系统到另一个系统的传输状态,这些传输以文件或反馈形式从一个系统到另一个系统或直接用UI、服务器等访问。此外,关键对象属性对于显示哪些元数据组件作为传输源和目标来说是必不可少的。与其他类相似,传输也可以分配任一级别的来源属性。
治理实体:该实体可以是监督企业整个生命周期中各系统和业务流程的任意分组或委员会。不同于组织实体,其是可变和动态的。治理实体可出现在给定的项目中.拥有特定的对象属性,如“必须批准”或“必须被通知”,这些属性将个人与数据关联起来。然而,组织实体倾向于更紧密地映射组织结构,以保持整个本体的一致性。此外,依据特定的组织策略,将复杂的角色和关系关联到组织实体和企业数据资产。
业务主体项目:业务概念类是用于捕获现有业务定义和流程并驱动系统及其产生的数据。该类充分利用了语义web.允许各小组使用或拥有其概念。这不仅将业务概念及流程和数据结合起来,还将企业内部的各种概念结合起来可指同一事物。基于语义web技术填充数据的灵活性,以组织结构和元数据的形式填充知识库。在对数据全局可视化图的物理结构建模后,就可以关注概念或语义实体。数据空间领域的常见模式是通过语义定义的决策被推迟,“已知”世界被建模而产生投资回报。
请求实体:这些类从请求的角度来捕获数据。若组织在开始时存在捕获元数据的需求,他们就需要一个设施接收或路由数据请求到相关数据所有者。经过一个审批流程,最终实现数据请求的传输。当组织接受这一数据请求,他们就能够在整个生命周期中追踪数据的移动。数据请求的提升不仅取决于公司采取的数据治理策略.还取决于组织采用的框架,其实体和属性作为一种手段以确保有效的数据治理过程。
3.4对象属性
除了已包含的类之外,还包括多个对象的不同对象属性。不同的对象属性通常用于绑定组织和数据间的关系。由于OWL类的默认关系是一种继承关系,而其中一些属性在类中用于建立包含关系。另外,还有在管理和治理领域用于捕获整个企业和所有相关方的数据流。
在核心本体中定义了以下对象属性组:
管理:这些属性的主要目的是建立组织实体和元数据实体间的关系.以此建立企业数据治理方面的关系概念。在这里,会确定哪些人或团队被指定为利益相关者、所有者或管理者。在做变更和批准影响分析时需要来自与数据相关的各方.这是任何数据治理计划的关键基础。当出现司法纠纷时,识别涉及到的个人或领域就像使用给定的元数据源作为主题查询该属性对象一样简单。在日常的基础上.记录在案的知识允许企业制定更好的商业决策。与此同时,每一个浏览本体的人都知道涉及数据相关的各方。
来源:来源属性在数据生命周期建模中非常重要。除了描述包含属性,“来源”属性和“来源于”属性在建模数据依赖关系是至关重要的。在此,系统或数据库可以实现为源或其他相关依赖系统。当与传输类联合使用时,许多系統依赖于特定的数据反馈进行建模。与其他类相似,可以在较低的详细级别应用此属性。在其他情况下,表或数据库拥有的信息可以为数据管理者提供足够的信息。
业务处理:业务流程对象属性包含本体中的大多数类。他们用于描述业务流程与其工件间的关系、与支撑这些过程的系统间的关系以及组织内负责这些过程的职能领域。此外,这些属性被认为是自反的,因为它们可以应用于其他业务流程。一个业务流程依赖于另一个业务流程的构件通常是很常见的.对哪个业务流程依赖于哪个数据的理解将有助于确保数据治理不仅仅是一个IT问题.而是贯穿于整个组织结构。
元数据和组织结构:组织属性主要用于建立基于树的层次结构以反映大多数企业组织结构。从功能和位置的角度来看,元数据属性描述了大多数系统显示的父子关系。由关系数据库概念来驱动,如包含表和视图的数据库,这些表和视图还包含了列。
4基于关联数据的企业数据治理可视化框架构建
本文的主要工作是构建基于关联数据的企业数据治理可视化框架,以此建立企业数据全局可视化,从而实现数据共享最大化。基于此,设计了如图5所示的构建流程。
4.1数据准备与精炼
数据准备:本文的研究对象主要是针对大型综合性组织结构复杂的企业,通过八爪鱼采集器进行组织结构资源的获取,并将采集到的数据存储在Microsoft Excel中。鉴于企业信息资源管理系统的标签集大多以文本的形式保存,而资源集可能存在图片、音频或视频等多样化类型。因此,本文采用爬虫工具采集标签集中的标签文本,并采集资源集中该资源的URL作为唯一标识。
数据精炼:利用Microsoft Excel对所存储的数据资源进行整合。通过合并、去重、替换等方式进行数据清洗与精炼,将数据集转化类标签和对象属性标签且反映两者联系。利用数据清洗的手段获得语义清晰、无歧义的精炼标签数据集,并以表格的形式存储。
4.2语义本体构建
1)本体的原型构建
根据不同等级的需求对组织进行建模,其首要任务是决定如何构建核心本体。在本体的创建中,类派生于数据治理的基本方面,这些方面以业务与技术的一致性为中心。为了改善企业数据治理的能力.管理人员应先识别捕获数据资产与组织如何交互的类。这些类将实现以下功能:
组织实体:这些类将捕捉各部门、小组和子组,甚至是各层次需求的人员。其目标是建模一个既丰富又准确而且易于维护的组织结构。执行者需要考虑两个问题是否有意义。一个是当其他企业系统如财务或人力资源企业去模仿此组织结构:另一个是创建一个与此计划相关的全新结构。
元数据实体:这一类实际上代表着数据资产本身。与先前的数据组一样,需要建立丰富且可持续的详细级别。执行者要有识别潜在影响的能力,并熟知数据元素流。该领域包含字段或列级别的详细信息。
业务领域实体:从数据角度来看,数据资产和业务计划间的相互关系非常重要。但是这些类中最重要的是代表现有业务流程的类。这将进一步允许连接到企业的业务行为如何依赖于具体数据资产。
除了类之外.建立适当的对象属性将这些类及其后续个体关联起来也很重要。包括以下关键属性:
组织属性:该对象属性(例如“含有”)允许公司分层结构,其他属性则可用于突显矩阵样式关系。
治理/管理属性:与数据资产相关的属性对于整个组织内人员和小组是关键的。例如数据持有者、管理者和赞助商能利用其属性关系更好反映数据治理的战略。此外,这些专业术语可用于识别数据资产“谁负责”“谁批准”“咨询谁”及“告知谁”等部分。
来源属性:识别数据资产类建模的屙陛对于显示数据供应链至关重要。像“引用”和“被引用”这样的概念将突显其依赖性。同样重要的是确保这些属性以便描述他们的属性链。
2)本体的形式化
一旦建立了本体,就需要使用与所选类和属性相关的适当数据来填充它。在这里,高容量类是组织结构和数据资产。根据组织的规模、系统/资产的数量和所选详细级别.此任务可能需要几个小时到几周的时间。
通过对象属性关联的信息行为需要被研究、达成一致和某种程度的自动化。在核心系统中可获取组织信息;在系统、数据库、表、查询和字段中还可以得到一些自动化方式,如查询系统目录。一些组织也可能拥有库存系统的应用程序,该程序也有一些所有权信息。其他类,例如当信息无序地存储在库存系统中,业务流程就需手动收集信息。类被加载后,通过属性标签和数据资源等关系定义数据属性、建立实例,通过本体工具Protege完成本体构建,并生成本体的RDF描述文件.完成企业数据信息系统数据集的RDF化。
4.3语义本体发布成关联数据
发布关联数据的具体方式与企业的核心需求紧密相关。假若以资源查询为核心,可选SPASRQL作为最佳工具,把语义本体发布成为关联数据供组织成员查询。通过OpenLink Virtuoso将本体的RDF文件导入到SPASRQL中,随后将RDF三元组数据以图结构的形式存储于SPASRQL。然后,借助关聯数据的前端应用程序,将企业中特定数据信息生成URIs,供外部访问和内部查询。假若以导航地址为核心,可借助WebVOWL工具将RDF文件导入,利用OWL工具自动识别OWL描述的本体,并提取本体中的类、对象属性、数据属性、实例等元素,并在线生成可视化网络图形界面,供用户访问和浏览。此外,假若以资源导航为核心,可借助LODE工具来提取RDF文件中的类及对象属性等,并以本体的三元组列表的方式展现HTML网页,使得用户更方便地利用资源索引浏览与使用。
4.4制定模型更新策略
当企业运用抽象模型时,应保持模型实时更新策略,以免因模型不精准而造成信誉丢失,在文档相对于所描述代码过时时有所体现。此外,当数据建模师使用诸如ER图之类的工具去建立关系数据库时,应保持其最新以便大众使用。可见,本体论精准地表达组织是十分重要的。在组织结构变更或创建新的数据资产时,一定程度的自动化可适当地对其进行更改。尽管采用了保持更新模型的方法,但所采用的集中化程度也与此相关。如果采用高度分散化的方法.则各区域必须确保其“局部”模型尽可能准确。
由于每个人都有自己的模型维护,因此可以更高的信息级别完成对其他本体的更新。此外,使用分布式方法,给定组(如部门)的建模级别将会更低,因为数据资产包含在该组拥有和使用的内容中。由于每个人都有自己的模型维护,引用其他本体就可以有更高的信任度。
定义可重复进程是许多数据治理成熟模型的一个关键组成部分,确保企业数据治理不是一次性活动。定义可重复进程以保持组织框架或模型实时更新。此外,当可重复进程输入干净数据,质量监控数据以及更新所需数据时,该进程就成为总体框架的一部分。将这些过程捕获为其他辅助过程记录它们在数据生命周期中的角色。
4.5制定数据传输捕获策略
在此框架中,数据移动可能是要捕捉的更抽象的元素之一。在一种情况下,它简单到拥有一个数据资产(如表、字段或视图源)。在这里,实施者可以选择在较低的详细级别上指定字段或者保持一定的抽象,并确定给定表可能来自另一个系统。对于一个组织来说,了解到给定表可能涉及到另一个系统的特定接口已是足够可视化。然而与图形数据库一样,高度灵活性允许组选择合适自己的级别。
另一个决策点是创建一个从传输到抽象数据移动的概念。如果一组特定的数据(例如员工名册)被组织中的许多组重用,那么可以建立数据集传输模型来减少维护并将其用于多个系统中。这种抽象化对于组织拥有多种不同数据移动方式来说是非常有帮助的。例如文件“feed”,其中一个平面文件被发送到另一个系统以便摄取,或者通过API、公开Web服务、一个数据库视图。虽然转移方式不同,但信息管理和依赖是相同的。
4.6制定数据可视化建模方法
企业数据可视化作为类及其关联关系的基础。为了构建研究本体,本文使用Protege工具进行知识和领域建模。Protege可以便捷地实现跨组织共享、协作和查看本体。本工具支持最新的Web本体语言以及RDF/XML、Turtle和owl/xml等序列化。
Protege的主要组件是允许添加和操作本体类及对象属性的浏览器,以显示加载到应用程序中的活动本体的主屏幕。虽然屏幕是高度可配置的,但它显示了一些关键信息.比如关于本体大小的度量、本体的呈现(本例中是RDF/XML)以及关于导入或由本体引用的任何本体或数据集的信息。图6展示了本体类的主要查看器。
由图6可看出,左侧屏幕以“树视图”的形式呈现出本体类。然而,值得注意的是与描述包含关系的XML和其他树视图不同的是本体中的类是基于继承的。同样重要的是,“企业数据治理一项目管理办公室主体”类描述了项目管理概念,以集成数据管理和治理概念。
在右侧屏幕,除了顶部带有关于突出显示类注释的部分外,其主要功能是对突出显示类的约束,例如等价于、子类等。此外,该部分还显示了类的实例,如图中紫色菱形所示。此方法对于在本体中查看实际数据非常有效。类似于类查看器,对象属性同样也可查看。在此,以同样的格式实现对对象属性的创建与操作以及对其设置相应的约束。然而.与类属性不同的是对象属性存在是否为传递性、对称性等复选框的标識属性。
Protege提供了一种高度交互的方式来查看本体以及其所有实例数据。与图表类似,使用者可以看到各类的子类和实例。在多个对象属性情况下,Protege还可以查询实体间各种可能的绑定关系,这对于企业数据可视化来说至关重要。
5结语
随着云计算、物联网等技术的飞速发展,数据已成为企业的重要资产和价值来源。面对数据的爆炸式增长,公司必须采取行动来实施数据资产治理。在整个生命周期中,数据经历了创建、更新、复制、移动或传输,最终进行存档和销毁。由于数据的短暂性特征,适用于以图结构建模其生命周期。关联数据是企业数据治理的基础.它整合了所有数据的访问,提升了企业科学决策的水平。另外,关联数据反映了不同组织、系统及计划间的丰富关系,允许在企业环境中采用重要的数据时降低进入障碍。考虑到有许多丰富的开源工具和方法用于存储、收集和可视化这些异类数据.本文提供了一个可伸缩和灵活且经济的解决方案。由于以数据为中心的企业项目在实施和采用方面充满了困难,因此这些较低的准入门槛使该研究成为组织寻求提高其数据意识和随后的数据治理工作的可行框架。