刘金晶 曹文洁
摘要:大数据时代信息呈指数级爆炸式增长,不同的数据采集、处理和存储方式使得这些海量数据具有来源复杂、结构异构的特点,难以共享和互操作。传统的数据集成方式已经不能适应企业获取信息、使用信息需求。为解决多源异构的数据集成效率和质量问题,基于本体论概念和语言,借鉴本体识别和表达方式,设计了一种领域内表达数据属性与关系的元模型。基于该元模型,对领域内数据建立相应的模型并形成规则,规范和约束了多源异构数据集成过程和质量,提高了数据集成的效率和数据利用率。
关键词:多源;异构;数据集成;本体
DOIDOI:10.11907/rjdk.172462
中图分类号:TP391
文献标识码:A文章编号文章编号:16727800(2018)003019803
英文摘要Abstract:The arrival of large data age makes the information exponentially explosive, and different data collection, processing and storage methods make these massive data have the characteristics of complex source structure, it is difficult to share and interoperate. The traditional way of data integration has been unable to apply to the enterprise to obtain information, the use of information needs. In order to solve the efficiency and quality of multisource heterogeneous data integration, this paper designs a metamodel that expresses the attributes and relationships of data in the field based on the concept and language of ontology and the recognition and expression of ontology. Based on this metamodel, the corresponding models are established in the data infield, the rules are formed, and the process and quality of multisource heterogeneous data integration are constrained, and the efficiency of data integration and data utilization are improved.
英文关键词Key Words:multisource;heterogeneous; data integration; ontology
0引言
信息技术革命与经济社会活动的交融催生了大数据。大数据是以容量大、类型多、存取速度快、应用价值高、价值密度低为主要特征的数据集合,常规技术无法满足对这些纷繁复杂的海量信息进行采集、处理、分析与使用的需求[1]。因此,大数据的采集、分析和存储技术不断更新,大数据处理平台得到了广泛应用。
通用的系统架构与数据流包括以下工作:由前端网络分流设备将多个业务系统和渠道发过来的数据流量接入到处理系统,然后用软硬件分流器对数据流进行分析、过滤、分发和推送,这是前端数据处理平台;数据接入层接收前端的各类数据转发到后端,由统一的数据抽取和转换平台对数据进行抽取、格式转换并加载到大数据平台,进行数据分析和数据挖掘,同时用户还可根据挖掘需求,设计查询任务流及更多的应用系统[2]。
1研究现状
多数据来源的系统不仅需要接入前端数据,还包括大量的第三方数据、历史数据、不同信息系统间的交换数据等。数据接入层面临着数据量大、结构参差不齐、數据质量差等多方面的困难与挑战。
以公安行业数据为例,分为以下几类:①公安基础工作数据信息。包括人员信息、案件信息、物品信息、线索信息、场所信息等;②公安内网共享数据信息。包括公安部及各省市公安内网中的在逃人员信息、盗抢汽车信息、违法犯罪人员信息、法轮功信息、通缉令、预警信息、研判指令等;③外部社会信息。包括互联网刊载的违法犯罪信息、商业网站异常信息、保险理赔信息、个人资信信息、中介机构信息、检察机关案件信息、审判机关案件信息、信用卡组织信息、公证机构信息等[3]。
在为综合性数据平台提供接入服务时,不仅要面对数据来源众多、结构差异较大的问题,还会涉及到地域不同、警种不同、建设厂商不同等带来的数据差异性。同是犯罪嫌疑人信息,交通管理部门、刑事侦查部门、经济侦查部门等关注点完全不同,数据结构存在很大差异;即使是相同业务,不同地方的业务系统建设厂商不同,所设计的数据结构也完全不同;即使相同地方,早期上下级部门的业务系统也可能由不同厂商承建,存在同样的问题;不同地域也会有不同的业务重点,可能有些地方的业务在另一些地方没有,或者信息丰富程度差异很大。
传统的数据集成方法在一定程度上可以解决各数据源结构上存在的异构问题,但忽略了数据的语义信息,在进行数据共享和互操作时存在很多不足,检索得到的共享数据冗余多,无效信息多[4]。
一个好的多源异构数据集成平台,需要对多个数据源进行统一处理,屏蔽数据之间的物理和逻辑差异,实现统一的表示、存储和管理,将多源异构数据集成为互相理解、相互关联的有机整体,以解决数据来源广泛、结构异构问题[5],从而更好地发挥数据价值。
2异构数据集成
为实现上述需求,基于本体论的异构数据集成概念应运而生。
本体最早是一个哲学概念,关心的是客观现实的抽象本质[6]。从20 世纪 90 年代开始,其引起了人工智能领域的广泛关注,被应用在知识工程、知识表达、自然语言理解、 信息检索、信息集成和知识管理等诸多领域,并随着应用的范围越来越广而赋予了一些新的含义。
本体定义为共享概念模型的形式化规范说明,其有4层含义:①概念模型指通过抽象出客观世界中一些现象的相关概念而得到的模型,所表现的含义独立于具体的环境状态;②使用的概念及使用这些概念的约束都有明确定义;③形式化指本体是计算机可读的;④共享指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集。本体有良好的概念层次结构,能有效支持逻辑推理。本体的目标是捕获相关领域知识[7],提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇与词汇间相互关系的明确定义。因此,基于本体的异构数据集成系统,首先,需要领域专家参与创建领域本体,提供共享知识库;其次,需要表达能力丰富并具有一定逻辑推理能力的本体描述语言;最后,通过选择合理的映射方法,将不同数据源的语义异构数据转换成集成系统能够理解的统一语义信息。此外, 系统还应具有一定的普遍性和可扩展性[6]。
3实践案例
为适应多地市、多系统、多来源、多结构的各式数据接入与汇聚,本文通过分析来源数据,利用本体概念,结合领域知识,设计了一套基于本体论的元模型,如图1所示,图中的类代表本体。
类具有以下属性:
(1)类名:唯一定义一个类,类名遵循相应的表达规范,由“角色”、“修饰词”、“本体”组成,角色、修饰词为可选,但主体部分必须明确,即类的本体。如“手机号码”、“完整的手机号码”、“负责人完整的手机号码”都是符合规范的类名。
(2)规范:定义了类的实例校验方法,比如“手机号码”规范可以是一个校验手机号是否合法的正则表达式。不是所有的类都有明确的规范,比如“联系方式”就不具备规范条件。
(3)值域:定语了类的实例范围,比如“行政区划”的值域是一个由区划代码组成的集合,年龄可以是一个[0,120]的闭区间,不是所有类都有明确的值域。
(4)说明:对该类的上下文、出现场景进行说明,便于工作人员进行知识库维护。
根据实际的数据接入、汇聚和提取需求,定义类之间的关系:①等价:双方除了类名和上下文不同,代表了不同的本体,但规范、值域完全相同,比如“固定电话”和“传真号码”之间的关系就是等价关系;②映射等价:双方除了类名和上下文不同,代表了不同的本体,但双方的值域存在映射关系,且进行映射运算后值域相等,如“行政区划”和“邮政编码”;③组成:一个类的实例由明确的规则组成,比如“完整的固化号码”就是由“电话区号”、“固化号码”、“分机号”组成;④推导:一个类的实例可以推导出其它类的实例,比如“身份证号码”就可以推导出“户籍地区划”、“出生日期”、“性别”等;⑤包含:A类在特定情境下的实例集合组成了B类,则称A类包含B类,也即A是B的父类,B是A的子类。B类完全继承A类的规则和值域,但可以有自己独特的规则和值域;⑥依赖:两个类总是同时出现,单独出现无法传递完整的信息,B类的规范和值域依赖于A类的取值,如“证件类型”和“证件号码”。
根据以上元模型定义,对联系电话相关的类建立模型如图2所示。
图2中“联系电话”、“短信号码”、“一般手机号”都是没有确定的校验规范和值域的类,但在业务领域中有些场景采集的数据就属于这些类。
建立这样的模型后,数据的接入汇聚问题就转变成哪些类需要汇聚到父类、哪些类需要接入到子类、哪些类需要进行推导运算后接入到匹配的类的问题。通过将要集成的数据集属性与这些类之间建立映射关系的规则,约束数据接入时的可选范围,并根据类的规范校验,规范来源数据,实现数据交换与共享[7]。同时这些规则经过最初的业务总结、试验、沉淀之后,可以积累为规则库,为后续数据接入汇聚的程序化实现奠定基础。
基于需求和模型复杂度,结构化数据库可以承载所有的模型数据、实例数据和规则数据。这些知识数据量不大,但很重要,对一致性、高可靠性要求很高,所以采用传统的结构化数据库存储这些数据。
通过上述方案,再结合逐渐完善的行业数据标准,多源异构数据集成工作效率得到了显著提升,全新的数据接入由原来的每人每天3~5个数据集提升到每人每天5~10个数据集,且通过这种集成方式接入的数据质量有了明显改善,基本杜绝了完全不兼容的类的数据接入错误。
4结语
数据纷繁复杂、多样与海量的特点,给大数据集成的效率、质量带来了很大困难,最终造成数据接入效率低下、数据质量不高、数据整合率、利用率低等问题。本文提出一种基于本体论的多源异构数据接入和汇聚方法,通过建立领域内的本体类库并定义它们之间的关系,使每个接入数据的属性都有对应的本体类,通过类之间的关系约束规范数据接入过程和结果,提高了项目实施效率,提升了数据质量,为数据平台更好地使用数据、分析数据、挖掘知识提供了很好的数据基础。
参考文献参考文献:
[1]张春艳.大数据时代的公共安全治理[J].国家行政学院学报,2014(5):102103.
[2]公安情报大数据解决方案[EB/OL].http://www.sugon.com/solution/detail/id/936.html.
[3]马新建,夏士雄.基于本体的多源异构数据集成方法研究[J].軟件天地,2008(6):291292.
[4]李亢,李新明,刘东.多源异构装备数据集成研究综述[J].中国电子科学研究院学报,2015(2):162163.
[5]苏立悦,董明,杨东.大规模定制下基于本体的服务产品配置研究[J].计算机应用研究,2010(2):483484.
[6]马新建,夏士雄.基于本体的多源异构数据集成方法研究[J].软件天地,2008(9):291292.
[7]刘文韬,陈智宏,许炎,等.基于本体论的交通异构数据集成系统[J].计算机系统应用,2010,19(3):1011.
责任编辑(责任编辑:杜能钢)