牛世章
摘要:数据源是数据挖掘应用的关键,目前数据库技术的不断发展使得在建立数据源时必须面对异构数据库问题。该文主要对如何在异构数据库中建立数据源进行研究,并利用XML技术在异构数据库中建立数据源模型,且提出了提出了数据转换和预处理技术,利用这两个技术解决在数据库中异构数据如何建立数据源的问题。
关键词:异构数据库;数据转换;XML
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)08-1733-03
1 异构数据库
现如今,大多数的工作行业和领域都采取了利用计算机来进行信息的存储、处理、通信等,在处理数据的过程中计算机可以起到一个很关键的作用,一般利用计算机来管理、处理数据时都必须利用数据库来实现。在单独的企业事业单位内部也经常是使用数据库管理系统来实现管理目的的,利用这种方式的主要原因有:一,单位内部人事的变动和时间的不断推移;二,现代科技不断发展,数据库也在不断更新发展,所以数据库经常发生变化;三,企业事业单位内部各个部门和科室没有统一的施行数据管理系统;四,经济和人为因素。这些差异构成了企业的异构数据源,即形成了异构数据库,它包括企业采用计算机进行数据存储与管理过程中的简单位文件数据库和复杂的网络数据库。
2 异构数据库的异构性
异构数据库能够实现数据共享,存在于异构数据库中的每一个数据库本身就是实际存在的,所以其数据库本身及其各不部分就具有相应的自治性。存在于异构数据库中的每一个数据库还是具备自己本身的完整性、安全性、应用性等。异构数据库的主要表现有三个方面:DBMS本身的异构、计算机系统的结构异构、计算机基础操作系统的异构。
3 异构数据库的数据转换目标
异构数据库的数据转换目标就是指将再现数据库中的信息转换到目标数据库里,其所要转移的再现数据库中的信息主要是指信息的内容和结构。信息的内容是构成信息的基本单位,其主要包括两个方面:信息对象的属性、信息关系表结构中的字段;信息的结构是指信息的构成,完整的信息都必须具有信息的内容和结构。在进行再现数据库到目标数据库的信息转换时,只有将信息的内容和结构全部完整的进行转换才是真正的实现了转换的目的。如果要实现信息转移过程中信息的“高保真”性,必须在转移过程中将信息内容的数据类型和当前值一并转移,只有这样才能保证转移数据的完整性和安全性。
4 异构数据库的数据转换
随着计算机技术的不断发展,数据库产品也随之日新月异,然而不同的厂家提供的数据库产品具有不同的异构性,这就导致了实际中使用的不方便。要想解决这种不便性就必须不断的开发新产品和创造新的方法,解决不同产品之间的兼容问题。
异构数据的转换主要包括两种类型:1)异构数据库之间的数据的转换;2)异构数据库之间的结构的转换。异构数据库之间的数据转换是指在保证数据库的结构不发生改变的前提之下,实现一个数据库中的数据向另一个不同的数据库转换的功能。目前的数据库开发平台只是实现对数据库中所有数据的转换,而不是根据相应的条件进行数据的筛选转换。
5 XML
XML可扩展标记语言(Extensible Markup Language),同时也是标准的通用标记语言(Standard Generic Markup Language,SGML)的一个部分。在各种不同的数据交换领域中,经常将XML作为元语言标准进行数据格式描述。异构数据库系统中,系统间的数据交换大多基于XML的数据格式,将内部的数据转换成行业标准。
XML是能够进行自解释的语言,不需要预先定义XML的标志,标志由使用者根据需要自定义。XML显示这些数据通过使用DTD实现,文档如何显示的机制使用XSL来描述,XSL是XML的样式表述语言。XSL的使用时间要早于CSS。XSL主要包括两个方面:一,XML文档的转换方法;二, XML文档的格式化方法[3]。
6 XML的主要特点
XML属于一种标记性的语言,具有如下的几个特点:
1) 具有较强的描述数据的能力,可以将复杂的数据简便化的描述出来。
2) 具有自我扩展的能力,可以将数据的约束进行最小化处理。
3) 具有数据自我描述的功能,利用其他文档中的标签来推测应用系统中转换的XML的含义。
4) 具有数据与表达相分离的功能,可以采用多种处理方式处理XML数据。处理数据时不同于Word、Excel,数据的表达不受制约。行业领域内都遵循早已制定好的共同遵循的标记词汇集,一些特定的行业也有属于本行业的特殊标记语言。
5) 具有数据结构化的功能,可以准确的寻找到所需的信息以及自我描述附加信息,灵活的处理XML文档,然后利用XML的文档结构来操作。XML的文档结构相对应于实际的业务对象,特定行业应用系统的业务对象同样也能便捷的实现XML的转换。
6) 具有应用上的健壮性和提供平台的无关联性。XML文档都是经过仔细的检测,排除了垃圾信息的干扰,加强了应用上的健壮性。并且XML和提供此产品的企业平台毫无关联,其表达的数据可以再任意的软件或者硬件中进行使用,具有很强的通用性。
7 运用XML实现异构数据库的数据转换
1)建立数据类型映射表,将不同类型的数据库和XML的数据类型进行映射。
2)导出数据之后,先读出被导出的各个字段的名字和数据的类型。
3)根据映射表来建立XML Schema模型。
4)利用XML Schema来确定保存中间数据的XML的数据类型和文件的结构。
8 数据预处理技术
10 结束语
XML作为一种可扩展的标记性语言,具有开放性和自述性等特征,在数据结构没有进行预先定义的前提下可以进行不同应用系统的数据转换。XML主要优势是描述数据和传送数据的能力。利用XML可以很方便的实现数据转换的目的,并且同时为挖掘数据时建立数据源的问题提出了新型的方法。
参考文献:
[1] 邬伟峰,朱建.基于Lotus Domino/Notes的网上办公系统开发技术[J].中国金融电脑,2002.
[2] 范春梅.XML基础教程[M].人民邮电出版社,2009.
[3] 孟小峰.XML数据管理概念与技术[M].清华大学出版社,2010.
[4] 万常选,刘喜平.XML数据库技术[M].2008.
[5] 段晓娟.XSLT的研究与应用[J].长沙大学,2003.