马孝贺 李莎
摘 要:随着信息化时代的不断发展,网络技术的不断成熟使得网上的信息也越来越丰富。在现阶段的数据库研究中也逐渐将关注点放在对网络中海量的信息的深度运用上面。文章对现在普遍流行的XML技术在大数据环境下的运用进行探讨,以其对Web数据信息收集、数据挖掘以及数据交换中的技术运用进行具体分析,希望能够借此加深对于XML技术的印象。
关键词:大数据环境;XML技术;Web数据挖掘
随着大数据时代的来临,大数据问题便从技术层面上升到了国家战略层面的最高层,研究大数据环境下的具体运用已经成为当前的一个比较重要的课题。在大数据的环境下,数据收集、数据挖掘以及数据交换上都迫切地需要进行创新和变革,可扩展的标记语言( Extensible MarkupLanguage,XML)技术在大数据环境下的运用,可以帮助我们更好地应对大数据环境所带来的机遇和挑战,促进我国科学技术创新能力的不断发展。
1 XML技术介绍
1.1 XML概念
XML作为一种描述性的标记语言,它也是标准通用标记语言。它是一套定义语义标记的规范,旨在能够对数据类型进行定义,便于人和计算机将其进行识别。它也是简单的数据存储语言,用来表述数据结构化的通用语言,是便于用户对自己的标记语言进行定义的元语言,其建立过程的方便性给用户的使用体验带来了很大的便利,成为当前大数据环境下数据处理的有力工具。
1.2 XML的核心技术
XML文档主要是由3个元素构成:文档类型定义DTD,可扩展样式表语言XSL以及可扩展链接语言XLL。在这3个元素具体的功能划分上,DTD是一套关于标记符的语法规则,对XML的文档起到了很好的描述作用,定义XML中相关元素及元素属性的关系;XSL控制XML文档显示时的版面以及对文字的显示进行处理;XLL是对XML的语言进行链接,使得不同用户根据自身的需求选取合适的使用方法‘1]。
1.3 XML技术的特点
XML设计的主要目的是为了传输和存储数据,其关注的焦点是数据的内容。在存储方面,它是以纯文本的格式进行存储的,不同于所有不兼容的软、硬件的数据存储方法,可以在各种不兼容的软、硬件中进行数据的存储,降低了数据交换的复杂性。XML具有扩展性的特点,它突破了HTML在扩展性上面的局限性,允许用户在定义标记时不受数量的限制,可以根据自身的需求对信息结构进行嵌套,方便用户的使用。在数据的搜索上它具有智能化的特征,借助于对各种信息所含元素的定义,它可以很好地对信息进行描述。同时XML技术还改变了传统的信息构造方式,使得互联网数据在传输上面更加快捷准确。由于在内容和应用上的分开,加上文档定义类型DTD只是对数据的结构、语义和存放等方式进行描述,没有涉及数据被显示等方面的问题,XML数据就可以被不同的程序进行运用,其又具有很好的复用性。XML还具有国际化的特点,由于其统一代码的编码标准,它支持世界上的大多数文字,便于计算机系统之间进行信息数据的交换,可以最大化地突破国际和不同文化疆界的信息交换的限制。
2 Web数据
2.1 Web上的数据特点
World Wide Web是由巨大的、异构的以及半结构化和动态的基于超链接的超媒体文档所构成的数据库,从数据库的角度出发,Web网站上的信息具有多元化、半结构化、动态化以及分散性等特点,使得信息的处理更加的复杂和庞大。对于Web数据的使用来说,尽管现阶段已经取得了一些成果,但是在异构数据环境、半结构化数据环境以及较强动态性数据源上还是存在着较多的不足。例如,从用户的角度出发,由于每个用户群体的背景及使用目的的不同,使得Web上的信息量的使用较为复杂,加大了相关工作的难度[2]。
2.2 XML技术运用在Web数据中的优势
虽然HTML和XML都是对Web文档的语言进行描述的工具,但是XML的灵活性较高,能够对数据本身进行很细致的描述,使得它很容易与数据库中的属性一一对应,凭借其在增加结构及语义信息上的優势,解决了Internet发展速度快而接入速度慢等问题,扩大了服务器处理信息的容量。在现阶段的Web数据应用中,XML已经成为正式的规范,开发人员借助XML在相关技术上的优势,进行数据交换和格式的处理。XML具有可升级的3层模型,可以帮助其从存在的数据中分离出来,并且其结构化的数据可以从商业规范和表现的形式中进行分离。在异构数据的集成的实现上,基于Web数据的多样性和非结构化,传统的文档的查询和分析方法效率较低,正确性较低;但是运用XML技术,可以大大提高文档的结构化程度,便于分析性的内容数据库的建立。XML的中间层技术,可以在改进站点设计、提供个性化服务等方面起到良好的作用。XML的中间层技术可以将数据进行结构化,且同一个XML文件的内容可以变成多个文件传给不同的用户,实现网页传输的动态化特征。3XML在大数据环境下Web数据中的运用
3.1在Web数据收集中
Web的信息收集是指从互联网中收集出用户感兴趣的信息,并以清晰各格式化的方式进行输出。在Web的信息收集中,可以将互联网比作是信息源,根据用户需求的不同,对信息进行筛选,以达到给用户提供具有针对性的数据信息。
XML技术的出现,有利于Web信息的抽取和应用。在信息收集时,可以将页面文档解析成为DOM数的结构,将页面的操作处理转化成为对DOM树的处理,并通过XML的转换语言XSLT对文档的编写规则进行抽取,实现XML与Web间数据的转换。Web的信息收集可以按照收集对象的不同,将其分为3个类型:自由文本、结构化的文本以及半结构化的文本。XML凭借其自身的优势,可以将Web页面中的特定信息收集出来,并使之成为结构化的、具有很强扩展性的文档,为数据的分析和重新组合提供支持。例如,在数据收集的过程中,可以将每个站点作为研究的基本单位,根据用户感兴趣的信息,将信息收集起来,并生成结构化的文档。之后,便为每个站点建立一个待收集信息路径表,当出现频繁的操作以及并没有清晰的路径记录写入时,可以从信息路径表中归纳出最小DOM树的路径,根据其中的路径信息和信息模型生产收集规则,把收集结果存入XML文档中,便完成了对信息的收集规则。
3.2在Web数据挖掘中
所謂Web数据挖掘,是指在万维网上挖掘出有趣的、潜在的、有用的信息及其模式。XML在Web数据挖掘中的运用主要是以下4个方面:(1)借助Web客户端在两个或多个异质数据库之间进行通信。(2)将多个处理负载从Web服务器转到客户端的应用。(3) Web利用其智能化的特征为用户提供具体所需要的信息的应用。(4) Web客户端将同样的数据以不同的浏览形式提供给不同的用户使用的应用。
在Web的挖掘的处理过程上面来看,基于XML技术可以使Web文档结构化,在Web的结构挖掘上可以节约很多的数据处理时间。特别的是,由于XML中文档的拓扑结构较为明显,在分析网站中的层次关系以及链接关系上具有明显的优势,可以对信息流的方向进行辨别。在数据的统一接口的问题的处理上,借助于XML技术,数据挖掘软件可以不用仔细了解每个数据库是如何构建起来的,便于对分布式数据挖掘进行处理,不用受到不同数据库、不同数据源的限制。XML技术可以快速地使来自不同源的结构化的数据进行融合,其主要是经过以下步骤来实现的:首先,用XML技术将从来源于后端数据库以及其他Web来源的数据在中间层的服务器上进行集成;其次,XML所具有的可扩展性,可以充分地对不同数据进行定义和表达,按照不同用户的不同需求,将数据进行深层次的处理和加工,并发送到不同的用户手中。
3.3在数据交换中
对于现阶段的数据交换来说,可以以XML在电子商务数据交换模型为例。电子商务数据主要存储在关系数据库中,XML与关系数据库的映射是电子商务数据交换平台开发的重要工作。XML作为结构与数据的统一体,在数据的转换过程中又被分为关系模式和关系数据两个方面。在这个过程中,是以XML服务器为核心,来实现客户端与服务器的交互,客户端既可以直接读取服务器的各类信息,又可以在服务器中存储信息。其中,XML处理器是作为模型的核心,它主要负责完成数据的解析和反解析两个过程,将业务数据与电子报文进行相互的转换;之后便对解析后的数据进行分析和加工,使之便于用户浏览和存储,用户借助于Web服务器进行相应的业务处理,Web在这个过程中起到一个中间媒介的作用.一方面接收客户端的请求,给其提供常规的访问信息;同时其又将生成的动态文件发送给客户端,实现数据信息的有效交流。在电子商务的运用当中,企业可以借助XML在Web数据交换中的有利优势,实现业务订单的接收与处理[3]。
4结语
本文主要介绍了XML技术在大数据环境下的处理优势,对其概念、特点等进行了介绍。并就其在Web数据收集、数据挖掘和数据交换中的具体运用进行了阐述。XML技术的发展,为大数据环境下Web数据的分析和处理提供了有力的支持。要加强对相关技术的研发和使用,适应现代化社会对海量数据信息的需求的趋势,不断提高我国的科技竞争力。
[参考文献]
[1]江文斌,张仁津,张方霞基于WebServices的电子商务系统的研究与架构[J]电脑知识与技术,2010 (10):2392-2394
[2]倪兴旺.基于XML的异构数据交换研究与实现[J]石家庄学院学报,2014 (3):35-38
[3]刘媛媛.基于XML和WebServices的电子政务数据交换平台的实现[J]龟子技术与软件工程,2015 (13):97