云环境中web信息抓取技术的研究及应用

2016-09-12 02:34魏利峰纪建伟王晓斌
电子设计工程 2016年4期
关键词:中间件本体软件

魏利峰,纪建伟,王晓斌

(1.沈阳航空航天大学 辽宁 沈阳 110136;2.沈阳农业大学 信息与电气工程学院,辽宁 沈阳 110866)

云环境中web信息抓取技术的研究及应用

魏利峰1,2,纪建伟2,王晓斌1

(1.沈阳航空航天大学 辽宁 沈阳 110136;2.沈阳农业大学 信息与电气工程学院,辽宁 沈阳 110866)

云平台的出现改变了传统的行业发展模式,基于互联网的信息共享与合作发展为代表的团队共赢模式加快了网络数据发展的速度,因而带来了互联网的大数据现象。对互联网信息的有效使用和动态感知,能够确定本部门的发展战略,是网络信息应用研究的核心任务。通过对Web网页信息抓取技术的方式对网络信息系统进行研究,提出使用垂直搜索技术是在适应云平台环境中大数据现象的对策,得出了新闻型与数据密集型网页信息变化的动态掌握方式。

大数据与云环境;中间件层;软件服务;信息抓取

虽然云时代悄然而知,但是现实中的互联网数据还有更新速度快,用户无法感知;信息推送不及时,造成有效信息浪费的现象。面对云环境与大数据的挑战,经厉信息网络浪潮中的驾驭,梳理出云时代的信息特点是:1)信息的快速传播特性,快速实现大规模信息传递;大集合的管理思想;信息的批量传送;尽可能实现信息的快速交付;2)个性化技术支持与服务特性,信息传播的目的性和针对性符合用户需要,即信息使用的有效性。

如何更有效地组织和获取网络数据,如何将网页中用户感兴趣的信息准确的抽取出来,并以具有语义的结构化的形式保存下来,以供用户查询分析,形成决策的支持。研究人员开创了Web信息抽取这个研究领域,本文对信息搜索技术原理进行比较,发现一种能够应用在中间件层的网络信息抓取技术。并将其应用于云平台中的教学管理体系中,作为云教学发展的雏形。遵从软件工程思想,在云平台与网络使用者中间,建立中间件层的软件服务。为教学信息的云管理拓宽了道路。

1 信息搜索的研究

1.1 信息抽取技术的发展现状

在网络信息量不多的时代,工作人员获得数据往往是从互联网中进行广泛的数据挖掘,如谷歌和百度提供了强有力的搜索引擎,成为早期信息挖掘的工具。目前互联网的发展趋势是网站的信息量爆发式增长,云存储与共享合作的现象不断出现;专业集中发展,网站的信息不断更新,有超出个人接受能力的趋势。研究云环境与大数据中的信息搜索技术具有很强的实用性。

从数据挖掘的观点看,Web信息抽取是Web数据挖掘的重要组成部分。Web挖掘主要分3类:Web结构挖掘(主要为超链接的分析)、Web使用记录挖掘(日志挖掘)、Web内容挖掘。从搜索方向上划分,有平行搜索和垂直搜索,在云环境中要完成时间最少和资源利用最高[1],选择垂直搜索。其中垂直搜索技术是深度的对某一行业的专业搜索引擎,是对网页库中的某类专门信息的一次整合[2],定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户,数据由非结构化数据抽取成结构化的数据。垂直信息抽取技术的应用研究更具有意义。垂直信息搜索可以根据特定用户群的需要抓取网站中的业务元数据,供用户查询或其他应用程序所利用,也可用于提供信息推荐,垂直搜索技术具有更加广泛的应用价值。

1.2 信息抽取技术的相关原理

使用信息搜索需要掌握spider、网页结构化信息抽取技术或元数据采集技术、分词、索引、Xhtml。下面介绍本体的概念定义,基于知识本体模型的基本概念以字、词为名称的语言载体,是表达知识的最小语义单元[3]。本体(ontology)是对自然存在及其本质的研究,本体所反映的是事物本质的,科学的内涵。基本概念依靠名称、属性、关系和行为描述彼此间的语义关联。在计算机科学中,人工智能领域的学者最先将本体的概念从哲学中借用过来。形式化是指本体是机器可读的(即能被计算机处理),而不是完全用自然语言表达。

定义本体的方法:用人工的方式书写某个领域的本体(包括对象的模式信息、常值、关键字的描述信息,其中常值和关键字提供了语义项的描述信息)。下面是一个用于抽取数码相机信息的应用本体的片段 (取自于BYU信息抽取小组开发的信息抽取系统的Demo)。

上面的代码是本体定义的例子,即本体是具体事件名称和具有的特征组成的集合,定义本体以后,抽取系统根据边界分割符和启发式规则信息将源文档分割为多个描述某一事物不同实例的无结构的文本块,然后根据本体中常值和关键字的描述信息产生抽取规则,对每个无结构的文本块进行抽取获得各个语义项的值,最后将抽取出的结果放入根据本体描述信息生成的数据库中。图1所示为使用了本体方式的软件Netget对中国网络教育热门招生专业的信息抓取结果。

图1 中国网络教育最热门专业抓取结果Fig.1 China’s most popular professional online education crawl results

2 网络体系的分层结构

基于云计算的网络教育与培训的网络架构,是资源共享,以服务为核心,满足业务业务的弹性需求,网络中使用了虚拟化技术、动态集群和资源的按需调度等关键技术为应用提供弹性扩展的能力,云计算的3层服务模式,即软件即服务、平台即服务、基础架构即服务的层次关系。依据国际标准化组织制定的网络分层的结构,任何网络系统的通信是由网络层到应用层的逐级递交的。就教学网络系统云平台的组成中,应用服务器的集群研究[4],运输层执行的任务出现了集聚的趋势,由虚拟社区、微博、微信、邮件、等信息传输信息的形式越来越多,而使用者往往有记住密码的重要任务。如果将信息需求按客户群推送,能够达到事半功倍的功效,信息推送的任务由管理单位的管理阶层完成,在云教学时代软件服务担当着关键的任务。在软件体系中,实际的网络应用往往需要扩充中间件层的功能,如图2所示。

图2 应用网络的分层结构Fig.2 Layered structure of network application

应用于教学的教学网络平台层[5]为了保证适应性和复用性,在平台的中间件层定义了具体的可添加组件部分。软件系统中间件层提供对上级管理部门的信息发现与传送,包括教学活动支持服务软件、通讯支持服务软件,形成教学单位对云教学资源动态变化的感知能力。将信息资源变化实时报告,通知有关部门形成信息流达到教学体系共享协同运作是云教学服务与发展的上策,在云教学体系中,在中间件层使用Netget软件提供的垂直信息抓取技术,附加在支持服务模块中,将云教学的共享功能达到及时的资源更新和信息服务。

3 大数据与云环境下信息抽取技术的实现

云环境下的服务器集群,也是任务集中管理与分工合作的网络平台的升级,如何完成中间件层的任务,分散在多个服务器运行不同的软件是一种非常合理的布署,一种实现规范是:管理软件使用J2EE开发Web程序,使用Servlet作为J2EE规范中用来处理HTTP请求的唯一元素,一个J2EE集群包含多个同步运行的JAVA进程,每个JAVA进程都可以独立提供服务,也可以联合提供服务;一个J2EE集群包含一个代理服务器,对外提供统一的访问入口;J2EE集群通常包含一个管理服务器用来管理集群的运作。第二种实现的方案是:管理者运行第三方软件,随时跟踪网络资源的动态变化。

信息抓取任务可以对同一个网站定义多个抓取任务形成同一个类别,开放大学学生活动区午间直播课信息抓取记录。实现“即搜——即发”的教师活动,即时抓取、即刻分发。实现了远距离的,短时间的,及时的教学信息的使用。图3是对开放大学午间直播课及教研活动信息抓取。

图3 开放大学午间直播课与教研活动信息抓取结果Fig.3 Open University courses and research activities Midday broadcast information crawl results

对中国网络教育热门专业变化的感知,有助于院校招生人数的调控。对午间直播课程的时间信息抓取实现了开放大学教学活动的一体化设计。访问网站需要频繁的点击网页的动作,使用信息抓取技术,建立多个抓取任务,每个任务执行只需点击运行按钮运行几秒钟,实现高效率管理;也可以作为教学网站阶段性的数据调查分析,长期跟踪网站公布的数据变化。在云平台与环境中,运行信息抓取任务达到同时获得关键数据,为管理者决策提供了信息决策依据。

4 结束语

大数据处理的应用不断增加[6],根据不同的应用环境实现一个高速高效的,使用方便的信息抓取阵列,在信息应用为主的行业中,为智能化管理提供拓宽了途径[7]。云环境下的教育平台,以中间件层思想指导下,信息抓取与通讯软件联合使用于服务软件中,云平台信息流无延迟传输将达到普及。

[1]闫歌,于炯,样兴耀.云计算环境下科学工作流两阶段任务调度策略[J].计算机应用,2013(4):1006-1009.

[2]张建,程锦.网络化制造资源垂直搜索引擎的研究与应用[J].计算机应用,2007(5):1116.

[3]高一波,赵先章,孙硕,等.面向垂直搜索引擎的基于知识的语义关联算法[J].计算机工程,2009(11):184-186.

[4]吴少刚,陈晓玲.J2EE应用服务器集群性能研究[J].计算机工程与设计,2007(18):4410-4412,4416.

[5]孙磊,戴紫珊.安全服务云框架研究[J].计算机应用2012 (1):13.

[6]赵烨,王明磊,李新友.OCR在大数据量文档处理系统中的应用[J].计算机应用2000(8):336-338.

[7]李琪,秦会斌,杨永舒,等.基于Android平台的智能家居系统设计[J].电子设计工程,2014(24):52-54,57.

Research and application of web information extraction technology in cloud environment

WEI Li-feng1,2,JI Jian-wei2,WANG Xiao-bin1
(1.Shenyang Aerospace University,Shenyang 110136,China;2.College of Information and Electrical Engineering,Shenyang Agricultural University,Shenyang 110866,China)

The emergence of cloud computing platform,change the development mode of traditional industries,the Internet information sharing and cooperative development as the representative of the team win mode to speed up the development of network data based on the speed of the resulting data,the phenomenon of the Internet.Effective use and dynamic perception of Internet information,to determine the development strategy of the Department,is the core task of research on Application of network information.This paper makes research on the Web Webpage information capture technology,proposes to use vertical search technology is on the countermeasures adapt to large data phenomena cloud environment,provides a method of dynamic news and data intensive Webpage information change control.

big data and cloud environments;middleware;software services;information extraction

TN91

A

1674-6236(2016)04-0029-03

2015-03-24 稿件编号:201503342

魏利峰(1978—),男,内蒙古通辽人,博士研究生,讲师。研究方向:信息管理与信息系统、WEB技术。

猜你喜欢
中间件本体软件
禅宗软件
眼睛是“本体”
软件对对碰
RFID中间件技术及其应用研究
基于Android 平台的OSGi 架构中间件的研究与应用
基于本体的机械产品工艺知识表示
即时通讯软件WhatsApp
中间件在高速公路领域的应用
专题
Care about the virtue moral education