陈俊洁
摘要:随着社会经济的快速发展,计算机网络技术已经得到了广泛的应用,利用web来对信息进行提取已经成为人们工作中最常使用的办法,目前有很多信息都是通过web来进行提供的,但是越来越多web信息的出现让提取更困难,针对这种情况应该选择更加精确的检索技术,本文就对web信息提取技术与应用问题进行分析。
关键词:web;信息提取技术;应用意义;分析
中图分类号:TP391.1 文献标识码:A 文章编号:1007-9416(2017)09-0114-01
1 web信息提取技术研究的意义
传统的信息提取技术是起源于80年代的,在90年代消息理解会议召开了,同时web项目也成立起来并得到了一定的发展,从目前来看,web信息提取技术中还是存在很多的不足之处,例如检索方法不够合理,结果显示比较单一等等,由于出现的多种问题,会对整个的系统造成损害,因此就需要相关人员进行更加深入的研究,web信息提取技术有着一定的实用性,它也是所有系统构建的基础部分,要想找到这些web数据就要将信息集成的问题解决了,还可以增加一些实际方面的应用,例如网上的购物系统、企业情报系统、网站的建立等等,这些都需要来自web信息提取技术的支持,相关部门要加大web信息提取技术的使用力度,这样才是最合乎发展的。
2 web信息提取分类以及技术分析
2.1 基于正则表达式的信息提取
正则表达式是通过一些字符串来体现的公式,这也应用了web信息提取技术,首先应该将web文档作为文件来进行处理,这种文件一般是字符流文件,然后制作出正则表达式对信息进行相应的提取,最后才能得到想要的信息,利用正则表达式的方式获取信息更加方便,能够根据新闻的特征来获取信息,这些信息包括新闻的标题、内容等方面,从而在得到了文本文件之后,就能够采用分类聚类的算法,让传统技术得到更大范围的使用,也能实现对网页进行分类聚类。
2.2 自然语言处理的信息提取
对于自然语言的信息提取,要充分符合源文档中的文本情况,这也在一定程度上借鉴了自然语言的处理方式,将子句结构以及子句的关系进行分析,按照语法语义的原则进行信息提取,利用这种原理的系统包括有SRV、WNISK等,当然利用这种方式也存在一定的缺点,例如web网页中会出现很多的链接,而且还都是被HTML所修饰的,因此这都不是最完整的句子,在技术的应用方面也会受到局限,同时在实现的时候如果没有将web文档作为普通文本来进行处理的话,那么就缺乏一定的实用性。
2.3 基于HTML结构的信息提取
对基于HTML结构的信息进行提取,是web信息提取技术与应用中十分重要的部分,对信息进行提取时,应该具备的特点是要根据web页面的结构进行定位,然后可以通过解析器的方式实现更多的操作,对结构模式进行信息提取的时候也应该采用全自动的形式,这种方式虽然优势很多,但这也存在很多的问题,一方面是确定的数据中存在很多客户不用的信息。另一方面是可以通过提取的方式进行样本训练,在样本选择的角度分析也可以对结构模式产生一定的影响。如果将web查询看作是巨大的数据库,那么就可以利用web的查询语言对文档进行查询,可以利用的系统包括web-sql等,目前这些技术都还需要进一步的理论探讨。
3 web信息提取系统的构建及性能评价
web信息提取系统的体系结构通常會采用通用体系结构,也能够将该系统称为级联的转换器或者模块集合,对于一些难以过滤掉的信息,就可以增加上新的结构信息。一般的信息提取系统是由以下几个模块组成的,(1)文本分块,这是说将输入的文本分割成不同的部分来进行分析。(2)预处理,预处理就是将文本块转为句子的序列,这些句子都是由词汇以及类组成的。(3)分析,分析中包括预分析以及分析两个部分,预分析是对词汇中小型的结构,例如名词、动词等进行识别,而分析是对结构以及词汇项进行描述,从而得到相应的集合。
要实现web信息提取系统可以采用两种方法,一是利用知识工程的方法,利用该方法需要了解一定的知识领域,但是这对于人才来说是非常缺乏的,第二种是自动训练的方式,这种情况不用使用专业的知识工程师,只需要利用语料库来获取就好了,任何领域的人都可以根据事先的规定,来确定足够数量的数据,这样才能保证处理的质量。通过一定的分析,也能够发现web信息提取技术中存在的不足,在以后的发展中应该扩大web信息提取技术的范围,还要逐步简化学习的过程,让系统对网页的适应性更强,这样才能提高系统的准确性,充分利用一些技术来构建web信息提取系统,这都是以后web信息提取技术发展中需要注意的问题。
4 结语
综上所述,主要对web信息提取技术与应用进行分析,在web中进行信息提取是十分重要的步骤,在实际的工程项目中也有着明确的需求,但是由于web页面有着一定的复杂性,因此需要更加严密的计划才能实现技术方面的应用,这对于研究人员来说是一种考验,作为研究人员需要不断的丰富自身的经验,加大学习与研究的力度,才能提高web信息提取的自动化程度,对我国以后方面的发展有更大的帮助。
参考文献
[1]姜欣,杨国军.基于XML半结构化的Web网页信息提取研究[J].网络安全技术与应用,2015,(10):59-60.
[2]刘泽伟.面向煤矿安全事件的Web信息抽取技术研究与应用[D].北京工业大学,2015.
[3]陈志宇.基于优化NFA正则匹配的Web信息抽取技术及应用研究[D].杭州电子科技大学,2015.
[4]罗粮,朱儒明.基于正则表达式的Web页面信息抽取技术研究[J].现代计算机,2017,(15):17-19.
[5]宋硕.基于Web信息抽取技术的企业情报分析系统的研究[J].数字技术与应用,2016,(2):91-92.
[6]李宝密.基于自动生成模板的Web信息抽取技术[J].网络安全技术与应用,2016,(9):56.endprint