web信息提取技术与应用的研究

2017-12-07 08:00陈俊洁

数字技术与应用 2017年9期

陈俊洁

摘要：随着社会经济的快速发展，计算机网络技术已经得到了广泛的应用，利用web来对信息进行提取已经成为人们工作中最常使用的办法，目前有很多信息都是通过web来进行提供的，但是越来越多web信息的出现让提取更困难，针对这种情况应该选择更加精确的检索技术，本文就对web信息提取技术与应用问题进行分析。

关键词：web；信息提取技术；应用意义；分析

中图分类号：TP391.1 文献标识码：A 文章编号：1007-9416（2017）09-0114-01

1 web信息提取技术研究的意义

传统的信息提取技术是起源于80年代的，在90年代消息理解会议召开了，同时web项目也成立起来并得到了一定的发展，从目前来看，web信息提取技术中还是存在很多的不足之处，例如检索方法不够合理，结果显示比较单一等等，由于出现的多种问题，会对整个的系统造成损害，因此就需要相关人员进行更加深入的研究，web信息提取技术有着一定的实用性，它也是所有系统构建的基础部分，要想找到这些web数据就要将信息集成的问题解决了，还可以增加一些实际方面的应用，例如网上的购物系统、企业情报系统、网站的建立等等，这些都需要来自web信息提取技术的支持，相关部门要加大web信息提取技术的使用力度，这样才是最合乎发展的。

2 web信息提取分类以及技术分析

2.1 基于正则表达式的信息提取

正则表达式是通过一些字符串来体现的公式，这也应用了web信息提取技术，首先应该将web文档作为文件来进行处理，这种文件一般是字符流文件，然后制作出正则表达式对信息进行相应的提取，最后才能得到想要的信息，利用正则表达式的方式获取信息更加方便，能够根据新闻的特征来获取信息，这些信息包括新闻的标题、内容等方面，从而在得到了文本文件之后，就能够采用分类聚类的算法，让传统技术得到更大范围的使用，也能实现对网页进行分类聚类。

2.2 自然语言处理的信息提取

对于自然语言的信息提取，要充分符合源文档中的文本情况，这也在一定程度上借鉴了自然语言的处理方式，将子句结构以及子句的关系进行分析，按照语法语义的原则进行信息提取，利用这种原理的系统包括有SRV、WNISK等，当然利用这种方式也存在一定的缺点，例如web网页中会出现很多的链接，而且还都是被HTML所修饰的，因此这都不是最完整的句子，在技术的应用方面也会受到局限，同时在实现的时候如果没有将web文档作为普通文本来进行处理的话，那么就缺乏一定的实用性。

2.3 基于HTML结构的信息提取

对基于HTML结构的信息进行提取，是web信息提取技术与应用中十分重要的部分，对信息进行提取时，应该具备的特点是要根据web页面的结构进行定位，然后可以通过解析器的方式实现更多的操作，对结构模式进行信息提取的时候也应该采用全自动的形式，这种方式虽然优势很多，但这也存在很多的问题，一方面是确定的数据中存在很多客户不用的信息。另一方面是可以通过提取的方式进行样本训练，在样本选择的角度分析也可以对结构模式产生一定的影响。如果将web查询看作是巨大的数据库，那么就可以利用web的查询语言对文档进行查询，可以利用的系统包括web-sql等，目前这些技术都还需要进一步的理论探讨。

3 web信息提取系统的构建及性能评价

web信息提取系统的体系结构通常會采用通用体系结构，也能够将该系统称为级联的转换器或者模块集合，对于一些难以过滤掉的信息，就可以增加上新的结构信息。一般的信息提取系统是由以下几个模块组成的，（1）文本分块，这是说将输入的文本分割成不同的部分来进行分析。（2）预处理，预处理就是将文本块转为句子的序列，这些句子都是由词汇以及类组成的。（3）分析，分析中包括预分析以及分析两个部分，预分析是对词汇中小型的结构，例如名词、动词等进行识别，而分析是对结构以及词汇项进行描述，从而得到相应的集合。

要实现web信息提取系统可以采用两种方法，一是利用知识工程的方法，利用该方法需要了解一定的知识领域，但是这对于人才来说是非常缺乏的，第二种是自动训练的方式，这种情况不用使用专业的知识工程师，只需要利用语料库来获取就好了，任何领域的人都可以根据事先的规定，来确定足够数量的数据，这样才能保证处理的质量。通过一定的分析，也能够发现web信息提取技术中存在的不足，在以后的发展中应该扩大web信息提取技术的范围，还要逐步简化学习的过程，让系统对网页的适应性更强，这样才能提高系统的准确性，充分利用一些技术来构建web信息提取系统，这都是以后web信息提取技术发展中需要注意的问题。

4 结语

综上所述，主要对web信息提取技术与应用进行分析，在web中进行信息提取是十分重要的步骤，在实际的工程项目中也有着明确的需求，但是由于web页面有着一定的复杂性，因此需要更加严密的计划才能实现技术方面的应用，这对于研究人员来说是一种考验，作为研究人员需要不断的丰富自身的经验，加大学习与研究的力度，才能提高web信息提取的自动化程度，对我国以后方面的发展有更大的帮助。

参考文献

[1]姜欣，杨国军.基于XML半结构化的Web网页信息提取研究[J].网络安全技术与应用，2015，（10）：59-60.

[2]刘泽伟.面向煤矿安全事件的Web信息抽取技术研究与应用[D].北京工业大学，2015.

[3]陈志宇.基于优化NFA正则匹配的Web信息抽取技术及应用研究[D].杭州电子科技大学，2015.

[4]罗粮，朱儒明.基于正则表达式的Web页面信息抽取技术研究[J].现代计算机，2017，（15）：17-19.

[5]宋硕.基于Web信息抽取技术的企业情报分析系统的研究[J].数字技术与应用，2016，（2）：91-92.

[6]李宝密.基于自动生成模板的Web信息抽取技术[J].网络安全技术与应用，2016，（9）：56.endprint