文本分类技术在搜索引擎中的应用

2010-07-27 06:40刘苗苗张永生

中国新技术新产品 2010年4期

刘苗苗张永生

（大庆石油学院，河北秦皇岛 066004）

1 引言

面对万维网上海量的信息资源，人们迫切需要从中快速准确地找到有用的信息，搜索引擎技术的诞生为信息检索提供了方便，它以一定的策略在互联网中搜集、发现信息，对其进行提取和处理，从而为用户提供检索服务[1]。但由于其查准率或查全率不高，其检索结果远不能令人满意，因此本文以现有搜索引擎工作机制为基础，提出将文本分类[2]和特征抽取[3]技术应用到搜索引擎上，通过文本分类器将检索结果进行快速自动分类，以分类目录树的方式来显示检索结果。该方法有效地改善了检索结果的组织，大大降低了用户所需浏览的检索结果数量，方便用户快速找到跟查询请求相关的有用信息。

2 搜索引擎概述

2.1 搜索引擎概念

广义的搜索引擎指一切提供信息检索服务的工具或系统。狭义的搜索引擎指利用网络自动搜索技术软件对web资源进行搜集、整理并提供检索服务的一类信息服务系统[4]。它一般包括信息搜集、信息整理和用户查询三部分。

2.2 搜索引擎工作原理及性能指标

搜索引擎至少有三个因素值得重视：数据库、用户搜索、搜索结果排序。其工作原理是：首先利用高性能的Spider程序在互联网中发现并搜集有用的网页信息，然后利用分析索引系统将收集到的信息进行分类整理，建立索引数据库，最后当用户输入关键词搜索时，搜索系统从索引数据库中找到符合该关键词的所有相关网页，并将其链接地址和页面内容摘要等内容组织起来返回给用户，而与用户的搜索条件最相关的结果因其相关度高而出现在检索结果最前面的位置。

影响一个搜索引擎系统性能的因素有很多[5]，最主要的是信息检索模型，包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法等。评价一个搜索引擎系统好与坏的指标有查全率、查准率及响应速度和时间等。

3 基于文本分类和特征抽取的搜索引擎系统

3.1 系统模型设计

图1 基于文本分类的搜索引擎模型

图2 文本自动分类的过程

搜索引擎位于信息检索系统的底层，它以Web上的信息为处理对象，用户可以通过可视化接口跟检索器相连。由于现有的搜索引擎技术在查全率或查准率方面不能令人满意，因此本文提出了基于文本自动分类的搜索引擎系统。该系统分为以下6个基本部分：Robot、查询分析器、索引器、检索器、文本分类器和用户接口，其模型如图1所示。

Robot：可称为“自动跟踪索引软件”，它在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件，随时将新信息添加到搜索引擎中供查询；查询分析器：主要是对本地文档集合的文档进行分析以用于索引；索引器：它将文档表示为一种便于检索的方式并存储在索引数据库中；检索器：从索引数据库中找出与用户的查询请求相关的文档，提交给文本分类器；文本分类器：将检索器提交过来的文档进行自动分类，其关键技术主要有文本的表示[6]、特征项的抽取、分类算法的选择等等；用户接口：为用户提供可视化的查询输入和结果输出界面。

上面所述的基于文本自动分类的搜索引擎的设计中，Robot软件程序编制、分析器、索引器、检索器的功能与设计均是建立在当前搜索引擎工作机制的基础之上。目前文本的平面分类技术已经发展的比较成熟，分类的正确率达到90%以上，分类器对于文本层次分类和并行处理方面的研究有待加强，这是制约其应用到搜索引擎上的瓶颈。

3.2 系统设计思想及关键技术

文本分类是信息检索的关键。目前目录式搜索引擎的分类是由人工完成的，因此实时性差，更新速度慢，查全率低，成本也较高，且检索的最终结果是网址，不便于浏览。而全文检索式搜索引擎的检索结果是一个线性文档的列表，虽然经过了相关度排序，但用户仍需要逐个浏览才能找出所需信息。基于以上两种搜索引擎的缺点本文提出将粗糙集的文本自动分类技术应用到搜索引擎上。在该系统中文本分类器的设计是其中的难点，将其应用到搜索引擎上需要解决两个主要问题：其一文本分类器对检索出来的文本的分类速度应该足够快，否则用户会感到没有耐心等待检索结果的显示，即要提高搜索引擎的响应速度；其二是分类的准确率要高，方便用户在确定的目录下准确查找到所需要的文本，即要提高查准率。

系统中用到的关键技术主要是文本自动分类和特征抽取。

文本自动分类一般分为训练和分类两个阶段，其系统流程如图2所示。研究文本自动分类的关键问题是如何构造分类函数。

文本的特征抽取也是设计中的一个重点。在分类阶段，经过预处理后，文本的特征向量维数仍然很高，因此在分类前需要进行特征子集的选取。一般情况下对于正文中特征项的抽取[4]是构造一个评估函数，对特征集中的每个特征进行独立的评估，然后对所有的特征按照其评估分的大小排序，选取预定数目的最佳特征作为文本的特征集。

总之，文本自动分类以及特征抽取技术在搜索引擎上的应用，将给信息检索技术的研究带来一定的启发与帮助。

4 总结与展望

在对现有搜索引擎技术及其工作原理进行总结的基础上，本文提出了基于文本分类和特征抽取的搜索引擎系统的设计，对其系统设计、工作原理及可行性进行了一定的探讨。该系统能对搜索结果进行快速自动分类，在一定程度上改善了信息检索的效率及质量，方便了用户的信息查询。如果能够实现检索结果的快速联机分类，将会给目前的信息检索技术带来新的突破，便于用户快速检索到需要的结果，这是本文下一步的研究目标。

[1]搜索引擎简介及研究专栏-搜索引擎发展历史.http://www.china-seo.org/se-jj/history.htm

[2]王汉萍,张继军等.基于粗糙集的文本自动分类方法的研究[J],信息技术,2003年第8期

[3]魏天滨.基于粗糙集理论的文本分类规则抽取[J],中国海洋大学学报自然科学版,2003,33(6):943～949

[4]搜索引擎直通车-搜索引擎发展史[EB/OL].http://www.se-express.com/about/about.htm

[5]马彪,李恒.搜索引擎的性能评价[EB/OL].新世纪图书馆 2003年第6期

[6]方兰、王明文文本自动分类技术及其应用[J]，计算机与现代化 2004.7第107期,25～29