基于行为模式进行网络搜索信息过滤

2010-05-11 06:01田学志
中国新技术新产品 2010年17期
关键词:模式识别网页文档

贺 维 刘 彬 田学志

(1、黑龙江农业工程职业学院,黑龙江 哈尔滨 150000 2、泰山学院,山东 泰安 271000)

引言

随着互联网普及,网络搜索成为一种最快捷、最有效的信息获得手段,用户可以通过登录网络搜索平台,键入查询关键字搜索和收集需要的信息。在享受网络搜索技术便利的同时,搜索结果中的大量垃圾信息也给用户带来极大的不便,用户经常需要大量点击搜索结果来获得有效信息[1]。

利用行为模式技术,搜索平台通过对垃圾信息统计出的不同行为特征,对搜索结果信息进行过滤,来增强信息搜索的准确率。

1 网络搜索引擎技术

1.1 搜索器

衡量搜索引擎的一条很重要的标准,就是搜索到信息的海量性。为了实现这一条标准,通常需要一种强大的搜索器作为支撑,一般称为为“网络蜘蛛”。

“网络蜘蛛”即Web Spider,是通过网页的链接地址来寻找网页,从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样循环下去,直到把这个网站所有的网页都抓取完为止。在抓取网页的时候,“网络蜘蛛”一般有两种策略深度优先、广度优先。通过内容提取技术获取网页上文本信息[2]。

1.2 搜索结果中垃圾信息

在用户通过定义的关键字实施信息搜索时,经常会获得大量的搜索结果,从这些海量信息中提取有效信息经常会浪费用户大量的时间和精力。对于用户来说,没有利用价值的信息可以认为是无效搜索信息,而在这其中还存在很大一部分由于某些网站为增加点击率而故意篡改信息产生的垃圾信息。

搜索引擎Inktomi认为是垃圾信息的主要内容为:隐藏的、欺骗性的、以及与网页内容不相关的文字;META标签中的内容并非网页内容的真实描述;没有明确的目的有意设计重新指向的URL;利用程序使得在搜索结果中出现大量同样的网页;有意设置让人误解的链接;并不反映网站真实内容的入门网页或者隐藏的网页;自动产生大量无关的垃圾链接。

2 行为模式识别技术实施信息过滤

2.1 行为模式识别技术

行为模式是从大量实际行为中概括出来作为行为的理论抽象、基本框架或标准[3]。行为模式识别技术的思想是通过基于对大量信息样本进行的统计、分析和计算,建立行为模式数学模型,利用这种具有极高行为特征的模型,对新的信息进行分析判定[4]。

2.2 数据挖掘

数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口[5]。

对于垃圾信息行为模式进行信息挖掘,主要是针对相关WEB信息的数据挖掘。主要包含WEB内容挖掘,WEB结构挖掘,WEB用法挖掘。

WEB内容挖掘:针对垃圾信息WEB的内容、数据、文档发现共同信息,从资源查询角度挖掘非结构化的文档。

WEB结构挖掘:Web结构挖掘的对象是垃圾信息WEB的超连接,即对Web文档的结构进行挖掘。对于给定的Web文档集合,应该能够通过算法发现他们之间连接情况的有用信息,文档之间的超连接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。

WEB用法挖掘:Web使用记录挖掘,对垃圾信息WEB使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。来发现用户访问Web页面的模式,分析垃圾信息WEB的规律。

2.3 主元分析

它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字——主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合[6]。利用主元分析技术对于垃圾信息的不同行为模式,利用应用线形代数知识进行科学求解,最大程度去掉冗余和干扰,找到垃圾信息的主要行为模式。

2.4 基于行为模式的垃圾过滤模型

通过行为模式识别技术对网络搜索结果中的垃圾信息进行过滤,其思想是对大量垃圾信息样本进行分析,建立垃圾信息行为特征模型,利用这个特征模型对搜索的结果信息进行分析、判断,过滤其中的垃圾信息。整个垃圾信息过滤模型,基于信息——知识——智能理论指导,采用数据挖掘方法提取垃圾信息的行为规则,从而建立垃圾信息过滤模型。信息表示事物状态变化方式,知识表示事物状态变化规律,智能表示根据已知事物变化规律指定对未知事物检测的规则。

智能模型建立步骤:

首先大量收集不同搜索结果中包含的垃圾信息;根据Inktomi对垃圾信息定义对搜索的信息进行分类整理,并进行垃圾信息预处理,通过数据格式和内容调整使数据更符合数据挖掘的需要;根据数据挖掘算法对垃圾信息行为模式进行挖掘;利用主元分析理论,对垃圾信息的行为特征进行计算分析,找到数据中最主要的元素和结构;将垃圾信息的主要行为进行知识表示;从生成的知识中生成求解问题的策略和规则;利用生成的策略和规则建立垃圾信息过滤模型,从而解决所面对的实际问题。

建立模型需要解决的关键问题:

垃圾信息的收集是否全面,能否采集到准确,真实的数据来是研究基础;垃圾信息中得到的数据适应性,是否能对这一类垃圾信息真实全面反应;对垃圾信息的行为模式进行数据挖掘时采用的算法;提取垃圾信息各种行为中的主要元素的方法;对垃圾信息的行为模式特征的分析,产生垃圾信息过滤的规则集。

3 信息过滤系统

如图1所示,为信息过滤系统结构图,在原有的网络搜索引擎系统中,通过将文本索引中包含的索引信息发送给过滤服务器,通过索引信息中链接查询相关WEB,分析该WEB的行为特征,与垃圾信息行为特征库中不同类型的垃圾信息的行为特征进行比较,清理掉被判定为垃圾信息的搜索结果信息,将正常行为信息存入索引数据库。

图1 信息过滤系统

其中,过滤服务器需要完成4方面的工作,包括信息采样、行为解析、特征比较、信息过滤。信息采样:提取文本索引中的信息,包括链接,文本信息等信息。行为解析:对不同信息进行分析,提取主要行为特征。特征比较:将不同WEB中信息的行为特征与垃圾信息的行为特征进行比较。信息过滤:过滤到与垃圾信息的行为特征相同的信息。

4 信息过滤系统的特点

提高搜索的准确性:由于垃圾信息和正常信息在特征上存在很多差别,利用行为模式识别技术实现信息过滤可提高信息搜索的准确性。系统部署方便:对于文本索引中的信息,进行信息过滤,不改变原有网络搜索引擎结构,相对独立,易于升级维护。搜索结果相对公平:由于过滤系统相对独立,可由第三方开发商设计指定,避免网络搜索提供商出于自身利益等考虑而为用户提供的搜索结果。节省用户信息搜索时间:由于垃圾信息减少,节省了用户需要大量打开不同链接查询信息的时间。先进的过滤技术:传统采用内容关键字过滤时,由于某些网站随意修改关键词内容,这样原有的词库不能找到匹配的关键词,从而无法过滤垃圾信息,而行为模式识别技术从垃圾信息的特征行为进行判定,即使进行了关键词内容修改仍可以判定垃圾信息。

5 总结

搜索结果中的垃圾信息,对于用户和搜索引擎自身都带来了极大的负面影响,传统的信息过滤技术已经不能满足对垃圾信息的过滤,通过先进的行为模式识别技术来设计过滤系统,可以增加垃圾信息过滤的准确性,提高搜索结果的正确性,从而满足用户对信息获得的要求。

[1]黄晓斌,邱明辉,网络信息过滤系统研究,情报学报,2004.6(23).

[2]金益,基于网络蜘蛛原理的搜索引擎技术剖析,电脑学习,2007.10(5).

[3]J.Michael Reed,Recognition Behavior Based Problems in Species Conservation,ANN.ZOOL.FENNICL,2004.10.

[4]Xuan Zhang, Jianyi Liu, Yaolong Zhang,Cong Wang,Spam Behavior Recognition Based on Session Layer Data Mining,Fuzzy Systems and Knowledge Discovery,2006.10.

[5]Andy Tseng Ilias Petrounias,A Complete Framwork for Web Mining,IEEE,2003.7.

[6]Lan Jolliffe,Principal Component Analysis,Encyclopedia of Statistics in Behavioral Science 2005.10.

猜你喜欢
模式识别网页文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于CSS的网页导航栏的设计
基于URL和网页类型的网页信息采集研究
浅谈模式识别在图像识别中的应用
第四届亚洲模式识别会议
基于RI码计算的Word复制文档鉴别
网页制作在英语教学中的应用
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
第3届亚洲模式识别会议