网络有害信息的发现机制研究综述

2010-08-15 00:42:56林向阳

网络安全技术与应用 2010年1期

关键词：有害信息关键字分词

林向阳

中国移动通信集团福建有限公司福州分公司支撑中心福建 350001

0 引言

互联网的快速发展使得人们可以很方便的获得各种信息，与此同时，抵御互联网上的反动、淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。如何监管和控制这些有害信息，使之不会对互联网和国家社会造成危害，是一个颇具研究价值的课题。

互联网上主要有两类有害信息：一类是反动、色情、迷信、谩骂和机密等有碍社会公德和不便公开的信息；另一类是会影响互联网本身和用户计算机安全的不良代码，如特殊控制、计算机病毒等。

1 网络有害信息的发现研究

网络有害信息的发现机制主要有主动发现和被动防御两种方式。主动发现的方式主要有基于搜索引擎的有害信息主动监测，被动防御的方式以网络内容过滤为主。

1.1 基于搜索引擎的有害信息主动监测技术

采用主动扫描探测方法进行有害信息监控的系统，首先要设计网络蜘蛛模块，实现对html、asp、php和jsp等网页的自动抓取，采用算法实现中文分词，开发信息索引模块，实现对网页的批量和增量索引，并且包含有害信息检索模块，实现有害信息监控及预警功能。

搜索引擎，概括起来其组成大致分为四个部分：

（1）搜索器。主要完成互联网上获取网页和链接结构信息进行分析处理；

（2）索引器。理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表，为用户检索奠定基础。索引器可以使用集中式索引算法或分布式索引算法；

（3）检索器。用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制；

（4）用户接口。主要作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎，高效率和多方式地从搜索引擎中得到有效并且及时的信息。

1.2 内容过滤技术

内容过滤技术一般包括名单过滤技术、关键词过滤技术、图像过滤技术、模版过滤技术和智能过滤技术等。

现阶段的内容过滤技术主要分为基于网关和基于代理两种，二者都不能解决的问题是对网络速度的负面影响。而且因为是串行处理，如果网关和代理出现故障都会使网络不通。

目前过滤技术大多在网络处理的应用层实现，适应性和安全性较差。基于网络层的实现，最大的挑战有两个方面：首先，应用层分析技术必须全面，因为直接对网络包进行应用层分析，需要充分了解需要过滤的所有应用在网络层是如何实现的。其次，是实现兼容性，为实现与操作系统网络底层处理融合，需要充分了解操作系统网络实现机制，甚至替代部分功能，如何不影响操作系统的原有功能是相当困难的，特别是在Windows环境缺乏底层资料的情况下。

1.3 有害信息监测的核心技术

有害信息监测的核心技术包括分词技术、文本内容分类、关键字识别、变形关键字识别、锚文本分析、有害代码特征识别等。

1.3.1 分词技术

对网页进行监测时需要进行特征项的提取。对于英文文本，一般是进行词汇的提取，由于词汇之间有天然的分隔符(空格)，所以特征项的提取比较容易。中文信息没有这个特点，所以必须采用中文分词技术，把没有词汇标示的中文句子，通过某种特殊的技术切分出词汇。现有的分词算法可分为三大类：基于字符串匹配的分词方法(机械分词方法)、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法也称为基于词典的分词方法是目前三种分词方法中最快的。影响这种方法分词速度的因素主要有两点：词典的结构以及匹配算法。

1.3.2 文本内容分类

文本内容分类是一个广泛研究的课题，它的任务是把一篇文章分类到一些预定义的类型中。在对网页进行监测时可以通过文本分类的方法，把网页分为有害信息网页和普通信息网页。现有的文本分类方法有支持向量机(SVM)、决策树、Nearest neighbor、algorithm等。这些训练过程的基本思路都是从文章中抽取出一些特征关键词，根据这些关键词在文章中的出现次数对文章进行向量化之后进行训练。

1.3.3 关键字识别

1.3.4 变形关键字识别

为了逃避过滤，不法分子会故意将留言中的关键字进行适当变形后进行提交。关键字常用的变形方法有同音字法、拼音法、字词颠倒法、字词间加其它字符串、以及多种变形混用法等。

由于关键字特征被完全打乱，基本上找不到可以匹配的关键字。因此首先根据关键词识别的情况，就可以判断出属于此类问题。然后只要采用矩阵的转秩算法就可以将这段文字恢复回正常的顺序，最后再进行过滤。

1.3.5 锚文本分析

每一个超级链接都有一个描述文本即锚文本，这个文本反映了该网页与该链接所至网页的某种关系，是互联的关键所在。通过分析这个描述文本，就可以得到网页之间重要的关系。导向词是一组关键词，它们会引导搜索器按照一定顺序搜索网络。通过设置导向词以及对应的权值，锚文本中含有导向词的网页会被优先进行信息采集。权值的设定有根据经验手工设定和采用程序进行特征提取两种方法。

1.3.6 有害代码特征识别

网络上除了有碍社会公德的有害信息外，还存在影响互联网本身和用户计算机安全的不良代码，如特殊控制、计算机病毒等。计算机病毒等可以通过各类防火墙的杀毒模块进行查杀，而在网络论坛上可以通过BBS提交的恶意代码，则是网络过滤的重点。

基于浏览器的BBS不仅能发表文字信息，而且还能在信息中加入超文本代码。如果这些超文本代码含有有害指令，轻则会使用户显示异常，重则会传播病毒，甚至会在客户机上安装木马程序等。因此需要过滤掉发言信息中有害的代码。

（1）可执行代码的过滤

2.5 两组手术前后CSI及BSI比较术前，两组CSI及BSI比较，差异无统计学意义(P>0.05)；术后，两组CSI及BSI均下降，组间比较差异无统计学意义(P>0.05)。见表5。

HTML是一种标记语言，即在普通文本中插入一些标记(Tag)来控制文本的显示属性。通常HTML本身不具有执行程序的功能，但HTML支持插入功能各异的ActiveX控件，如一般的客户端浏览器就支持非常流行的VbScript脚本语言和Java.Script脚本语言。为使调用Script脚本语言的代码失效，可以用“<”代替“＜”。因为“<”是“＜”的转定义字符，浏览器在解释“<”时会把它当作“＜”来处理，但它这时不会把“＜”作控制符看，而只是把它当作显示字符。为避免大小写混写的“＜Script>”查不出来，可使用Lcase()函数先把字符串变成小写再查，这样就限制了“＜Script>”后面的脚本程序的执行，同时将代码显示出来。

（2）贴图代码的过滤

在BBS中，文字可使用过滤的方法进行处理，图像信息和视频信息目前却无好的解决办法。通常的做法是在BBS中禁用贴图和加视频流的代码。在HTML中，除了正常的贴图指令＜IMG SRC=“…”>以外，还有很多可以贴图的非正规指令，也必须一一找出来加以过滤。

（3）其它代码的过滤

除上述代码外，还有一些代码如果出现在BBS中，也有可能造成危害，因而需要在过滤程序中将这些代码过滤掉，如包含页代码＜IFRAME>＜／IFRAME>，可以在页面中插入任何其它页面；自动跳转页面代码＜meta http-equiv=“refresh”content=“3；url=http://……/newpage.htm”>可以将页面从当前页跳转到任何页面。如果包含页或跳转页面含有有害信息，则客户机同样将受到危害。因此这两条指令也是需要过滤掉的。一般来说，在BBS中需要过滤掉的代码有＜img，background，＜embed，＜input，＜iframe，＜object，＜applet，＜script，＜meta等。

2 结论

网络有害信息的发现和处置方面还有很多研究工作要做，以下几方面值得考虑：

（1）为提高信息查找的准确性，还需要进一步研究采用语法和语义分析，自然语言理解等技术；为了提高信息获取的效率，更好的适应网上各种机器环境，还需要进一步研究采用分布式的多智能体系统协同工作。

（2）现有的面向互联网上的智能检测还不能令人满意地解决中文信息的查询问题，还有必要在汉语分词、汉语的信息提取和理解等方面进行研究，以期获得更为理想的监控过滤效果。

（3）内容过滤技术最终的发展方向必然是实时、准确、智能地进行内容分类。中文的词义／语义分析和图形的识别需要进一步研究和实用化。

（4）基于高层协议解析的入侵检测是未来的入侵检测技术方向。

（5）由于HTML语言特点，使得Web信息的组织结构性很差，如何利用XML语言更有效地实现对Web有害信息的挖掘，是值得研究的方向。

未来的研究需要把网络有害信息的发现与各类网络安全技术结合起来，创造出更加安全、更加干净的互联网络环境。

[1] 王艳华.一种基于人工神经网络的有害信息实时动态监测系统模型及其实现.燕山大学学报.2004.

[2] 张晓梅,苏斌,王竹林,杨柳.基于搜索引擎的有害信息监控系统的设计与实现.铁路计算机应用.2007.

[3] 黄东平,田芳.BBS信息过滤技术研究.长江大学学报(自然科学版).2004.

[4] 刘宗仁.网上内容过滤技术的现状及面临的问题.现代情报.2005.

[5] 唐文荣.网络有害信息识别和控制技术.西安交通大学硕士学位论文.2003.

[6] 宋治国.数据挖掘在Internet有害信息过滤中的应用.山东师范大学硕士学位论文.2006.

[7] 马骊.基于搜索引擎技术的警情信息搜集系统的研究与实现.山东大学硕士学位论文.2006.