赵军
摘 要:随着科学技术的进步和互联网的普及,网络信息资源的共享规模不断扩大,互联网已经成为了全球最重要的信息交流载体和主要的交流方式,网络安全问题也日益突出。针对当前基于网络内容过滤的网络信息安全监控现状,对基于内容过滤的网络监控技术中的关键工作以及基本原理和未来的发展进行了探讨。
关键词:内容过滤;网络监控技术
1 引言
进入新的世纪,网络化和信息化不断地改变着我们这个时代,也深刻地影响着我们的生活。信息化发展到现在,它的触角已经伸向了各个领域。网络信息资源的共享规模不断扩大,互联网已经成为了全球最重要的信息交流载体和主要的交流方式,网络信息安全问题也越来越突出。一般的网络都是安装了网络防火墙等保障网络信息安全的设施,但是这些安全措施不能够检查关于信息内容涉密问题,因此基于内容过滤的网络监控技术就显得非常重要,这对网络的建设和发展将会产生重大的影响。
2 基于内容过滤的网络监控技术介绍
过滤的几个基本的步骤对于任何过滤技术都是相同的:首先要知道想要过滤掉什么内容,然后用不同的方法对比要过滤的内容和监控内容,最后把与要过滤内容相同的部分过滤掉。第一步中的过滤内容由人为设定。其中最难实现的是第二步。首先是获取要监控的信息,目前最新的基于内容的网络监控系统DFNMS的架构如图1,其中的七个模块分别对应七种不同形式的信息。它的原理是:首先,伪造一个虚拟服务器,截获信息并向发送者反馈信息发送成功的提示,然后对信息进行比对分析,把不合格的信息过滤掉,把合格的信息发送到目的地以达到过滤的效果。其次是信息的比对和分析。随着互联网的发展,网络中出现了大量良莠不齐的内容,这些内容形式多样,再加上汉语表达博大精深的特点,使得要判断监测内容是否是要过滤掉的不良信息非常困难[1]。而且,网络信息数量庞大,这就要就过滤技术既能准确的识别出要过滤的信息,又能快速高效地完成这个过程。识别不良信息的方法也是各种过滤技术的区别所在。目前国内外的过滤技术主要有四种:基于因特网内容分级平台过滤(PICS)、数据库过滤、关键字过滤以及基于内容理解的过滤。
3 文本内容理解的过滤技术
文本内容的过滤技术主要是在关键字词检索方法的基础上,通过各种语言处理的方法以及数据分析技术通过对文章的内容及语境等要素理解文本的内容,然后发现目标信息的过滤技术。例如我们检查的文本中有“枪支”这个词汇,如果不对其文本的结构和语境就将它过滤掉,就会错误地过滤掉军事理论教材或者军事科普知识等信息。所以文本内容理解的过滤技术在基于内容过滤的网络监控中得到广泛运用[2]。
3.1 文本内容的预处理
文本内容的预处理主要是将信息源中无关的文本剔除,保留和敏感词汇有关联的文本部分,并按照一定的量化指标对文本信息的特征描述字词进行量化分析,然后将对文本具有识别性特征的信息提取出来。这些具有识别性特征的信息能够对需要过滤的文本内容进行有效表达。
3.2 文本内容的匹配算法
文本内容的匹配算法影响着对信息进行过滤的速度,一般情况下它由匹配算法模型来决定。目前在实际操作中常用到的理论模型有向量空间模型和贝叶斯决策模型。向量空间决策模型是将文档用它的特征识别项按照所占的权重来分析的一个高维向量表示,在对文本的过滤分析中就可以运用向量的计算原则,可以极大地降低了工作的复杂性。但是该方法也有缺点,因为在对文本特征识别项的权重确定方面很难做到精确,所以对文章的计算量较大。而贝叶斯决策模型是依托贝叶斯理论而建立的。在文档识别的时候,它首先是对文档的所属类别进行分类。文章分类的概率等于有识别性特征的信息所属概率的综合表达,最后根据总和概率的计算选出概率最大的类别文档作为需要过滤的内容。
4 图像内容分析的过滤技术
所谓图像内容分析过滤技术是指,基于图像所显现的色彩、纹理、形状以及图像内容的空间关系等显性特征作为索引,利用图像的这些外观特征的相似度和匹配程度进行过滤的技术。图像内容分析过滤技术还被广泛地应用其他图像特征和语义特征的图像内容进行判定。目前为止,图像内容分析过滤技术的最主要研究手段就是机器学习,从丰富而复杂的图像信息中找到规律性的特征,然而,很多时候计算机无法从海量的图片信息和千变万化的图像中准确地识别需要过滤的图像,尤其是在全局视觉内容不能很好地表现图像语义的时候,计算机对图像的区分就显得比较困难。影响这项技术发展的因素主要有图像的内容过于丰富或者图像处理复杂,要解决这样的问题,还需要从以下几个方面努力[3],首先,是叙述问题的数学建模;其次,是叙述语义特征和图像内容;然后是规律和标准的建立;最后是图像相似度的标准以及索引的技术。随着最近几年来科学知识和计算机技术的高速发展,很多技术都得到了相应的进步,图像内容分析过滤技术也同样获得了可喜的进展。
[参考文献]
[1]彭昱忠,元昌安,王艳,等.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009(02):33-36.
[2]李振星,陆大珏,任继成,等.基于潜在语义索引的WEB信息预测采集过滤方法[J].计算机辅助设计与图形学学报,2012,16(01):147.
[3]孙莉娜.企业网络监控技术初探[J].煤炭技术(Coal Technology),2013(02):34—36.