龙飞 徐昊
摘要: 当前互联网飞速发展,在社会的各个层面为全人类提供便利。虚拟社会与现实社会的联系更加紧密,使得虚拟社会管理的复杂性日益突出。互联网不良信息泛滥影响着人们的正常生活。如何对互联网不良信息进行实时监控已成为一些部门和机构热切关注的问题。本文对互联网不良信息现状及其产生的原因做详细的分析,研究针对互联网不良信息的监控技术方案,使其能够高速有效地检测出网站中的不良信息,对于检出的不良信息,能够根据要求,进行屏蔽、替换,并且向管理人员提供报警信息及统计信息。
关键词: 互联网不良信息过滤监控
一、前言
互联网是人类智慧的结晶,20世纪的重大科技发明,当代先进生产力的重要标志。电子邮件、即时信息、视频会议、网络日志、网上购物等已经成为越来越多人的一种生活方式;而基于B2B、B2C等平台的电子商务,跨越洲际的商务会议及电子政务等为商业与政府办公创造了更加安全、更加快捷的环境。但是随之而来的垃圾邮件、网络蠕虫病毒、恶意代码、恶意软件等也影响着人们的正常生活。各类违法不良信息泛滥,影响了社会稳定,毒害了青少年的健康成长,侵害了部分网民的合法权益。[2]
据中国互联网违法和不良信息举报中心数据显示,2011年1月至10月,全国各类网络不良信息举报数量达到605692件次,同比增长76.7%。2011年上半年,遇到过病毒或木马攻击的网民为2.17亿人,占网民的 44.7%;有过账号或密码被盗经历的网民达到1.21亿人,占24.9%,较2010年底增加3.1个百分点;有8%的网民在网上遇到通过消费欺诈,该群体规模达到3880万人。仅2011年6月份,我国不良信息与垃圾信息举报数量达77571件次 ,提取各类域名的钓鱼类网站56件次,6月份举报涉嫌淫秽色情及低俗信息网站4077件次,诈骗等违法类网站1993件次。
目前,互联网治理立足于国家相关法律法规政策,依托九部门整治互联网和手机媒体淫秽色情及低俗信息专项行动,坚决铲除整治互联网和手机媒体淫秽色情及低俗信息,全面净化互联网和手机媒体环境,努力建立良好的网络文明风尚。因此切实加强互联网的信息监控管理势在必行。
二、互联网不良信息的分析
早期互联网上的不良信息以“知识型”信息为主。随着互联网的普及,不良信息从单纯的“知识型”信息向“谋利型”转变,而且手段多样、形式复杂。在利益的驱使下大量违反法律、违反道德的不良信息泛滥于网络。
(一)不良信息泛滥的主要原因[1]
1.不良信息的赚钱魔力。互联网是“眼球”经济,在残酷的商业竞争中,不少网站经营者利用不良信息吸引网民的“眼球”,达到赚钱的目的。
2.互联网信息的制造和访问缺乏监管:网民既是信息的阅读者又是制造者,但是面对不良信息,他们既成了受害人,又成了违法人。
3.非民主力量的“别有用心”。一些反人类、反民主的力量也同样存在于互联网上,他们通过不断传播不良信息达到不可告人的目的。
(二)不良信息的分类
根据产生的社会效应和不良后果,一般可以将不良信息分为三大类。
1.“违反法律”类信息。违背《中华人民共和国宪法》和《全国人大常委会关于维护互联网安全的决定》、《互联网信息服务管理办法》所明文严禁的信息,以及其他法律法规明文禁止传播的各类信息。
2.“违反道德”类信息。违背社会主义精神文明建设要求,违背中华民族优良文化传统与习惯,以及其他违背社会公德的各类信息,包括文字、图片、音视频等。
3.破坏信息安全类信息。含有病毒、木马、后门的高风险类信息,对访问者电脑及数据构成安全威胁的信息。目前,病毒制造、传播、牟利的流程完全互联网化,从挖掘漏洞、制造病毒、传播病毒到出售窃取来的账号,都成了一个巨大无比的黑色产业,这对个人及企业的信息安全造成很大威胁。[1]
针对不同形式的不良信息,可以从网络垃圾电子邮件治理、建立非法IP地址“黑名单”数据库;淫秽色情类、诈骗类、攻击党和政府危害社会稳定类、违反社会公德等不良信息监控三个方面入手进行互联网不良信息监控的研究。
三、互联网不良信息监控技术研究的主要内容
(一)网络处理协议及体系结构研究
目前相关的研究大多集中在网关或用户端的信息过滤与自动屏蔽上,通常基于信息过滤技术。信息过滤系统中对信息源数据的获取往往采用网络监听的方法。网络底层信息监听可以采取两种方法:一是利用以太网的广播特性实现,二是通过设置路由器的监听端口实现。网络监听作为信息监测领域一个较成熟的手段,目前这方面的研究仍然占很大比重。但是,采用网络底层的监听技术,需要对已有网络进行较大规模的改动,成本高,灵活性差,对监测点的选择提出了较高的要求,很难有效地应对不良信息传播者的“游击”策略。同时,该方法对于在网络用户端进行信息过滤有较大优势。
(二)面向不良信息的文本分类研究
文本分类是实现不良信息监测的关键技术,目前在这方面的研究较多,这是互联网不良信息监控关注的一个重点。其力求在服务器端实现网络信息实时过滤机制。
(三)不良信息特征提取研究
目前比较流行的互联网不良信息监控技术中还有文本特征的表示与特征提取技术。由于不同领域信息的形式特殊性,可以基于不良信息所具有的特殊词形,进行特征提取,该方法有效改善了传统以词为特征的聚类算法的性能。
(四)实现网页信息获取的爬虫算法研究
网页信息获取是信息监测的前提步骤,除网络底层分析的研究以外,通常都采用爬虫来实现。目前很多研究机构正在研究适合于中小型网站网页下载的爬虫算法,使其信息监控具有良好的性能。
(五)字符串匹配监控的研究
字符串匹配是计算机科学中最古老、研究最广泛的问题之一,在信息检索领域和计算生物学领域,其应用尤为突出。不良信息监测在本质上是文本模式的匹配问题,通过互联网不良信息监控技术可以提高文本模式的匹配速度,达到实时监控。
四、 互联网不良信息监控技术关键点
(一)针对邪教等重复串不良信息的监测方法
此类信息频繁出现且普通基于特征提取方法的过滤技术不易于实现对其监控,需要对此类信息作重点防范。对于此问题,需要深入研究不良信息的形式化表示,研究不良信息形式规则,借助相关理论探索不良信息监测的途径。分析不良信息语法结构,从语义的角度探索机器识别不良信息的方法,在监控服务器端定制针对性模块,制定有针对性的不良信息监控方案。
(二)多类别不良信息识别
通常的互联网不良信息监控只是针对单一类别的不良信息进行监测。然而,在真实的互联网上,许多种类的不良信息往往是混杂在一起的,并没有哪个不良网站会贴上“色情”或“邪教”的标签,表明不良信息的单一性。同时,多个特征库共同应用会增强不良信息监测的效率。随着网络规模的扩大,不良信息的单类别搜索越来越难,实现分布式搜索是进行不良信息监控研究一个关键点。当面向全网的搜索需求日益迫切起来之后,为提高搜索效率,分布式集群搜索的研究势在必行,应用于面向全网的不良信息监测是一个必然的趋势。
五、结语
互联网治理是一个全球性课题。维护互联网的纯洁和干净是所有人共同的责任,也是人类长期奋斗的目标。适应新技术发展,不断提高从用户网到接入网、从IP承载网到核心业务网的监控技术,完善新网络环境下的信息安全制度制定,强化信息安全和等级保护意识,“遏制信息源头,监管信息传播,控制信息访问”,经济、法律与技术手段并用,才能还网络一片净土。
参考文献:
[1]中国互联网不良信息研究报告(2008)http://www.netentsec.com/Report/20090218.html.
[2]冀强.基层公安BBS舆情及有害信息监控研究[J].才智,2009,22:148-149.
[3]叶昭晖,曾琼,李强.基于搜索引擎的网络舆情监控系统设计与实现[J].广西大学学报(自然科学版),2011,36(10):303-309.
[4]陈祥潘,乐文斌.TIPTOP涉密文档违规处理系统的解决案例[J].信息安全与通信保密,2011,1:132-135.
[5]石国岩,李冰.互联网安全技术浅谈[J].信息与电脑(理论版),2011,1:47-49.