摘要:网络安全过滤技术是保障公众上网安全的主要技术。随着网络技术的快速发展,人们在享受便利快捷的服务的同时,也不断承受着网络病毒、木马和不良信息的危害。该文将云计算网络爬虫技术及云服务模式引入传统安全过滤系统中,为大范围用户网络安全访问提供了一种高效灵活,可持续发展的解决方案。
关键词: 云计算;网络爬虫;信息过滤;不良信息
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)02-0245-02
随着互联网的流行,互联网技术也随之飞速发展,社交网络(SNS)、网上银行、电子商务、多媒体等应用服务在丰富人们工作生活体验的同时,也带来了安全隐患。非法内容、淫秽图像、暴力视频和赌博网站等大量不良信息在网络上泛滥,在危害成人身心健康的同时,也对大量青少年网民造成了极大的危害。于是,诞生了各种网络不良信息过滤技术和相应的软件及产品,以用于净化网络环境。
1 网络不良信息过滤技术发展现状
当前,网络不良信息过滤技术主要可分为三大类:内容分级过滤、网址过滤(IP和URL)和内容过滤。
1)内容分级过滤
内容分级过滤就是对网络信息进行分类别和等级进行过滤的方法,需要预先按照一定的分级标准对网页或网站化分类分级,当用户访问时根据分级标记决定是否能够访问。其中分级包括两种方式:自我分级和第三方分级。自我分级是由网站管理者针对自己网站的内容,在不同的向度下给予适当的标记,并将等级标签嵌入网页原始码或表头中。第三方分级是由第三方组织机构针对网站内容给予各向度的分级,分级标签则是透过标签机构分发。用户在使用时,通过浏览器、安全软件、网络安全设备等方式,下载所需的过滤分级分类档案,以实现安全上网。内容分级过滤方法的优点是覆盖面范围广泛,管理成本低,效果较好,有助于简化互联网管理体系。其缺点是自我分级的质量难以保证,而第三方分级组织又很难形成规模和公信力。
2)网址过滤
网址过滤主要是通过对互联网信息进行分类后,精确地匹配URL和与之对应的页面内容,形成一个预分类网址库。在用户访问网页时,将要访问的网址与预分类网址库中的网页地址进行对比,以此来判断该网址是否允许被访问。通常情况下,需要维护两种类型的列表,黑/白名单,由于保存维护,禁止访问网站和被允许访问网站的URL。URL地址列表一般由第三方管理者,根据一定的标准来收集和编制。网址过滤的优点是过滤准确率高、实现简单、成本低。其缺点是由于互联网不良信息资源每天都在不断的增加和变化,因此URL列表需要不断的更新和丰富。
3)内容过滤
内容过滤技术能较好的动态辨别文档图片等信息的实际含义,其方法类似于信息检索,往往采用与信息检索相似的技术,目前已有一些算法主要有:关键词匹配法、潜在语义索引法、神经网络法和多媒体信息过滤法等。内容过滤的优点是可以通过实际语义和图片等信息过滤不良信息。其缺点是计算量巨大、速度慢、效率低、资源开销严重,会使用户网络体验感和网络应用服务质量严重降低。
上述三种安全过滤方式都具有较好的过滤效果,和比较明显的缺陷。该文推出一种基于云模式的新型过滤系统,通过以上三种方式的混合应用,及云计算模式的引入l/LGhtjR+h0/TtAzma3bfw==,依托于安全网关等安全设备,可有效保障大范围用户访问网络绿色安全。
2 云计算引入安全过滤系统的必要性分析
据Google调查,当前互联网上的网页数量以每天一亿的数量急速增长。传统过滤方法已经不能够适应当前互联网的需求。对数据存储和处理要求也已经远远超出了当前本地数据库能力。
云计算(Cloud Computing)是在2007年第3季度才诞生的新名词。它是一种新型商业计算模型,它将计算分布在大量计算机构成的资源池上,使用户能够按需获取技术力、存储空间和信息服务。用户可以动态申请部分资源,支持各种应用程序的运转,无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于提高效率、降低成本和技术创新。因此业界推出了利用数据云实现安全过滤的构想。
该系统通过数据云安全过滤机制,实现基于云技术的不良信息网站URL收集、分类处理及发放策略,并不依赖于本地数据库有限的资源进行分析与检测,也不依赖于数据库更新最新的URL分类,利用的是专门的分类服务器群,根据实际网络的使用与普及方式对网页内容及语义进行全面分析后的分类。与传统的云不同的是,真正做到了云的客户端自动主动地去云的服务器端获取所需的数据,而不是单纯的基于云服务端的定时推送更新方法。
3 基于云模式的新型过滤系统设计与实现
该过滤系统分为两大部分,分别是综合安全网关和云过滤平台,如图1所示。
图1 系统结构图
其中云过滤平台主要通过基于云计算的网络挖掘技术和网址、分类、关键词、内容等过滤技术及设备的部署,实现URL病毒库、分类库的建立和运维更新。综合安全网关,主要部署于用户网络出口处,通过云过滤平台提供的URL病毒及分类库,快速实现用户绿色安全上网的需求。并通过入侵防护、病毒过滤、反垃圾邮件等功能,实现数据的第二轮检测,并将检测出了不良或可疑URL等信息,发送给云端做深度检测,以实现云端URL病毒、分类库的不断更新完善。
4 总结
本文将云计算中的网络挖掘技术,引入了网络安全过滤系统中,通过用户端安全网关和云端云过滤平台,两部分的综合大范围部署,既实现了用户快速安全灵活访问网络资源的需求,又通过云端网络挖掘技术和用户端提供的最新不良或可疑URL信息丰富了系统URL库的即时性和针对性,形成了一种良性的循环,促进了整体安全系统的不断更新和完善。而且随着未来新技术的发展,只需在云端应用最新过滤技术及安全设备,用户端维持URL库和分类库的更新即可。
参考文献:
[1] M.Roesch. Snort: Lightweight Instrusion Detection for Networks[R]. In Proceeding of the 1999 USENIX LISA Systems Administration Conference, November 1999:41-47.
[2] M.Fisk, G.Varghese. An Analysis of Fast String Matching Applied to Content-Based Forwarding and Intrusion Detection[R]. Technical Report CS2001-0670 (updated version), University of California-San Diego, 2002:34-43.
[3] 怀特 (Tom White) , 周傲英, Doug Cutting.Hadoop权威指南[M].2版.周敏奇,等,译.北京:清华大学出版社,2011:170-211.
[4] 禤汉元,陈元琰. 入侵检测系统中多模式匹配算法的研究与改进[J]. 广西师范大学计算机科学与信息工程学院,2011: 83-111.
[5] 麦克纳布(Cbris McNab).网络安全评估[M].2版.王景新,译.北京:中国电力出版社, 2010: 45-167.
[6] 赵炯. Linux内核完全注释修正版[M]. 北京:机械工业出版社, 2006:79-124.