大数据助力信息安全研究*

2015-08-02 03:58孙雪萍崔久强
信息安全与通信保密 2015年3期
关键词:分布式计算数据挖掘分布式

孙雪萍, 崔久强

(1上海市人力资源和社会保障信息中合,上海,200051;2上海市数字证书认证中合有限公司,上海,200080)

大数据助力信息安全研究*

孙雪萍1, 崔久强2

(1上海市人力资源和社会保障信息中合,上海,200051;2上海市数字证书认证中合有限公司,上海,200080)

习近平指出:没有网络安全就没有国家安全。 深度打击网络攻击,保障信息安全迫在眉睫。 大数据时代的到来,给网络与信息安全带来了理念革新、技术革新和模式革新的机遇。本文根据国内外大数据及其在信息安全领域的应用现状和发展趋势,提出了面向信息安全领域的大数据分析模型,对其中的大数据分布式计算技术进行了深入研究,并对大数据挖掘分析应用模式进行了设计,为应对信息安全挑战提供可行解决方案。

大数据;信息安全;数据挖掘

0 引言

国家互联网应急中心最新发布的互联网安全威胁报告显示,2014年9月,我国境内被篡改网站数量为11152个,其中被篡改政府网站数量为 430 个。 深度打击网络攻击,保障信息安全迫在眉睫。大数据作为一个重要的生产要素已迅速发展成为工业界、学术界甚至世界各国政府高度关注的热点,对科学研究、经济建设、社会发展和文化生活等各个领域正在产生革命性的影响。 来自知道创宇科技的高级安全研究员林峰表示大数据将安全带入了一个全新、复杂和综合的时代,不安全的那些蛛丝马迹在浩瀚数据的掩护下,正在精准地发起一次又一次的攻击。 但是,大数据带来不安全性的同时,也是保障信息安全的利器。 云计算时代,大数据分析全覆盖已经成为必然趋势,而信息安全更是需要大数据的保驾护航。

网络攻击行为隐藏在海量数据中,在信息安全领域,利用大数据技术整合、计算、分析不同来源的海量数据信息,有助于将网络异常行为数字化,从而有针对性地应对信息安全威胁,找出数据中的风险点,定位攻击源头,查处网络攻击,甚至发现未知特征的网络攻击。 RSA 执行主席亚瑟.科维洛指出,大数据分析将助力信息安全重获警惕性与时间的优势,大数据是应对信息安全挑战的革命性解决方案。

1 研究现状

1.1 大数据上展现状

近年来,伴随着信息技术的高速发展,数据成为促进现代经济社会发展的关键因素,大数据高度重视,为抢占大数据产业发展的制高点,欧美等发达国家纷纷将大数据纳入国家发展战略,并在资金和政策上予以支持。美国政府发布了《大数据研究和发

展计划》,斥资 2 亿美元用于大数据研究;英国政府积极推进数据开放计划,将在大数据和节能计算研究上投资 1.89 亿英磅;法国政府发布了《数字化路线图》,宣布投入1 150万欧元研发 7 个大数据市场项目。 中国也正在积极实施大数据发展战略,“十八大”报告中明确提出网络空间与深海、深空是我们国家核心利益的关键领域。在大数据领域的落后,意味着产业战略制高点失守,更意味着国家安全将在数据空间出现漏洞。 随着互联网各类网络应用的不断深入,中国的大数据技术与应用的快速发展已成为不容忽视的事实。

目 前 国 内 各 ICT(Information Communication Technology) 企业,特别是大型互联网企业,都开始对大数据的存储、处理和应用进行战略布局。 2011年8月,百度作为中国最大的搜索引擎宣布将用三年的时间建立一个全国最大的数据中心。 2012年,腾讯提出了“大数据营销”的概念,表示“将从这些海量数据中挖掘、分辨出用户的行为模式、兴趣偏好等,打造专属于每个人的智慧门户。”在“大数据提高用户购物体验”的旗号下,淘宝根据长尾原理充分利用大数据挖掘技术,建设开放平台,提供各种增值服务。 20l2年8月盛大网络调整了旗下盛大创新院的组织架构,将研究焦点放到了海量数据挖掘与智能推荐技术,发展大数据作为盛大向视频和移动领域进军的机遇,将其作为未来 10年赖以生存的核心竞争力予以高度重视。

1.2 信息安全领域的大数据应用现状

利用大数据技术助力信息安全已成为国际趋势,我国应更多利用大数据迅速发展的趋势和不断完善的技术,让其在助力信息安全中发挥更大作用。 IBM、RSA 以及惠普等纷纷透露自己的大数据安 战略,都要求使用 SIEM(Security Information and Event Management)工具作为大数据安全的基础。 大数据安全的概念是指除了用 SIEM 搜集来的传统的安全事件信息之外,还要加上对海量数据内容的巧妙分析,通过自动化分析处理与深度挖掘将信息安全事件的事中、事后处理,转向事前自动评估预测、应急处理,让安全防护主动起起来,如此才能够找到迅速查明安全问题的更好方法。

2 研究内容

构建面向信息安全领域的大数据平台,自动、智能、快速地对复杂来源的海量数据进行采集,并针对大数据分布式计算特性和算法特性对数据进行统一预处理,形成统一的分布式存储管理系统。 利用分布式计算架构对数据进行快速计算和挖掘分析,针对不同的行业应用特点,以采集的大数据为基础,构建相应的业务模型和可视化分析,从而发现和揭示隐含的要素和关联。 设计面向信息安全领域的大数据平台的结构如图1所示:

图1 平台结构图

2.1 数据源采集

信息安全领域的数据源根据数据类型的不同包括结构化数据、非结构化数据和半结构化数据,主要通过智能网络爬虫技术、数据库读取、数据库导入等方式采集来源于网络信息、应用系统的数据库信息以及平面文件信息等。

2.2 大数据预处理

原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差[3]。 因此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,从而改进数据的质量,提高数据挖掘过程的效率、精度和性能。

图2 大数据预处理示意图

大数据预处理利用数据切片、数据分类、数据聚合、数据索引标记等技术对原始数据进行层级化的聚合、重组、清洗、提取、转换、管理、切分等预处理操作,统一标准接口,统一数据标准,并通过分布式存储管理技术,在满足一致性要求的基础上,实现安全、可靠、快速、有效地对多类型、多格式、多特性数据的统一存储管理。

2.3 大数据分布式计算

大数据分布式计算通过两个或多个计算机互相共享信息,将需要进行大量计算的数据分割成小块,由多台计算机分别计算,再对运算结果进行统一合并。采用分布式任务调度机制动态灵活的将计算资源进行分配和调度,从而达到资源利用最大化,计算节点不会出现闲置和过载的情况并支持资源配额管理[4]。 采用分布式实时计算框架和分布式离线计算框架相结合的分布式计算框架和模块化设计,构建一个支持多种分布式计算模型的统一资源动态调度、管理和计算的大数据分布式计算平台,有效支撑大数据挖掘分析。[5]

图3 大数据分布式计算示意图

2.4 大数据挖掘分析

通过上述数据采集、数据预处理、数据分布式计算等业务过程,大数据已纳入分布式数据存储管理中,这些数据信息已可以用于传统的查询、统计和分析,得到大量对业务有用的信息。 然而,隐藏或淹没在这些大数据之中的更重要的信息,如数据整体特征描述、发展趋势预测、关联性分析、精细化分类、模式识别等,是无法用传统查询统计方法来获取的。为了得到这些有用的信息,需要采用数据挖掘分析技术,自动智能地对大数据分析、探索和挖掘,探寻数据的模式及特征,寻找数据背后的信息变化和价值,从而最终使用蕴藏在数据中的信息和知识。

图4 大数据挖掘分析示意图

数学模型库是针对所有算法的特征,构建的一个通用库,实现了大数据格式的“数据结构定义”。 对算法参数、数学模型库、模型评估体系和挖掘分析的结果等进行统一管理,提供了数据挖掘分析的入口。 根据输入的算法参数,自动调用挖掘分析所用的算法及其相应的模型等[6]。

数据挖掘算法工具库针对大数据分布式存储管理、分布式计算的特性,统一匹配各种数据挖掘算法。 根据不同行业的业务需求,工具库可配置不同的算法进行挖掘分析,具备灵活的动态扩展和分布式任务调度机制。工具库中的算法包括但不限于分类算法引擎、关系网络分析算法引擎和图形算法引擎,算法引擎之间可根据实际的业务数据分析需求交叉使用。

数据挖掘接口封装是屏蔽底层算法的细节差异,统一向上层提供数据挖掘的处理接口。接口封装在保证了系统功能独立的同时增加了系统的可扩展性和灵活性,当与之互联的外围系统发生变化时,只需修改相应接口程序即可。

数据挖掘引擎[7]是在总结、抽象数据挖掘行业类型的基础上,提供预警型、评估型、跟踪型等多种类型的数据挖掘引擎。

数据挖掘应用调度根据电子政务、电子商务的具体业务需求,设计相应的业务模型,具备动较强的态扩展能力。

2.5 信息安全大数据应用

随着大数据技术的不断创新和广泛应用,信息安全领域越来越迫切需要依托大数据处理技术来实现网络攻击的“事前预防”、“主动发现”。 面向信息安全领域的大数据分析平台在大数据采集、预处理、分布计算和挖掘分析的基础上,面向电子政务、电子商务等不同的行业需求提供信息安全保障服务。

3 结语

电子政务、电子商务等关键信息基础设施和重要信息系统正面临着各种网络黑客行为的深攻击威胁,没有网络安全就没有国家安全,信息安全领域打击网络攻击是当前保障国家安全的重要举措。搭建以网络攻击信息多方式收集与分析为基础的面向信息安全领域的大数据分析平台,主动提供钓鱼攻击、诈骗和阻止黑客入侵、数据泄露等信息,促使信息安全保障工作从“被动开展”到“主动发现”。 全面推动大数据处理技术的应用,促进信息安全保障理念革新。

[1]林峰.大数据让网络攻击无所遁形[EB/OL].北京:赛迪网,2013(2013-09-26) [2014-10-30].http: //news.ccidnet. com/art/1032/20130926/5200391-1.html

[2]官建文,刘振兴,刘扬.国内外主要互联网公司大数据布局与应用比较研究[J].中国传媒科技,2012(17):45-49.

[3]元昌安.数据挖掘原理与 SPSS Clementine 应用宝典[M] .电子工业出版社,2009.

[4]刘培松.云计算环境下任务调度和资源分配策略的研究[D].上海:华东师范大学,2013.

[5]王佳隽.基于云计算环境的虚拟化资源管理研究[D].上海:复旦大学,2011.

[6]Anand Rajaraman, Jeffrey David Ullman.大数据·互联网大规模数据挖掘与分布式处理[M],人民邮电出版社,2012.

[7]余永红,向晓军,高阳等.面向服务的云数据挖掘引擎的研究[J],计算机科学与探索,2012,6(1):46-57.

Big Data's Asistance to Information Security Research

SUN Xue-ping1, CUI Jiu-qiang2
(1Shanghai Municipal Human Resources and Social Security Information Center, Shanghai 200051, China;2Shanghai Electronic Certificate Authority Center Co., Ltd., Shanghai 20000, China)

XI Jin-ping points out: where there is no network security, there is no state security.To implement in-depthIt blow on network attack and guarantee information security becomes an urgent task.The advent of big data era brings an opportunity of coneptual technological and pattern innovation to network and information security.According to big data at home and abroad and its application status and development trend in the field of information security, this paper proposes a big data analysis model oriented to information security.Meanwhile the in-depth study on distributed computing technology of big data is done, and the big-data mining analysis application pattern also designed,thus to provide a feasible solution to the challenge of information security.

big data;information security;data mining

TP391.1

A

1009-8054(2015)03-0089-03

孙雪萍(1964—),女,工程师,主要研究方向为信息安全、电子政务和电子商务等;

2014-11-13

上海市科研计划项目(No.14DZ2281100),上海市信息化上展专项(No.201401040)

崔久强(1973—),男,工程师,主要研究方向为电子认证、信息安全、电子政务、电子商务和数字证书等。 ■

猜你喜欢
分布式计算数据挖掘分布式
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
基于云计算的大数据处理与分析综述
基于云计算的移动学习平台设计与实现
云计算中MapReduce分布式并行处理框架的研究与搭建
一种基于Hadoop的大数据挖掘云服务及应用
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL