赵佳璐 李格菲 葛晓囡 朱 磊 韦宇星 严毅恒 阿依登·塔布斯
1(国家信息中心 北京 100045)
2(广西警察学院 南宁 530028)
3(广西壮族自治区信息中心 南宁 530201)
4(上海市公安局网络安全保卫总队 上海 200040)
5(新疆维吾尔自治区公安厅网络安全保卫总队 乌鲁木齐 830099)
随着网络安全等级保护工作的广泛开展,测评过程中不断产生并积累大量的测评数据,目前,这些数据普遍归档于各责任单位、主管部门、监管部门及各测评机构中,并未对其进行充分分析和有效利用.当前,全球网络安全形势日益严峻.全社会各部门如何在现有工作的基础上有效应对网络安全风险、确保自身重要数据安全成为当务之急.
本文以合规有效实用为前提,根据测评数据的特点,采用数据挖掘算法,创新性地设计了包括数据分类、数据再利用流程、典型应用场景3个维度的网络安全等级保护测评数据再利用模型,统计分析测评基础数据并进一步采用聚类分析等方式深度挖掘数据.最后,通过对政务领域测评数据的聚类挖掘证明了该模型的可靠性和实用性,为上述单位应对网络攻击提供了新思路和新方法.
随着信息技术的飞速发展,各类网络安全设备和信息系统已经渗透到社会经济发展和人们生活的方方面面.因此,网络安全问题成为全球日益关注的焦点.
网络安全等级保护制度是应对网络安全事件的关键措施之一,以对不同类型、不同等级的信息系统实施相应级别的安全防护[1].网络安全等级保护测评是一种对信息系统进行安全评估的方法,旨在确定系统安全性的等级,并验证系统是否满足该等级的安全需求.测评结果可为决策者提供对系统安全状况的参考,从而制定和执行适当的防护措施[2].然而,传统的测评数据一般仅限于生成单次测评过程文档和最终报告,未将数据汇聚并进行充分分析与挖掘应用,浪费了数据巨大的应用价值.
1.2.1 测评数据再利用的意义
通过深入分析和挖掘测评数据,可以实现数据资源的重新整合和最大化利用,产生新的知识和新的价值.具体概括如下:
1) 历史趋势和模式的识别.测评数据包含大量的历史信息,通过分析过去的安全事件、问题和解决方案,可以揭示出特定的趋势和模式.
2) 安全预警和预测.利用历史数据可以构建预测模型,预测未来可能出现的安全问题,从而实现安全预警目标.这种预警和预测能力是提高系统安全性的关键因素.
3) 系统安全性能优化.通过对历史测评数据的深入挖掘,可以找出本单位的网络安全弱点和痛点,提出相应的优化措施,持续提高本单位系统的安全性能.
4) 决策支持.根据数据分析的结果,为网络安全主管部门的决策提供依据,协助其制定更科学、更有效的安全策略和管理措施.
1.2.2 测评数据再利用面临的挑战
一方面,测评数据的解析和处理需要大量的专业知识,这在一定程度上限制了数据再利用的可能性.例如数据的整合和清洗工作,测评数据来自不同的测评系统、测评机构,存在数据存储不一致、数据冗余、数据值缺失、数据包含噪声等问题,需要进行数据整合和清洗,以构建一个统一可用的数据集.此外,需要选择和应用适当的数据分析方法和工具,构建有效的数据再利用模型等.
另一方面,由于测评数据的敏感性,在数据的存储、传输和处理过程中,需采用正确的数据脱敏手段,以防止数据被非法访问、泄露或滥用[3].
模型框架包括数据分类、数据再利用流程、典型应用场景3个维度,如图1所示:
图1 网络安全等级保护测评数据再利用模型框架
首先,将数据按照应用场景进行分类,统计分析测评基础数据,形成不同角度的分析结论;其次,利用测评基础数据以及初步分析结论作为输入,根据各方应用需求构建基于数据挖掘的测评数据再利用模型,提供关联分析、分类分析、聚类分析等功能,深入挖掘数据背后的信息.数据最重要的价值在于应用,为将数据真正应用到相关行业,根据多年测评经验以及技术实践,从系统单位、行业主管部门、监管部门、测评行业等角度出发分析典型应用场景,将数据以清晰易懂的方式展示出来,从而帮助相关各方安全有效利用数据,以数据作为一个强力支撑,为构建网络安全体系发挥积极作用.
等级测评工作包括4个基本测评活动:测评准备活动、方案编制活动、现场测评活动、报告编制活动,每项测评活动都有相应的工作流程和输出文档[4].测评基础数据主要从测评报告中获取,数据分类情况如表1所示.
表1 测评基础数据类型
测评基础数据具有多样性、敏感性、动态性、完整性、规范性的特点,如表2所示.不仅是数据挖掘的基础,其自身也具有很高的数据支撑价值.
表2 测评基础数据特点
1) 资产数据.
统计分析资产数据信息,从存储、操作系统、数据库、中间件等多个层面,了解相关国产化产品发展现状、国产化产品替代能力以及不同行业基础设施国产化率,分析信创供应链发展情况.
2) 评估和结论数据.
从大量系统的评估和结论数据中统计问题类型、原因、风险程度、整改建议等信息,深入分析单位安全管理能力、技术措施防护能力、应急保障能力、等级保护执行情况等,为单位整体安全发展提供数据支撑;统计行业内所有单位系统数据,分析行业整体安全态势,为网络安全攻防演练提供数据支撑.其中,漏洞扫描报告和渗透测试报告作为测评报告的附件,也可以直接被相关方利用,从中获取系统漏洞信息,全面评估系统的安全性.
3) 系统、用户和管理数据.
根据系统数据和用户数据,统计各单位系统数量、系统类型、系统架构等信息以及建设单位和运维单位支撑数据,深入了解各单位信息化发展情况;同时结合管理数据,共同为单位信息化主管部门等级测评、风险评估等安全服务提供经费、配合时间人员参考,更好地开展信息化工作.
2.3.1 数据预处理阶段
数据预处理阶段主要针对测评基础数据进行数据脱敏、数据清理[5]、数据转换等,达到数据挖掘模型所要求的数据格式,增加数据挖掘效率和准确率[6].由于测评基础数据中的系统漏洞IP地址、网络拓扑情况、单位名称等属于敏感数据,需要首先根据数据挖掘场景制定不同的脱敏策略,保证数据可用性和安全性的平衡.
2.3.2 数据分析阶段
数据分析阶段主要结合实际应用需求,研究待挖掘数据,分析数据集中各字段对数据挖掘的影响程度,为数据建模作准备.
2.3.3 数据建模阶段
数据建模阶段首先根据应用需求以及数据集特点建立模型,然后经过多次实验验证模型适用性,分析数据挖掘结果,不断调整模型.
2.3.4 数据可视化应用阶段
数据可视化应用阶段主要是分析挖掘结论,并将结论可视化展示给各相关方,从而帮助其安全有效利用数据.
2.4.1 掌握单位整体安全防护情况
从系统所在单位整体安全防护角度看,等级测评工作定期进行,不断产生大量的测评数据.通过分析研究发现,同一单位多系统的测评数据再利用可以有效助力其安全管理和维护工作.例如,单位可以通过对多系统测评数据的分析,发现各个系统中的共性安全问题或系统间可能存在的安全漏洞.从而可以针对这些共性问题和漏洞制定出统一的安全防护策略,在减少运维压力的同时提高单位的整体防护能力;对同一系统多年测评情况的总结及数据再利用,可以帮助单位了解系统的安全性随时间、经费支持、整改措施的变化情况,以及系统的安全问题是否得到有效解决,随着新的安全措施的施行是否出现新的衍生安全问题,系统的整体安全性能是否有所改善,从而帮助单位更好地规划未来安全发展.
2.4.2 主管部门掌握行业安全态势
从行业主管部门对行业安全态势掌握的角度看,测评基础数据以及挖掘结论是其掌握行业安全态势、施行有效管理的重要工具.具体来说,行业主管部门可以对测评数据所揭示的各个系统的安全问题进行详细分析,识别出行业内普遍存在的“主要矛盾”及可能出现的系统性风险,并根据这些问题制定并推广全行业的防护策略或行业标准,提升整体的安全性.另外,通过分析行业整体安全趋势,当发现整体安全性能下滑或新的安全风险出现时,主管部门就能及时介入,制定应对策略.最后,在安全管理上,行业主管单位可以在不同系统、不同单位或不同地区间进行横向安全对比,推动安全工作相对落后的系统、单位或地区进行改善,同时促进安全工作较完善的系统、单位或地区的经验分享,从而提升整个行业的安全管理水平.
2.4.3 协助监管部门阻断网络攻击
从网络安全监管部门阻断网络攻击角度看,测评基础数据以及挖掘结论可以帮助监管部门有针对性地进行网络攻击的预警、研判和应对.首先,测评数据可以为监管部门提供详尽的网络空间资产数据、安全隐患、设备人力配置等安全性信息,形成网络系统资产完整画像,通过对潜在弱点和漏洞的揭示,监管部门可以了解整个网络系统中最短板,从而主动动态调整相应的防护策略,完善网络安全防护措施,提高抵御网络攻击的能力.其次,测评数据可以帮助监管部门对网络攻击进行针对性的预防.通过对攻击行为进行跨时间比较和趋势分析,形成网络攻击预警模型,监管部门可以预见未来可能出现的安全威胁.如数据显示某种新的攻击方式发生的频率正在增加,监管部门就可以提前制定相应的防御策略,避免或减轻其对网络系统的影响.此外,监管部门还可以利用测评数据进行精细化的网络安全管理.通过对不同类型、不同规模或不同行业的网络系统的测评数据进行对比分析,监管部门可以了解各类网络系统的安全状况,分析其独特的安全问题和需求,进行有针对性的技术支持及安全监管,进一步完善各行业网络安全的顶层设计和建设规划.
2.4.4 测评行业服务国家战略
从促使整体测评行业更好地服务于国家网络安全战略的角度看,对测评数据的再利用可以帮助测评行业提高服务质量,更好地服务于国家网络安全战略.例如,各测评机构通过大量测评数据可以了解常见的安全问题和对应实践有效的安全措施,进一步调整优化测评流程和方法,使其更具针对性.此外,通过对测评结论的趋势分析,各测评机构能够了解自身服务是否有所改进以及用户的安全状况是否有所提升,在提升自身服务质量的同时增加用户的信任和满意度.最后,测评数据的再利用可以帮助测评行业持续学习和创新,在网络安全技术不断发展、新的安全威胁不断出现的今天,测评机构需要通过不断自我革新,才能持续提供高质量的服务,更好地服务于国家网络安全战略.
测评基础数据挖掘步骤包括数据预处理、数据分析、数据建模、数据可视化应用4个阶段,根据应用场景的不同,选择不同的数据集,采用关联分析、分类分析、聚类分析等方式对数据进行深入挖掘,从而得到需要的数据.本节以聚类算法在测评数据中的应用为例,通过聚类把系统分为具有不同特征的几大类,分析研究各类的特征和薄弱点,针对性地提出安全方案.
本文聚类分析需求是通过测评基础数据中10个安全层面的扣分情况,聚类挖掘不同类别系统隐含的信息.
基于数据集特点,选择基于划分的聚类算法K-means进行聚类,即把所有的数据对象划分成N个不同的部分.其基本思想为:把整个数据集分成K个簇,质心为每个簇的平均值,经过不断地循环,当每个中心点不再发生变化时停止.此时每个簇内相似性最大[7].
确定数据集和聚类算法后进行聚类分析.首先通过手肘法确定K值,然后采用IBM SPSS Modeler进行聚类分析.
测评数据挖掘结论可视化与展示可以大大提高数据的易用性和价值,帮助各方更好地理解和利用数据,包括数据分布图、趋势图、关系图、数据报告等方式.例如:通过数据分布图展示不同类型的安全事件的数量分布;通过关系图展示用户行为与安全事件发生的关系;通过趋势图展示系统安全性能的变化趋势等.
基于多年政务领域等级保护测评经验,本节利用政务信息系统等级保护测评数据,结合数据再利用模型,采用聚类分析技术进行数据挖掘实验,通过实验结果分析得出结论,为各相关方提供有效参考.
实验初始数据集为260个政务信息系统的扣分项汇总表,每个系统的扣分项汇总表初始导出结果如表3所示.汇总所需数据、汇总结果如图2所示.
表3 扣分项汇总表
图2 汇总结果
基于数据集特点,采用基于划分的聚类算法K-means进行聚类,通过手肘法确定K值为4.将数据集和模型参数输入IBM SPSS Modeler,得到聚类分析结果.
根据每类系统的分类情况,聚类分析结果如表4所示:
表4 聚类分析结果
4类系统基本对应等级保护测评结论的优良中差,第2类系统最多,其次是第3类,2级系统得分普遍高于3级系统,聚类结果较为合理,下面对每一类进行详细分析.
第1类系统共42个,其中3级系统8个,2级系统34个,此类系统各层面扣分较少,技术和管理防护较为全面,且部分系统为采购的定制化成熟产品,例如档案管理系统.其中2级系统较多,因为安全防护要求较3级低,易扣分项少.3级系统均为单位重要信息系统,包含大量重要业务数据和个人信息,安全防护要求高,有较为完善的制度体系和运维流程.
第2类系统共126个,其中3级系统69个,2级系统57个,此类系统占比最大,各层面扣分相对第1类较多.管理问题主要包括:网络安全岗位不足,人员短缺;网络安全制度体系不全面,部分操作规程及记录表单缺失,无法将网络安全落到实处;未针对重点岗位人员签订安全保密协议及岗位责任协议;未依据网络安全应急预案定期开展应急培训和应急演练;数据安全、个人信息保护不够完善等.技术问题主要包括:部分服务器未安装杀毒软件或病毒库未及时更新;未部署恶意代码防范系统,无法对其进行检测和清除;口令复杂度策略及口令有效期策略安全强度不达标等.针对以上问题,相关单位应进一步落实安全工作责任,做到权责分明、分工有序;及时修复漏洞,做好网络安全监督检查工作;强化网络安全技术保护措施,落实网络安全法要求;加强应急体系建设,提高预防和处置突发事件的能力.
第3类系统共62个,其中3级系统44个,2级系统18个,部分技术层面扣分较多,建设和运维管理层面扣分较多,此类系统仅具备基本的日常维护,除存在第2类系统所包含的问题外,还存在弱口令、开启不必要端口、安全教育培训不到位等问题,需各单位继续加强网络安全保障体系建设,逐步提高自身的网络安全防护能力.
第4类系统共30个,其中3级系统28个,2级系统2个,此类各层面扣分较多,大部分是使用频率较低建设时间较长的系统,且缺乏日常运行维护.
由于等级保护数据具有敏感性,所以实验数据集较小,可能导致数据挖掘结果并不全面.此外,还可以继续加入其他数据,例如系统资产情况,重新进行聚类分析,得出相应结论.
本文基于数据挖掘技术,针对测评数据再利用需求,设计了包括数据分类、数据再利用流程、典型应用场景3个维度的网络安全等级保护测评数据再利用模型,通过聚类分析等方式对数据进行深入挖掘,让测评数据赋能相关行业,辅助决策,为网络安全保护带来新的视角和解决方案.
在新一轮科技革命和产业变革加速演进的今天,推进数据挖掘再利用任重道远.如何对测评数据进行脱敏、如何收集整合全行业测评数据以及如何将数据分析结果更好地应用在各行业中,是需要继续研究的重点内容.本课题组将持续关注最新的技术进展,并积极探索和应用新的数据脱敏手段和数据挖掘技术,让网络安全等级保护测评数据以及其他合规性检测数据在未来发挥更大的价值,共建联防联控的网络安全保护体系.