孙夫雄 吕 锦 曹 甜
(中南财经政法大学信息与安全工程学院 湖北 武汉 430074)
近年来,我国互联网技术飞速发展,网络需求不断扩大,网络用户也越来越年轻化。根据中国互联网信息中心(CNNIC)的报告,截至2016年6月,我国互联网普及率达51.7%,与2015年底相比提高1.3个百分点,超过全球平均水平3.1个百分点,超过亚洲平均水平8.1个百分点[1]。随之而来的是日益突出的网络安全威胁和风险,因此网络安全是事关国家安全和国家发展、事关广大人民群众工作生活的重大战略问题。建设信息安全保障体系是应对网络安全威胁的有效措施,保障体系中人是最重要的安全因素之一,相关统计显示90%网络安全问题是由于缺少安全意识引起的[2],即信息安全有关人员安全意识淡薄[3]、网络用户对计算机的了解程度低、网民整体素质良莠不齐[4]等因素给网络安全带来严重的威胁。
人作为体系中最薄弱的一环,仅仅依靠技术手段无法显著地提高信息系统的安全水平,必须加强人员的安全管理,而准确且客观地评估和鉴定人员的信息安全意识水平是重要的管理步骤。本文研究了信息安全意识ISA(Information Security Awareness)水平的评估方法。
针对日益严重的网络安全威胁,在信息安全人才与信息安全意识培养领域,国内外学者进行了大量卓有成效的研究。文献[5]研究了个人的信息安全意识和个人差异变量,即年龄、性别、人格和冒险倾向之间的关系,研究发现知识水平对信息安全意识的影响最大。文献[6]提出了基于知识、态度、行为的HAIS-Q模型,用于评估公司员工的ISA水平。Waly等[7]在其博士论文中系统地研究了信息安全意识培训的目标、实施方案对组织信息安全的影响。文献[8]指出即使目前有许多硬件和软件机制应用于加强信息系统安全,但由于操作人员的不良行为,信息系统仍然处于易受攻击状态,强调了人的因素对信息安全的重要影响。Marks A[9]定量实证调查了435个高等教育机构,发现仅仅只有三分之一的被调查的教育机构为学生和工作人员安排了安全意识培训,研究了提高安全意识水平的模式。
国内学者张焕国教授[10]论述了当前互联网+新时代下信息安全人才培养体系的现状与挑战。翁健等[11]结合我国网络空间安全人才培养的特点,给出了我国网络空间安全人才培养的建议。文献[12]通过深入分析高校的专业教学实践中存在的诸多问题,提出了信息安全人才培养的新思路。文献[13]提出了一个国民信息安全素养评价指标体系。
人是信息安全保障体制中最重要的安全因素之一,因个体的信息安全意识数据收集、处理和评估对信息安全保障体系十分重要,而当前对这一方面的研究不是很全面。本文提出基于信度分析和聚类算法的信息安全意识评价模型(ISAAM),通过问卷收集用户信息安全意识数据,并对问卷进行信度分析,保证获取的数据可靠性高;利用聚类分析算法分析数据的正确性和可靠性,对个体信息安全意识进行分类评价,以提高个体信息安全意识的评估水平。
本文借鉴已有的研究工作,设计调查问卷获取个体的信息安全意识数据,引入信度分析技术和聚类算法的设计ISAAM模型,模型框架如图1所示。
图1 ISAAM模型框图
图1中α是克朗巴哈系数系数,θ是信度阈值;rtt是折半信度系数,ξ是其阈值。问卷题项类别分为三类:专业背景类C1、信息安全认知类C2和上网习惯类C3。将回收的有效答卷利用数据库工具进行预处理后,统计每份问卷的得分情况。设:Ri为第i问卷的总得分,SAi为C2类得分,SHi为C3类得分,定义如下:
(1)
(2)
Ri=SAi+SHi
(3)
式中:ρ是C1类相关的加权系数;aij为第i问卷中第j题的得分;k2、k3分别表示C2和C3的数量。n份问卷构造数据集Mnx2(SA,SH),利用信度分析方法(α系数、rtt系数)计算问卷结果的信度系数,判定问卷设计是否恰当,并作出相应的调整。将调整之后的问卷发放并回收有效答卷,对调整后的答卷作同样预处理。对于调整前和调整后的问卷结果,用k-means聚类方法对其进行分类和对比分析,并对个体ISA做出评价。
问卷调查是调查者运用统一设计的问卷向被选取的调查对象了解情况或征寻意见的调查方法。设计问卷时遵循系统性原则、方便性原则、科学性原则、严谨性原则和趣味性原则[14]。
信度分析方法常常用于评判问卷设计的合理性和问卷的正确性。信度简单的可以分为内在信度与外在信度[15]。内在信度分析重在考察一组评价项目是否测量的是同一个特征,这些项目之间是否具有较高的内在一致性;外在信度主要分析不同时间对同批被评价对象实施重复测量,评价结果是否具有一致性。
2.2.1Cronbachα系数
测量内在信度常用的工具为Cronbachα系数。其计算公式为[15]:
(4)
式中:k为评价项目数,Sj2为第j题得分的题内方差,ST2为全部题项总得分的方差。Cronbachα系数在0~1之间,当θ=0.9,则问卷的信度很高;当0.8>θ>0.7之间属于可以接受;当θ<0.7,则问卷在设计上存在问题,应当进行重新设计[15]。Cronbachα系数比较适用于态度、意见式问卷(量表)的信度分析。
2.2.2折半信度
折半信度系数也是检验内部一致性的工具。其基本思路是将调查项目分为两半,计算两半得分的相关系数,进而估计整个问卷的信度。进行折半信度分析时,如果问卷中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性。然后将全部题项按奇偶或前后分为尽可能相等的两半,两部分总得分分别记为X、Y,利用式(5)计算两部分总得分之间的相关系数r。
(5)
式中:Cov(X,Y)是协方差,σX、σY为标准差。最后用斯皮尔曼-布朗(Spearman-Brown)公式求出整个量表的信度系数(rtt),定义如下[15]:
(6)
当ξ=0.5时,则问卷的内部一致性较好。折半系数使用起来渐变、省时、省力,但不适用于事实式的问卷,常用于态度、意见式问卷的信度分析[16]。
另外用于测量问卷外在信度的有重测信度和复本信度,但在实际调查者使用难度较高。本次调查主要收集用户的上网习惯和信息安全认知两方面的数据,采用意见式问卷的形式进行调查,因此采用Cronbachα系数和rtt系数对问卷进行信度分析。如果问卷具有高度的内部一致性和较高的信度,则收集的ISA数据可靠且正确。
k-means算法是J.B.Macqueen在1967年提出的,也叫快速聚类,属于覆盖型数值分隔聚类算法,其主要思想是把观测数据划分为v个群组,找到每个群组的中心(均值),然后将各个数据点聚集到其最近中心的群组中[17]。聚类算法可以有效地对数据进行分类,有助于发现数据特性和数据之间的关系,便于对用户ISA进行客观评价。利用聚类算法对数据集Mnx2(SA,SH)进行分类分析,计算数据集中每一个数据点xi=(SAi,SHi)∈M(i=1,2,…,n)到簇质心mj(j=1,2,…,v)的欧式距离dij定义如下:
(7)
(8)
调研对象为某财经类院校学生,采集信息涵盖专业背景、对计算机的了解、上网习惯、网络安全认知几个方面,以封闭性问题为主包括28个题目:k1=5;k2=13;k3=10。调查回收有效问卷788份,对调研对象的学历、专业大类和计算机知识的了解程度进行交叉分析结果如图2所示。
图2 调研对象专业背景
图2中调研对象的专业背景包括:理工类-本科ρ1,理工类-研究生ρ2,经法管类-本科ρ3,经法管类-研究生ρ4,文史哲教类-本科ρ5,文史哲教类-研究生ρ6。取85%的样本作为训练数据进行聚类,剩下的15%作为测试数据,根据信度分析结果和聚类结果对此次调研进行评价,并对用户的ISA进行评价。
定义计分规则为:一个好的用户习惯或网络安全认知高的选项得1分,不好的得-1分,处于中间模糊层次的得0分。文献[19]研究指出不同专业背景的人对信息安全的整体认知和态度差异显著,因此根据各个专业背景对系数ρ进行定义如表1所示。
表1 ρ值
依据计分规则,统计出每份问卷的每道题得分αij(i=1,2,…,788,j=1,2,…,28),由式(1)、式(2)、式(3)计算SH、SA和R如表2所示。
表2 问卷得分情况
评价项目数k=28,计算各题题内方差Sj2,如表3所示。
表3 Sj 2值
则∑Sj2= 11.576 9;方差ST2= 38.962 1,由式(4)得α=0.728 9∈(0.7,0.8)区间内,此时认为问信度可以接受;将全部题项按奇偶序号分两半,由式(5)得r=0.344 8,由式(6)得rtt=0.512 79,问卷的内部一致性较好。
问卷调查容易产生误差有以下原因:来自研究者的因素包括测量内容不当、情景以及研究者本身的疏忽;来自受访者的因素则可能是由于其年龄、性格、教育程度、社会阶层等,从而影响其答题的正确性。而在本次调查的主要影响因素来自研究者本身的疏忽、受访者的教育程度和专业背景。根据以上原因对问卷做出以下调整:
1)C1类:从图2来看,文史哲教类、经法管类和理工类专业中大多数学生对计算机相关知识为“掌握了基本常识”的情况,本科生与研究生情况也类似,并未表现出明显的关联。由此,通过进一步了解调研对象的专业背景及计算机对各专业的影响程度,对C1类题项进行调整,使专业背景划分得更加细化,并调整系数ρ1=1.0,ρ2=1.2。
2)C2类:问卷中部分题目形式为“使用计算机上网时是否开启防火墙”,“是否安装杀毒软件”,“是否随意连接过公共WiFi”等较直接的题,容易引导调研对象下意识选择比较好的答案,导致C2类得分高而C3类得分却很低。通过与调研对象进行深入访谈,了解其平时使用计算机的习惯,并依据访谈结果对上网习惯类题项及相应选项进行调整,尽量降低题目对调研对象作答的引导性。如“是否随意连接过公共WiFi”可改为“是否使用过公共免密WiFi”。
3)C3类:问卷中这部分题比较直接,如“您认为您是否具有较高的网络安全意识”,“您是否有过个人信息泄漏情况”等,容易对调研对象的作答产生引导。因此,结合专业背景和访谈结果,对信息安全认知类题项及相应选项进行调整,如询问调研对象对安全问题防范措施的认知如个人防火墙的设置、信息加密、邮件安全等,以降低题目对调研对象作答的引导性。
将调整后的问卷发放并回收有效答卷,计算调整后问卷的信度系数,则α′=0.934 1,r′=0.513 3,rtt′= 0.678 3,问卷内部一致性较调整前有了较大的提高,则此问卷的设计是合理的。
对调整前和调整后的问卷结果进行聚类并作对比分析,步骤如下:
1) 根据调整前后问卷的计分结果形成二维数据集M1和M2。
2) 选择数据集M1中85%的数据作为训练数据M11,剩余的15%作为测试数据M12;对M2做同样处理形成M21和M22。
表4 聚类分析
依据式(8)计算误差e1=0.423,e2=0.267。可以看出,相较于调整前的问卷,调整后的问卷不但可信度较高,聚类结果的误差也较小,聚类效果更好,如图3所示。
(a) (b)图3 聚类结果
图3(a)是调整前的聚类结果,“+”表示每一簇的质心:[[8.84,-2.89], [8.92,2.24], [9.08,6.46]];图3(b)是调整后的聚类结果,“+”表示每一簇的质心:[[4.56,-2.76],[7.92,2.16], [11.33,5.67]]。图3中:
“▲”类主要特征:信息安全认知较低,且上网习惯差,对计算机使用知识了解不够,即低层次的ISA:L(ISA);
“●”类主要特征:信息安全知识有一定认知,上网习惯一般,对计算机相关知识有一定的了解且能够基本防范网络安全问题,即中层次的ISA:M(ISA) ;
“■”类主要特征:信息安全认知较好,上网习惯很好,能够自主地防范网络安全问题,即高层次的ISA:H(ISA)。
C2和C3类得分分布情况如图4所示。
图4 SA和SH分布直方图
图4(a)、(b)分别表示调整前SA和SH频率分布直方图;图4(c)、(d)分别表示调整后的频率分布直方图。图4(a)、(b)中当C2和C3类呈现以下的关联时:[认知中,习惯差],[认知中,习惯一般],[认知中,习惯好],则被聚类为L(ISA)如图3(a)所示。而图4(c)、(d)中C2和C3类呈现以下的关联:[认知低,习惯差],[认知中,习惯一般],[认知高,习惯好],其中[认知中,习惯一般]的群体占较大多数,符合实际情况。图3(b)聚类结果显示C2和C3类具有正相关性。因此显然调整后的问卷结果更合理。结合图3(b)和图4(c)、(d)定义评估规则如表5所示。
表5 评估规则
在表5中,有SA[0,15],SH[-10, 10]andR[-10,25]。依据图3(b)聚类结果,ISAAM定义L(ISA) ={Ri|Ri[-10,6)},M(ISA)={Ri|Ri[6,15]} andH(ISA)= {Ri|Ri(15,25]}。
ISAAM评估模型的调查对象是财经文科类高校的学生,对比理工类高校,其C1类加权系数ρ偏小,使信度计算结果偏小,同时也会使聚类中心向左移。复杂的网络环境也会影响人们使用计算机的方式,许多威胁网络系统安全的问题在复杂网络环境的掩饰下可能会对用户的判断产生混淆,使用户难以分辨其危害性,使问卷结果C3类问题得分偏高,从而对模型的准确性产生影响。
HAIS-Q模型(Human Aspects of Information Security Questionnaire)是目前比较典型的信息安全意识问卷调查模型[6]。利用问卷调查的方式收集个体关于互联网使用、电子邮件、社交媒体、密码管理、事故报告、信息处理、移动计算等7个领域的知识(Knowledge)、态度(Attitude)和自我报告行为(Self-reported Behaviour)的信息即KAB模式,ISA的评估以百分计:H(ISA)=80-100;M(ISA)=60-79;L(ISA)≤59,其中知识占30%,态度占20%,行为占50%。KAB模式的Cronbachα系数分别为:0.875、0.878和0.906,显示调查问卷的内部一致性达到了较好的可信程度。知识、态度和行为之间的相关分析结果:若对政策和程序更好的认知,则就有更好的态度;若对政策和程序更好的态度及认知,则更能激发自我报告的行为、规避风险。
由于本文研究对象是在校大学生,问卷设计符合特定人群的特征和背景,内容并不局限于上述7个主题,但认知和习惯的正相关性符合HAIS-Q模型结论。依据表5的ISA评估规则,调查发现在理工类专业的学生中有76.7%属于H(ISA);经法管类专业学生中有67.9%属于M(ISA);文史哲教类专业学生中有71.2%属于L(ISA)。依据HAIS-Q模型的评分标准,对比实验中将知识、态度归属为认知类,将行为归为习惯类,计分比各占为50%,对实验数据的分析结果显示不同专业背景的学生ISA评估比例与ISAAM模型实验结果一致。
针对不同人群的ISA评价,信息采集的内容和评分标准会有所不同,由于ISAAM模型采用个体的认知和习惯加权评分以及聚类分析,ISA的评估规则会随之改变,因此ISAAM模型更具灵活性和适用性。
信息安全意识是组织成员对信息安全重要性、信息安全对组织影响程度,以及对信息安全的个人责任感和行为等方面的认知程度,而评估认知程度往往带有较强的主观性。鉴于此,本文提出的基于信度分析和聚类算法的信息安全意识评价模型,能客观定义上网习惯与信息安全认知之间的关系,并对个体信息安全意识作出比较客观地评价,有助于正确评估人的安全因素,增强信息安全保障体系的安全性。
在后续的工作中,将深入分析网络环境的复杂性和不同群体对象对模型的影响,并研究不同的可信度计算方法和聚类算法提高信息安全意识调查结果,引入模糊理论优化模型的性能。
[1] 中国互联网络信息中心. 第32次中国互联网络发展状况统计报告[J]. 互联网天地, 2013(10):74-91.
[2] Steele S, Wargo C. An Introduction to Insider Threat Management[J]. Information Systems Security, 2007, 16(1):23-33.
[3] 汪红梅.我国信息安全保障体系存在的问题及对策刍议[J].信息网络安全,2008(2):66-67.
[4] 魏惠斌.人肉搜索与个人信息安全问题刍议[J].福建警察学院学报,2009, 23(6):29-32.
[5] Mccormac A, Zwaans T, Parsons K, et al. Individual differences and Information Security Awareness[J]. Computers in Human Behavior, 2016,69(4):151-156.
[6] Parsons K, Mccormac A, Butavicius M, et al. Determining employee awareness using the Human Aspects of Information Security Questionnaire (HAIS-Q)[J]. Computers & Security, 2014, 42(4):165-176.
[7] Waly N, Tassabehji R, Kamala M. Improving Organisational Information Security Management: The Impact of Training and Awareness[C]// IEEE, International Conference on High PERFORMANCE Computing and Communication & 2012 IEEE, International Conference on Embedded Software and Systems. IEEE, 2012:1270-1275.
[9] Marks A. Exploring universities’ information systems security awareness in a changing higher education environment: a comparative case study research[D]. University of Salford,2007.
[10] 张焕国.信息安全人才培养体系现状与挑战[J].信息网络安全, 2013(3):6.
[11] 翁健, 马昌社, 古亮. 网络空间安全人才培养探讨[J]. 网络与信息安全学报, 2016, 2(2):1-7.
[12] 喻钧,杜志强.网络空间安全新形势下的信息安全人才培养[J].价值工程, 2015(30):247-249.
[13] 罗力.国民信息安全素养评价指标体系构建研究[J].重庆大学学报(社会科学版), 2012,18(3):81-86.
[14] 袁梦绯.中式快餐连锁企业顾客满意度调查问卷的设计与评价方法研究[D].合肥工业大学,2012.
[15] 张虎,田茂峰.信度分析在调查问卷设计中的应用[J].统计与决策,2007(21): 85-90.
[16] 屈芳,马旭玲,罗林明.调查问卷的信度分析及其影响因素[J].继续教育,2015,29(1):32-34.
[17] 宋建林.k-means聚类算法的改进研究[D].安徽大学,2016.
[18] 姜晗,贾泂.基于聚类的孤立点检测算法[J].计算机与现代化,2007(11):37-39.
[19] 赵凤梅.高等师范院校硕士研究生计算机态度及相关因素的研究[D].首都师范大学,2007.