自适应网络安全意识测评系统研究综述

2018-12-04 06:08邹红霞李冀兴

兵器装备工程学报 2018年11期

齐斌，邹红霞，王宇，李冀兴

(航天工程大学航天信息学院，北京 101416)

世界范围内网络安全事件频发，对个人、企业和国家都造成了不同程度的损失，引起了社会的广泛重视。统计发现，有近80%的事件是因人员缺乏网络安全意识或对网络威胁缺乏敏感性造成的，甚至个别重要人员因意识不足导致了难以挽回的损失[1]。

《国家网络空间安全战略》指出“大幅提升全社会的网络安全意识和基本防护技能”，为响应《网络安全法》对我国从业人员以及网民的具体要求，网络安全意识测评系统能够及时评估和预警重要岗位人员的网络安全意识概况，减少或避免因欺诈、钓鱼等社会工程学攻击手段带来的损失，同时根据评估结果可针对性地提升自身知识与技能[2]，是人员资质管理系统装备的重要组成部分。

近5年来学术界对网络安全意识的研究明显不足，国内外的网络安全意识相关领域的文献计2500余篇，我国核心级别的文献不足60篇，且研究方向大多是培养模式以及国外教育领域的经验、启示[3-4]，国外 SCI、EI级别的学术论文百余篇，研究方向主要集中在网络安全意识教育模框架、实训技术、培训策略与规范等[5-6]。综合分析指出，网络安全意识测评系统的研究尚处于萌芽状态，而且多停留在理论和概念研究，对于人员安全意识测试和评估的具体技术仍然缺乏较为系统的指导和参考。

网络安全意识测评系统是综合性系统，关键技术包括自然语言处理(Natural Language Processing,NLP)、知识图谱构建和计算机自适应测试(Computerized Adaptive Test,CAT)等，虽然NLP技术目前已趋于成熟，但其余关键技术仍处于发展阶段，因此有必要在我国网络安全意识测评系统等装备发展的上升期，及时对关键领域的技术研究进展作综述，为域内学者和专家的研究提供有效参考。

1 自适应网络安全意识测评系统

网络安全意识，指在网络空间活动中为了保障个人、组织、国家的信息、财产等安全而具备的发现潜在威胁、判断危害、及时预防或化解威胁的综合能力[7]，测评结果通常由知识、技能和态度的量化进行综合反馈。为提高网络安全意识测评效率和准确率，解决采用调查问卷、计算机审计等传统方式带来的资源浪费和不确定性等问题，本文提出了自适应网络安全意识测评系统，主要由自然语言处理、知识图谱和基于认知诊断的自适应测试(Cognitive Diagnostic-CAT,CD-CAT)三个模块组成，其完整的系统模型如图1所示。

系统每个模块都是一个独立的有价值的重要研究课题，综合了相关领域的多种理论和技术。在实际开发中，一个完整的系统并不是各个模块之间的简单拼凑，而是需要将各个部分有效结合在一起，最大程度提升整体性能。测评系统依据人员职业、计算机日志、社交信息等数据采用自然语言处理技术挖掘用户日常网络行为潜在的威胁，根据具体法律、规范等生成该用户的网络安全知识图谱，并据此生成自适应测试的题库。引入心理测量学中的认知诊断理论构建自适应测试技术，根据被试每一题的作答结果自适应调整下一道试题，不断收敛至被试的真实能力水平附近，从而根据测试结果综合评估人员的网络安全意识状态以及存在的潜在风险。

2 自然语言处理

自然语言处理，又称自然语言理解或“计算语言学”，是当前人工智能领域中较为重要研究方向，目的在于通过计算机自动理解并生成人类日常通用语言。自然语言处理技术在英语等规范语种的国家取得了相对成熟的应用，但中文语句因具有一词多义、一语双关等歧义特性，句子的深层语义分析、句法及语用分析难以达到理想效果。

2.1 基于语义文法的NLP

正文内容语义文法可用4元组G= (VT,VNT,S,R)表示，其中VT表示语义文法中的终结符，VNT表示语义文法中的非终结符，S表示语义文法的开始符集合，R表示语义文法中的确定型产生式集合。

语义文法描述语言的优势是可以提供语句中丰富的语义结构，为降低语义文法设计难度，PALOGIANNID等[8]利用众包收集文法学习所需的语料，通过设置不同模块收集语料并利用困惑度模型从语料中抽取质量较高的部分用于语义文法中的语义类学习。GEORGILADAKIS等[9]在学习Non-temimal型规则时融入了语义特征，在文法学习不同阶段融入数据驱动分析方法来提高文法学习的覆盖度。部分学者通过计算未识别文本段与已有文法规则的相似度，同已知规则相匹配，从而推理出新文法规则[10]。GASPERS等[11]采用弱监督方法来学习语义文法，并基于语料给规则赋予权重，着重考虑了语义理解系统，避免数据的错误传输。WANG等[12]在语义文法的训练中将关联领域知识融入到统计模型中辅助对语料的语义标注，从而可以大量减少训练语料。

人机交互过程中，输入的自然语言通常是不规范的，对NLP的鲁棒性、容错性提出了较高的要求。为解决自然语言的非规范输入，语义文法的解析过程可直接对输入的部分片段解析，生成解析树再被转化成语义框架，利用启发式规则进行整合。

2.2 基于机器学习的NLP

基于机器学习的NLP可以极大地降低文法设计复杂性，鲁棒性及可移植性较强，通常采用的机器学习方法如贝叶斯分类器、VSM模型构造分类器等，但因产生无层次的分类，不带有嵌入变元的结构，所以不适用于语句结构分析。

为提高语义理解的准确度和改善结构性问题，WU[13]提出了一种弱指导学习的限定领域自然语言处理方法，通过使用主题分类器识别语句的主题，再根据已经训练好的槽分类器从语句中提取出槽值序对，最终生成句子的语义表示。Psarologou[14]在前人研究的基础上，将HMMs与n元语法模型相结合来刻画自然语言，通过语料标注进行训练，实现了处理带嵌套语义结构的功能，进一步提高了语义层次的理解与识别。

2.3 基于规则与统计相结合的方法

基于文法规则的NLP能够获得语句的结构信息，基于统计方法容错性较高，对于某些领域来说使用单一的方法不能满足现实需求，所以通常将两类方法以不同的方式进行结合。

随着目前语言训练数据累积得越来越多，NLP系统主要以数据驱动方法为主。微软研究院 Wang等[15]提出了一种将统计模型与语义文法相结合的语言理解系统，该系统首先采用SVM和Naive Bayes等分类器识别用户的查询意图，再根据识别出的查询意图选择与其相关的文法对句子进行解析，并最终依据解析结果生成句子的语义表示。该方法充分结合了统计模型的鲁棒性以及语义文法能够生成复杂结构的特性。为克服领域训练语料不足的问题，WANG等[16]又通过将领域知识(领域专家定义的语义框架)与条件随机模型结合进行语义理解，提高了识别效果。

2.4 深度文本匹配

随着深度学习的快速发展，基于深度学习的自然语言处理逐渐受到重视。深度学习模型便于描述自然语言中的层次结构，直接从数据中学习并模拟出规则或特征以描述语言规律，提高处理精度[17]。

2.4.1 基于单语义文本表达

基于单语义的深度学习模型是通过将两个待匹配的对象经深度学习生成高维度稠密向量，用相似度度量两个对象的匹配度，一般可根据全连接神经网络、卷积神经网络和循环神经网络等继续划分。

深度语义结构模型[18]主要针对查询项和文档的匹配度进行建模。为提高语义判断的准确度，微软研究院提出了基于单词序列的卷积深度语义结构模型[19]。Hu等[20]提出了ARC-I模型，将句子表达为定长向量，拼接一个全连接的多层神经网络。Qiu等[21]提出CNTN模型，使用张量神经网络作为相似度度量来建模两个文本向量之间的关系。为解决CNN深层匹配结构无法表达远距离依存关系和复杂语义的问题，Palangi等[22]提出基于长短时记忆(Long Short Term Memory,LSTM)的文本匹配模型，将查询项和文本表达成向量的形式，余弦距离计算相似度并输出匹配值。

单语义表达具有易于数据储存、计算速度快等优势，适合对存储和速度要求都比较高的任务。缺陷表现为：匹配不具备传递性，对局部化信息的有效性要求较高，压缩句子的过程中信息损失严重。

2.4.2 基于多语义文本表达

为解决单语义模型的缺陷，考虑文本的局部性表达和全局性表达以及向量的相似程度，多语义模型生成局部短语表达进行匹配。

Socher等[23]提出了一种递归神经网络，可伸展递归自动编码器uRAE，对两段文本进行句法分析并自动构建句法树，作为递归自动编码器树状连接的结构，通过匹配相似度矩阵表现匹配关系。Yin等[24]提出使用卷积神经网络分别得到不同层面的文本表达，将向量拼接或建模向量相似度得到最终的匹配值。因RNN在扫描句子的过程中能够从不同位置分别输出表达，Wan等[25]提出了多视角循环神经网络MV-LSTM，形成了由不同中心词产生的多个视角表达的集合，效果提高明显。

多语义文档表达丰富了语义信息，模型仍然有如下缺陷：依赖句法树算法的准确性难以保障，鲁棒性不足；无法区分局部化信息的重要性，因语言多义性难以整合局部和全局信息；仅对两个对象独立提取特征，难以捕获匹配中的结构信息。

直接建模匹配模式的深度学习模型，两段文本的匹配主要是关注关键词及其相对位置的匹配，再结合文本的语义对匹配程度进行评估。

主题深度匹配模型[26]包含局部匹配层和综合层两个部分，局部匹配层将输入的文本对表达为多个局部匹配结果，综合层是一个多层神经网络，将得到的局部匹配结果进一步综合并形成综合的最终匹配结果。树深度匹配模型[27]采用依存树作为文本的表示，每一个局部匹配模型都对应一个子树对，而匹配模型的输出取决于输入的句子对是否含有这两个子树对所表示的依存结构。

直接建模匹配模式初始将文本交互得到细粒度的匹配信息，避免了细节匹配信息丢失，但需要大量有监督文本匹配的数据训练，存在预测消耗资源大，难以单独计算文本的特征等缺陷。因此这类模型一般都是用于问答系统、对话系统等匹配程度高、句式变化复杂的任务。

2.5 小结

自然语言处理技术不仅需要创新研究方法与模型，还需要充分挖掘已有的模型和技术。一是模型的有机融合，将不同模型、框架进行优势互补提高处理精度与效率；二是借助外部知识库扩充文本训练内容，提高深层语义挖掘的效果。

3 知识图谱构建技术

知识图谱是描述客观世界的概念、实体、事件及其间关系的表现形式[28]，已被广泛用于数据分析与数据决策等领域，是基于知识的智能服务基础设施。通常用三元组G=(E,R,S)表示，实体集合E={e1,e2,…,e|E|}，共包含|E|种不同实体；关系集合R={r1,r2,…,r|R|}，共包含|R|种不同关系；S⊆E×R×E代表知识库中的三元组集合。

目前多数知识图谱都采用自底向上的构建方式，从某些开放链接数据中提取置信度较高的实体，加入到知识库中后再构建顶层的本体模式[29]，典型如Google的Knowledge Vault[30]。按照步骤分为信息抽取、知识表示、知识融合和知识推理四个部分。

3.1 信息抽取

信息抽取是从异构数据源中自动抽取信息得到候选知识单元，作为一种自动从半结构化和无结构化数据中抽取结构化信息的技术[31]，因此主要涉及实体抽取、关系抽取和属性抽取等技术，本质也是自然语言处理，具体处理模型可参考第二章。

实体抽取也称命名实体识别，从原始语料中自动识别出命名实体，是信息抽取中最为关键的步骤，Jung等[32]将抽取方法分为基于规则与词典、基于统计机器学习以及面向开放域的抽取方法。

此外，为了让更多企业享受得到政策，认定标准必须要降低。例如：在认定增值税纳税人的时候，针对新建立的企业不需要限定规模，只需要企业具备固定经营地，拥有合法账簿以及纳税材料，在申请的时候就可以认定为一般纳税人[1]。在认定企业所得税的时候，除了要处理法律上的差异，还需要提高所得税额的标准，让优惠政策能够常态化。在当前的形势下，小微企业税率也需要得到降低。例如：增值税小规模的纳税人税率是3%，若依据城市建设、教育费以及地方教育费的税率进行计算，纳税人税率应该是3.26%。对于小微企业这样的税率仍然是过于高的，应该将税率调整到1.5%附近。所得税的优惠也可以考虑从原本的20%降低到15%的税率。

关系抽取是为了解决实体间语义链接的问题，目前应用较为广泛的是实体间关系模型。BANKO[33]提出了面向开放域的抽取框架OIE，但在实体间隐含关系的抽取上表现较差，因此部分研究者提出了基于马尔可夫逻辑网和基于本体推理的深层隐含关系抽取方法。

属性抽取可形成关于实体较为完整和全面的描述，但因实体的属性可简单看作是实体、属性间的名称性关系，所以普遍将属性的抽取问题转换为关系抽取问题。杨博等[34]提出的基于规则与启发式的属性抽取算法能够从Wikipedia及WordNet的半结构化网页中自动抽取相应的属性名称与属性值，且可扩展为本体知识库，是目前发展较为快捷的技术，实验表明此种算法的抽取准确率可达到95%。

3.2 知识表示

知识表示可分为符号主义和联结主义两类：符号主义将符号设定为思维的基础单元，认知过程拟作符号表示运算；联结主义将认知作为神经网络的整体活动，知识信息相互联系，存于联结或权重中。

基于符号逻辑的知识表示，主要包括逻辑表示法(如一阶逻辑、描述逻辑等)、产生式表示和框架表示等。逻辑表示的描述能力和推理效果较好，但生成推理规则的能力弱，对数据质量的要求高。

在语义网中，信息均有确定的意义，能被计算机理解、获取和集成。互联网内容的知识表示主要包括基于标签的半结构置标语言XML、基于万维网资源语义元数据描述框架RDF和基于描述逻辑的本体描述语言OWL等[35-36]。

表示学习可将语义信息表示为低维的实值向量，将不同粒度的知识单元进行隐式的向量化表示，有效缓解数据稀疏性，一般包括张量重构[37]和势能函数[38]方法。大数据下张量重构产生了维度高、计算量大等困难，因此一般选用势能函数方法。Bordes等[39]提出的TransE模型是势能函数中平移模型的代表，从头实体到尾实体的平移基础上提出了向量优化表示模型。

3.3 知识融合与推理

知识融合可使来自异源的知识在同一框架下实现异构数据整合，通过消歧、加工、推理、验证、更新等步骤，实现数据、方法、经验以及思维的融合，从而生成高质量的知识库。实体匹配，指从顶层创建规模统一的知识，辅助处理多源异质的数据，通过消除异构数据中实体冲突等问题实现高质量库。匹配算法在知识图谱的融合技术上分为成对实体匹配与集体实体匹配两大类。实体匹配后的事实表达或本体仅作为基本单位，需要进一步知识加工，包括本体构建、质量评估。

知识推理是基于现有知识库进一步挖掘隐含的知识和知识联系，从而进一步丰富和扩展知识库。知识推理的对象可以是实体、属性、关系、层次结构等，但在推理过程中往往需要关联规则的支持，一般分为基于逻辑的推理与基于图的推理。推理是知识图谱研究的重点和难点，评估标准也尚未统一。

3.4 小结

知识图谱的研究方向：一是知识表示和获取的理论与方法，强调知识的显式语义定义；二是知识服务对知识图谱构建平台的要求；三是知识图谱的不同应用模式需进一步推进知识驱动的信息处理。

4 基于认知诊断的自适应测试技术

教育领域已逐渐进入数据时代，CAT逐渐成为了心理测量领域的热点，并演化到了其他测试领域。测试采用复杂的统计方式来估计被试的能力水平，并根据测试结果实时地从项目池中选择最佳的项目。认知诊断理论是目前重点研究和发展的对象，强调对个体的属性评估。目前广泛应用于各种资格考试、职业认证以及军事等领域等。

4.1 认知诊断模型

认知诊断模型(Cognitive Diagnostic Model，CDM)建立了观察反应模式和被试知识状态之间的映射，通过被试在项目上的反应推断出属性掌握情况(知识状态)，并对被试的知识状态做出诊断。

CDM发展至今已超过百余种，代表性的认知诊断模型有线性Logistic模型、规则空间模型、DINA模型、属性层级模型等[40]。国内外专家、学者在此基础上，为适应不同应用环境都做了相应的改进,de la Torre的拓广DINA模型，涂冬波等的多级评分DINA等[41]，在实验阶段取得了良好的效果。在选择CDM时需要综合考虑数据与模型的拟合情况、诊断信息的精确性、模型参数简易型、样本容量、收敛速度等方面问题，其中 DINA 模型因其参数较少和易解释性而应用广泛。

CDM的参数估计模型会影响估计收敛速度和精度，估计方法包括联合极大似然估计、边际极大似然估计法、贝叶斯期望后验估计、贝叶斯最大后验估计、Expectation-maximization算法、马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)算法等。其中MCMC等算法的估计速度通常需要几个小时，而在同等条件下 EM 算法收敛速度更快,囿于 CD-CAT 的及时反馈需求和当前计算设备的实际性能，EM 算法在 CD-CAT 中更为普遍。

4.2 选题策略

计算机自适应测试的选题策略是影响度量准确性的主要因素之一，也是反映测试过程个性化及智能化程度的重要依据。CD-CAT 的选题策略中主要分为以测量准确性为主的策略和非统计约束类的策略。

提高测量准确性是测试的首要目标，较为常用的两种基础选题指标包括香农熵(Shannon Entropy,SHE) 和KL信息量。基于SHE的选题策略将被试认知状态、属性掌握模式看作随机变量的概率分布，从而依据算法度量随机变量的不确定性。KL 信息量可以度量两种概率分布之间的距离，距离越大越能区别两种分布，此后又延伸发展了PWKL信息量和HKL信息量等指标。

若只考虑测量精确性将会导致优质题目曝光率过高，不利于题库安全，同时为提高测试的公平性，非统计约束类选题策略逐渐受到重视，项目曝光控制和内容约束是重要的非统计约束策略。CD-CAT框架下控制题目曝光率的选题策略一般有限制性的随机化方法，如限制进程法和限制阈值法等，部分学者指出项目合格方法、最大后验概率、分层方法、修正优先指标等传统CAT方法也可在一定程度上控制项目曝光率[42]。为控制内容约束，Cheng等[43]提出了修正的最大全局区分度指标MMGDI，潘奕娆等[44]结合认知诊断区分度指标CDI后改进的MGCDI，Mao等[45]将传统CAT中Monte Carlo(后用MC代替)方法引入CD-CAT，实验验证在测量精度、项目曝光均匀性和题库利用率方面,较好于MMGDI 方法。为同时控制内容约束和项目曝光，毛秀珍等[46]在CD-CAT框架下比较了目前基于MC改进的较为常用的5 种选题策略，实验表明：在同属性结构下，测量精度以MC和最大后验概率联合方法最好，项目曝光均匀性以MC和限制进程联合方法最好。

越来越多学者在考虑选题策略时同时兼顾了测量精度和约束条件。有专家提出了基于被试属性掌握概率的选题策略，选择最能改变被试属性掌握概率的作为下一个测验项目。朱天宇[47]等考虑了被试的知识属性共性提出协同过滤推荐试题策略。目前，混合选题策略在题库使用的均匀性等方面有较好的表现。

4.3 小结

第一，适应更加复杂的认知环境，提高知识状态诊断的精确性，创新认知诊断模型仍是未来研究的重要方向。第二,在题库的开发与维护方面，现有的研究较少，尤其是针对限定领域的题库模型和维护策略仍需进一步研究。第三，通过将不同优势的选题策略进行有机结合或做出相应改进可以明显提高测试效果，因此方法融合是重要研究思路。

5 结论

针对我国国民网络安全意识不强的现实性问题，网络安全意识测评系统应运而生，受到了各界的重视并逐步展开了深入研究。但测评系统在上述领域小结的基础上仍需注重并加强以下方向的研究。

1) 理论、模型的创新研究。技术的创新性研究往往需要科学的理论作为支持，测评系统的核心是知识系统的完善，当前网络安全领域仍需要进一步研究知识体系等框架性知识结构。网络安全意识测评系统的理论模型非本文所述的单一模型，故构建更为合理、高效的测评系统模型是理论创新与研究的重心。

2) 多领域模型的融合性研究。自然语言处理模型等，知识图谱技术的知识融合、推理模型等，针对不同应用领域存在着不同的优势和不足，因此自主选用不同模型或者相应模型的优势融合、跨领域模型等也是研究的重要方向。

3) 交叉学科的应用研究。本质上，自适应网络安全意识测评系统是交叉学科的应用研究，即融合以计算机教育学、网络安全、人工智能、计算语言学等多个领域的综合性系统研究，因此在关键技术研究时应加强多领域学科的知识融合，以完善整体系统。

4) 基于深度学习的数据挖掘。深度学习、迁移学习、加强学习等技术作为大数据处理的优势方法，应针对在文本匹配、参数估计、语义理解等关键技术上提高训练集和模板的准确性和训练效率。