冯戈利,韩彦军,王业璇,秦现生
(1.西北工业大学机电学院,陕西 西安 710072)
(2.成都飞机工业(集团)有限责任公司,四川 成都 610092)
(3.石家庄铁道大学机械工程学院,河北 石家庄 050043)
(4.山西职业技术学院基础部,山西 太原 030006)
信息安全审查中目标信息智能发现技术研究
冯戈利1,2,韩彦军3,王业璇4,秦现生1
(1.西北工业大学机电学院,陕西 西安 710072)
(2.成都飞机工业(集团)有限责任公司,四川 成都 610092)
(3.石家庄铁道大学机械工程学院,河北 石家庄 050043)
(4.山西职业技术学院基础部,山西 太原 030006)
为了保证生产企业中设计、存储、制造等环节的信息安全,在对企业信息分析的基础上搭建了信息安全审查中目标信息智能发现基本框架,并针对信息审查中词语级目标信息的获取、目标信息与文档的智能匹配策略进行了研究,提出了相关算法,最后通过实例验证了算法的可行性。
目标信息;发现技术;检索
信息安全是任何国家、政府、部门、行业都必须十分重视的问题,目前已经成为一个不容忽视的国家安全战略问题[1]。目前国内涉密问题的安全检查主要依靠保密审查机制,依据国家及有关安保部门法律法规来执行,例如《中华人民共和国保守国家秘密法》、《中国人民解放军保密条例》、《科学技术保密条例》、《中央企业商业秘密保护暂行规定》。该机制最大弱点在于:制度、法规、条例的执行尺度基本上需要依靠人为来掌握,因此会不可避免地带来诸如贯彻不彻底、执行不认真、人工处理的主观性等问题和缺陷。
目标信息智能发现技术是指对待审查信息进行数据挖掘和分析,通过人机结合的智能化系统对特定的目标信息进行筛选和定位的技术。近年来随着计算机技术的发展以及智能发现应用环境的不断拓展,其已经在文献查询、信息安全监察、内容过滤等行业中逐渐得到了广泛的应用[2-4]。因此,可以利用该技术对政府、军方、军工企业等机构的保密审查系统作补充和升级。
鉴于上述考虑,本文以高效、准确的词语级目标信息审查为目标,设计了词语级目标信息的智能匹配策略,并在此基础上建立了智能审查系统,以期提高目标信息审查系统的工作效率、准确性、客观性和智能性,从源头上堵截涉密信息的流传。
信息安全检查基本思路是:在处理资料数据过程之初,总结本单位的涉密信息;然后在文件进行导入导出等操作时对文档进行拆分、解析;随后对文档进行信息识别,对待审查文档与涉密信息进行相似比较,就可以有效地发现待审查内容中所包含的目标信息。基本框架如图1所示。
图1所示的目标信息发现系统主要包括两个部分:信息输入模块、目标信息智能发现模块。
1)信息输入处理模块。
该模块对目标信息发现起到基础信息支撑作用,主要工作是在日常工作中对常用文档分析,总结、提炼、抽取、发现本单位企业相关机密、涉密词汇,存入相关数据库。
2)目标信息智能发现模块。
该模块是该模型的核心,利用一些智能发现、查找算法,从传入的待审查文档中发现是否含有涉密信息。具体包括关键字审查、法规条例专家知识审查等步骤。
所谓的目标信息,一般都是在特定领域的一些涉及内部资料的核心内容或者敏感信息。为了便于研究,在本文中采用词语级的语素来表示目标信息。为了阐述清晰,这里首先给出几个关键性定义。
定义1:目标信息。 指个人、部门或整个组织所期望找到的涉及国家军事机密、政治秘密、商业秘密、敏感信息、核心内容、个人信息等内容。
按照信息的具体表现形式,可将目标信息划分为文本信息和图像信息;按照信息的清晰程度,可将目标信息分为有参照目标信息和无参照目标信息。
定义2:词语级目标信息。 指能够表征目标信息的关键词或者语素。
2.1目标信息来源
在本研究中,词语级目标信息具体有以下几种来源:
1)根据核心内容和敏感内容有预定意义的关键词,包括关键术语、型号、数据、技术指标等,具有很强的领域特性。
2)根据国家法律、法规和企业规定、条例预定义的关键词。具体包括相关法规条例的内容,或根据审查专家具体经验总结出的内容。
3)根据工作人员经验预定义的关键词。
4)通过采用自有搜索引擎,或与具有保密资质的搜索引擎商合作,发现待审查信息中存在的而互联网上没有出现或很少出现的“新”涉及目标内容的关键词。
在上述4种词语级目标信息来源中,前3种属于有参照的目标信息关键词,最后一种属于无参照的目标信息关键词。
2.2词语级目标信息抽取方法
为了能够对输入文本中的词语级目标信息准确抽取,在本研究中对输入的文档信息的处理分为以下两个步骤。
1)文本预处理。
在本研究中,文本的预处理过程主要包括文本中格式标记去除,非法字符去除,分词、词性标注,停用词去除等几个步骤。
2)词语级目标信息抽取。
为了能够准确反映文本中内容,需要抽取不同来源中的词语级目标信息。结合军工企业信息特点,借鉴文献[5]中方法,可以利用图谱理论中谱分割算法对文档信息进行信息抽取,统计文档中相关词语的权重。谱分割算法主要是基于Laplace矩阵的特征值和特征向量对图进行切割[6],主要包括以下几个步骤。
①构建关系图。
结合军工企业中信息安全特点,抽取词语级目标信息构建成词语关系图。基本思路为:设置文档的复现词频数,设置人为的目标信息;针对词频设置,以及人为目标信息筛选关键词;以关键词作为图的点,以关键词在同一句子中出现的频率为相似度,建立文档的词语关系图。上述过程中,文档词集与图的对应关系如图2所示。
②构建关系图的邻接矩阵。
根据词语级目标信息关系图,构建其带权邻接矩阵。
③利用谱分割算法对关系图进行分割。
本研究中针对已经形成的目标信息关系图,利用邻接矩阵的特征值特征向量中某些特性将图分割成若干子图。借鉴ACNA算法[7],算法流程图如图3所示。
2.3实例验证
为了测试目标信息抽取方法,给定图4所示的一段文字样本。
1)文本预处理。
首先,需要对示例文档进行分词和词性标注。本文的研究中采用中国科学院的ICTCLAS分词系
统进行中文分词和词性标注,上述文档在通过分词之后的结果如图5所示。
然后,进一步去除分词结果中的连词、非法字符、标点符号、停用词语,形成预处理文档。
2)词语级目标信息抽取。
对于词语级目标的抽取,可以按照2.2节中相关步骤进行。
①构建词语关系图。
统计分词结果中出现的飞机制造行业关键词,以及在该文档中出现两次以上的词语,结果见表1。
按照图2中的对应关系,针对出现两次以上的词语,建立图6所示的关系图。
②构建关系图的邻接矩阵。
构建图6的带权邻接矩阵如下:
③对关系图进行分割。
按照图3中所示的谱分割算法对关系图进行分割,可以抽取得到示例文档(图4)的词语级目标信息为隐形、飞机。另外,实际操作中还需要增加飞机制造行业信息安全中必须要有的几个关键词:雷达、散射、机翼、试验机。
这样,示例文档(图4)的词语级目标信息就被扩展为:隐形、飞机、雷达、散射、机翼、试验机。
在文档的词语级目标信息获取的基础上,本文研究了依据词语级目标信息的文档智能匹配策略。其核心思想是:首先利用2.2节中的方法,抽取文档中的词语级目标信息;然后运用数据挖掘分析方法和计算机技术来处理和表达词性、词长等属性以及词语位置属性之间的关联;最后,进一步通过类区分(Data Discrimination)的对比方式,计算每个词语级目标信息之间的相关度。
3.1基于词语级目标信息的文档展示方法
通过对飞机制造行业涉密信息文件的分析,本文认为:文档中的词语级目标信息大致包含词性、词长和词语位置3个维度的属性。
1)词性对文档的影响。
结合文献[8]中的研究,本文认为词语级目标信息的词性主要包含名词、动词、名词短语和动词短语4种词性,其他语气助词在此暂时不予考虑。
2)词长对文档的影响。
通过对大量的涉密文件分析可知,词语级目标信息大部分是由2~6个字组成的。
3)词语位置对文档的影响。
相关文献的研究表明:词语出现的位置对于描述、反映文档内容方面也起着重要的作用[9]。
通过对大量飞机制造行业涉密文档的研究发现,词语级目标信息在词长—词语位置、词性—词长、词性—词语位置之间存在大量很强的相关性。如果建立词性、词长和词语位置等属性本体概念,就会发现每个词都是以词性、词长、词语位置为维度的三维空间中的一个数据点,如图7所示。
因此,文档中的词语级信息在拥有具体描述内容的同时,还需要包含词性、词长和词语位置三维信息;进而,如果忽略一些虚词、没有实际意义的词语,则文档可以被表示为一系列词语级信息的集合。
3.2基于内容语义的相关度计算
利用3.1中方法可以将不同的文档表示为一系列词语级信息的集合;另外,可以在对词语级目标信息的属性分析基础上,构建它们的本体概念。这样就可利用LCH算法[10]来计算不同词语级信息与文档中词语之间的相关度。
本研究中采用基于距离的LCH方法,该方法中将两个词语级信息之间的相似程度定义为本体分类结构中连接两个术语的路径长度的逆,公式表示如下:
由于词语级信息在分类结构中所处的深度不同,其代表的相似程度也大不相同,因此在计算中可以引入深度这一参数,用来指该节点至根节点间路径上的节点个数。因此,LCH可以被定义为:
log2(2d)-log2p
统一量纲后,其计算公式为:
3.3基于兴趣模型的相似性计算
为了提高词语级目标信息的检索质量,针对前一阶段的初步筛选结果,进一步通过对比文档与用户(单位)兴趣信息之间整体的相似度来筛选目标信息。涉密企业之间存在不同的关注点,可以利用本单位的特点及安全检查文件的关键词来构建用户(单位)的兴趣模型。因此这里需要关注以下两点内容:文档特征向量和用户兴趣模型特征的构建方法;相关度计算方法。
3.3.1文档与用户兴趣模型特征的构建
1)构建给定文档的特征向量。
设文档的关键词分别为T1,T2,…,Tn,则其特征向量为T=[T1,T2,…,Tn];其对应的词频向量为t=[t1,t2,…,tn],词频ti(1≤i≤n)是在词语Ti(1≤i≤n)出现的次数;可以设词语Ti的权重是wi,表示其对文本主题内容的贡献程度,则特征向量T=[T1,T2,…,Tn]对应的权重向量为w=[w1,w2,…,wn]。
关键词的权重函数可以定义为:
式中:L表示词语Ti的词长;C为比例因子;α为词语位于段首、段尾等位置时的一个权重。
2)构建用户兴趣的特征向量。
用户的兴趣模型是指从大量数据信息中归纳出的不同企业的关注点、关注词、涉密词、有关发展的核心词汇等,可以表达为向量空间模型。
3.3.2相关度计算方法
根据需要设定一个过滤阈值ψ,当文档的特征向量w与某个主题的兴趣特征向量w′之间的相似度R大于ψ时,说明文档与主题相似。
本文以军工企业为例,探讨了现代企业信息安全审查中目标信息的智能发现方法。文章以词语级信息为主体,提出了信息安全审查中目标信息智能发现的基本框架,设计了信息安全审查中目标信息的获取算法和词语级目标信息智能匹配策略,实现了文档中词语级目标信息智能发现的精确性、及时性。
[1] 程红蓉,周世杰,丁熠,等. 一个信息安全综合设计型实验的设计[J]. 实验科学与技术, 2013, 11(6): 208-210.
[2] 梁爱东, 薛海波. 数字环境下的高校图书馆信息服务工作探析[J]. 信息系统工程, 2010(2):97-100.
[3] 崔虹燕, 蒋念平. 一种改进的多级信息安全过滤模型[J]. 情报理论与实践, 2006, 29(5): 615-617.
[4] 苏威. 基于Web不良信息过滤系统的研究[D].成都: 电子科技大学,2012.
[5] 肖根胜. 改进TFIDF和谱分割的关键词自动抽取方法研究[D]. 武汉: 华中师范大学, 2012.
[6]MoharB.SomeapplicationsofLaplaceeigenvaluesofgraphs[J].NatoAsi, 1997(9):227-275.
[7] 田娟,王崇骏,李静,等. 一个基于谱图分割的简单聚类算法[J]. 复旦学报, 2004, 43(5): 810-814.
[8] 方俊,郭雷,王晓东.基于语义的关键词抽取算法[J].计算机科学,2008, 35(6):148-151.
[9] 李静月,李培峰,朱巧明. 一种改进的TFIDF网页关键词提出方法[J].计算机应用与软件,2011,28(5): 25-27.
[10]JonesKS.Astatisticalinterpretationoftermspecificityanditsapplicationinretrieval[J].JournalofDocumentation,1972, 28(1): 11-21.
Research on the technology of the intelligent target discovery in information security review
FENG Geli1,2,HAN Yanjun3,WANG Yexuan4,QIN Xiansheng1
(1.School of Mechanical and Electrical Engineering, Northwestern Polytechnical University, Shaanxi Xi'an, 710072, China)
(2. Chengdu Aircraft Industrial (group) Co., Ltd., Sichuan Chengdu, 610092, China)
(3.School of Mechanical Engineering, Shijiazhuang Tiedao University, Hebei Shijiazhuang, 050043, China)
(4.Department of Basic Courses, Shanxi Polytechnic College, Shanxi Taiyuan, 030006, China)
In order to ensure the information security of the production enterprises during design, storage and manufacture process, it sets the basic framework of the intelligent target discovery in the information security review base on the analysis of enterprise information. It analyzes the acquisition of the word-level target information and the intelligent matching strategy between the target information and documents in the information security review, then puts forward the related algorithm, validates the feasibility and effectiveness of the algorithm.
target information; discovery technology; retrieval
10.3969/j.issn.2095-509X.2015.05.013
2015-04-23
冯戈利(1968—),女,四川洪雅人,成都飞机工业(集团)有限责任公司高级工程师,博士,主要研究方向为目标信息发掘与安全技术研究。
TP301.6
A
2095-509X(2015)05-0055-06