文|常津铭 杨新涛 周晓伟 陈青钦 付恒
随着信息技术的快速发展,企业日常生产经营过程中产生的数据呈现出井喷式增长。海量聚集的数据对国家安全、经济发展、社会治理以及人民生活等都造成了明显变化,这导致数据安全的重要性提升到了前所未有的高度。如何保障数据安全不仅涉及到公民个人的隐私,同时还会影响企业的长远发展和安全。因此,如何保障数据安全,确保数据不泄露,成为当今社会亟待解决的问题。
截至目前,很多科研机构以及企业单位都针对此做了大量研究:王益丰, 李涛等提出一种基于人体免疫学的网络风险检测方法,给出了自体、非自体、抗体和抗原等的实现方式,建立抗体的克隆选择,可有效的检测当前系统中存在的安全风险;周沈刚等提出一种基于RABC的数据权限控制办法,分析了用户/功能的权限控制方法存在的问题,提出了一种基于RBAC的B/S体系结构的信息系统权限控制方式,实现了安全的权限控制;乌兰、王京杰则通过LDA的数据模型有效过滤掉数据挖掘中的恶意数据,实验结果表明该方法较其他传统方法具有更好的检测性能,可以保证数据的有效性;方轶,丛林虎为避免数据容易篡改以及难追溯的特性,将区块链技术应用到数据导弹业务数据的记录和存储过程中,并采用一定的加密技术,有效的保障了数据的安全记录与存储。
上述方法都只是从技术手段做了一定管控,但技术手段总会存在缺陷,因此,本文创新地将技术手段与管理手段进行结合,设计基于敏感信息检测算法与分层分级审批的数据防泄漏模型。
本模型主要有两个部分组成:敏感数据检测算法、分层分级审批机制。模型整体架构如下。
本方案使用常用的正则表达式作为敏感信息检测算法,该算法由字符和特殊原字符组成的字符串,表示一种模式或规则。
正则表达式可以包含普通字符(例如字母、数字、标点符号)和特殊元字符(例如通配符、限定符、字符类)。常见的特殊元字符和含义如下:
1.’. ’:匹配除换行符外的任意单个字符。
2.’*’:匹配前面的元素零次或多次。
3.’+’:匹配前面的元素一次或多次。
4.’? ’:匹配前面的元素零次或一次。
5.’[]’:字符类,匹配方括号中的任意一个字符。
6.’()’:捕获组,用于将匹配的内容分组。
转义字符:反斜线 用作转义字符,用于匹配特殊字符本身。例如,.匹配句点字符’. ’。
锚点:锚点用于描述字符串的边界或特定位置。常见的锚点包括:
^:匹配字符串的开始位置。
$:匹配字符串的结束位置。
:匹配单词的边界。
限定符:限定符用于限制前面的元素的匹配次数。常见的限定符包括:
{n}:匹配前面的元素恰好 n 次。
{n,}:匹配前面的元素至少 n 次。
{n,m}:匹配前面的元素至少 n 次且不超过 m 次。
通过组合和使用这些元素,可以构建复杂的正则表达式模式来匹配和操作文本数据。例如,正则表达式 ^d{3}-d{4}-d{4}$ 可以用来匹配格式为 “XXX-XXXX-XXXX” 的电话号码。
综上所述,正则表达式是一种用于描述文本模式的字符串,通过普通字符、特殊元字符、转义字符、锚点和限定符等元素的组合使用,可以实现对文本的匹配和操作。
提前定义敏感字段包含的内容,例如:姓名、手机号、身份证号等,根据不同类型敏感字段设置不同权重,根据权重设置不同阈值。例如,敏感层级越高的字段,权重越高,则可设置阈值较低,其余类型字段,权重较低,则可设置较高阈值,当2.1的算法检测出敏感字段的个数后,自动与对应阈值进行关联匹配,根据匹配出的数据个数高于阈值时,触发相应阈值对应的审批人层级进行审批,当低于阈值后,则触发普通审批人进行审批,完成分层分级,从而更加有效管控数据安全。实现的基本思路如下:
1.优先定义敏感字段包含的内容:姓名,手机号,身份证号……。
2.设置不同敏感字段权重:
Q姓名=A,Q手机号=B,Q身份证=C……。
3.比较A,B,C……的大小,针对大值优先匹配设置阈值,代表权重值越大,敏感程度越高,优先匹配权重较高的字段。
4.之后再匹配权值次之的字段,依次类推,直至将文件划分为最后层级。
5.根据划分的文件等级,自动匹配审批人,完成分层分级设置。
6.审批人审核通过,使用人完成下载。
1.数据集准备
考虑到本次实验仅仅验证模型可行性,因此并未设置太多复杂字段,仅仅定义手机号和姓名为敏感信息,据此,准备如下4个数据集:
(1) 敏感数据集1:包含手机号30个和姓名50个,文件总大小100KB左右;
(2) 敏感数据集2:仅包含手机号30个,文件总大小100KB左右;
(3) 敏感数据集3、仅包含姓名50个,文件总大小100KB左右;
(4)非敏感数据集4:为正常数据集,文件总大小100KB左右。
四个文件大小一致,避免因文件大小导致实验差异。
2.正则表达式构建
根据不敏感信息类型,设计合适的正则表达式。例如:手机号: r’^1[3456789]d{9}$’
(1)’^1’:手机号码以1开头;
(2)’[3456789] ’:第二位为3,4,5,6,7,8,9中的任意一个;
(3)’d{9}’:数字9表示手机号码的剩余部分。
同样,设置姓名或者其他格式的正则表达式。通过正则表达式检测出不同敏感字段个数形成集合G={(手机号,个数),(姓名,个数)}。
3.分层分级审批模型设计
将手机号S定为权重较大信息,设置阈值为20;姓名X为权重较小信息,较低阈值10;同时将模型分为三个层级审批,最高层级为A审批,次之为B审批,最后为C审批。整体逻辑如下:
(1)检测G中手机号S,若S>20,A审批;
(2)若S<=20,X>10,B审批;
(3)其余均由C审批。
4.数据导入模型进行实际测试
实验最终现象为:数据集1,2均由A审批,数据集3由B审批,数据集4由C审批。
通过使用实际的数据集对模型进行了实验和评估。实验结果表明,基于敏感信息检测算法与分层分级审批的数据防泄漏模型,在准确性和效率上都表现出了良好的性能。该模型能够准确识别下载数据中的敏感信息,精确度达95%以上,并根据实际情况智能匹配适当的审批层级进行审核,从而确保敏感数据经过领导层审核和批准,有效降低数据非法泄露风险,提高了数据处理的安全性和效率。
本文主要提出一种基于敏感信息检测算法与分层分级审批的数据防泄漏模型,一是通过正则表达式对敏感数据进行检测,可有效识别敏感字段(如:姓名、手机号、身份证号、家庭住址等信息),数据识别能力高,误判率低;二是提供分层分级审批能力,将敏感信息下载与审核人员的层级进行结合,旨在降低敏感数据的泄露风险。测试结果表明,该模型在准确性和效率上具有良好的性能,可以有效识别敏感信息并根据情况匹配适当的领导层级进行审核。未来的研究将致力于研究离网数据的保密性,防止离网数据随意扩散、传播,以满足不同领域和场景中的实际需求。