基于语义分析的保密安全敏感事件可视化研究与应用

2020-11-14 08:51卢腾李静魏家辉程杰杨大力王婵
网络安全技术与应用 2020年11期
关键词:保密语义可视化

◆卢腾 李静 魏家辉 程杰 杨大力 王婵

加解密技术

基于语义分析的保密安全敏感事件可视化研究与应用

◆卢腾1李静1魏家辉1程杰1杨大力2王婵1

(1.国家电网有限公司信息通信分公司 北京 100081;2.中孚信息股份有限公司 北京 100081)

随着信息化发展已深入到企业的方方面面,新兴移动办公模式在提升工作效率的同时,也给企业保密安全工作带来了新的风险,保密安全作为企业“大安全”的一部分,关系到公司生存发展。本文基于保密安全工作现状,分析保密工作面临的风险,研究语义分析相关的智能化判定技术,实现了保密安全敏感事件感知及可视化展现,建成一套支撑保密安全的监测平台,能够精准、高效的服务于企业保密管理工作,提升了企业保密技术支撑水平,有效遏制失泄密事件发生。

文本提取;语义分析;智能化;可视化;事件监测

1 引言

随着世界经济日益一体化,信息化技术已经在各行业广泛应用发展,企业承担的国家任务日益增多,新媒体的快速崛起,线上办公以及移动办公逐渐成为一种新的工作模式,在提高企业工作效率的同时,也给企业保密安全工作带来了新的挑战。带有重要敏感信息的文件泄露的风险越来越高,加之境内外敌对势力渗透窃密情形依然严峻,加强保密安全敏感事件监测能力已刻不容缓。

当前保密安全工作在观念、制度、技术支撑等方面与面临的形势任务不相适应的问题日益突出,缺乏有效的措施监控敏感事件发生,控制失泄密风险扩大。因此,提升网络保密安全敏感事件监测技术水平,建立行之有效的保密安全监控管理体系是当前迫切工作任务。

2 保密安全工作风险分析

(1)保密人员意识薄弱:意识薄弱侧面反映出保密知识的缺乏,重要涉密人员保密观念淡漠,认为保密与自己关系甚远,工作中只涉及工作秘密,接触不到高敏感的文件,殊不知失泄密行为的发生多为被动泄密。部分人员对保密形势的复杂性估计不足,认为上网行为规范,不需要对计算机进行保密,侥幸心理一直存在,放松警惕性,就会让不法分子有机可乘。

(2)移动办公上网行为风险:移动设备丢失,据调查结果显示,每年有7000万部手机丢失,其中60%的手机包含敏感信息;手机拍照将敏感信息在互联网中进行传播;公私网络混用,移动终端既有个人应用也有企业应用,企业及个人数据无明显隔离区分,数据追踪审查和上网行为审计支撑手段不足,企业机密泄露风险巨大。

(3)技术防范手段不足:办公终端弱口令现象依然存在,涉密信息设备、涉密载体缺少全生命周期管控措施,导致涉密内容的阅知范围界定不清晰,可能会带来失泄密扩大风险。办公终端违规存储敏感文件是失泄密事件发生的源头,缺少针对敏感文件监测的技术支撑手段。

3 基于语义分析的敏感事件可视化研究

3.1 技术路线及关键技术研究

本文研究文字、图片等智能化识别技术,结合分词技术、tf-idf加权技术,借助simHash算法、minHash算法,以用户实际使用场景、保密业务操作流程为基础,同时兼顾用户使用体验,切实提高用户业务工作效率,将保密敏感事件场景化、流程化,形成以下技术路线,如图1所示。

图1 技术路线图

整体技术路线采用三层结构:终端主机探针监控层,采用技术化手段扫描、监测敏感文件违规存储、操作、传递的各种行为;后台数据采集分析层,建立四类数据分析场景模型,对终端监控采集的各类数据进行汇总处理分析;前台可视化呈现层,将后台分析结果采用各种可视化图表集中实时呈现给用户,并根据用户重要级别分级、分域进行数据展现,从而实现精准用户行为定位、实时远程在线自动化监测、大屏可视化展示,全面提升保密安全敏感事件感知能力。

3.2 敏感信息实时监控感知技术研究

敏感信息实时监控感知是对用户终端执行各类文件操作进行行为监控捕获,本文通过Hook监控,磁盘底层文件扫描等技术实现。

(1)Hook监控技术

通过Hook技术既可以实现对文件的保护,防止文件被篡改,同时可以对操作系统进程进行监控,即可对合规进程进行保护,又可以对违规进程强制关闭。本文对Hook技术进行封装设计,实现模块化的Hook平台。

(2)磁盘底层文件扫描技术

磁盘底层文件扫描是通过分析文件系统原理、OLE文档嵌套机制以及各种文档文件二进制格式,对系统中各式各样文件进行识别、分析、提取文件全部内容的一种技术。利用该技术可对嵌套隐藏的文件、受损文件、修改后缀名的文件等非正常文件进行提取,杜绝违规旁路操作。

该文通过研究近4000种嵌套组合,首次实现了嵌套文档检查技术,解决了违规文件嵌套隐藏在常规文件中的问题,该技术支持DOC、DOCX、PPT、PPTX、XLS、XLSX等多种类型办公文档多层次嵌套检查。在此基础上,优化了文件抽查算法,研究文本提取技术,实现了对文件头损坏、文件后缀被修改等情况的文档检查,使得文件检查全面无遗漏。

3.3 基于语义分析的智能化判定技术研究

针对文件判定工作量大、文件重复检查上报等情况,本文研究综合OCR识别、语义词库过滤、指纹比对等多种技术,实现了智能化文件判定,有效提升敏感事件监测、判定的准确性。

(1)OCR识别

检查终端通过对图片图像文件识别并转换成文本格式,从而实现对图片图像文件的检查。首先对图像进行预处理,对图像的成像效果进行调整。接下来对文字版面进行分析;先将每一行进行行分割,这样把每行的字符切割下来;然后再对每行文本进行列的分割,最后切割成一个一个的字符;将字符送到训练好的OCR识别模型里进行最重要的字符识别,得到最终识别结果。

(2)语义词库过滤

终端执行检查任务,对每次发起检查任务策略做记录,对检查的合规性词语自动过滤,诸如电脑“开机密码”等此类短语。逐步积累补充完善,构建合规词汇专家知识库,实现自动过滤,降低系统误报率。

(3)版式文件检查

通过对政府机关下发的红头文件机要文件等相关文件的格式进行分析、总结归纳后对此类特定格式文件形成统一可量化的各类指标,终端检查工具检查过程中分析各个指标匹配程度进而对标准版式文件进行检查,发现真正符合指标的版式文件,同时页面单独展示,提高文件操作人员对该类型文件的关注程度,辅助判定工作。

(4)指纹比对相似文件

文件指纹匹配技术是从样本文档中生成指纹特征库,然后以同样的方法从待检测文档或内容中提取指纹;将得到的指纹与指纹库进行匹配,获得其相似度。终端通过指纹算法计算出文件的指纹特征码,服务端接收到文件指纹信息后,通过分词技术、信息检索与数据挖掘加权技术tf-idf,借助simHash、minHash算法,以敏感文件库中的违规文件作为比对源,从比对源数据中找出符合一定相似度临界值的特定文件,实现辅助文件判定功能。

(5)相同文件自动判定

终端检查文件时通过MD5信息摘要算法计算文件MD5值,上报报告时作为文件唯一标识信息,通信服务器接收报告时将文件MD5值与敏感文件库文件的MD5值进行比对,发现一致时自动以敏感文件库中文件的判定结果判定当前文件,从而实现文件自动判定,简化判定人员工作量。

(6)数字水印

管理端进行文件提取缩略图和文件摘要等操作时,通过施加数字水印背景(包含访问源IP、MAC、账号等信息),实现对文件保护,一旦对文件进行拍照、复制粘贴等操作时均会带上水印,该技术对泄密事件的发生起到一定预防和威慑作用,一旦泄漏可利用水印进行溯源。终端产生的检查报告经SM4加密算法加密后嵌套阅读器底层识别,终端仅能通过专用阅读器浏览报告文件,仅允许查看而不可篡改报告内容。

终端文件存在形式不一,文件传播的路径多样化,综合运用以上智能化技术,实现了静态文件、动态文件的全面监控,大大提升网络保密安全敏感事件监测技术水平。

3.4 敏感事件可视化监控平台

基于以上技术研究,设计并实现了一套网络保密安全敏感事件监控平台,实现了对办公终端采用在线实时扫描,监测敏感文件违规存储、操作、传递的各种行为。在展现模块设计方面,根据用户重要程度分级、分域、分时进行展示,建立多个数据采集分析场景模型,对终端监控采集的各类数据进行汇总处理,将分析结果通过丰富的组件实现多样化个性展示。

在敏感事件可视化呈现上,由于监测全网终端操作行为数据量较大,考虑到综合展现平台的响应速度和展示效果,采用了前端较先进的主流框架Angular、WebGL三位立体技术、栅格化技术等,确保可视化效果的完美呈现。

4 总结

“没有网络安全就没有国家安全”,网络信息化是一把双刃剑,在促使经济高速发展的同时,也给保密安全带来更多的风险与挑战。本文基于企业级保密安全工作需求,对语义分析技术进行研究实现,并应用于保密敏感事件监测业务中,做到敏感事件智能化感知、可视化展现,实现企业级保密工作科学运行管理,有效提升企业保密安全的综合防范能力。下一步,我们将继续完善语义分析知识库,提升机器学习算法精度,扩展敏感事件可视化展现形式,丰富监控场景,逐步推广到移动端敏感事件风险感知监测,实现敏感信息的全面掌控,严防失泄密事件的发生。

[1]黄子颖. 浅谈信息化条件下保密管理工作面临的问题和对策[J]. 福建冶金,2020.

[2]林楠.省级电力公司系统提高失泄密风险防范能力“靶状”保密工作机制构建[J]. 中国科技期刊数据库经济,2017.

[3]陈功文.人工智能中的语义分析技术及其应用[J].电子技术与软件工程,2019(11).

[4]李小翠. 图像特征和语义分析方法的研究[D].电子科技大学,2017.

猜你喜欢
保密语义可视化
真实场景水下语义分割方法及数据集
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
多措并举筑牢安全保密防线
思维可视化
自然资源可视化决策系统
读者调查表
论中国共产党的保密观
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析