基于等保2.0的铁路敏感数据安全关键技术及研究

2021-01-15 09:22彭剑峰徐保民张义祥
网络安全技术与应用 2021年1期
关键词:敏感数据脱敏数据安全

◆彭剑峰 徐保民 张义祥

基于等保2.0的铁路敏感数据安全关键技术及研究

◆彭剑峰1徐保民2张义祥1

(1.中铁信安(北京)信息安全技术有限公司 北京 100094;2.北京交通大学 北京 100044)

本文以等保2.0对铁路货运数据的安全要求及货运数据规则为基础,结合铁路业务系统,从“数据安全使用”的角度,对以主动防护为手段的安全保护技术进行深入研究,包括数据的分类分级、敏感数据的自动识别、敏感数据的脱敏存储和使用,设计开发出铁路敏感数据自动识别与动静态脱敏于一体的大数据平台,可在大数据环境下准确高效地对多源非结构化数据源进行自动分类分级和脱敏操作。

数据脱敏;机器学习;信息安全;数据隐私

近几年,云物大智移等技术正逐步应用在中国铁路上。《铁路信息化总体规划》和《铁路大数据应用规划报告》里都对铁路数据的价值利用提出了更高的要求,同时也提出了数据安全要求。随着铁路数据的深入应用,数据安全问题也会日益凸显。铁路数据是国家基础战略资源,也是中国国家铁路集团有限公司的重要资产,关系到国计民生。传统的防火墙、反病毒软件、入侵检测和数据防泄漏等信息安全防护措施,已经难以独立应对数据安全问题,并且内部人员的泄漏比外部黑客攻击带来的后果更严重。

2019年发布的网络安全等级保护制度2.0国家标准(以下简称等保2.0),注重全方位主动防御、动态防御、整体防控和精准防护。等保2.0结合数据的全生命周期提出了安全防护的要求,尤其针对重要的、敏感的数据,在传输、存储、使用、消除、运维等方面均有具体要求,并且对个人信息保护单列了章节,这些都是等保1.0所没有的。通过对等级保护三级的要求分析,共有18项控制点/要求项涉及数据安全,其中安全通用要求中的技术要求6项和管理要求7项,云计算安全扩展要求3项、大数据应用场景说明2项。在《国家网络安全法》中明确提出国家实行网络安全等级保护制度,对公共通信和信息服务、能源、交通、水利、金融、公共服务、电子政务等重要行业和领域,以及其他一旦遭到破坏、丧失功能或者数据泄露,可能严重危害国家安全、国计民生、公共利益的关键信息基础设施,在网络安全等级保护制度的基础上,实行重点保护。

从2017年起,国内市场开始重视敏感数据安全这个细分方向。2015年Gartner首次提出了数据安全治理概念,2017年在Gartner全球安全大会中提出数据安全治理已成为数据安全中的“风暴之眼”(The Eye Of Storm),2018年,Gartner首次在数据安全治理方向上专门推出研究报告《如何使用数据安全治理》。在Gartner的数据安全治理理念中,提出了“数据分级分类,针对不同级别数据实行合理的安全手段;要明确数据的访问者(应用用户/数据管理人员)、访问对象、访问行为,基于这些信息制定不同的、有针对性的数据安全策略。”Microsoft 也推出了 DGPC 方案(Data Governance for Privacy Confidentiality and Compliance),该方案是专门强调隐私、保护与合规的数据治理技术框架,提出了安全的基础架构、身份和访问控制、信息保护、审计和报告四个技术领域。2019年,中国网络安全与信息化产业联盟数据安全治理委员会(简称数据安全治理委员会)发布了《数据安全治理白皮书》,在国内正式提出了“让数据使用更安全”的体系化方法论,其核心是“要满足数据安全保护、合规性、敏感数据管理三个需求目标,通过分级分类、角色授权、场景化安全等来实现数据使用安全的精细化管控。”

1 系统架构

当前,我国铁路建设处于高速发展期,铁路信息化建设也需要相匹配。增强网络空间安全防护能力,需要聚焦铁路网络安全突出问题,数据安全问题是关键问题,以等保2.0对铁路货运数据的安全要求及货运数据规则和特点为基础,结合铁路业务系统和大数据应用的实际,从“数据安全使用”的角度,对以主动防护为手段的安全保护技术进行深入研究,以铁路货运相关数据为研究对象,通过对其数据分类梳理来界定敏感数据范围,并根据其数据规则和特点,提出敏感数据分类分级标准和建议,并设计开发出铁路敏感数据自动识别与动静态脱敏于一体的大数据平台,可用于大数据环境下高效准确地对多源非结构化数据源进行自动分类分级和脱敏。

图1 铁路敏感数据安全系统架构图

图1是我们所设计的铁路敏感数据安全系统架构图[1]。它主要由敏感数据管理门户、数据工作台、权限管理、敏感数据安全管控平台、数据质量监控与审计、敏感数据安全分类、基础库和脱敏库等核心部件构成。其工作流程[2]:

1)数据源配置,管理者通过页面输入账号、密码、数据源类型、访问类型、url等信息,系统后台根据输入的信息让Durid和ShardingSphere-JDBC配合使用连接源进行验证账号和密码是否正确,如果验证成功会生成对应的任务加入工作队列,任务调度会从线程池Durid里通过ShardingSphere-JDBC连接数据源,在Spark计算引擎上执行扫描任务,通过遍历数据源的数据跟规则进行匹配,梳理出该源的敏感信息进行存储。

2)静态库生成,如果配置的是静态库时,Oozie会调用Datax-web通过Spark对数据源进行数据同步,同步的过程中通过梳理表和脱敏规则生成新数据,新数据会存储到用户指定对应的数据源类型中,根据用户的配置更新时间,Datax-web增量同步数据到数据源。

3)动态脱敏,当第三方应用或者数据工作人员通过页面或API访问生产库时,首先网关Kong对访问进行拦截,拦截后对用户进行身份认证和权限认证,如果没有权限,需要通过管理员对该用户开放权限;如果有该权限,会从线程池Druid里通过ShardingSphere-JDBC连接配置的输入源,连接后shardingSphere-JDBC对SQL进行解析、路由和改写,然后再通过spark去对查询的数据进行脱敏替换,把替换后的数据返回给用户。

4)静态脱敏,当第三方应用或者数据工作人员通过页面或API访问的源是在脱敏库中时,首先网关Kong对访问进行拦截,拦截后对用户进行身份认证和权限认证;如果没有权限,需要通过管理员对该用户开放权限,如果有该权限,直接路由到脱敏库进行访问。

2 关键技术

2.1 分类分级标准

铁路货运业务种类繁多,数据呈现出复杂性高,多样性强的特点。采用规范的数据分类、分级方法[3],有助于行业机构厘清数据资产、确定数据重要性和敏感度,并针对性地采取适当、合理的管理措施和安全防护措施,形成一套科学、规范的数据资产管理与保护机制,从而在保证数据安全的基础上促进数据开放共享。

数据分类是数据保护工作中的一个关键部分[3],是建立统一、准确、完善的数据架构的基础,是实现集中化、专业化、标准化数据管理的基础。按照统一的数据分类方法,依据自身业务特点对产生、采集、加工、使用或管理的数据进行分类,可以全面清晰地厘清数据资产,对数据资产实现规范化管理,并有利于数据的维护和扩充。数据分类为数据分级管理奠定基础。

数据分级有助于铁路行业根据数据不同级别,确定数据在其生命周期各个环节应采取的数据安全防护策略和管控措施,进而提高机构的数据管理和安全防护水平,确保数据的完整性、保密性和可用性。

在调研现有各综合分类法与行业领域学科专用分类方法的基础上,结合铁路数据所特有的行业属性特征,以及铁路数据开发和共享的需求,制定铁路数据分类分级方法。

本次的分类方法是从数据的敏感度特点出发,采用多维度方法[4](组织架构、业务对象、货运流程)来进行分类,从组织架构角度,相同的数据不同层级的人敏感度是不一样的,高层的敏感度少,低层的敏感度多;从业务对象角度,有些数据本身就是敏感,不同的业务和不同的人对于数据敏感度也是不一样的;从业务流程角度,相同的数据不同的业务操作,敏感度也是不一样的。

我们从货运流程、业务对象、组织架构三个角度对数据进行准确的定位,这三个角度之间相互依赖,缺一不可。

2.1.1货运流程

根据信息来源不同将对货运流程分成29类[5]:

1)货主咨询:来源于客户关系管理系统,货运电商(货商)平台,货运服务系统。

2)货运需求:来源于95306货商平台、客服系统、EDI系统。

3)确认货主需求:来源于95306货商网站。

4)提报月计划:来源于95306货商平台、FMOS系统。

5)提报旬方案:来源于95306货商平台、集优信息系统。

6)上门取货:来源于物流信息系统,接取送达信息系统。

7)货主送货:来源于货运站信息系统中进门、专用线管理。

8)申请集装箱:来源于集装箱管理系统,95306电商平台。

9)车站超重限货物受理:来源于超限超重货物运输管理信息系统,货运站信息系统。

10)车站危险品货物受理:来源于危险平运输管理信息系统,货运站信息系统。

11)车站零担集装箱制票,货主交费:来源于货票系统,电子支付系统。

12)申报日空车申请:来源于货调系统,计划调度系统。

13)车站仓储:来源于货运信息系统。

14)车站空车入货运线:来源于调度系统,现在车系统。

15)车站装车:来源于货运管理系统,零担、集装箱管理系统,装载加固系统,抑尘管理系统等。

16)整车制票,货主交费:来源于货票系统,电子支付系统,轨道衡系统。

17)车站货车出线:来源于现在车系统。

18)车站集结列车:来源于现在车系统,确报系统。

19)车站货检,核对车号:来源于货检系统,超偏载系统,确报系统。

20)调度安排途中作业:来源于确报系统,货检信息系统,编组站信息系统,调度系统。

21)调度货车到达:来源于调度系统,确报系统。

22)车站货车入线:来源于现在车系统。

23)车站卸车:来源于货运信息系统,抑尘系统,集装箱、零散快运信息系统。

24)车站货物仓储:来源于货运信息系统,集装箱信息系统,零散快运信息系统。

25)车站内交付:来源于货运信息系统,货票系统。

26)车站外交付:来源于货运信息系统。

27)货主拉货出门:来源于货运信息系统。

28)物流送货上门:来源于物流信息系统。

29)办理理赔手续:保价及货运事故处理信息系统。

2.1.2业务对象

根据业务对象数据分为客户基本资料、身份鉴权信息、客户运输信息和客户运输内容信息[5]。

(1)客户基本资料

政企客户资料:政企客户信息(姓名、联系电话、邮箱)、发货信息(订单号、起始日期、终止日期、发站、发专用线、发货单位、发货部门、发货单位地址、电话等)、收货信息(品名、车数、吨数、车种、运输特征、换装港、终到港、保价与否、怕湿与否、散堆装、非散堆装、装卸方式、单件重量等)、货物信息、发送物流服务信息、到达物流信息(接取:取货地点、取货时间、联系人姓名、电话;配送:配送地址、配送时间、联系人姓名、联系人电话等;仓储服务、搬运装卸服务)、附加信息(是否整车列装车、是否定制信息服务、客户备注等)实货确认时间、实货确认人、集装箱承认信息、提单信息。

个人客户资料:客户姓名、证件类型、证件号码、证件影印件、客户职业、工作单位、居住地址、联系地址、联系电话、银行扣费账户、客户编号、年龄、性别等。

各类特殊名单:客户姓名、证件类型、证件号码、证件影印件、客户职业、工作单位、居住地址、联系地址、联系电话、银行扣费账户、客户编号、年龄、性别等。

(2)身份鉴权信息

用户密码:用户服务密码、登录密码、秘钥、支付密码等。

(3)客户运输信息

详单:收货、发货详单等,内含运输物品类型、收发货位置、重量、收发时间等。

账单:每月出账的货物运费、特定线路运费、装卸费、保价费、仓储费、接取送达费等。

客户历史信息:货票、商务记录、货物记录、理赔信息等。

(4)客户运输内容信息

客户货物内容记录:客户运量、运费、收入率等运输内容。

2.1.3组织架构[5](见表1)

表1 组织架构分类

数据分级是以数据分类为基础,根据数据的价值、内容敏感程度、影响和分发范围不同对数据进行敏感级别划分[6]。一旦安全性遭受破坏将直接影响到国家安全、社会秩序、公众利益的,划分为高度敏感数据,涉及信息量大、对客户造成轻度影响的划分为一般敏感数据、对用户和铁路都没有影响的划分为开发/公开数据,划分如表2[7]:

表2 数据分类

2.2 自动分类分级模型[8]

分类分级主要采用的是k-means和向量空间模型(SVM)来识别,主要架构如图2所示。

主要流程如下:

(1)导入数据,从数据源获取含有敏感数据的铁路业务数据。(2)分词,通过分词工具对长文本进行分词。

(3)构建词袋模型,将切分后的单词进一步转换成向量。先将所有文本中的词汇构建成一个词条列表,其中不含重复的词条。然后对每个文本,构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数。

(4)权限转换,用算法TF-IDF,用来评估一个词条对于一个文件集中一份文件的重要程度。

(5)计算余弦相似度,计算两个向量的夹角余弦值,就可以评估他们的相似度。

(6)数据经过k-means进行自动分类,再通过内部业务人员对数据进行标识,抽取80%的数据经SVM进行训练,剩下的20%进行测试。

图2 自动分类分级模型

(7)评测模型,通过2个指标(准确率和召回率)评估分类模型:

F作为两者综合考虑的评估指标

准确率是评估捕获的成果中目标成果所占的比例;召回率是召回目标类别的比例;而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。

3 结束语

本文主要设计开发了一个铁路敏感数据安全保护的大数据平台,系统定义一套铁路数据的分类分级标准,通过机器学习实现敏感数据自动识别,降低人工识别的工作强度,实现静态和动态数据脱敏功能满足不同的业务场景,功能中涵盖了常用的隐私保护算法,用来解决低敏数据聚合变高敏的问题。通过铁路敏感数据安全大数据平台能有效解决铁路敏感数据泄露的安全问题,促进铁路敏感数据的规范管理和安全使用,后续研究考虑使用深度学习来提高自动识别敏感数据的准确率。

[1]《数据脱敏应用指南报告》发布[EB/OL].https://www.freebuf.com/company-information/220232.html.

[2]数仓深度|数据治理之数据脱敏[EB/OL].https://mp.weixin.qq.com/s/62_IFokAl53DOUUK9eyCjg.

[3]JR/T 0158-2018 证券期货业数据分类分级指引.

[4]JR/T 0197—2020 金融数据安全数据安全分级指南.

[5]陈光伟.铁路信息系统应用技术[M].中国铁道出版社,2017.

[6]《数据安全能力成熟度模型》实践指南:数据分级分类[EB/OL].https://www.secrss.com/articles/24907

[7]数据安全治理的关键步骤[EB/OL].https://www.dbsec.cn/zt/aqzl/zy-3.html.

[8]机器学习笔记(3)——使用聚类分析算法对文本分类(分类数k未知)[EB/OL].https://blog.csdn.net/leaf_zizi/article/details/82684921.

中国铁路信息科技集团有限公司科技研究开发计划课题(《基于等保2.0的铁路敏感数据安全关键技术研究》KGZG-CKY-2019027(2019B07))

猜你喜欢
敏感数据脱敏数据安全
干扰条件下可检索数字版权管理环境敏感数据的加密方法
激光联合脱敏剂治疗牙本质过敏症
实现虚拟机敏感数据识别
谈一谈脱敏治疗
基于透明加密的水下通信网络敏感数据防泄露方法
云计算中基于用户隐私的数据安全保护方法
基于4A平台的数据安全管控体系的设计与实现
建立激励相容机制保护数据安全
让青春脱敏
大数据云计算环境下的数据安全