钻井数据分类分级管控技术研究

2024-06-26 11:43袁铭袁立志高翔
电脑知识与技术 2024年13期
关键词:数据治理机器学习数据安全

袁铭 袁立志 高翔

摘要:近年来,我国对数据安全问题愈发重视。2021年9月公布了《中华人民共和国数据安全法》,前所未有地将数据安全提升到了关乎国家安全的高度。长庆钻井总公司作为一家隶属于央企中国石油天然气集团的综合性钻井工程技术服务公司,多年来积累了海量的钻井相关数据。这些数据既蕴含了丰富的专业知识,同时又包含着许多关乎国家安全和企业利益的重要数据。因此,对钻井数据进行分类分级的精确化管控是非常必要的,需要区分出各类数据对企业和国家的重要性。文章参照《中国石油天然气集团公司数据分类分级操作指南》中的数据分类分级标准和指导思想,结合本单位数据资产实际情况及细分领域,扩展了数据目录。按照先试点后推广的模式,选定了一个典型业务系统,对该系统的所有数据库表乃至字段进行了分类分级。并根据不同数据的值域、分布和字段特征,设计了智能分类分级的机器学习算法,为下一步全面推广实施奠定了基础。

关键词:分类分级;数据安全;数据管控;机器学习;数据治理

中图分类号:TP309.2 文献标识码:A

文章编号:1009-3044(2024)13-0135-03 开放科学(资源服务)标识码(OSID) :

0 引言

数据安全问题已经在全世界范围引起了各国的重视。欧盟在2020年出台了《数据治理法案》[1],美国国会研究服务局CRS(The Congressional Research Ser?vice) 在2022年3月和5月连续出台了《数据保护法:综述》和《数据保护与隐私法律简介》[2]。当前全球已有137个国家和地区制定了用于保护数据安全的法律,专项立法保护数据安全已成为世界范围内的惯例。我国亦在2021年9月公布了《中华人民共和国数据安全法》[3],前所未有地将数据安全提升到了关乎国家安全的高度。自此以后,国内各类企业都开始大力推进数据分类分级项目建设及关键技术研究。2023 年,中国石油天然气集团公司发布了《中国石油天然气集团公司数据分类分级操作指南》(以下简称《指南》) 。长庆钻井总公司作为一家隶属于中国石油天然气集团的综合性钻井工程技术服务公司,多年来积累了海量的钻井相关数据。这些数据既蕴含了丰富的专业知识,同时又涉及许多关乎国家安全和企业利益的重要数据。因此,有必要对钻井数据进行分类分级,区分出各类数据对企业和国家影响的重要性。

1 钻井数据治理的需求

长庆钻井总公司的开采和勘探主要在鄂尔多斯盆地,横跨陕西、甘肃、宁夏、内蒙古、山西五省,15个地市61个县(旗),分布范围十分辽阔,总面积高达37 万平方公里,各个井队非常分散[4]。这些井队每天都会产生大量的钻井相关数据,种类包括:

1) 地质数据:如岩石类型、孔隙度、渗透率等,可用于评估油气藏的质量和潜在产量。

2) 钻井参数:如钻头类型、钻进速度、钻压等,这些参数可以监控钻井过程,确保效率和安全。

3) 测井数据:如声波测井、电阻率测井等,可用于评估油气层的性质。

4) 生产数据:如油气井的产量、压力和温度等数据。

5) 环境和安全数据:监测收集钻井过程中的环境影响和安全风险[4]。

这些数据对于长庆钻井总公司来说极其重要,因为它们直接关系到油气勘探和开发的效率、成本和成功率。钻井数据是长庆数据资产中非常重要的组成部分,丰富的数据中蕴含着知识和经验,充分的共享可以提高生产效率,降低生产成本。但是,数据一旦泄漏也会给企业和国家造成较大的伤害,例如包含油田位置、油气储量等敏感信息的外泄,轻则会让竞争对手获得优势,影响企业的收入,重则关系到国家能源安全,可能使国家面临外部威胁。

当前长庆钻井总公司面临的现状是每天生产管理过程中都会产生庞大的数据,数据在存储、传输过程中是无差异化的管控,缺乏对数据的分级分类及相对应的合规管理,虽然网络安全措施较丰富,但是数据治理还存在不足,仍然存在数据被篡改、泄漏和删除等风险。

基于这种现状,我们亟待解决以下问题:

1) 研究长庆钻井总公司的钻井数据分类分级方法,对于不同的分类分级的数据建立不同的管控方法,采取不同的安保措施,在保证数据安全的基础上提高数据资产的使用效率。

2) 研究适用于钻井数据的分类分级模板,钻井数据不同于其他数据,目前在世面上几乎没有可参考的模板,唯一可以借鉴的是工信部颁布的《工业数据分类分级指南(试行)》[5],该指南的覆盖面太广,颗粒度较大,并不能直接套用在钻井数据上。

3) 钻井专业敏感数据的智能识别,当前分类分级的工具软件较多,其中很多都内置了智能的数据识别方法,但是主要是面向较普遍的数据类型,例如根据数据特点识别哪些数据是身份证号码、手机号码、地址、电子邮箱等。对于钻井数据缺少专业的智能识别方法。

4) 为钻井数据建立基于IPDRR模型框架,具备风险识别(Identify) 、安全防御(Protect) 、安全检测(De?tect) 、安全响应(Response) 和安全恢复(Recovery) 五大能力的数据安全防护体系,保障企业数据资产全生命周期各个生存阶段的机密性、可用性和完整性。

由此可见,长庆钻井公司亟待完善数据治理,构建一套具有完整性、安全性、可靠性、可用性及可行性的数据管控体系。该体系建立在数据分类分级精细化管理的基础上,在保证数据安全的前提下,为不同类型的用户提供方便有效的数据服务,为实现企业的数字化转型和智能化发展提供坚实的基础。

2 技术路线

钻井数据分类分级的具体技术路线如图1所示。

2.1 识别梳理钻井数据资产

在长庆钻井总公司中有数以百计的信息系统,涵盖了人事、财务、物流、外包、生产、销售等各个方面。本次项目的主旨是针对钻井相关数据的治理,因此首先要划定一个明确的项目边界,不能无限扩张。在数据资产中需要发现识别出与钻井相关的信息系统,确认每个信息系统的数据生产、使用等相关方,建立数据谱系,理清数据全生命周期从产生、处理、加工、融合、流转到最终消亡的过程,以及数据之间的血缘关系。此阶段的成果输出为钻井相关的数据资产清单。

2.2 钻井数据分类

数据分类是指按照数据的特征属性及内容进行划分,建立起分类体系并按照分类结果构建出数据资源目录,目前中石油已经从集团公司的全局视角建立了数据资源目录。根据不同数据特点可以分为四层或五层结构。当前中石油集团公司颁布的《指南》中已经给出了一级主题域和二级主题域,并提供了《数据资源目录构建规范》,各单位根据具体情况去丰富充实多级数据分类主题。中石油集团公司给出的数据资源目录框架最多包含5层,在一级、二级主题域下,第三层可以是业务对象,第四层是逻辑数据实体,第五层是数据属性。分类工作需要分步实施,小步快跑,迭代升级。我们的具体做法是选择典型业务系统作为试点,构建数据资源目录,经过评审后,形成定稿。目前国内有多种分类分级专业软件,例如启明星辰、中安威士等均推出了此类产品,支持将数据资源目录编制为多级结构的数据模板,并用数据模板实现对数据资源的分类。此阶段成果输出为数据资源目录及针对典型业务系统的,可嵌入专业分类分级软件的数据分类模板。

2.3 钻井数据分级

数据分级是指企业数据按照其重要性、敏感性及安全性进行分级管理。根据工业和信息化部办公厅在2020年发布的《工业数据分类分级指南(试行)》,我们把安全影响维度分为国家安全、社会公共利益、企业合法权益和个人合法权益四个,等级分为一般数据、重要数据和核心数据三个。其中,一般数据可以根据各单位具体情况再细分为内部一般数据和外部一般数据。内部一般数据是指可以在企业内部共享的数据,外部一般数据是指可以向外界公开的数据。一般数据是指不涉密,对国家利益、社会公共利益、企业合法权益和个人合法权益无影响的数据。重要数据是指企业普通商密,对国家利益有一般影响,对企业利益有严重影响的数据。核心数据是密级最高的,对国家、企业及社会利益均有严重影响的数据。对于数据的定级须遵循以下原则:

1) 合法合规原则:必须遵从国家相关法律法规和相关标准规范要求。

2) 就高从严原则:当信息系统包含的数据既有一般数据,又有重要数据和核心数据,就要按照等级最高的来定级。

3) 时效性原则:数据定级具有一定的时效性,当数据内容发生改变的时候要相应地对数据分级进行更新。

4) 可行性原则:分级的结果要有利于合法的共享数据和高效的管理数据,提高数据资产的使用价值。

此阶段成果输出是针对典型业务系统的数据分级结果。

2.4 钻井数据的标识与审核

按照前期的工作成果,选定典型业务系统后,根据该系统的数据特点制订了分类分级的实施方案和数据分类分级模板,就可以组织专家进行评审,在获得专家的认可后即可发布实施指南,采用专业的分类分级商业软件进行数据标识。当信息系统的数据结构或访问控制发生变化后,须及时更新。此阶段的输出成果为分类分级标识后的数据资产清单。

2.5 钻井数据管控

这一步就是按照中石油的《指南》精神,分别为一般数据、重要数据和核心数据制订管控策略,做到钻井数据全生命周期的分类分级管控。为落实数据管控,编撰了《钻井数据分类分级原则及方法规范》和《钻井数据安全合规工作流程规范》的草案,并组织专家进行评审,形成定稿。此阶段的成果输出是《钻井数据分类分级原则及方法规范》和《钻井数据安全合规工作流程规范》。

3 实现方案

在项目具体实施中,我们按照技术路线进行了项目实施。

首先对长庆现有的数据资产,不仅包括各类信息系统这样结构化的数据,还包括文档、图片、视频等非结构化或半结构化数据进行了全面梳理,形成了数据资产清单。

其次选择了《钻井液信息技术智能分析系统》作为试点的典型业务系统,对该系统中包含的元数据、数据表及字段进行了全面梳理。截止到2023年,中石油集团公司颁布的《指南》中共计包括28个一级主题域、244个二级主题域及若干三级主题,其中一级主题油田技术服务下包括了钻前业务、钻井业务、井控管理、固井业务等18个二级主题,我们把钻井液信息列为三级主题,隶属在钻井业务二级主题下。我们对二级主题域下的钻井业务进行了三级和四级业务对象的分类,采取的是线分和面分混合法,按照业务所属专业领域的数据分类规则,对该业务运营过程中收集和产生的数据进行分类。四级分类结果如图2所示,图中第四级就是具体业务对象,第五级是信息系统中具体的数据表。

第三步,按照分级原则对分类后的数据表逐一进行分级。《钻井液信息技术智能分析系统》中的数据一旦泄漏,将对企业造成严重影响,因此按照就高从严的原则划分为重要数据。

第四步,经过专家评审后生成数据模板,该模板以Excel方式保存,可直接导入到分类分级的商业软件中,并可用该模板对《钻井液信息技术智能分析系统》中的数据库表及属性进行标识。

第五步,采用《钻井数据分类分级原则及方法规范》和《钻井数据安全合规工作流程规范》对不同分类分级的数据设定共享策略,实现对数据资产的精细化管控。

4 小结

企业数据分类分级安全管控在过去两年已逐渐成为许多企业,尤其是央企信息化建设的重点。银行、电力系统已经开始较全面地实施,而钻井企业在这方面才刚刚起步。本文主要阐述了长庆钻井总公司实施钻井相关数据分类分级的技术路线和方法,以典型案例为试点进行尝试,为下一步推广到其他信息系统中提供了成熟经验。

参考文献:

[1] 安全内参. 解读:欧盟数据法案提案持续完善数据立法[EB/OL]. [2022-02-28]. https://www. secrss. com/articles/39766.

[2] 安全内参. 一文读懂美国数据保护立法情况[EB/OL].[2019-07-02]. https://www. secrss. com/articles/11839.

[3] 人民日报.中华人民共和国数据安全法[EB/OL].[2021-06-19]. paper.people.com.cn/rmrb/images/2021-06/19/07/rmrb2021061907. pdf.

[4] 袁铭,蔡海超,高翔. 数据治理技术在长庆钻井公司中的应用探析[J]. 电脑知识与技术,2023,19(28):100-102.

[5] 中华人民共和国工业和信息化部《, 工业数据分类分级指南(试行)》解读[EB/OL]. [2020-03-05]. https://wap. miit. gov.cn/jgsj/xxjsfzs/gzdt/art/2020/art_02ae8cca3f8445f7853f7781a72d9405. html.

【通联编辑:梁书】

猜你喜欢
数据治理机器学习数据安全
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
基于本体的企业运营数据治理
云端数据治理初探
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理