摘要:随着人工智能和材料科学数据驱动的材料设计热潮的兴起,材料科学数据成为生产要素、国家战略资源和国际竞争的焦点。然而,随着材料数据共享的增加,数据安全问题变得不可忽视。数据泄露、滥用、篡改等问题威胁着企业竞争力。本文综述了目前主流的数据安全保护技术,包括访问控制、加密技术,构成了传统的数据安全防护模型,实现数据传输、存储时的安全。区块链技术可以实现数据传输、存储时的机密性、完整性、可用性,但是这些机制仍无法解决数据使用时的隐私问题,无法保护使用中的数据机密性、完整性等问题。利用机密计算技术的优势,在硬件可信执行环境中执行计算,最小化计算环境的可信基,提供全方位的数据保护,践行“数据可用不可见”理念,实现对使用中的数据保护,进而构建端到端的全生命周期数据安全。本文结合区块链和机密计算技术的优势,提出基于区块链和机密计算的材料数据可信基础设施方案,以实现数据的全生命周期安全,为材料数据的安全应用提供有力支持。
关键词:机密计算;区块链;材料数据;数据安全;数据共享
1 "引言
随着基于人工智能和材料科学数据的材料设计热潮的兴起,材料科学数据正在成为生产要素、国家战略资源和国际材料技术竞争的焦点。随着材料基因工程研究领域的发展,原有的静态材料数据库逐渐演变成为集数据采集、存储与分析于一体的数据服务平台[1],例如材料腐蚀数据集成分析平台,AFLOW[2],MGED[3],NMDMS[4]。机器学习等人工智能算法的发展也促使材料数据平台致力于材料数据计算以及基于数据库数据的数据挖掘工具的开发。如今,数据驱动的材料研发被认为是继实证科学、理论科学和计算模拟之后的第四种范式[5]。数据驱动的技术可以显著缩短研发周期,同时降低成本。因此,包括中国在内的越来越多国家开始建设材料数据基础设施[3,4,6,7]。国家材料腐蚀与防护科学数据中心作为20个国家科学数据中心之一,按照“整合、共享、服务、创新”的建设方针,开放共享平台的资源,已积累了包括国家野外腐蚀试验站提交的腐蚀和环境数据、国家重点研发计划汇交数据、自主研发钢种以及企业合作项目的现场暴晒腐蚀数据、腐蚀联网观测系统采集的腐蚀和环境大数据等。但如何安全开放共享和利用这些数据仍是一个待解决的问题。
由于单个人产生的数据量小、数据类型单一,无法满足机器学习或者大模型训练的数据需求,因此越来越多的材料数据通过共享方式来挖掘数据价值,而数据共享过程中的材料数据安全问题越来越不容忽视,主要包括数据共享过程中数据泄露、滥用、篡改,以及在数据共享时,数据的知识产权确权问题[8]。材料数据(例如独特的材料性能信息、工艺参数、研发成果等)是由许多公司、科研机构、高校等通过投入大量时间和资源积累而成,不安全的数据共享可能对企业的竞争力产生负面影响。敌对国家、黑客或不道德的竞争对手可能试图窃取重要的材料数据,以获得技术优势。而数据的丢失、滥用,或者被篡改,可能导致长期研究和生产、出错甚至中断。因此,材料数据存储平台的数据安全对于维护企业、机构的竞争力、合规性、客户信任以及防止数据泄露和损坏至关重要。
主流数据安全保护技术包括访问控制(包括授权、身份验证和权限管理)、加密技术(例如对称加密、非对称加密)。这些机制在数据传输、数据存储方面具有较好的保护能力,但仍然无法有效解决数据使用中的隐私保护问题,包括数据机密性、完整性、可用性等。在数据共享过程中,参与者可能会试图从共享数据中推断出他人的隐私数据,从而导致敏感数据泄露。近年来,区块链技术的发展为解决该问题提供了新思路。例如,侯玥等人[9]将区块链技术应用到生态观测数据的共享与存储,Chen等人[10]提出了一种基于区块链的安全大数据共享模型,其中区块链信息在各个节点之间同步,保证了数据共享的可审计性和可追溯性。然而,由于开放性和透明度,一些研究在区块链中引入了额外的技术,以确保数据共享的安全性。Yang等人[11]通过加入加密算法,提出了一种基于区块链的数据防篡改机制,以防止交易数据在用户存储过程中被篡改,确保交易可用性和数据完整性。Yang等人[12]使用基于区块链的安全多方计算来实现隐私保护的数据共享,从而保护数据使用时的机密性。Wang等人[13]将区块链框架作为“中间件”,为参与者之间的数据交互提供了标准的应用程序接口。这些方法在一定程度上缓解了数据传输与存储的安全风险,但是由于所有共享的信息都记录在区块链上,很难确保用户的隐私,所以仍未解决数据使用时的安全风险。
随着算力和大数据技术的发展,越来越多的数据处理平台被部署在云服务共享基础设施上。虽然传统的隔离和虚拟化技术(如管理程序和操作系统)已经为我们提供了很好的服务,但云的流行使软件系统暴露在新的安全漏洞(例如Hyper-V漏洞)之下[14],恶意应用程序利用漏洞获得特权,然后篡改操作系统或其他应用程序,应用无法阻止特权软件攻击。因此,研究实现端到端的全周期数据安全至关重要。而机密计算通过在基于硬件的可信执行环境中执行计算的方式,可以为使用中的数据提供保护,能够实现传输中、静止时和使用中数据的全方位保护,以确保不受被恶意代码或特权软件干扰。因此,本文提出基于区块链和机密计算构建材料数据可信基础设施的方案,借助机密计算和区块链构建全生命周期的材料数据安全闭环,实现数据存储、传输、使用的安全,为材料数据的安全应用及价值创造提供有力支撑。
2 "原理与方法
2.1 "区块链技术
2.1.1 "区块链技术原理
区块链被认为是一个具有不可逆性和可追溯性的分布式账本[15-16]。一般来说,区块链集成了加密算法、P2P通信、共识、智能合约等多种技术[17],可以建立信任关系,不需要对等实体之间的特殊信任关系,也不需要可信的中央权威。哈希函数和签名算法等加密算法可以保证信息的完整性和不可伪造性,P2P技术可以实现节点间的点对点通信,共识机制(例如工作量证明PoW、权益证明PoS、代理权益证明DPos)是区块链的核心[18]。中国信息通信研究院牵头的《区块链安全白皮书》中提到,区块链的运行机制可以概括为:应用层生成交易记录,并对交易记录进行签名,通过SDK或RPC接口发送到区块链系统的节点并验签,在一定的时间周期,将交易进行打包成区块,打包后的区块通过共识机制,交给某一个节点加入链上,并进行全网同步[19]。
区块链技术的主要特点是去中心化、密码学安全、不可篡改性[20-22]。去中心化意味着所有的交易都是由网络成员共同监督和记录,而不是由一个集中的机构控制。这使得交易更加安全、透明;密码学安全则使得交易数据不可能被伪造或者篡改;不可篡改性则意味着一旦交易被记录在区块链上,就不可能被修改。区块链技术也存在“不可能三角”,即无法同时达到可扩展性(Scalability)、去中心化(Decentralization)、安全(Security),三者只能得其二[23-24]。追求“安全”与“去中心化”则无法达到“可扩展性”,追求“可扩展性”与“去中心化”则需要牺牲“安全”,追求“可扩展性”与“安全”则无法实现“去中心化”。
2.1.2 "区块链技术应用现状
随着区块链技术的发展,基于区块链技术特点,研究人员和开发人员探索了广泛领域的各种应用。(1)因为加密货币在现有区块链网络中占有相当大的比例,被广泛应用于金融领域,包括商业服务、金融资产结算、预测市场和经济交易[25-28]。例如由Ripple[29]创建的全球支付指导小组(Global Payments Steering Group,GPSG)实现了可互操作和可扩展的开源基础设施,支持全球支付和货币兑换。(2)区块链技术可以在医疗保健行业发挥关键作用,在公共医疗保健管理、纵向医疗记录、自动健康索赔裁决、在线患者访问、共享患者医疗数据、面向用户的医学研究、药品假冒、临床试验和精准医疗等领域有多种应用[30-33]。特别是,区块链技术和智能合约的使用可以解决临床试验中研究结果的科学可信度问题,例如缺失数据或选择性发表。(3)最新兴的区块链相关领域之一是完整性验证[34-35]。区块链完整性验证应用程序存储与产品或服务的创建和生命周期相关的信息和交易,例如出处和伪造、保险或知识产权管理。(4)集中式组织(包括公共和私人组织)积累了大量的个人和敏感信息。当与其他实施数据挖掘方法的高效存储系统相结合时,区块链技术被认为可以增强大数据安全性。例如开源区块链技术Namecoin[35]实现了DNS的去中心化版本,从而保证安全性、抗审查性、效率和隐私性。
除了以上应用,数据共享与管理无疑是区块链技术的另外一个重要应用。如图1所示,目前区块链技术在数据平台上主要从以下三个方面进行安全保护:(1)数据加密,包括利用可信第三方来代替中心服务器[36],或者采用激励机制,安全多方计算[37]来降低作恶者的作恶动机。(2)利用区块链实现身份认证证书的全生命周期管理[38]或者利用区块链技术实现去中心化的身份管理,实现身份自主管理[39]。(3)基于区块链事务、智能合约等技术[20]实现对数据的访问控制,以实现分布式大数据的安全共享和数据确权。
2.2 "机密计算技术
机密计算通过在基于硬件的可信执行环境中执行计算的方式,可以为使用中的数据提供保护,从而实现数据的可用不可见[40]。与普通的执行环境相比,机密计算所采用的可信执行环境(Trusted Execution Environment,TEE)能够为数据提供机密性、完整性保护,同时还能为代码提供完整性保护。2004年,ARM推出了Trustzone,将操作系统分为安全世界和正常世界,从而为应用提供隔离的执行环境。2013 年,Intel 推出SGX[41-42](Software Guard Extensions, SGX)指令集扩展,旨在以硬件安全为强制性保障。2017年,AMD推出了安全加密虚拟化,从而构建机密虚拟机。此后,Intel又推出了安全虚拟化技术(Trust Domain Extensions, TDX),ARM推出了安全加密虚拟化(Confidential Compute Architecture, CCA)技术。目前,亚马逊、谷歌、微软、阿里云、华为云、腾讯云均提供机密计算服务,将云主机运行在可信执行环境中,从而保证云上数据的安全。同时,2019年,机密计算联盟成立,成员包括阿里巴巴、AMD、ARM、谷歌、华为、英特尔、微软等。国内企业也纷纷采用机密计算保护数据安全,比如中国平安蜂巢联邦学习平台为用户提供基于数据隐私保护的多源数据AI训练一站式解决方案,百度开发的MesaTEE安全计算平台组成一个巨大的分布式可信机密计算环境,2021年
5月,人民银行开展应用隐私计算进行数据共享试点。
机密计算具有数据机密性、数据完整性、代码完整性、代码保密性、认证启动、可编程性、可证明性、可恢复性的特性。数据机密性、数据完整性、代码完整性三个主要特性保证未经授权的实体在TEE中使用数据时无法查看数据、添加、删除或更改数据,未经授权的实体不能添加、删除或更改TEE中执行的代码。代码保密性可以保证在使用时保护代码不被未经授权的实体查看,可证明性通常要求TEE可以提供其来源和当前状态的证据或度量,以便另一方可以验证证据,并且可以通过编程或手动方式决定是否信任TEE中运行的代码。通常此类证据应由制造商可以证明的硬件签署,以便检查证据的一方能够强烈保证证据不是由恶意软件或其他未经授权的方式生成的。可恢复性要求某些TEE可提供从不合规或潜在受损状态恢复的机制。例如,如果确定固件或软件组件不再满足法规遵从性要求,并且启动身份验证机制失败,则可以更新该组件并重试(恢复)启动。与同态加密相比,机密计算更具备代码完整性、代码保密性、认证启动、可编程性、可证明性、可恢复性;而受信任的平台模块(Trusted Platform Module,TPM)与机密计算相比,在数据完整性和数据机密性仅有密钥保证。而机密计算除了需要TEE硬件以外,与普通的数据计算无本质不同,因此不会存在网络和算法上的性能瓶颈[43],而Intel SGX是目前应用最广泛的TEE技术,因此,基于SGX的机密计算对于重要材料数据安全共享具有重大意义。
2.2.2 "机密计算架构
在机密计算的业务中,主要包括:算法提供方、机密计算服务提供方、机密计算平台提供方、数据提供方和计算结果需求方五类角色。其中算法提供方提供满足计算结果需求方需求的、在TEE中运行的可执行程序;机密计算服务提供方和机密计算平台提供方为计算结果需求方提供机密计算服务,包括平台依赖的可信软硬件、接口,集成在机密计算平台内部的信任根等,建立实现完整的度量存储报告机制,将信任链扩展到应用程序;数据提供方提供用来计算的数据。在实际的服务中,上述角色可以由不同或者同一实体(机构或者个人)担任,例如算法提供方、数据提供方和计算结果需求方可以是同一实体,机密计算服务提供方、机密计算平台提供方可以是同一实体。
如图2所示,机密计算框架包括硬件层、系统软件层、服务层、应用层和管理层模块五个部分。其中,硬件层基于硬件隔离实现受保护的资源不被开放系统访问,并基于硬件安全功能为机密计算提供受信任的硬件基础;系统软件层为机密计算提供基于逻辑的隔离机制、必要的软硬件资源和基础服务;服务层为上层应用程序提供统一的机密计算服务接口及安全服务,安全服务是由底层的系统软件和硬件以及管理模块交互形成,机密计算统一服务接口用以屏蔽底层硬件架构差异;应用层是直接面向结果需求方的应用程序,结果需求方通过应用程序执行计算操作;管理层为执行机密计算业务提供必要的管理模块,例如日志管理、权限管理和密钥管理[44]。
2.2.3 "机密计算的主要安全功能
机密计算主要从远程证明、安全信道、密钥派生、数据封装几个方面为材料数据平台提供安全服务。
(1)远程证明:远程证明发起端发起证明挑战,普通计算环境的应用程序转发证明挑战给远程证明模块后,远程证明模块返回真伪报告给普通应用程序和远程证明发起端,最后远程证明服务端请求机密环境验证,返回机密计算环境验证结果给远程证明发起端,远程证明发起端在确定可信环境后对机密应用程序进行验证,以判断机密计算应用程序的完整性是否被篡改,从而对机密计算环境和机密计算应用程序进行完整性和真实性验证。在软件远程证明方面,Seshadri等人[45]提出了LRMA协议,通过统计证明失败的次数来动态调整证明频率,从而增加检测到攻击者的概率。在硬件远程证明协议方面,Yang等人[46]提出了SARA方案,使用可信平台模块作为簇头来隔离和保护网络部分,簇中的设备和簇头相互验证,并且簇头由主验证器验证,以便在网络级别提供证明。Intel的SGX[42]通过在CPU中内置最小可信基实现远程证明功能。SGX远程证明有两种形式,一种利用EPID(enhanced privacy identifier)直接向intel服务器对运行在TEE中的程序进行可靠性证明;另一种采用第三方作为代理进行远程证明,避免将信任决策外包给Intel。在混合远程证明方面,Carpent等人[47]通过最小化可信硬件特性,实现了比软件更加安全的证明结果。
(2)安全信道:保证数据导入和导出机密计算环境的安全性,通过安全信道的构建,客户端应用程序可以通过安全信道和服务端的应用程序进行安全通信。然后通过会话密钥或者私钥对数据进行加密或解密操作后,对数据执行写/读操作。
(3)密钥派生:基于根密钥针对不同密码运算场景生成专属密钥,从而对敏感数据进行加密。
(4)数据封装:一种为机密计算结果需求方提供敏感数据封装/解封装服务的安全服务。硬件密码引擎,将设备唯一密钥、机密计算应用程序标识和完整性度量值作为输入,生成根封装密钥并返回给机密计算操作系统;机密计算操作系统将生成的随机数和机密计算应用程序标识作为输入,生成封装密钥,然后利用封装密钥对数据进行加密。
2.2.4 "机密计算应用现状
基于上述机密计算特性,机密计算有广泛的应用场景,例如区块链、金融、物联网、医疗等行业。以物联网行业为例,物联网应用程序由涉及多个设备和服务器的分布式系统组成,为了应对设备的局限性,各种物联网场景需要云、边缘计算支持。应用 TEE 可以保护任何可能组合的敏感数据。例如,Nguyen等[48]提出一种分布式、可扩展、容错且可信的物联网设备数据记录器LogSafe,使用英特尔 SGX 来满足机密性、完整性和可用性,并提供篡改检测,防止重放、注入和窃听攻击。实验表明,LogSafe具有很高的可扩展性,使其能够与许多物联网设备配合使用,并且具有很高的数据传输速率。在医疗行业,Liang等[49] 提出了一个个人健康数据管理系统,采用以用户为中心的方法,让患者收集和管理他们的健康数据,并使用英特尔SGX和区块链来保护敏感的健康数据,实现数据访问的问责制。在云计算领域,Silva等[50]介绍了一种数据聚合架构,涉及数据安全和隐私两种方法。其体系结构包含四个主要组件:消息总线、生产者、聚合器和使用者。其中聚合器有两种选择:一种采用英特尔 SGX 技术,另一种采用同态加密技术。作者在主机、虚拟机和容器中运行了性能测试,结果表明,英特尔 SGX 允许比同态加密技术更短的响应时间。通过以上应用分析可知,通过结合机密计算和区块链技术,可以有效实现对材料数据共享平台的数据安全保护和隐私保护。
3 "区块链与机密计算在材料数据共享平台的应用探索
3.1 "基于区块链和机密计算的材料数据防护系统
以典型的材料数据共享平台为例,如图3所示,基于区块链与机密计算的材料数据防护系统包括数据处理参与方、运行在机密计算环境的数据处理系统、数据存储系统、密钥管理系统、区块链系统等几部分。
(1)数据处理参与方包括数据拥有者、数据使用者,可以由材料腐蚀领域、传统材料领域、新材料领域、生物医用材料领域等组成,每个领域既可以是数据拥有者也可以是数据使用者。
(2)材料数据防护系统最核心的能力是实现对使用时数据的防护,因此将数据处理系统运行在机密计算环境中。利用机密计算环境缩小数据运行环境的信任基,除了授权用户,任何特权软件及敌手均无法访问数据处理系统,从而实现数据的可用不可见。数据处理系统具有数据加解密、数据处理(数据预处理、
数据清洗、机器学习、深度学习、高通量计算等计算工具)、身份认证、平台真实性证明等功能。同时,为了证明机密计算环境的真实性,将机密计算的远程证明与区块链结合,将远程证明结果存储在区块链上,方便用户查询和使用。
(3)数据存储系统主要用来存储数据拥有者上传的数据,其中存储系统存储的都是密文数据,任何人无法窃取。数据通过机密计算环境中的密钥加密后传输到数据存储系统。
(4)密钥管理系统是材料数据安全的关键因素之一,所以为了保证密钥管理系统的安全,将其运行在机密计算环境中,同时利用机密计算的数据密封功能管理区块链的密钥。密钥管理系统负责密钥的生成、分发等功能,密钥管理系统的根密钥是由机密计算的硬件派生出来的,具有机密性。同时,密钥管理系统具有分层结构,根密钥采用机密计算的密封功能对第二层密钥进行加密。密钥管理模块与机密计算模块之间通过远程证明建立可信的传输层安全性(Transport Layer Security, TLS)信道,保证安全的密钥传输。
(5)区块链系统通过智能合约对整个系统提供访问控制、数据上链、机密计算环境验证功能。访问控制主要是对数据处理参与方的身份进行验证,颁发访问机密计算模块的token。当数据处理参与方访问机密计算模块时,机密计算模块的身份验证组件会通过区块链验证token的合法性。数据上链是指为数据分配ID,将ID和材料数据进行一对一绑定,ID在区块链上存储,而数据是加密存储在存储系统中。ID具有可验证的、随机的、唯一的特性,数据使用者可以通过数据拥有者在区块链上的ID和材料数据来验证ID的合法性,进而证明数据拥有者、数据、ID三者之间具有一对一的映射关系。
3.2 "材料数据计算保护
在实际业务场景中,数据的采集、传输、处理、存储等往往需要在不同组织之间流转,在此过程中,保障用户隐私数据计算和流转的安全至关重要。在对数据安全要求较高的材料研发场景中,机密计算及区块链技术可为材料领域数据的全生命周期安全提供有效保障。如图4所示,为了确保材料数据不泄露,材料数据分析算法全部运行在机密计算环境中,材料数据采集机构提供材料实验或者计算数据时需要验证机密计算服务的真实性、一致性和安全性。机密计算可保证在材料数据分析过程中材料数据以密文形式输入,材料数据的明文信息不会泄露,材料以加密形式落盘,材料分析需求方仅能获得最终的分析结果。
如图5所示,基于区块链与机密计算的材料数据存储与计算流程可按照平台启动、数据拥有者上传数据和数据使用者使用数据分为以下步骤:
(1)平台启动
步骤1:数据处理参与方(包括数据拥有者、数据使用者)在区块链上通过身份注册智能合约注册身份,同时将对应公钥注册区块链上(用于验证唯一的、随机的、可验证的ID使用)。
步骤2:机密计算平台启动,区块链中多个节点通过远程证明智能合约形成一个聚合挑战对机密计算
平台进行远程证明,机密计算系统接收挑战,然后基于Intel SGX技术的机密计算系统生成远程证明信息,将远程证明信息发送给区块链上的远程证明智能合约。远程证明智能合约对机密计算系统的远程证明信息进行验证,产生验证结果,并上链记录。
步骤3:数据拥有者通过区块链的身份验证智能合约获取访问机密计算系统的token,数据拥有者利用token访问机密计算系统,机密计算系统将token发送到区块链的身份验证智能合约验证token的合法性。如果token合法,那么数据拥有者可以继续访问机密计算系统。
步骤4:数据拥有者通过token访问区块链的远程证明智能合约,获取机密计算系统真实性信息,保证机密计算系统确实运行在具有可信执行环境的硬件环境当中,从而保证数据处理活动的机密性。
(2)数据拥有者上传数据
步骤5:数据拥有者准备上传材料数据(代称:M),首先计算材料数据Hash,得到Hm=Hash(M),利用Hm、自身的私钥生成可验证的数据标签IDm、验证信息Pm。数据拥有者通过对应的token访问区块链的数据上链智能合约,然后将数据标签IDm、验证信息Pm存储在区块链上。
步骤6:数据拥有者和机密计算系统进行密钥协商,形成加密信道,将材料数据M和数据标签IDm、验证信息Pm传输到机密计算系统。机密计算系统从密钥管理系统获得数据加密密钥,然后对材料数据M进行加密形成Cm。将密文Cm和数据标签IDm、验证信息Pm存储在数据存储系统当中。
(3)数据使用者使用数据
步骤7:数据使用者通过区块链的身份验证智能合约获取访问机密计算系统的token,数据使用者利用token访问机密计算系统,机密计算系统将token发送到区块链的身份验证智能合约验证token的合法性。如果token合法,那么数据使用者可以继续访问机密计算系统。
步骤8:数据使用者通过token访问区块链的远程证明智能合约,获取机密计算系统真实性信息,保证机密计算系统确实运行在具有可信执行环境的硬件环境当中,从而保证数据处理活动的机密性。
步骤9:数据使用者和机密计算系统进行密钥协商,形成加密信道。
步骤10:数据使用者通过token访问区块链的数据上链智能合约,获取需要访问的数据标签IDm、验证信息Pm和对应的数据拥有者的公钥。并将这些信
息通过上述加密信道发送到机密计算系统当中。
步骤11:机密计算系统根据对应的数据标签IDm从密钥管理系统获取对应的解密密钥,然后从数据存储系统获取加密的材料数据M并解密。然后利用数据标签IDm、验证信息Pm、对应的数据拥有者的公钥和对应的材料数据对证明数据拥有者、数据、ID三者之间一对一的映射关系进行验证,从而保证数据来源的合法性。
步骤12:此时机密计算系统可以进行相应的数据处理活动,例如利用机器学习、深度学习算法、高通量计算工具等算法或计算工具进行数据计算,最后将处理结果通过加密信道发送到数据使用者。
3.3 "实验分析
(1)为了测试不同区块链节点数对材料数据上链的影响,本文在操作系统Ubuntu20.10(硬件配置:16G,DDR3 RAM)上对区块链网络不同节点数对数据上链的吞吐量进行了实验,其中吞吐量(Transactions per second,TPS)指的是每秒处理的交易数。本区块链网络采用PBFT(Practical Byzantine Fault Tolerance)共识算法,将区块链共识节点分别设置10,40,60,80,100个节点。如图6所示,可以发现随着节点的增加,系统的吞吐量逐渐减小。当区块链的节点为10时,区块链的吞吐量可以达到3 400TPS。
(2)可信执行环境的数据状态测试:可信执行环境可以保证数据“可用不可见”,因此不可信环境无法获取可信执行环境中的数据。本实验测试了不可信环境能否获取可信执行环境中的数据。在普通环境创建一个数据指针,在不可信执行环境中调用机密计算的ECall方法进入可信执行环境,同时将数据指针传入可信执行环境。在可信执行环境中为数据指针赋值并打印,可以看出能够输出正确数据。然后,在不可信执行环境中打印数据指针,可以看出是全1(图7?)。因此,不可信执行环境无法暴力读取可信执行环境中的数据,进而实现使用时数据安全的目的。
4 "总结与展望
材料数据关系着经济增长及国家未来的发展。国家材料腐蚀与防护科学数据中心作为20个国家科学数据中心之一,承担着材料科学数据汇交与共享的重要任务。但是,数据的开发利用、流通共享在提升数据价值的同时也带来了新的安全风险和挑战。区块链技术由于去中心化和不可篡改的特性已广泛应用于金融、数据共享等数据交易场景,但由于共享的信息均记录在区块链上,导致用户隐私易泄漏。而机密计算可以从硬件上提供可信执行环境,从而保证数据全生命周期安全。因此,本文总结了区块链和机密计算技术的基本概念和安全特性,结合区块链和机密计算的优势,提出了区块链和机密计算在材料数据共享平台的基本框架和材料数据存储与计算的工作流。经过分析,结合区块链和机密计算,可以保证材料数据从存储、计算到数据传输的全生命周期安全。
虽然结合区块链和机密计算可以一定程度上保证数据全生命周期安全,但也无法百分百地解决安全漏洞。例如,机密计算缺乏统一的技术标准,其支撑技术(如SGX等)也存在侧信道攻击的风险。共识机制和智能合约等算法的性能和安全性是保障区块链高效安全运作的关键因素,但已有的共识算法尚未有效实现安全性、吞吐量和效率之间的均衡。因此,需要综合利用各种包括区块链、机密计算在内的安全技术,从身份验证、数据访问控制、数据加密等各个方面提供安全措施,从而更好地保障数据平台数据安全。
参考文献
[1] Xu Y. Accomplishment and challenge of materials database toward big data[J]. Chinese Physics B, 2018, 27(11): 118901.
[2] Curtarolo S, Setyawan W, Hart G L, et al. AFLOW: An automatic framework for high-throughput materials discovery[J]. Computational Materials Science, 2012, 58: 218-226.
[3] Liu S, Su Y, Yin H, et al. An infrastructure with user-centered presentation data model for integrated management of materials data and services[J]. NPJ Computational Materials, 2021, 7(1): 88.
[4] Gong H, He J, Zhang X, et al. A repository for the publication and sharing of heterogeneous materials data[J]. Scientific Data, 2022, 9(1): 787.
[5] Agrawal A, Choudhary A. Perspective: Materials informatics and big data: Realization of the “fourth paradigm” of science in materials science[J]. APL Materials, 2016, 4(5):053208.
[6] Huber S P, Zoupanos S, Uhrin M, et al. AiiDA 1.0, a scalable computational infrastructure for automated reproducible workflows and data provenance[J]. Scientific data, 2020, 7(1): 300.
[7] Draxl C, Scheffler M. NOMAD: The FAIR concept for big data-driven materials science[J]. Mrs Bulletin, 2018, 43(9): 676-682.
[8] 王畅畅,苏航,段琳娜,等.材料数据共享现状综述及区块链应用前景探讨[J].材料导报,2023,36(24):21020155-9.
[9] Yue Hou C P, Mingxia Yang, Zhihao Liu, Xiaolu Zhou. Storing and Sharing Ecological Observation Data Using Blockchain Technology[J]. Journal of Agricultural Big Data, 2020, 2(2): 55-66.
[10] Chen Z, Xu W, Wang B, et al. A blockchain-based preserving and sharing system for medical data privacy[J]. Future Generation Computer Systems, 2021, 124: 338-350.
[11] Yang J, Wen J, Jiang B, et al. Blockchain-based sharing and tamper-proof framework of big data networking[J]. IEEE Network, 2020, 34(4): 62-67.
[12] Yang Y, Wei L, Wu J, et al. Block-SMPC: a blockchain-based secure multi-party computation for privacy-protected data sharing[C]. Proceedings of the 2020 the 2nd International Conference on Blockchain Technology, 2020: 46-51.
[13] Wang R, Xu C, Dong R, et al. A secured big-data sharing platform for materials genome engineering: State-of-the-art, challenges and architecture[J]. Future Generation Computer Systems, 2023, 142: 59-74.
[14] Mulligan D P, Petri G, Spinale N, et al. Confidential Computing—a brave new world[C]. 2021 International Symposium on Secure and Private Execution Environment Design (SEED), 2021: 132-138.
[15] Zhang C, Chen Y. A review of research relevant to the emerging industry trends: Industry 4.0, IoT, blockchain, and business analytics[J]. Journal of Industrial Integration and Management, 2020, 5(1): 165-180.
[16] Zhang Y, Deng R H, Liu X, et al. Blockchain based efficient and robust fair payment for outsourcing services in cloud computing[J]. Information Sciences, 2018, 462: 262-277.
[17] GM/T 0111-2021, 区块链密码应用技术要求[S].
[18] Liu X, Yang Y, Choo K-K R, et al. Security and Privacy Challenges for Internet-of-Things and Fog Computing: Hindawi, 2018.
[19] 区块链安全白皮书[EB/OL]. http://www.caict.ac.cn/english/research/ whitepapers/202303/P020230316609943145191.pdf.
[20] 刘敖迪,杜学绘,王娜,等.基于区块链的大数据访问控制机制[J].软件学报,2019,30(9):2636-2654.
[21] 牛淑芬,陈俐霞,李文婷, 等.基于区块链的电子病历数据共享方案[J].自动化学报,2022,48(8):2028-2038.
[22] 于戈,聂铁铮,李晓华,等.区块链系统中的分布式数据管理技术——挑战与展望[J].计算机学报,2021,44(1):28-54.
[23] 孙忠富,马浚诚,郑飞翔,等.区块链支撑农业大数据安全初探[J].农业大数据学报,2020,2(2):25-37.
[24] 路爱同.基于 Hyperledger Sawtooth的区块链跨链技术研究[D].长春:吉林大学,2020.
[25] Baliker C, Baza M, Alourani A, et al. On the Applications of Blockchain in FinTech: Advancements and Opportunities[J]. IEEE Transactions on Engineering Management, 2023.
[26] Sun Y, Jiang S, Jia W, et al. Blockchain as a cutting-edge technology impacting business: A systematic literature review perspective[J]. Telecommunications Policy, 2022, 46(10):102443.
[27] Xing F, Peng G, Liang Z. Research on the Application of Blockchain Technology in the Cross-border E-Commerce Supply Chain Domain[C]. Distributed, Ambient and Pervasive Interactions: Smart Living, Learning, Well-Being and Health, Art And Creativity, PT II, 2022: 99-109.
[28] Ripple, Global Payments Steering Group. https://ripple.com/insights/ announcing-ripples-global-payments-steering-group/, 2016.
[29] Andrew J, Isravel D P, Sagayam K M, et al. Blockchain for healthcare systems: Architecture, security challenges, trends and future directions[J]. Journal of Network and Computer Applications, 2023, 215:103633.
[30] Tagliafico A S, Campi C, Bianca B, et al. Blockchain in radiology research and clinical practice: current trends and future directions[J]. Radiologia Medica, 2022, 127(4): 391-397.
[31] Tian S, Chen Y, Xie C. Application prospects and challenges of electronic health records blockchain[J]. Chinese Journal of Hospital Administration, 2022, 38(5): 343-346.
[32] Wu Y-F, Kim H-H. Research on the application of blockchain technology in the comprehensive health industry[J]. Asia-pacific Journal of Convergent Research Interchange, 2022, 8(3): 15-26.
[33] Bhowmik D, Feng T. The multimedia blockchain: A distributed and tamper-proof media transaction framework[C]//2017 22nd International conference on digital signal processing (DSP). IEEE, 2017: 1-5.
[34] Dupont Q. Blockchain identities: Notational technologies for control and management of abstracted entities[J]. Metaphilosophy, 2017, 48(5): 634-653.
[35] Haferkorn M, Quintana Diaz J M. Seasonality and interconnectivity within cryptocurrencies-an analysis on the basis of bitcoin, litecoin and namecoin[C]//Enterprise Applications and Services in the Finance Industry: 7th International Workshop, FinanceCom 2014, Sydney, Australia, December 2014, Revised Papers 7. Springer International Publishing, 2015: 106-120.
[36] Obour Agyekum K O-B, Xia Q, Sifah E B, et al. A secured proxy- based data sharing module in IoT environments using blockchain[J]. Sensors, 2019, 19(5): 1235.
[37] Kiayias A, Zhou H-S, Zikas V. Fair and robust multi-party computation using a global transaction ledger[C]. Advances in Cryptology–EUROCRYPT 2016: 35th Annual International Conference on the Theory and Applications of Cryptographic Techniques, Vienna, Austria, May 8-12, 2016, Proceedings, Part II 35, 2016: 705-734.
[38] Wang Z, Lin J, Cai Q, et al. Blockchain-based certificate transparency and revocation transparency[J]. IEEE Transactions on Dependable and Secure Computing, 2020, 19(1): 681-697.
[39] Stokkink Q, Pouwelse J. Deployment of a blockchain-based self-sovereign identity[C]. 2018 IEEE international conference on Internet of Things (iThings) and IEEE green computing and communications (GreenCom) and IEEE cyber, physical and social computing (CPSCom) and IEEE smart data (SmartData), 2018: 1336-1342.
[40] 李明煜,夏虞斌,陈海波.面向SGX2 代新型可信执行环境的内存优化系统[J].软件学报,2022,33(6):2012-2029.
[41] Zheng W, Wu Y, Wu X, et al. A survey of Intel SGX and its applications[J]. Frontiers of Computer Science, 2021, 15: 1-15.
[42] Scarlata V, Johnson S, Beaney J, et al. Supporting third party attestation for Intel® SGX with Intel® data center attestation primitives[J]. White Paper, 2018: 12.
[43] 张珑脐. 基于机密计算的隐私数据安全共享模型的研究与实现[D]. 广州:华南理工大学,2022.
[44] 信息安全技术 机密计算通用框架 征求意见稿,中国标准,2023.
[45] Seshadri A, Perrig A, Van Doorn L, et al. SWATT: Software-based attestation for embedded devices[C]. IEEE Symposium on Security and Privacy, 2004. Proceedings. 2004, 2004: 272-282.
[46] Yang P H, Yen S M. SARA: Sandwiched attestation through remote agents for cluster-based wireless sensor networks[J]. International Journal of Distributed Sensor Networks, 2017, 13(7): 1550147717719192.
[47] Carpent X, Rattanavipanon N, Tsudik G. Remote attestation of IoT devices via SMARM: Shuffled measurements against roving malware[C]. 2018 IEEE international symposium on hardware oriented security and trust (HOST), 2018: 9-16.
[48] Nguyen H, Ivanov R, Phan L T X, et al. LogSafe: Secure and scalable data logger for IoT devices[C]//2018 IEEE/ACM Third International Conference on Internet-of-Things Design and Implementation (IoTDI). IEEE, 2018: 141-152.
[49] Liang X, Shetty S, Zhao J, et al. Towards decentralized accountability and self-sovereignty in healthcare systems[C]//Information and Communications Security: 19th International Conference, ICICS 2017, Beijing, China, December 6-8, 2017, Proceedings 19. Springer International Publishing, 2018: 387-398.
[50] Silva L V, Barbosa P, Marinho R, et al. Security and privacy aware data aggregation on cloud computing[J]. Journal of Internet Services and Applications, 2018, 9(1): 1-13.
引用格式:龚海燕,麻付强,张达威,李晓刚.区块链与机密计算技术在材料数据库平台中的应用分析[J].农业大数据学报,2024,6(2):241-252.DOI: 10. 19788/j.issn.2096-6369.000026.
CITATION: GONG HaiYan, MA FuQiang, ZHANG DaWei, LI XiaoGang. Application Analysis of Blockchain and Confidential Computing Technology in Material Database Platform[J]. Journal of Agricultural Big Data, 2024,6(2):241-252. DOI: 10.19788/j.issn.2096-6369.000026.
Application Analysis of Blockchain and Confidential Computing Technology in Material Database Platform
GONG HaiYan1, 2, MA FuQiang3,4, ZHANG DaWei1, 2*, LI XiaoGang1, 2
1. National Materials Corrosion and Protection Data Center, University of Science and Technology Beijing, Beijing 100083, China; 2. Shunde Innovation School, University of Science and Technology Beijing, Foshan 528399, Guangdong, China; 3. Inspur (Beijing) Electronic Information Industry Co., Ltd, Beijing 100085, China; 4. Inspur Group Co. Ltd., Jinan 250101, China
Abstract: With the rise of data-driven material design driven by artificial intelligence and materials science, material science data has become a focal point of production factors, national strategic resources, and international competition. However, as material data sharing increases, data security issues become increasingly important. Issues such as data leakage, misuse, and tampering threaten the competitiveness of enterprises. We first review mainstream data security protection technologies, including access control and encryption technologies, which constitute the traditional data security protection model, ensuring security during data transmission and storage. Next, the development of blockchain technology is introduced. Blockchain technology can achieve confidentiality, integrity, and availability during data transmission and storage, but these mechanisms still cannot address privacy issues during data usage, nor can they protect the confidentiality and integrity of data during usage. Then, the advantages of confidential computing technology are analyzed. By executing calculations in a hardware-based trusted execution environment, confidential computing technology minimizes the trusted computing base, providing comprehensive data protection and adhering to the concept of \"data usability without visibility\" to protect data during usage, thereby constructing end-to-end lifecycle data security. Finally, we combine the advantages of blockchain and confidential computing technology to propose a trustworthy infrastructure solution for material data based on blockchain and confidential computing, to achieve security throughout the data lifecycle and provide strong support for the secure application of material data.
Keywords: confidential calculations; blockchain; material data; data security; data sharing