一种基于隐私计算的数据共享模型研究

2022-01-28 02:13:34
信息安全研究 2022年2期
关键词:政务信息同态计算技术

马 英

(国家信息中心 北京 100045)

数据作为特殊资源已经上升到国家战略的高度.党的十九届四中全会首次将“数据”列为生产要素,五中全会审议通过的《“十四五”规划和二○三五年远景目标纲要》提出要推动数据资源的开发利用,加强个人信息保护.2020年,国家发展和改革委联合中央网信办、工信部、国家能源局发布《关于加快构建全国一体化大数据中心协同创新体系的指导意见》[1],特别强调加速数据流通与汇聚融合,将全国各地的大数据中心充分应用起来,数据流通共享,协同创新.数据要素市场已经成为蕴含巨大宝藏的“新大陆”,等待着拥有合法合规技术与业务创新模式的“哥伦布”们来探索挖掘.如何有效管理政务数据,做好政务数据共享工作,发挥政务信息资源的最大价值,是政府推进数字化改革的基础,是政府优化管理流程和提升协同治理能力的关键.

目前,许多国家都在推进政务数据共享工作,分别提出本国的信息交换模型,其中美国提出了国家信息交换模型(NIEM)[2-3]、英国政府制定了电子政府互操作框架(E-GIF)[4]、欧盟提出了电子政务互操作框架(EIF)[5]等.国内外学者围绕政务信息资源共享,对数据共享模式、技术方案、安全保障机制、实现与应用等进行了深入的研究和梳理[6-9],提出了基于区块链的政务信息资源共享模型[10]、共享时代个人信息的隐私计算模型[11]、去中心化的数据共享模型[12]及电子政务信息资源整合模型[13]等.这些数据共享方案有各自的特点,适用于各种不同的应用场景.

当前,在政务信息资源共享过程中,仍然存在共享参与主体相互信任困难、数据安全风险高、个人隐私信息保护薄弱、数据权属划分不清等问题,特别是部分重要政务信息资源,其共享方式和应用模式受到很大的限制,已经成为当前政务信息资源共享中迫切需要解决的关键问题.

本文分析了隐私计算技术对加密数据进行安全计算的优势和特点,在分析国内外隐私计算技术在电子政务领域应用的基础上,提出了基于隐私计算的数据共享模型.包括:一是通过文献梳理,阐述隐私计算技术在电子政务领域的研究现状、价值分析和应用前景;二是提出基于隐私计算的数据共享方案的总体架构和主要功能.

1 基于隐私计算的政务信息共享相关研究

1.1 基于隐私计算的电子政务研究现状

目前,采用全同态加密的隐私计算技术以其便捷使用和易于理解的优势,逐渐被国内外主流研究机构所接受.全同态加密是IBM研究院Gentry于2009年率先设计的,满足了加密后的密文,同时可以进行加法和乘法的运算操作,可支持利用多个密文进行计算,全部计算完成后再进行解密,而不需要对每个密文数据进行解密[14].目前,国内外学术界、研究机构、行业公司都针对全同态加密技术展开诸多研究:Alabdulatif等人[15]提出了一种基于同态加密的分布式云大数据分析框架;在工业界,IBM、微软等国际企业在算法上进行了优化,通过工程化方法提高了应用效率:2019年微软发布开源同态加密库“SEAL”; 2020年12月,IBM 公司宣布可为企业提供完全同态加密(FHE)服务.国内正大力发展和应用自主可控的隐私计算技术:2016年,中国科学院信息工程研究所李凤华等人[16]提出了隐私计算的概念,随后隐私计算在学术界迅速变得热门,高校及研究机构学者纷纷投入其中.在工业界:2018年蚂蚁集团发布“摩斯”多方安全计算平台;2019年腾讯发布“神盾-联邦计算”平台;微众银行开源全球首个工业级联邦学习技术框架[17]等.一些创业公司,如数牍科技、富数科技、同态科技、光之树等,也在着重解决隐私计算的实用性问题,研发具有自主知识产权的算法,提升算法性能,已经在支撑关键数据隐私保护、云计算安全、大数据分析等方面开展了应用实践.互联网公司开始了隐私计算基础平台的建设并对外提供通用服务,充分显示隐私计算技术已逐步进入产业化阶段,具有较好的应用前景和价值.

然而,我国对隐私计算技术应用于政务信息资源共享的研究起步较晚,近两年来只有少数研究者进行了一些隐私计算促进数据共享的研究,如吴敏[18]、郝玉蓉等人[19].他们分析了多方安全计算、差分隐私技术在数据共享中加强数据安全保护的作用,提出一种基于本地化差分隐私的政务数据共享方法,设计了基于多方安全计算的政务数据开发开放解决方案.

1.2 隐私计算在数据共享中的价值分析

数据具有易于转移和复制的特点,可以无限地重复利用和传播,这就给数据共享提出了巨大的安全合规挑战.目前,在政务信息资源共享解决方案中主要有2种方式:一种是数据集批量共享,另一种是以服务接口的方式提供单条数据共享.这2种方式数据大多数都是采用明文方式共享,部分个人隐私数据进行泛化、混淆、匿名等脱敏处理,经过处理后的数据不能被还原.由于这类隐私保护方案降低了数据可用性,导致实践中一般在信息系统同时保存原始数据.这给数据安全管理工作带来极大挑战,阻碍了政府部门间的数据共享和面向其他组织和公众的数据开放.

隐私计算适合大规模安全计算.利用隐私计算技术可以在不受信任的环境和多方数据分析场景中处理数据.基于隐私计算的数据共享方案的研究将在原有的数据共享模式上提出新路径:一是利用隐私计算技术,能够在保留数据中有价值信息的同时实现原始数据的“去标识化”,使数据使用方不能通过反向逆推得到原始数据;二是在当前政务信息资源目录和数据交换体系的总体框架下,可利用隐私计算技术构建安全数据共享空间,向包括政务部门、企业、研究机构等在内的各类机构提供统一的数据共享和数据挖掘等服务;三是用户不提供原始数据的前提下利用隐私计算技术实现在数据价值的提取和信息的“可用不可见”.

1.3 隐私计算技术在数据共享中的应用前景

从数据共享的发展来看,自从有了信息化就一直存在数据共享.在2002年以前,数据共享的主要形式是“一对一”,双方直接进行技术对接,实现数据流通.从2002年“二网四库十二金工程”开始,数据共享转变为在参与工程建设部门之间进行,各参与方签订数据共享协议,明确数据共享内容和共享方式.从2016年政务信息整合共享工作开始推进,我国的数据共享覆盖面拓展到国家、省、市三级的所有政务部门,面向政务服务一网通办和数字政府建设提供服务,数据共享的深度和广度均有很大拓展.同时,各级公共数据开放平台也已基本建成,并面向社会提供服务.

政务数据共享开放工作取得了显著成效,同时也暴露了一些问题,主要是数据供给仍然满足不了需求.有的部门以重要数据安全保密为由不提供数据;有的部门仅支持以单条查询的方式共享,不支持统计分析的需求;有的中央统建的业务系统面向省市数据返还不够,省市无数据可用等;开放的数据质量较差,价值不高等.这些问题导致数据共享难以满足数字政府和智慧城市的建设要求.为此,有必要探索和构建一种基于隐私计算的政务信息共享方案,既可实现数据共享,又保证了数据提供方对数据的控制权,为构建安全性更高、共享开放范围更广的数据共享平台提供新的解决思路.

基于隐私计算的数据共享方案给数据提供方和使用方提供一个共用的、对等的、安全的数据存储和使用空间,同时提供多种数据分析模型和算法模型支撑,通过安全可控的数据应用技术,打消政务部门和社会机构提供数据的顾虑,不仅可以更好地支撑政务部门进行科学决策,还可以更好地支撑社会机构基于数据开展分析研究和业务拓展.

2 基于隐私计算的政务信息共享模型

2.1 基于隐私计算的政务信息共享模型总体架构

在开展数据共享、打破信息孤岛、建立政府间的业务协同的同时,需要维护不同共享参与方的权益,保证政府数据的安全性,使数据敢共享、能共享,进一步为政府治理和科学决策提供支撑.依托隐私计算技术,实现数据处于加密状态或非透明状态下的计算,以达到各参与方隐私保护的目的,以此为核心构建可管可控、安全高效的政务数据共享模型(如图1所示).

在基于隐私计算的数据共享模型中,主要有3个参与方:数据提供方、平台管理方和数据使用方.各级政务部门既是数据提供方又是数据使用方.平台管理方负责建设数据共享平台,提供和管理安全数据共享空间,为各政务部门提供基于隐私计算的数据共享服务.基于隐私计算的数据共享模型的逻辑架构主要划分为交换基础设施层、隐私计算基础设施层、业务服务层.在此架构上构建5个支撑系统:数据交换系统、统一密钥管理系统、数据质量管理系统、隐私算法服务系统、业务服务系统.

1) 数据交换系统.在基于隐私计算的数据共享模型中,需要对所有参与共享的信息资源提供交换服务,一种是将加密数据直接交换给数据使用方,另一种是实现加密数据入库.数据交换系统实现数据集的批量传输,通过服务网关实现单条数据的查询获取.数据交换系统的核心是将根据不同算法保护的数据分类交换至相应的数据库中,并同步进行密钥信息的交换.

2) 统一密钥管理系统.使用同态加密和多方安全计算对数据进行隐私保护首先需要进行密钥同步.统一密钥管理系统负责密钥统一生成,并向所有数据共享参与方进行密钥的分发和同步,主要包括密钥生成、存储、分发、备份、恢复、归档等功能.

3) 数据质量管理系统.基于原始数据交换的数据共享模型,在数据提供、数据标准化、数据分析、数据使用等阶段都可进行数据质量管控.而基于隐私计算的数据质量管理系统,数据质量管控只能在源头进行.数据质量管理系统包括数据标准管理、质量计划管理、数据质量指标管理和数据质量评估.在明确数据的命名、定义、结构和取值规则的基础上,统一制定并下发数据质量计划,明确数据质量检测范围和数据质量控制环节.对数据质量指标进行统一设置和管理,包括规范性、完整性、准确性、一致性、及时性、唯一性、可访问性等,并根据数据提供方上传的数据质量评估报告进行数据质量综合分析评价等.

4) 隐私算法服务系统.隐私算法服务系统支持数据提供方根据数据共享业务场景,从全同态加密、多方安全计算、联邦学习等隐私计算技术中选择适合的数据保护方法,在本地对原始数据进行加密,为采用加密方式进行数据共享作准备.支持数据使用方根据业务需求,利用样本数据生成计算模型,运用科学的数据方法进行建模,并在数据不解密的情况下实现独立运算(加密数据内部)、联合计算(加密数据+明文数据)、多源数据融合(多个数据源提供的加密数据).隐私算法服务系统既支持使用方根据业务需求生成新的算法,又支持将已建模应用的算法作为资源面向所有使用方提供.

5) 业务服务系统.业务服务系统面向数据使用方提供服务:一是支持面向数据使用方的某个IT系统提供数据事件驱动的“响应”,响应使用方的“加密”的数据请求,并提供执行的结果;二是面向数据使用方提供“自助”服务,使用方的业务分析师、数据科学家进行数据识别,利用隐私算法服务进行数据分析,生成计算和统计分析结果.

2.2 系统安全模型

本文设计的基于隐私计算的数据共享模型主要保证了在数据提供方不泄露自己的数据,数据使用方不泄露自己输入的情况下,通过数据共享平台作为中间媒介,实现数据提供方与数据使用方之间安全的数据共享.同时该模型可以保护整套系统不受外部威胁的干扰.

2.2.1 核心安全技术

本文所采用的核心安全技术是同态加密技术,数据经过同态加密后,对密文进行加法和乘法运算,得到的密文结果解密后,和对明文直接进行相同的计算后得到的结果完全相等,从而实现了数据的“可算不可见”.各个参与方交换数据进行运算时都以密文形式传递,只有采用同态加密后的数据运算再解密得到的结果才和明文运算得到的结果完全一致,同时支持对密文进行任意计算,在保证数据安全的同时保证了数据计算时的正确性.

2.2.2 系统安全分析

在政务应用中,数据提供方和使用方主要是各级政务部门,未来也可能包括提供公共服务的企事业单位.在某些情况下,数据提供方和数据使用方均想获得更多的数据,因此,本文假定数据提供方和数据使用方之间不完全可信.

此外,本文认为内部敌手和外部敌手可能存在以下几种攻击:

1) 对通信信道的攻击.外部敌手可能会在参与方进行交互的过程中监听或拦截部分交互数据,并通过这些截获的数据来推测一些有价值的信息.

2) 伪装攻击.外部敌手通过盗号并进行非法登录等方法,伪装成数据提供方或者数据使用方,向另一方发送无用数据,并获得对方的有效数据,通过这些有效数据来推测一些有价值的信息.

3) 对数据库的攻击.数据库中存有大量有价值的信息,内部敌手或者外部敌手可能会非法访问或强行攻击数据库以获得有价值的信息.

2.2.3 系统安全解决方案

为了解决以上安全性问题,本文设计的基于隐私计算的数据共享模型主要采用全同态加密技术,可信的数据共享平台持有公私钥,公钥广播到网络中的所有参与方处,私钥由可信的数据共享平台严格保密,主要有以下优点:

1) 数据安全性.数据使用方、数据提供方和数据共享平台对自己的数据进行全同态加密,将得到的密文相互间进行传递,除了自己以外的其他成员(包括外部敌手)都不能获得与明文有关的有价值的数据,从而保证了平台参与方各自数据的安全.

2) 模型安全性.对模型进行全同态加密后,即可将加密后的模型公开,各个参与方可根据自己的需求在加密后的模型上进行同态运算,加密后的模型可以在保证数据计算结果正确的基础上保护模型的安全性.

2.3 基于隐私计算共享应用主要流程

2.3.1 数据统计分析

在数据共享应用中,利用多个数据提供方的数据进行融合统计并进行政府决策的使用场景非常普遍.例如:自然资源局和规划局制定房地产相关政策,在进行规划设计及用地审批决策时,需要了解当前房屋的真实使用率.将住建部门不动产登记信息与用水、用电、煤气、暖气等信息进行比对,可筛查出住房的真实使用情况.

隐私计算技术适用于基于多源数据进行统计分析,对加密数据进行加性计算和乘性计算.主要支持2种模式:基于同态加密的本地计算模式和基于同态加密的集中计算模式.

基于同态加密的本地计算模式流程如图2所示.在该模式下,数据使用方对计算模型的参数使用自己的公钥进行同态加密,并对外提供密文的计算模型,数据提供方负责在本地使用明文数据进行计算,共享平台负责对计算的中间值进行汇总处理.在业务流程中,首先由数据使用方对计算模型进行加密,并将计算模型发送至数据共享平台.数据共享平台将计算模型分别转发给不同的数据源,数据源在本地基于密文模型使用明文数据进行计算,得到密文的中间结果,并转发至共享平台.共享平台完成对中间结果的汇总之后,将结果发送给使用方,由使用方使用自己的私钥对结果进行解密,获得数据的使用价值.该模式能够让数据使用方在不知道模型参数的情况下,完成模型计算得到加密结果.同时,数据提供方将数据导入隐私计算子任务完成隐私计算得到加密中间值,中间值在数据共享平台完成合并.因此,在数据交换共享过程中,数据提供方不存在中间值泄露风险,保证权责分明.

基于同态加密的集中计算模式流程如图3所示.在该模式下,数据提供方使用数据共享平台提供的公钥对数据进行同态加密,平台私钥保存在平台的可信区域内,仅允许用来解密计算结果,从而保证数据共享平台获取的数据皆为可用不可见.数据使用方发起计算任务,向数据共享平台提交计算方法以及对应的数据需求.数据共享平台根据数据需求从各数据提供方暂存库中选取加密数据并执行计算,得到多个加密的中间数据,在可信区域内将各加密的中间数据进行融合计算,得到计算结果,最后将计算结果解密后发送至数据使用方.在该过程中,默认数据共享平台是一个可信环境.

2.3.2 匿名查询

在数据共享应用中,存在数据使用方不希望被了解具体查询了哪些信息的情况.例如,纪检相关部门在案件办理时需查询相关人员的企业、纳税、交易等信息,如果数据提供方了解到相关人员的具体信息,可能导致信息泄露.因此迫切需要进行匿名查询.

匿名查询流程如图4所示.基于同态加密技术,在该模式下,数据使用方对共享平台提交已加密的查询请求;数据共享平台在安全共享空间内进行密文查询,返回加密的查询结果;数据使用方对查询结果进行解密,获得想要共享的数据.因数据共享平台只存储加密数据,即使查看数据库日志也无法获知使用方的查询请求,保证了数据共享的安全性.

采用隐私计算进行数据统计分析、匿名查询等,在数据提供、传输、使用等关键数据应用步骤均对数据进行了保护.如果发生数据泄露问题,能够排除数据交换和数据使用过程,使得问题溯源更有效、更高效.

3 结束语

政务信息资源共享能够有效促进其价值的发挥,对推进政府数字化改革、优化政府管理流程和提升协同治理能力具有重要意义.然而,共享参与主体间的互信问题和数据安全风险的存在,阻碍了政府部门与其他组织和公众共享政务信息资源.本文设计的基于隐私计算的数据共享模型由交换基础设施层、隐私计算基础设施层、业务服务层3个部分组成,并通过5个服务支撑系统提供安全的数据共享服务,为有效解决数据共享中的信任孤岛、数据所有权转移和由共享引起的价值稀释等问题提供了新的解决思路.相关数据提供部门可以根据数据分级分类情况和对安全要求较高的重要数据选择基于隐私计算的数据共享模式,以加密的方式推送数据至安全数据共享空间,以“可算不可见”的方式进行数据共享.基于隐私计算的数据共享模式,使政府部门间、政府与社会机构间的政务数据共享具有较高的安全性和适用性.

猜你喜欢
政务信息同态计算技术
《计算技术与自动化》2022年总目次索引
山西省交通运输行业政务信息资源整合与共享开放的挑战与思考
关于半模同态的分解*
拉回和推出的若干注记
基于云计算技术的FLAC3D软件计算平台的研发
《物探化探计算技术》2016年1~6期总要目
一种基于LWE的同态加密方案
权力清单制度的施行对政务信息传播的影响
新闻传播(2016年20期)2016-07-10 09:33:31
HES:一种更小公钥的同态加密算法
纵深推进 提质增效 推动国土政务信息公开迈上新台阶