陈智罡,宋新霞,郑梦策,刘天成
1.浙江万里学院 信息与智能工程学院,浙江 宁波315100
2.浙江万里学院 基础学院,浙江 宁波315100
同态加密最初是由Rivest、Adleman 和Dertouzos[1]在1978 年提出的。同态加密是在不知道密钥的情况下,能够对密文进行计算,其结果与解密之后明文计算的效果相同,这保护了数据的隐私性。自从1978 年以来,全同态加密一直被认为是密码学界的“密码学圣杯”[2]。40多年以来,人们也提出一些同态加密方案,但是他们要么满足加法同态,要么满足乘法同态[3-13],在此基础上还提出了能同时满足有限次乘法与加法的同态加密[14-18],直到2009年Gentry首次提出了第一个全同态加密方案[19],解决了这个困扰了密码学界40 多年的难题,摘取了这顶“圣杯”。
全同态加密在多个领域中如云计算、电子商务、物联网上有着很多的应用,具有很高的研究与应用价值[20-29]。尽管已有一些全同态加密的文献综述从技术角度对其进行了分析和总结,Acar等[30]列出了全同态加密方案的理论与典型的应用,从算法的速度与简洁性上对多个全同态加密方案进行了对比,着重介绍了构造全同态加密方案的方法,但是对研究方向与所涉及的基础领域讨论较少。Martins 等[31]从工程实现的角度回顾了全同态加密方案的研究,针对各个方案的性能进行了分析。Rocha 等[32]介绍了关于同态加密的一些概念,并给出一些机器学习应用案例。Vaikuntanathan[33]介绍了全同态加密方案的发展。近期的全同态加密综述见文献[34-35]。此外,近三年也有大量关于全同态加密的理论设计方案,参见文献[36-58]。上述都是重点关注于全同态加密的方案研究和具体应用。当前全同态加密领域仍缺少基于文献计量分析的研究工作。基于文献计量分析的研究工作能够推进同态加密领域的系统发展,帮助研究人员把握科研工作的方向,因此对这一领域相关的学术论文进行统计研究是必要的。本文从文献的角度出发,不限制于特定的应用领域来讨论全同态加密的发展。
本文的主要目的是系统地分析已被Web of Science(WoS)核心合集索引和中国知网(CNKI)检索的全同态加密的研究论文,并对它们加以分类。为了达到预期的目的,对有关全同态加密的文章进行了文献计量的研究,采用CiteSpace进行辅助分析,为全同态加密的研究者们提供一些有价值的信息,包括引文趋势、全同态加密领域最有影响力的论文、基础领域分布、最顶级的基金资助机构及应用方向,这将反映出同态加密发展的现况和当前的研究方向。
选择WoS 和中国知网两个数据库作为数据来源。WoS和知网是世界上领先的科学论文数据库,有一系列严格的筛选过程,为研究人员提供了一些有用的分析功能。并且WoS涵盖了20 300多种著名的期刊、会议、书籍,中国知网也正式收录了9 000多种自然科学、社会科学学术期刊。
Gentry在2009年提出了第一个全同态加密方案,本文选择2009—2020 年的时间跨度进行搜索。在WoS中,首先将“fully homomorphic encryption”作为主题进行搜索,文献类型选择“Proceedings Paper or Article”,即对每篇论文的标题、摘要、关键字三部分都进行检索,再对只是提到全同态加密关键字的论文进行过滤,最终确定的数据是WoS 包含了826 篇文献。在知网中,将“主题”或“关键词”或“篇名”作为检索条件,同时进行同义词扩展并且将文献类型选为“期刊或会议”,同样对只是提到全同态加密的论文进行筛选,确定知网中包括了175篇文献。
CiteSpace 软件自开发以来借助知识图谱分析在科学计量中得到了广泛运用,本文采用CiteSpace5.5.R2对数据的主要研究国家及机构进行分析,并且利用Excel统计历年的发文量,借助WoS自带可视化分析进行辅助。
自2009 年以来,有关全同态加密研究的发文量如图1所示。总体上来看,WoS索引收录的全同态加密文章增长趋势明显,其中在2014—2015 年迎来了数量增长的爆发期,2015年增长量是前一年的88%,并且2015年以后每年的发文量一直稳定在100篇以上,其中2016、2017年有小幅度下滑。相对而言,知网关于全同态加密论文的数量也是稳步提升,但是增长幅度低。根据图1,WoS 与知网的全同态加密论文的增长曲线趋势基本一致。这说明全同态加密在国内外受到了广泛的关注,可以预测全同态加密的文章数量应该还会继续保持增长趋势。
图1 2009—2019年WoS与知网全同态加密研究领域文献数量统计Fig.1 Statistics on paper number in full homomorphic encryption in WoS and CNKI from 2009 to 2019
在全同态加密发展过程中具有开创性的文章就是Gentry 的“Fully Homomorphic Encryption Using Ideal Lattices”[19]。这篇文章发表自2009年,是一个将具有自举性质的有限次同态加密转换成全同态加密的方案,是密码学界的一个突破。从表1可以看出它获得了最多的引用次数,早期的全同态加密方案[59,61,73-77]都依照Gentry的方法,但是这些方案实用性很低。文献[59]在Gentry方法的基础上提出了基于整数的全同态加密,但是依然存在效率过低的缺点。Brakerski 和Vaikuntanathan 在2011 年提出了基于LWE(learning with errors)全同态加密方案[60],将全同态加密建立在格上标准困难问题LWE 之上。这篇文章有效地降低了电路的复杂性,但是仍然需要自举来完成全同态加密。2011年,Brakerski、Gentry 和Vaikuntanathan 提出BGV 全同态加密方案[78],该方案无需自举就可以获得层次性全同态加密方案,为全同态加密方案走向实践奠定了基础。在2013 年,Gentry 等人发表了一篇利用近似特征向量设计全同态加密的论文即GSW 方案[66],使得全同态加密方案变得非常简单。在此基础上全同态加密理论研究又得到进一步发展,这也是图1中论文数量在2014年迅速增加的原因。
表1 前15引用的全同态加密论文Table 1 Top 15 fully homomorphic encryption articles with highest citations
研究全同态加密形势的一个重要途径是了解它被哪些国家和科研机构所重视,将WoS 中整理出的数据导入CiteSpace,根据发文数量列出排在前10 的国家及其重要因子,如表2所示。
表2 发文量前10的国家及其重要性Table 2 Top 10 countries in terms of number of articles published and their importance
从表2 中可以看出,美国的发文量比中国多出12篇,位居首位,而第二名中国比法国多出了142篇,说明我国和美国在全同态加密的研究中占据了重要的地位,也表明了我国学者在全同态加密领域展开了深入的研究,活跃程度很高。重要因子表示了一个国家在这个领域的重要程度,美国以0.53 位居首位,我国虽然发文量与美国只有12篇的差距,但是重要因子比美国低了0.18之多,这说明美国在同态加密领域的研究影响力是最高的。法国的总发文量只有中国的30.7%,但其重要因子仅比中国低0.07,这说明在全同态加密领域中国虽然文章数量很多,但是还要加强创新性的研究。
在本节中通过CiteSpace对研究机构进行分析。图中节点越大,机构名称越大,表明发表的文章越多,而连线表明了机构间的合作关系。从知网中数据形成的机构合作看出,主要形成了以中国科学院信息工程研究所信息安全国家重点实验室、信息工程大学及南京邮电大学计算机学院为中心的合作网络,证明了他们与其他研究机构之间有良好的合作关系。而武警工程大学密码工程学院虽然论文也较多,但是合作机构太少,这是图中普遍的现象。对图2进一步观察发现,知网数据中的研究机构连线较少,说明各个机构在全同态加密领域还没有形成一个整体,还有很多机构是在独立地进行研究。因此国内各个研究机构之间要加强合作,加强交流,集思广益地推动全同态加密算法的创新发展。
图2 知网中全同态加密领域研究机构合作图Fig.2 Collaboration chart of research institutions on full homomorphic encryption in CNKI
由于WoS 中文献数据较多,将显示机构名称的阈值设置为4。从图3 中可以看出,WoS 文献数据中各个机构间的连线非常繁多,表明他们之间合作紧密。为了进一步地分析WoS 中各个研究机构的文章数目,论文数量前10 的机构如表3 所示。在发文量前10 中,美国有4所研究机构,中国有2家研究机构,其中西安电子科技大学发表文章数量最多,有27篇。
图3 WoS中全同态加密领域研究机构合作Fig.3 Collaboration chart of research institutions on full homomorphic encryption in WoS
表3 WoS中发文量前10的研究机构Table 3 Top 10 research institutions in terms of number of articles in WoS
本文根据WoS 索引所覆盖的不同领域对所有检索到的全同态加密论文进行了分类。图4 显示了WoS 根据每个研究领域的全同态加密论文的总数排名。图4所示全同态加密覆盖最多的学科是计算机科学有705篇论文,其次是工程学有277 篇论文,超过50 篇以上的还有数学和电信,分别有143 篇和62 篇。从中可以看出,计算机科学是全同态加密覆盖最多也是最重要的领域。当然,每篇论文可能涵盖一个以上的研究领域。在知网当中所覆盖的领域基本与WoS 索引所覆盖的类似,计算机科学占比最大,达到111次,但是排第二的是信息通信领域,有71 次,第三的是电气工程,仅有3 次。具体情况见图5。
图4 WoS索引全同态加密论文所覆盖的研究领域Fig.4 Research areas covered by fully homomorphic encryption articles in WoS
图5 知网索引全同态加密论文所覆盖的研究领域Fig.5 Research areas covered by fully homomorphic encryption articles in CNKI
表4 列出了WoS 索引中发表全同态加密论文最多的出版物。在发表至少10篇论文以上的重要期刊与会议中,其中Lecture Notes in Computer Science(LNCS)是收录最多的,有239 篇。而在LNCS 中,发表论文最多的是Advances in Cryptology Eurocrypt,有48 篇。而LNCS中发表文章最多的5个会议或期刊在表5中也已列出。为了衡量它们对全同态加密研究领域的影响,还根据一些其他的因素评估了这些刊物与会议,比如引用数,结果表明LNCS 依然是最优的。表6 显示了在知网中的同态加密领域发表超过7 篇论文的重要期刊,《密码学报》的数量有12 篇,是最多的,而《计算机应用研究》是引用次数最多的,有190 次。从中可以看出知网论文的引用次数比WoS中要少。
表4 WoS索引中全同态加密发表最多的出版物Table 4 Most published publications for fully homomorphic encryption in WoS
表5 LNCS中发表文章最多的前5名Table 5 Top 5 most published in LNCS
表6 知网索引中全同态加密发表最多的刊物Table 6 Most published journals for fully homomorphic encryption in CNKI
图6 显示了有关的基金资助机构的详细信息。在WoS分析研究的826篇论文中,中国国家自然科学基金委员会(National Natural Science Foundation of China)资助的论文最多,有143 篇论文,另外的69 篇论文得到了美国NSF 的资助。本文还根据每个基金资助机构的论文引用总数来对这些资助机构进行评估。从图6 可以看出,与其他机构支持的论文相比,由DARPA(美国国防高级研究计划局)资助的论文获得了更高的引用比,为90%,被引用文章数最多的是中国国家自然科学基金委员会,有88篇。
图6 WoS中主要资助机构发文数与被引用文章数比较Fig.6 Comparison of number of articles published and cited by major funding institutions in WoS
在知网查询中发现,同样是中国国家自然科学基金资助的论文最多,有88篇,其余如国家高技术研究发展计划(863计划)、浙江省自然科学基金等与之相比差距都过大。具体情况如图7所示。
图7 知网中主要资助机构发文数与被引用文章数比较Fig.7 Comparison of number of articles published and cited by major funding institutions in CNKI
全同态加密在不同的领域中都有广泛的应用,在对WoS 与知网中的文献进行筛选后,根据它们应用的方向,将其分为七类,即机器学习、大数据、物联网、智能电网、电子医疗健康、生物特征、基因组数据,见表7。如表8~表14,列出了对应的应用领域在WoS 数据库中的代表性文章。
表7 WoS与知网索引中全同态加密的主要应用方向Table 7 Main application directions of fully homomorphic encryption in WoS and CNKI
表8 WoS中全同态加密在大数据应用中的代表文章Table 8 Representative articles on full homomorphic encryption for big data applications in WoS
表9 WoS中全同态加密在物联网应用中的代表文章Table 9 Representative articles on full homomorphic encryption for Internet of things applications in WoS
表10 WoS中全同态加密在基因组数据中的代表文章Table 10 Representative articles on full homomorphic encryption for genomic data applications in WoS
表11 WoS中全同态加密在智能电网应用中的代表文章Table 11 Representative articles on full homomorphic encryption for smart grid applications in WoS
表12 WoS中全同态加密在机器学习应用中的代表文章Table 12 Representative articles on full homomorphic encryption for machine learning applications in WoS
表13 WoS中全同态加密在医疗健康应用中的代表文章Table 13 Representative articles on full homomorphic encryption for medical health applications in WoS
表14 WoS中全同态加密在生物特征应用中的代表文章Table 14 Representative articles on full homomorphic encryption for biological characteristics applications in WoS
从表7中可以看出,随着近几年来人工智能领域的发展与大数据时代的到来,需要收集大量的数据,而用户对个人的资料、隐私很敏感。因此全同态加密在机器学习和大数据领域有广泛的应用需求。文献[79-80]探讨相关问题并给出了解决方案。与此同时,世界各地的许多数据库都存储着大量的基因组数据,自愿提供基因组数据的患者隐私也是需要保护的,同样包括医疗数据的隐私保护,文献[81-82]探讨相关问题的解决方案。目前,物联网在各个行业比如供应链、智能家居、智能电网等方面应用广泛,对数据隐私的处理提出高要求,全同态加密是处理相关问题的有效方法。
本文采用了WoS 数据库和知网数据库,对全同态加密的文献进行了深度的文献计量分析。从文献计量研究中提取的结果分析表明,自从2014 年以来全同态加密的论文快速增长,研究成果丰富,这种趋势还会继续保持下去。我国已经是全同态加密领域发文量最多的国家,但是文章的影响力相对较弱,各个机构的联系不够紧密,需要加强合作。
全同态加密论文主要包涵了计算机科学、工程学、通信和数学这四个基础研究领域,本文的研究结果为学术界和工业界提供了一个观察前沿发展的视角。那些高引用的论文为年轻的研究人员提供了进一步研究全同态加密的路径,比如研究方法,有哪些研究的热点和成果等。
从世界范围上来看,中国和美国是全同态加密研究领域最活跃的国家。中国已经是发表全同态加密文章最多的国家,大量的全同态加密研究受到了国家和各级政府部门的支持,中国国家自然科学基金委员会资助了大量的SCI索引和知网检索中的论文,对全同态加密的研究提供了良好的支持,为学术界和工业界提供了技术积累。但是我国在全同态加密领域发表的高引用论文却很少,文章的质量与影响力还需提高。最后,从各个领域中的研究趋势来看,机器学习、大数据、电子医疗健康以及物联网是国内外的全同态加密应用的主要领域。