黄少琪, 陆奕奕
(中国电信股份有限公司上海分公司, 上海 200433)
云存储服务与企业本地存储服务最大不同在于能给用户提供海量的存储空间,且更易于管理。然而,存储在云端的大数据也存在一个较大的缺陷,即安全性难以得到保证。为解决上述云存储技术存在的问题,通常做法是将云端数据加密[1]。然而,在提高云端数据库安全性的同时,也会导致数据丧失有序性、可比性,从而带来数据检索和计算的困难,严重影响了云存储数据库的运行效率[2]。
针对云存储数据库密文检索问题,国内外的研究者提出了很多方案。Langrehr R等[3]提出基于矩阵Diffie-Hellman假设,通过Naor变设计基于身份的严格安全签名方案;贾强等[4]提出了一种面向密文大型数据集的可搜索加密方案,将安全索引按照分块参数分类,完成关键词检索;Boneh D等[5]提出一种基于公钥加密的可搜索加密方法,实现了多用户密文检索;曹素珍等[6]针对非结构化数据,根据查询关键字和密文文件的相关度对密文文件进行排序,从而实现对密文数据的高效搜索。Magdy S等[7]以数值型数据为研究对象,提出一种保序加密的数据库加密检索策略。
在前人研究的基础上,本研究提出一种通信网络数据云存储数据库可验证密文检索方法。该方法首先检索出包含关键字的密文,然后根据相似度计算结果对密文信息进行排序处理,最后根据排序结果将密文数据推荐给用户。文章还进行测试,证明所研究方法的检索性能,在保证数据安全性的前提下,提高了密文检索效率和质量。
目前,根据数据库中数据形式的不同,将数据分为2大类,即数值型数据和字符型数据。2种数据形式不同,因此加密方法也不同。下面针对这2种数据类型的加密形式进行分析。
数值型数据是指包括整型、浮点型等基本类型数据。这类数据在云端数据库中存储的最多,数值型数据加密流程如图1(a)所示。字符型数据是指不具计算能力的文字数据,具体包括中文字符、英文字符以及其他语言形式的数据,字符型数据一般长度范围是0至254个字符,其加密流程如图1(b)所示。
图1 云端数据库加密流程
数值型数据相比较字符型数据在云端数据库当中规模更大,因此对该类型的数据密度检索研究有很多,已经较为成熟;字符型数据结构组成更为复杂,因此加密后的密文更加复杂,导致密文检索效率和质量都不高,因此本研究选择字符型数据作为后续密文检索分析研究的对象。
根据图1(b)可知字符型数据的加密处理方式为用“索引-文件”形式,由此字符型数据预处理为提取字符型数据文档所有关键词,然后对所有关键词进行加密处理,组成关键词密文结合,最后为字符型数据文档密文建立索引。例如,某文件A有4个逻辑块,分别存放在物理块23、19、26、29中,该索引文件结构如图2所示。
图2 字符型数据文档密文索引结构
字符型数据文档密文检索的实质是检索词与字符型数据文档密文索引之间的匹配计算,而存储在云端数据库当中数据为密文形式,且为了保证数据的安全性,在检索时密文数据还不能转换成明文数据后进行检索,因此只能将检索词同样也转换成相应的密文形式,才能进行字符型数据文档密文索引之间的匹配计算。这样既保证了数据安全,也能实现检索[8]。具体步骤如下。
步骤1:去停用词。用户的检索词属于字符型数据,而字符数据的显著特点之一就是存在很多没有意义的词,这些词出现在语句中仅起到停顿、语气辅助或结构连接等作用。这些没有意义的词就被称为停用词。停用词的存在会严重干扰检索的准确性和检索效率,因此需要去除[9]。
步骤2:查询切分。查询切分是指将一个由若干汉字序列组成的长查询语句切分成一个一个单独的查询词,以利于计算机系统检索[10]。
步骤3:查询扩展。查询扩展是指寻找原始检索词的同义词或近义词,扩展原始检索词搜索范围,然后来达到保证检索全面的目的。在这一环节中,采用一种基于语义关联树的查询扩展方法来完善检索范围。
步骤4:检索词加密。为了能够实现检索词和密文文档之间的相匹配度计算,需要将扩展后的检索词加密成密文,在这一环节利用SM4分组加密算法,依据混淆原则和扩散原则进行加密处理,具体过程参见图1(b)。
基于上述研究,分析文排序检索基本流程见图3。
图3 密文排序检索基本流程
在密文排序检索中,关键步骤有2个,即匹配度计算和重要性排序。
(1) 匹配度计算:匹配度计算是指计算密文检索词块和字符型数据文档密文索引之间的相似匹配度。通过密文检索词块和字符型数据文档密文索引的数量积来表达相似度,如式(1),
(1)
式中,n为检索词和字符型数据文档密文索引的数量,qi为第i个检索词,pi为第i个字符型数据文档密文索引,Y为检索词与字符型数据文档密文索引之间的相似度。
(2) 重要性排序:由于检索词的扩展,检索出来密文文档是海量的,但是一般情况下,不可能所有文档都是用户需要的,而是与检索词匹配越高的密文文档越是他需要的,因此还需要将检索出来的密文文档进行重要性排序处理如式(2):
(2)
式中,FDi为重要性评分,a为检索词在字符型数据文档密文索引文档Di中出现的频率,N为已有密文文档的总数目,b为包含检索词的密文文档总数目。
为检验通信网络数据云存储数据库可验证密文检索方法的性能,在MATLAB工具上进行仿真测试,仿真测试条件如表1所示。
表1 仿真测试环境
为云存储数据库可验证密文检索仿真测试实验搭建系统模型。模型结构如图4所示。
图4 仿真测试模型
仿真测试中用到的云存储数据库中数据分布情况如表2所示。
表2 检索文本库
(1) 检索精度。评价检索效果的最重要的指标之一,通过查准率P和查全率R进行测定如式(3)、式(4):
(3)
(4)
式中,A为正类检索,B为负类检索,C为正类检索中的负类。
(2) 检索效率。通过完成一次检索任务所耗费的时间如式(5):
T=t1+t2+t3
(5)
式中,T为一次检索任务所耗费的时间,t1为字符型数据预处理时间,t2为检索词输入和处理时间,t3为密文排序检索时间。
在相同仿真测试环境下,从引言中提到的5种前人研究方法中选取文献[3]提出的基于矩阵Diffie-Hellman假设,通过Naor变设计基于身份的严格安全签名方案;文献[4]提出的面向密文大型数据集的可搜索加密方案;文献[5]提出的基于公钥加密的可搜索加密方法,作为对比项,进行密文检索操作。结果如表3所示。
表3 密文检索方法性能
由表3可知,与前3种检索方法相比,所研究方法密文检索精度和效率都要更好,证明了所研究密文检索方法的性能。
综上所述,伴随云端数据存储服务的广泛应用,其数据库中的数据安全问题也愈加凸显。为此,如何在保证数据安全的前提下,实现密文检索成为云存储技术领域研究的重点。为此,进行通信网络数据云存储数据库可验证密文检索研究。该研究通过将检索词转换成为密文检索词来达到不解密云端数据库中数据的目的,保证了云端数据的安全。经仿真测试,证明了所研究方法的检索性能,为云端数据检索服务提供了参考和借鉴。由于此次研究仅针对云存储数据库中的文本库进行检索测试,虽然提高了密文检索精度和效率,但是未对云端数据库中还存在图片、音视频等数据库检索,在今后的研究中还需要进一步扩大研究和实验范围,以提高研究方法的可靠性和广泛性。