摘要:大数据使云计算成为数据存储和处理的重要途径.但也引发了数据隐私和安全问题。因此,发展基于云计算的数据隐私保护技术是当前研究热点之一。文章进一步开发了包括数据提供者、服务器和用户3部分组成的云架构.并发展了一种apriori算法来增强加密数据的隐私性、云计算系统的数据保护以及查询隐私功能。最后,为了评估所提出的架构的安全性能,实验使用Windows 11操作系统的计算机对不同的最小支持度和数据量做安全评估。测试表明,所提出的算法能为云计算系统提供安全的隐私保护。
关键词:云计算;数据隐私;apriori算法;相等性测试
中图法分类号:TP393 文献标识码:A
1 引言
随着大数据时代的到来,云计算已成为数据存储和处理的重要手段[1] 。然而,云计算的广泛应用也引发了数据隐私泄露的风险,基于云计算的数据隐私保护技术也应运而生,并成为当前研究的热点之一[2] 。
基于云计算的数据隐私保护技术主要包括基于加密算法的技术[3] 、基于隐私保护协议的技术[4] 和基于数据脱敏的技术等。
基于加密算法的技术通过对数据进行加密,可以使数据在传输过程中不被窃取或篡改。常见的加密算法包括对称加密算法、非对称加密算法和哈希加密算法。对称加密算法是最常用的加密算法之一,该算法的核心思想是使用相同的密钥进行加密和解密。
常用的对称加密算法包括DES,AES 等。非对称加密算法则使用一对密钥,分别是公钥和私钥。公钥可以公开使用,私钥只有数据接收方才能使用。常见的非对称加密算法有RSA,ECC 等。哈希加密算法通过对数据进行单向的哈希运算,可以将数据转化为固定长度的哈希值,以保证数据的一致性和完整性。
另外,基于隐私保护协议的技术也是一种常用的数据隐私保护技术。该技术利用协议来保护数据隐私,包括差分隐私保护协议、匿名化保护协议和混淆保护协议等。差分隐私保护协议的核心思想是通过向数据添加噪音的方式保证数据的隐私性,常见的协议有拉普拉斯机制和指数机制。匿名化保护协议则是对数据进行一定程度的匿名化处理。混淆保护协议则是将数据进行重复排列和混淆,使得攻击者无法获取到原始数据。最后,基于数据脱敏的技术是对敏感数据进行脱敏处理,使得数据在保留数据基本特征的同时,又能保护数据的隐私。
目前,基于加密算法的技术仍是最常用的数据隐私保护技术。本文发展了一种apriori 算法来增强加密数据的隐私性,云计算系统通过这种算法增强了数据保护以及查询隐私功能。结果表明,与先前提出的关联规则挖掘相比,所提出的算法显著增强了云计算系统的隐私保护功能。
2 云计算系统架构
目前,尽管已经开发了多种安全协议来保护云存储免受外部攻击,但云内部的隐私保护同样重要。在常见的云架构中,系统对外遵循协议和标准,但内部算法仍可以访问受到保护的关键数据,侵入了云存储的隐私。在本研究中,我们将进一步完善现有的云架构。
所采用的体系结构由4 个主要部分组成:数据提供者、服务器1、服务器2 和用户,如图1 所示。在该架构中,数据提供者是原始数据的实际所有者,用户从云存储中查找数据的实体,该架构使用安全的计算协议,并将其用于2 个云服务器之间的安全计算。本架构的工作流程如下:首先,数据提供者使用Elgamal加密算法生成密钥和公钥,密钥生成后,数据提供商将生成的公钥和加密数据集发送到服务器1;然后,数据提供者向服務器2 提供elgamal 公钥,它会并行地向用户发送生成的公钥;共享密钥对数据加密后,用户以加密查询的形式发出请求,并将其发送到服务器1。在该架构中,使用安全纯文本相等性测试来检查2个加密数据集是否相等,无需对其进行实际解密。2个云服务器协同工作,服务器1 使用安全纯文相等性测试执行apriori 算法。
3 基于apriori 算法的数据隐私保护技术
为了提高云计算架构的数据隐私性,采用了apriori 算法和安全纯文本相等性测试来增强云计算中的隐私保护功能,图2 解释了所提算法的流程。
3.1 安全纯文本相等性测试
本架构使用了安全纯文本相等测试算法。安全纯文本相等性测试算法基于输入比较返回值,输出值可以是true 或false。若2 个纯文本值相同,则返回true,否则返回false。算法的输入是2 个密文(input1和input2),输出为真或假。首先,服务器1 生成一个复合数t,并向服务器2 发送input1(t)。使用input1(t),input2(t)和2 个密码输入,使用该值生成S1 和S2。然后,将此数据传输到服务器2,使用服务器2 上的密钥生成输出gr1x 和gr2x,其中,x 是密钥生成后数据提供者提供的密钥。最后,这些值被传输到服务器1,在服务器1 中,它们使用t,gr1x 和gr2x 生成算法的输出,并根据输出为true 或false 定义2 个密文是否相似。
本研究提出的基于apriori 算法和安全纯文本平等测试算法的隐私保护有2 个重要步骤:候选集的生成和频繁集的计算。
3.2 候选集的生成
每个候选集合存在多个模式,每个模式由多个项目组成。候选集生成包括以下步骤。首先,从k?1 频繁数据集中选择一对模式<p1,p2>。然后,在模式1和模式2 的项目之间执行连接,并将连接的结果添加到候选集Sk,其中k 是项目数。在对模式1 和模式2的所有排除项执行该连接后,Sk 被传送到服务器1。
3.3 频繁集的计算
在该步骤中,计算候选集合的频繁集(Sk)。首先,从候选集合中选择一个模式,然后,对属于所选模式的所有项目执行安全纯文本相等测试。若此测试返回true,则匹配项计数加1。
3.4 apriori 算法
本文所采用的apriori 算法流程如图2 所示。最初,L1 被设置为数据所有者接收的单个项目集。然后,使用候选集生成算法生成候选集,并计算候选集的频繁集。在这个阶段,如果没有生成k 个频繁集,那么返回k?1 个频繁集,其中k 是项集的长度。
4 结果和讨论
4.1 算法分析
为了确定所提出算法的安全漏洞,对其进行了安全证明分析。对于服务器1,数据以加密格式存在,并且该服务器中存在的数据库也是加密格式。由于所提出的加密算法在每个加密过程中为相同的纯文本数据提供不同的加密数据,因此可以保证数据不会泄漏。关于服务器2,由于原始数据不包含密文的前面部分,因此不存在第二个服务器暴露数据的机会。这表明所提出的算法具有云计算基础设施的安全性。
4.2 安全评估
为了评估所提出的架构的安全性能,我们进行了以下分析。本评估使用Windows 11 操作系统,配备了64 GB DDR4 RAM 和Intel? CoreTM i9?12900K 处理器,并使用了6.2.1 版本GMP 库。具体如表1 所列。
在评估中,为了获得更广泛的评估效果,采用了不同的最小支持度和数据量,安全关联规则挖掘性能分析评估的细节如表2 所列。其中,最小支持度的范围在10%至40%,数据量分别为1 000,5 000 和10000。为了确定虚假交易的影响,将虚假交易比率设置在40%到100%區间内。高级加密算法的密钥大小为512。
最终测试表明,本文所提算法与关联规则挖掘算法相比,在虚假交易比率为60%,最小支持率为10%的情况下,所提出的算法显示出180%的改进。与数据隐私关联规则挖掘相比,在虚假交易比率为100%,最小支持率为20%的情况下,所提出的算法显示出270%的提高。该结果表明,所提出的算法具有显著的安全性。
5 结束语
云计算具有许多优势,如灵活的空间、较高的安全性和成本优化以及从任何远程位置访问,云计算正在成为个人和组织的主要数据存储。同时,隐私保护也是云计算的一个重要方面。在本研究中,提出了一种apriori 算法来增强加密数据的隐私性,所提出算法改进了数据保护以及查询隐私功能。实验表明,与关联规则挖掘算法相比,所提出的算法在性能上显示出明显的优势。未来,我们可能在系统泛化方面做出更多研究。
参考文献:
[1] 陈全,邓倩妮. 云计算及其关键技术[J]. 计算机应用,2009,29(9):2562?2567.
[2] 冯登国,张敏,张妍,等.云计算安全研究[J].软件学报,2011,22(1):45?49.
[3] LIU H,NING H,XIONG Q,et al. Shared authority basedprivacy?preserving authentication protocol in cloud computing[J].IEEE Transactions on parallel and distributed systems,2014,26(1):241?251.
[4] XIANG N,ZHANG X,DOU Y,et al.High?end equipment datadesensitization method based on improved Stackelberg GAN[J].Expert Systems with Applications,2021,180:114989.
作者简介:梁文龙(1994—),硕士,助教,研究方向:模式识别、图像处理、云计算技术。