宋甫元,秦拯,张吉昕,刘羽
基于访问控制安全高效的多用户外包图像检索方案
宋甫元1,秦拯1,张吉昕2,刘羽1
(1. 湖南大学信息科学与工程学院,湖南 长沙 410082;2.湖北工业大学计算机学院,湖北 武汉 430068)
由于公有云不是可信的实体,通过公有云提供图像检索服务时,它可能会窃取图像数据的敏感信息。近年来,密文图像检索方法被提出,用于保护图像隐私。然而,传统的隐私保护图像检索方案搜索效率较低,且无法支持多用户场景。因此,提出一种基于访问控制安全高效的多用户外包图像检索方案。该方案采用一次一密和矩阵变换方法,实现基于欧几里得距离(简称欧氏距离)相似性的密文图像检索,并利用矩阵分解和代理重加密,实现多用户外包图像检索。采用局部敏感哈希算法构建索引,提高密文图像检索效率。特别地,提出一种基于角色多项式函数的轻量级访问控制策略,该策略能够灵活设定图像访问权限,防止恶意用户窃取隐私信息。安全性分析论证了所提方案能够保护图像和查询请求的机密性;实验结果表明所提方案能够达到高效的图像检索。
图像检索;可搜索加密;隐私保护;访问控制
图像检索是一种基于内容(如图像特征、图像纹理等)在大规模图像数据集上高效搜索的技术[1],在诸多领域已经有广泛的应用,如图像识别、目标检测等。一方面,随着移动设备以及无线通信的快速发展,图像数据规模呈爆炸性增长趋势,然而,大规模图像数据的存储以及检索需要耗费巨大的存储资源和计算开销。另一方面,随着云计算的普及与应用,越来越多的企业将大规模图像数据外包到云平台上,这样既可以享受云平台强大的计算能力和充足的存储空间,缓解本地的存储和计算压力,也可以更好地面向公众提供图像检索服务[2]。在基于云计算的图像检索中,数据拥有者将本地的图像外包到云平台上,用于提供图像检索服务。查询用户发送图像查询请求给云平台,期望获取存储于云平台中所匹配的图像,当云平台收到查询用户的查询请求后,云平台检索存储的图像,并返回匹配的查询结果给查询用户。然而,图像中可能包含丰富的敏感信息,如患者的医疗影像、用户的地理位置等。如果数据拥有者直接将未加密的图像外包到云平台上,云平台出于利益将会窃取其中的敏感数据,从而导致隐私信息泄露。另外,恶意用户可能会伪装成合法用户访问数据,这将带来敏感图像隐私泄露问题。因此,亟须研究一种云计算环境下基于访问控制策略的安全外包图像检索方案,防止用户的图像隐私信息和查询请求被窃取。
为了保护用户的图像隐私信息和查询请求,在外包图像数据和发送查询请求前,数据拥有者和查询用户采用加密算法加密各自的图像数据集和查询请求[3]。尽管图像加密能够保护图像隐私,但在密文环境下,图像检索的准确率和效率将会受到极大的影响。传统的可搜索加密方案难以支持多用户环境下的大规模图像检索[4]。因此,针对多用户场景下,如何进行高效的大规模密文图像检索仍然是一个挑战。
目前,已有研究者展开了隐私保护图像检索的研究[1,3,5]。为了保护图像隐私,一些工作基于同态加密[6]和安全多方计算[7]提出了隐私保护图像检索方案。然而,传统的加密算法效率较低,限制了图像检索的速度。为了提高图像检索效率,Li等提出了基于R-tree的索引构建方法[8],但是该方法会降低图像检索的准确率。另外,现有的图像检索方案仅能支持单用户图像检索[9-11],但现实应用中需要面向多用户提供图像检索服务。另外,用户可能不是诚实可信的,一些恶意用户会伪装成合法用户窃取图像中的隐私信息,从而导致图像隐私泄露风险。因此,数据拥有者需要针对外包图像数据设置访问控制策略,认证查询用户的访问权限,保障图像数据的安全。
针对以上问题,本文提出一种面向多用户高效且安全的外包图像检索方案。本文的主要贡献可以归纳为如下几点。
(1)本文基于局部敏感哈希算法,提出了一种安全高效的外包图像检索方案,该方案可以实现快速的密文图像搜索。
(2)本文基于角色多项式函数,设计了一种轻量级的访问控制策略,实现了查询用户的授权认证,防止恶意用户窃取图像隐私。另外,本文采用代理重加密方法,实现了多用户场景下的密文图像搜索。
(3)安全性分析表明本文的方案能够在定义的威胁模型下保护外包图像、检索结果和查询请求的隐私。实验结果表明本文的方案在大规模真实图像数据集下能够达到高效的图像检索。
访问控制是指用户能够对自身的文件、数据设定权限,只有授权的用户才能访问数据。一种通用的访问控制机制是基于用户角色设定访问控制策略。本文利用基于角色的多项式函数设计了一种轻量级的访问控制策略,其中,多项式函数的根可以用多项式函数的系数表示。本文采用通用的Vieta函数[12]表示基于角色的多项式函数,其中,表示的系数,表示多项式函数的根。特别地,本文假设用户的角色可以用一个整数表示,那么只有与相关的文件才能被用户访问。对于一个设定权限的数据集,假设可访问数据集的角色集合为,只有当用户的角色属于集合时,用户才可以访问该数据集。因此,访问控制策略可以用多项式函数表示。为了达到访问控制的目的,数据拥有者需要设定可访问数据集的角色作为多项式函数的根。也就是说,判断一个用户是否能访问数据集等价于判断用户的角色是否为多项式函数的根。本文设计的访问控制策略定义如下。
局部敏感哈希是一种哈希算法,主要运用在高维海量数据的快速近似查找与检索,效果极其显著。近似查找是指比较数据点之间的距离或者相似度。局部敏感哈希的主要思想是根据高维向量之间的距离判定哈希值概率,当两向量距离很近,那么设计一种哈希函数计算两向量的哈希值,使二者哈希值相同的概率较大。同时,若两向量之间的距离较远,它们哈希值相同的概率较小。本文给出局部敏感哈希定义如下。
本文的系统模型如图1所示,主要包含4个实体:云服务器、数据拥有者、查询用户、可信机构。
图1 系统模型
Figure 1 System model
(1)数据拥有者
数据拥有者是图像数据的所有者。在外包图像之前,数据拥有者先用对称加密算法(如AES)加密图像数据集,并把图像特征向量提取出来,构建加密的检索索引,然后,数据拥有者把加密索引和加密图像数据集上传到云服务器上。此外,数据拥有者为图像数据集设定访问策略,用于认证查询用户的访问权限。
(2)云服务器
云服务器具备充足的存储空间和强大的计算能力,主要负责存储数据拥有者的图像数据,并为查询用户提供图像检索服务。
(3)查询用户
查询用户根据查询图像生成相应的查询陷门,并将加密的查询陷门提交到云服务器。云服务器收到查询请求后,进行密文图像检索,并返回匹配的密文图像给查询用户。
(4)可信机构
可信机构负责初始化系统安全参数,生成加密密钥和重加密密钥,并分发给数据拥有者、查询用户以及云服务器。
本文的威胁模型中,可信机构和数据拥有者是完全可信的。云服务器是半可信的,云服务器会按照设计的协议执行图像检索算法。然而,云服务器对存储于其中的图像数据和用户的查询请求非常好奇,可能会出于利益窃取用户的图像数据和查询请求。查询用户部分是可信的,部分是半可信的,需要通过访问控制策略认证用户的访问权限。根据云服务器拥有的知识[13],本文主要考虑以下两种攻击模型。
(1)已知明文攻击:云服务器能够获取图像数据集中的部分明−密文对。
(2)已知背景攻击:相较于已知明文攻击,云服务器拥有更强的攻击能力。云服务器能够提取图像数据集中特定加密图像的统计特征,利用统计分析推测出图像特征向量,甚至加密图像对应的明文图像。
本文的目标是设计一种云计算环境下高效且安全的多用户外包图像检索方案。特别地,本文所提的方案需要达到以下几点需求。
(1)多用户
本文所提的方案应支持多数据拥有者多查询用户场景下的外包图像检索,并且数据拥有者和查询用户之间无须共享对称密钥,查询用户可以使用随机生成的密钥加密查询陷门。
(2)隐私保护
图像内容、特征向量、查询请求以及查询结果的隐私信息应该被保护,云服务器不能够窃取它们的隐私数据。此外,陷门不可链接,云服务器不能够推测两个或者多个检索结果是否与同一个查询请求匹配。
(3)高效性
本文所提出的方案在陷门生成、索引构造、图像检索过程中的时间开销应较低,且不能降低图像检索的准确率。
本节介绍提出的基于访问控制安全高效的多用户外包图像检索方案。在图像检索方案中,本文利用主成分分析方法提取图像的特征向量,并对图像的Fisher矢量进行降维。另外,本文采用欧氏距离相似性衡量两图像所对应特征向量之间的相似度,从而为查询图像匹配到与之相似的图像。本节首先介绍密文图像检索方案的构造细节,然后分析密文图像检索方案的正确性。
本文的多用户图像检索方案包括4个算法:密钥生成、索引构建、陷门生成、图像搜索。
4.1.1 密钥生成
4.1.2 索引构建
在索引构建过程中,主要分为两个阶段:构建哈希桶和建立索引。第一步构建哈希桶,利用局部敏感哈希算法,将相似的图像(即哈希值相同的图像)放到同一个桶内。通过局部敏感哈希算法,可以过滤掉不相似的图像,极大地减少图像检索的搜索空间,提高图像检索效率。第二步提取图像特征向量,建立并加密索引。
通过索引转换的方式,云服务器可以将不同密钥系统下的查询陷门和索引转换为相同密钥系统下的陷门和索引,从而实现多用户在密文环境下进行欧式距离相似度的比较。
4.1.3 陷门生成
4.1.4 图像搜索
云服务器利用欧氏距离相似性方法计算与查询图像哈希值相同的图像,并对这些图像按照欧氏距离相似度由高到低进行排序。排序完成后,云服务器将前个相似图像返回给查询用户,即图像数据集中与查询图像相似的top-图像。满足访问控制策略的查询用户再利用可信机构发送的密钥解密图像,得到明文图像。
本文提出的多用户外包图像检索方案能够根据加密索引与加密陷门的内积,正确计算并返回top-相似图像。本节给出方案正确性分析,定理如下。
本节分析方案的安全性,其中包括图像安全性、索引和查询陷门的机密性、以及查询陷门的不可链接性。
由于本文提出的基于访问控制的多用户外包图像检索方案中,数据拥有者在外包图像数据集之前,首先采用AES对所有图像进行加密,然后将加密的图像数据集发送给云服务器。因此,云服务器无法窃取图像数据,从而图像安全性得到保证。
由于等式(11)中包含无限的正交矩阵,那么必定存在无限的矩阵。也就是说,图像的特征向量集合有无穷多种组合形式。因此,即使云服务器获取了部分明−密文对,以及分析特征向量的统计信息,它也不能够还原图像的特征向量。因此,在已知背景攻击模型下,本方案能够保护索引的机密性。同理,查询陷门的机密性在已知背景攻击模型下也可以得到保护。
(3)查询陷门的不可链接性
本节首先分析方案的复杂度,包括计算复杂度和通信复杂度,然后,在真实图像数据集和模拟数据集上进行实验评估。
表1 计算复杂度对比
此外,本方案的通信复杂度与已有方案的通信复杂度对比如表2所示。
表2 通信复杂度对比
6.1.1 计算复杂度
6.1.2 通信复杂度
本文分别在真实数据集和模拟数据集上进行了测试。本文使用Java实现了所提的方案,同时也实现了对比方案EPIR和EPIRM,并与之进行了性能对比。实验测试环境为IntelE3-1225 v5 @3.30 GHz的处理器,32.0 GB内存,Windows 7操作系统。此外,本文使用ORL(olivetti research laboratory)人脸数据集[16]测试检索准确率,并生成了10 000个多维数据向量作为仿真实验数据集。假设图像特征提取的Fisher向量维度为4 096。本文实验结果包括两方面:检索准确率和计算开销。
6.2.1 检索准确率
为了在真实数据集ORL上测试本方案的准确率,本文分别选用了主成分分析(PCA, principal component analysis)和直方图表示法(EHD, edge histogram descriptor)提取特征向量。本文采用两种应用广泛的精度衡量方式:平均精度(MAP, mean average precision)[17]和top-精度(-P)[5],测试本文方案的图像检索准确率。
图2 不同特征向量维度下的平均精度
Figure 2 MAP with different feature vector dimensions by PCA
图3 不同图片数量下top-k精度
Figure 3 top-precision with different k by EHD
6.2.2 计算开销
在计算开销方面,本文对比了所提出的方案与EPIR和EPIRM的时间开销。
(1)索引构建计算开销
图4 特征向量维度变化下的索引构建时间开销
Figure 4 Running time of index build with different feature vector dimension
图5 图像数据集规模变化下的索引构建时间开销
Figure 5 Running time of index build with different number of images
(2)陷门生成计算开销
在陷门生成过程中,查询用户先扩充查询图片的特征向量,如式(4)所示。扩充完成后,查询用户利用置换函数,随机扰动扩充向量的位置。然后,查询用户用自己的密钥加密向量生成查询陷门,如式(5)所示。从图6可以发现,随着特征向量维度的增加,陷门生成的时间开销呈线性递增趋势,且本方案比EPIR和EPIRM效率更好。因为本方案只引入了两个随机数,而EPIR和EPIRM引入了1个随机数和一个2维随机误差向量。
图6 特征向量维度变化下的陷门生成时间开销
Figure 6 Running time of trapdoor generation with different feature vector dimension
(3)图像搜索计算开销
在图像搜索过程中,本文采用欧氏距离相似性衡量密文索引与查询陷门的相似度。此外,本文采用局部敏感哈希算法找出与查询请求相似的图像,并根据欧氏距离相似度返回top-图像给查询用户。由图7可知,本文的方案在特征向量维度增加时,图像搜索时间开销低于EPIR和EPIRM,且三者都呈线性递增趋势。由图8可知,本文方案的时间开销略低于EPIR和EPIRM。因为本文方案利用了局部敏感哈希算法聚类相似的图像,并将相似图像存放于同一个哈希桶中,云服务器只需要检索与查询图像对应的哈希桶中的图像,而不用遍历整个图像数据集。因此,本文方案对于密文环境下高维特征向量和大规模图像数据集的检索是高效的且满足现有图像检索的强安全性和高准确率需求。
图7 特征向量维度变化下的图像搜索时间开销
Figure 7 Running time of image search with different feature vector dimensions
图8 图像数据集规模变化下的图像搜索时间开销
Figure 8 Running time of image search with different number of images
针对多用户场景下外包图像检索的效率和隐私保护问题,本文提出了一种基于访问控制安全高效的多用户外包图像检索方案。该方案采用矩阵正交分解性质,将对称密钥分解为用户的加密密钥和云服务器的重加密密钥,并利用代理重加密方法,实现了多用户环境下外包图像检索。本文利用局部敏感哈希算法构建索引,极大地降低了图像搜索空间。同时,本文基于角色多项式函数提出了一种轻量级的访问控制策略,用于设定图像的访问权限,防止恶意用户窃取图像隐私。安全性分析证明了本文的方案能够达到已知明文攻击和已知背景攻击下的安全。大量的实验结果表明本文的方案对于高维特征向量和大规模图像数据集,在计算效率方面优于现有的密文图像检索方案。
[1] SHASHANK J, KOWSHIK P, SRINATHAN K, et al. Private content based image retrieval[C]//Proc. Of IEEE CVPR. 2014: 1-8.
[2] SONG F Y, QIN Z, LIU Q, et al. Efficient and secure k-nearest neighbor search over encrypted data in public cloud[C]//Proc of IEEE ICC. 2019: 1-6.
[3] XIA Z, XIONG N N, VASILAKOS V A, et al. EPCBIR: an efficient and privacy-preserving content-based image retrieval scheme in cloud computing[J]. Information Sciences. 2017, 387: 195-204.
[4] ZHOU K, REN J. Passbio: privacy-preserving user-centric biometric authentication[J]. IEEE Transactions on Information Forensics Security. 2018, 13(12): 3050-3063.
[5] LI X, XUE Q, CHUAH M C. Casheirs: cloud assisted scalable hierarchical encrypted based image retrieval system[C]//Proc of IEEE INFOCOM. 2017: 1-9.
[6] SHEN M, CHENG G, ZHU L, DU X, et al. Content-based multi-source encrypted image retrieval in clouds with privacy preservation[J]. Future Generation Computer Systems. 2020, 109: 621-632.
[7] JUNG T, LI X, WAN M. Collusion-tolerable privacy-preserving sum and product calculation without secure channel[J]. IEEE Transactions on Dependable and Secure Computing. 2014, 12(1): 45-57.
[8] YUAN J, YU S, GUO L. SEISA: Secure and efficient encrypted image search with access control[C]//Proc of IEEE INFOCOM. 2015: 2083-2091.
[9] ZHENG Y, LU R, GUAN Y, et al. Achieving efficient and privacy-preserving exact set similarity search over encrypted data[J]. IEEE Transactions on Dependable and Secure Computing, 2020.
[10] FU Z, HUANG F, SUN X, et al. Enabling semantic search based on conceptual graphs over encrypted outsourced data[J]. IEEE Transactions on Services Computing, 2016, 12(5): 813-823.
[11] XU L, YUAN X, WANG C, et al. Hardening database padding for searchable encryption[C]//Proc of IEEE INFOCOM. 2019: 2503-2511.
[12] SHU J, JIA X, YANG K, et al. Privacy-preserving task recommendation services for crowd sourcing[J]. IEEE Transactions on Services Computing, 2021, 14(1): 235-247.
[13] ZHANG C, ZHU L, XU C, et al. TPPR: A trust-based and privacy-preserving platoon recommendation scheme in VANET[J]. IEEE Transactions on Services Computing, 2019.
[14] YUAN J, TIAN Y. Practical privacy-preserving MapReduce based k-means clustering over large-scale dataset[J]. IEEE Transactions on Cloud Computing, 2017, 7(2): 568-579.
[15] WANG X, MA J, LIU X, et al. Search in my way: Practical outsourced image retrieval framework supporting unshared key[C]// Proc of IEEE INFOCOM. 2019: 2485-2493.
[16] PENG Z, JIA Y, LIU H, et al. Maximum entropy subspace clustering network[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021.
[17] YUE Y, FINLEY T, RADLINSKI F, et al. A support vector method for optimizing average precision[C]//Proc of ACM SIGIR. 2007: 271-278.
Efficient and secure multi-user outsourced image retrieval scheme with access control
SONGFuyuan1, QIN Zheng1, ZHANG Jixin2, LIU Yu1
1. College of Computer Science and Electronic Engineering, Hunan University, Changsha 410082, China 2. School of Computer Science, Hubei University of Technology, Wuhan 430068, China
In the cloud-based image retrieval services, the cloud server may not be fully trusted in which may arise privacy concerns. Some privacy-preserving image retrieval schemes have been proposed to protect image privacy. However, the traditional privacy-preserving image retrieval schemes have some weaknesses, such as inefficient and single-user setting. Therefore, an efficient and secure multi-user outsourced image retrieval (EMIR) scheme with access control was proposed. EMIR utilized matrix decomposition and proxy re-encryption to achieve multi-user outsourced image retrieval. By leveraging the techniques of one-time pad and matrix transformation, EMIRsupported efficient and secure image retrieval based on Euclidean distance similarity in a privacy-preserving manner. In addition, EMIR applied locality sensitive hashing (LSH) to build searchable indexes in a privacy-preserving manner, which could improve the image retrieval performance. Specifically, a lightweight access control strategy by using role-based polynomial function was designed to authorize the legality of the query user. Security analysis shows that EMIR can protect the confidentiality of the images and the queries. The extensive experiments demonstrate that EMIR achieves efficient image retrieval.
image retrieval, searchable encryption, privacy-preserving, access control
TP309
A
10.11959/j.issn.2096−109x.2021076
2020−12−03;
2021−01−18
秦拯,zqin@hnu.edu.cn
国家自然科学基金(61772191, 61902123,62002112, 62002106));长沙市科技计划项目(kq2004025, kq2004027);湖南省科技计划重点资助项目(2015TP1004, 2018TP1009, 2020JJ5085, 2018TP3001)
The National Natural Science Foundation of China (61772191, 61902123, 62002112, 62002106), The Science and Technology Projects of Changsha (kq2004025, kq2004027), The Science and Technology Key Projects of Hunan Province (2015TP1004, 2018TP1009, 2020JJ5085, 2018TP3001)
宋甫元, 秦拯, 张吉昕, 等. 基于访问控制安全高效的多用户外包图像检索方案[J]. 网络与信息安全学报, 2021, 7(5): 29-39.
SONG F Y, QIN Z, ZHANG J X, et al. Efficient and secure multi-user outsourced image retrieval scheme with access control[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 29-39.
宋甫元(1991−),男,江西上饶人,湖南大学博士生,主要研究方向为隐私保护、数据安全、应用密码学。
秦拯(1969−),男,湖南长沙人,湖南大学教授、博士生导师,主要研究方向为云计算安全、隐私保护、图数据管理与应用。
张吉昕(1987−),男,湖北武汉人,湖北工业大学讲师,主要研究方向为人工智能、知识图谱、异常行为分析与恶意代码分析。
刘羽(1994−),女,湖南邵阳人,湖南大学博士生,主要研究方向为应用密码学、图像加密。