基于联盟链的边缘缓存系统中最佳缓存策略设计

2024-08-17 00:00:00刘锰姜静杜剑波张雪薇
计算机应用研究 2024年7期

摘 要:针对不同运营商各自部署边缘设备,投入巨大且缓存内容相互隔离,无法共享的问题,改进了一种基于联盟链的边缘缓存系统架构,使运营商部署的边缘设备间能够打破内容隔离,实现更大范围的共享。为了提高运营商缓存收益,同时保证用户传输质量,降低用户传输时延,首先针对缓存内容流行度、内容大小以及边缘设备的协作能力,分析不同内容交付方式对于用户传输时延和运营商缓存收益的影响;然后,以最大化缓存收益和最小化传输时延为目标建立优化问题;最后,为解决构建的高维度大规模的缓存决策问题,采用基于异步优势动作评价的内容缓存算法确定内容的最佳放置位置。仿真结果表明,所提缓存策略能够有效地提高边缘缓存收益,降低内容传输时延,提升用户体验。

关键词:边缘缓存; 区块链; 智能合约; 协作缓存; 深度强化学习

中图分类号:TP929 文献标志码:A 文章编号:1001-3695(2024)07-035-2173-06

doi:10.19734/j.issn.1001-3695.2023.12.0593

Design of optimal caching strategy in edge caching system

based on consortium chain

Abstract:To solve the problem that the edge devices deployed by different operators have huge investment and the cached contents are isolated and have difficulty in sharing information, this paper improved the architecture of an edge cache system based on consortium chain, so that the edge devices deployed by different operators could break the content isolation and achieve a wider range of content sharing. In order to improve the operator cache revenue while ensuring the user transmission quality and reducing the user transmission delay, this paper firstly analyzed the impact of different content delivery methods on user transmission delay and operator caching benefits in terms of cache popularity, content size, and edge device collaboration capabilities. Then,it established an optimization problem with the goal of maximizing the cache benefit and minimizing the transmission delay. Finally, to solve the proposed high-dimensional large-scale caching decision problem,it used asynchronous advantage actor-critic(A3C) based content caching algorithm to determine optimal placement of content. Simulation results show that the proposed cache strategy can effectively enhance the revenue of edge caching, reduce the delay of content delivery and improve the user experience.

Key words:edge cache; block chain; smart contract; cooperative caching; deep reinforcement learning

0 引言

随着万物互联的移动互联网业务发展,全球移动流量将呈指数级增长,2020年移动数据量为每月约62 EB,而在2023年达到每月约5 016 EB[1]。移动边缘计算将存储资源部署在微基站(small-cell base station,SBS)、宏基站(macro base station,MBS)等网络边缘节点,用户可以从边缘节点直接获取数据,而无须经过云计算中心传输,极大降低了子数据传输延迟,有效减轻了网络的流量负载[2]。然而面对数量巨大且请求频率高的热点内容,SBS的存储容量十分受限,并且不同的运营商缓存内容相互隔离,互不共享,导致热点内容在不同运营商的SBS上重复缓存,缓存空间利用率不高,网络建设运营成本居高不下[3]。为解决上述问题,基于区块链的边缘缓存技术得到了广泛的关注与研究[4]。区块链技术是一种高级的数据库机制,存储的数据或信息具有不可伪造、公开透明、集体维护等特点。基于区块链的边缘缓存技术将边缘缓存技术与区块链技术相结合,使热点内容分布式地存储在距离用户较近的SBS上,利用区块链去中心化、防窜改、公开透明等特点保证数据传输和访问安全,能够实现更大范围的内容共享,提高了SBS的缓存利用率,成为6G边缘缓存工作的新范式[5]。

由于公有链的运行机制会导致区块链账本难以长期维护,而且任意节点均可接入系统导致恶意攻击的概率增加[6];而私有链仅供单个组织或机构使用,无法完全去中心化且不适用于SBS数量巨大的边缘缓存系统[7]。联盟链作为公有链和私有链的折中方案,只针对某个特定组织或群体,由若干成员共同参与管理,已成为区块链技术发展的主要方向之一[8]。因此,本文将研究基于联盟链的边缘缓存策略来鼓励运营商之间进行数据安全共享传输。

在基于区块链和边缘缓存的研究中,文献[9]考虑不同物联网系统的异构性以及集中化数据处理平台单点故障等问题,提出一种基于区块链技术的去中心化物联网数据共享和存储方案。针对基于区块链的边缘缓存资源分配问题,文献[10]提出边缘缓存节点内容选择算法,将马尔可夫链融合至缓存替换策略中,减少了带宽资源浪费,提高了缓存命中率和空间利用率。针对区块链的缓存资源交易机制问题,文献[11]设计了一种基于内容提供商和边缘节点之间的缓存资源交易机制,在订单匹配过程中分解缓存资源请求,提高了边缘缓存资源的使用效率。以上研究主要针对于求解运营商单个性能需求的最佳缓存位置。在实际的通信网络中,往往不仅要考虑运营商性能需求,还需要考虑对用户服务质量的影响。两者差异化需求常常会带来不同的系统设计侧重,因此往往需要综合考虑这些性能指标。

深度强化学习(deep reinforcement learning,DRL)算法因为能够应对时变环境,产生最优策略来最大化长期奖励,为内容缓存优化提供了新的解决方案。文献[12]采用双深度Q网络(deep Q network,DQN)框架用于协作缓存和请求路由,最大限度减少用户长期获取内容的平均延迟。文献[13]研究了区块链网络中的内容缓存问题,采用分布式近端策略优化方案解决了最优的缓存部署策略。文献[14]针对区块链系统中矿工平均效用最大化问题,采用异步优势动作评价(asynchronous advantage actor-critic,A3C)算法解决了联合资源定价和分配问题。面对高维度大规模缓存决策问题的动态特性,A3C算法能够优化深度神经网络采用异步梯度下降以获得最优策略,被证明在动态环境中具有更快的收敛性能[15]。

文献[16]提出了一种基于联盟链的边缘缓存系统架构,通过考虑边缘节点的开销,设计了一种基于内容缓存的部分实用拜占庭容错(partial practical Byzantine fault tolerance,pPBFT)共识机制来研究运营商缓存收益;文献[17]利用贪婪算法仅针对静态内容流行度求解出运营商缓存收益最大值。两者均没有考虑到内容的时变性给运营商和用户带来的影响。针对上述问题,本文对文献[16]的网络架构进行改进,并针对基于联盟链的边缘缓存系统的运营商缓存收益和用户传输时延进行优化,利用随机参数的Zipf分布来模拟动态内容流行度分布,提出一种基于A3C的内容缓存算法对最大化运营商缓存收益和最小化用户传输时延等缓存策略进行求解,以满足实际通信网络中的差异化需求。本文主要贡献如下:

a)改进了基于联盟链的内容共享交易流程,并结合动态内容流行度、内容大小以及SBS的协作能力,分析不同内容交付方式对于用户传输时延和运营商缓存收益的影响。

b)以最大化运营商缓存收益和最小化用户传输时延为优化目标,为解决所构建的高维度大规模的缓存决策问题,将SBS的缓存决策过程建模为马尔可夫决策过程(Markov decision processes,MDP),并利用A3C算法学习流行度时变的最优缓存策略,通过在多个环境上异步并行执行多个线程来确定内容放置位置。通过仿真评估本文算法与现有缓存策略的性能,验证了所提缓存策略的有效性。

1 系统模型

本章介绍基于联盟链的边缘缓存系统架构,对基于智能合约的内容共享协作交易流程进行设计以及对动态内容流行度进行建模。

1.1 网络架构

本文建立了联盟链和边缘缓存的三层架构来实现内容传输共享。如图1所示,它由设备层、边缘层和联盟链网络层组成。各层功能描述如下:

a)设备层。用户的智能设备通过无线通信链路连接到附近的SBS,并向边缘层发送或接收数据。

b)边缘层。边缘层由不同运营商管理的SBS组成,其主要包含缓存节点和智能合约节点。缓存节点负责SBS信息的注册与认证、查找内容以及不同运营商之间的内容转发;智能合约节点负责验证交易、上传区块以及通过数字合同的形式保证参与交易各方按照智能合约自动执行内容的交付。

c)联盟链网络层。联盟链网络提供记录SBS请求信息和创建智能合约的去中心化服务,可以有序地存储交易记录。区块中的交易列表记录了有关内容共享交易的详细信息,并生成Merkle root哈希记录在区块头中,加密的合约条款记录了内容单价,以预定义的方式执行可靠的交易。

1.2 基于联盟链的内容共享交易流程

为保证不同运营商SBS之间的内容共享交易的安全性,本文对基于智能合约的内容共享协作交易流程进行设计,主要通过以下几个阶段实现[18]:

a)身份建立和初始化。要实现不同运营商之间的内容协作共享,边缘节点首先通过联盟链网络认证后,注册合法身份。假设SBS和内容库分别表示为Euclid Math OneBAp={b1,b2,…,bI}和Euclid Math OneFAp={f1,f2,…,fJ},则SBS bi的身份信息可描述为

IDi:={idnp,kpubi,kprii,Ci,wi}(1)

其中:每个字段分别为SBS连接的网络运营商的身份号idnp,bi的公钥kpubi和私钥kprii,bi的协作域向量Ci以及钱包地址wi,钱包地址由其唯一的公钥kpubi根据哈希创建[19]。由于地理位置等影响,并非系统中任意两个SBS都适合进行内容共享,所以定义bi的协作域矩阵Ci,矩阵中每一项表示bi和其他SBS之间的协作优先度,表示为

其中:dim表示bi和bm之间的距离;dmax表示协作域中最远的两个SBS的距离,距离越大说明其协作能力越低,不适合进行内容传输共享。

b)合约创建。边缘节点就合约达成一致后,就可在联盟链上部署智能合约。合约地址对所有边缘节点公开,以便每个节点可以选择与合约进行交互,SBS可以通过联盟链发起内容共享请求。具体内容共享交易过程如图2所示。

(a)用户发起内容请求,本地SBS的缓存节点为用户提供内容服务。如果内容在本地缓存命中,则直接进行内容传输;若未命中,则通过联盟链向协作域内其他SBS的缓存节点广播内容请求。

(b)其他SBS的缓存节点收到内容请求后,先检查有无缓存。若已缓存,则协作域内的SBS反馈合作意向,待双方协作意向达成后,发送内容的SBS的智能合约节点部署智能合约,对此次内容交易进行处理;若未缓存,则记录内容的同时更新区块,请求内容的SBS采取回程链路传输方式获取内容。

(c)发送内容的SBS将合约地址传送给请求内容的SBS,智能合约中记录了发送内容的SBS的钱包地址以及费用;请求内容的SBS审核合约内容无误后,向其支付所需费用。

(d)发送内容的SBS收到内容费用后进行内容传输。

(e)内容传输完成后,发送内容的SBS会生成交易收据,之后使用哈希算法生成此次交易对应哈希值并上传至区块体中的交易列表中。内容共享交易过程执行完毕。

c)交易记录。在内容交易完成后,请求内容的SBS bi将生成的交易记录发送到联盟链网络进行验证,验证成功后广播到所有联盟链节点。该交易记录包括内容fj的数据量Qj,请求内容费用cost,提供内容的SBS bm的钱包地址wm和数字签名Sigm以及当前消息的时间戳ts。交易记录描述如下:

Transi=Epubi(Qj,cost,wm,Sigm,ts)(3)

其中:Epubi表示bi的公钥kpubi对交易Transi进行加密;Sigm=Signprim(Qj,cost)表示bm的私钥kprim对内容数据量Qj和费用cost签署的数字签名。

d)区块创建。每个区块由联盟链节点协商创建,新区块创建后,智能合约节点广播带有时间戳的区块,其他节点验证新区块中交易记录的正确性,通过实用拜占庭容错共识机制[20]使系统达成共识。

1.3 内容流行度模型

内容流行度通常情况下建模为齐夫(Zipf)分布,表示用户对内容的请求概率[21]。考虑到实际中不同时隙的用户对内容的偏好可能不同,所以每个SBS在不同时隙具有不同的内容流行度分布。定义在时隙t内容流行度表示为pi,j(t),可以用Zipf分布近似描述,即

其中:αi,t是反映在时隙t内SBS bi内容请求概率偏斜参数。由于内容请求的可变性,每个SBS的Zipf参数在每个时隙内可能不同,所以动态内容流行度分布集合表示为p(t)={pi,j(t),i∈I,j∈J}。

2 系统性能分析

2.1 传输时延分析

假设SBS和MBS的信道带宽分别为w和w0,发射功率分别为q和q0,MBS到bi的距离为d0i。则bm到bi的信道增益和MBS到bi的信道增益分别为

其中:常数K为固定传输损耗;β为路径损耗因子。由香农公式可得bm到bi的传输速率以及MBS到bi的传输速率,分别为

因此,bm向bi传输内容fj与MBS向bi传输内容fj所产生的传输时延分别为

a)当用户向bi请求内容fj时,bi会先在本地进行查找,若本地缓存命中,则直接进行内容交付。由于本地基站到用户的传输时延总是存在且很小,记传输时延Dloc(t)=0。

b)当bi没有缓存内容fj,但是其协作域Ci内有SBS bm缓存了该内容,此时采取协作内容交付。由于协作的SBS相较于MBS在地理位置上离用户更近,能够有效降低传输时延,所以将SBS bm缓存内容fj对bi的传输时延表示为

c)如果本地及协作域内均没有SBS缓存内容fj时,此时采取MBS进行内容交付,此时传输时延表示为

综上所述,考虑到不同运营商管理的SBS以及不同内容大小,用户平均传输时延的表达式为

2.2 缓存收益分析

a)当SBS bi收到本地用户对内容fj的请求,如果本地缓存命中,将直接通过无线链路为用户提供服务;否则,bi需要从MBS处通过回程链路获取内容。本文将本地缓存所节省的回程传输成本作为本地缓存收益,表示为

其中:cbh表示从MBS处获取内容所产生的回程链路成本。

b)当SBS bi没有缓存内容fj,但其协作域Ci内有SBS bm缓存了该内容,此时采用协作内容交付。尽管必须承担内容费用,但合作的SBS相较于MBS在地理位置上距离用户更近,也能有效降低从回程资源有限的MBS中获取内容所带来的开销,故采取协作内容传输的收益表示为

其中:μ为单位内容请求所需支付的费用。

c)当bi及其协作域中均没有SBS缓存内容fj,采用MBS进行内容传输,会消耗额外的回程开销,此时收益Enc(t)=0。

因此,运营商平均缓存收益的表达式为

3 基于A3C的内容缓存算法

3.1 优化问题建模

由于差异化的需求常常导致不同的性能指标,如运营商缓存收益最大化、用户传输时延最小化等。这些性能指标相互冲突,一个指标的提升往往会导致另一个指标性能的下降。为了满足实际通信场景中差异化的通信需求,需要综合考虑这些性能指标。因此,在满足不同内容大小、SBS的容量限制的条件下,基于第2章的分析,本文提出了缓存收益最大化与传输时延最小化的优化问题,并通过线性加权法进行整合,表示为

其中:β1和β2分别为目标函数的加权系数,且β1+β2=1;约束条件C1表明缓存决策变量是具有离散特性的0-1变量;约束条件C2确保SBS缓存内容大小不超过容量限制。由于式(14)优化问题属于NP-hard[22],利用传统算法可能很难解决问题。为解决高维度大规模动作空间中的MDP问题,本文利用基于A3C的内容缓存算法来获得收益最大且时延最小的最优缓存策略。

3.2 A3C算法概述

在actor-critic(AC)框架中,智能体由单个actor-critic组成,代理通过状态、动作与环境进行交互,以最大化折扣奖励。在每一时隙中,actor网络使用当前策略在当前状态下执行动作,并将奖励返回给critic网络。

A3C算法是在AC算法的基础上提出的,采用了异步训练的思想[23],通过将actor-critic放在多线程中进行同步训练,能够显著提高训练效率和收敛速度。如图3所示,具体地,A3C算法通过一个全局网络创建多个线程和环境,每个线程充当随机探索的代理。全局网络和线程网络具有相同的结构,都是actor-critic网络。actor-critic网络使用两个深度神经网络,分别用于改进策略函数和估计价值函数。全局网络无须训练,仅用于存储参数,多个代理与其环境交互以并行学习和计算策略梯度。然后,每个线程将运行结果反馈给全局网络,并从全局网络获取最新的参数更新,以指导自己与系统环境之间的下一次学习交互。通过在多个环境中并行运算多个线程,其生成的数据具有多样性,打破了数据之间的相关性,提升了网络在训练过程中的稳定性。由于多个线程的工作原理相同,所以以一个线程内的网络训练过程为例来说明所提出的缓存策略。

3.3 使用A3C算法求解缓存策略

本文将每个线程的状态空间、动作空间和奖励函数定义如下:

a)状态空间。状态空间定义为集合s(t)={x(t),p(t)},其中:x(t)表示在时隙t内不同运营商的SBS对不同内容的缓存状态,p(t)表示时隙t内容流行度分布。

b)动作空间。动作空间定义为集合a(t)={ai,j(t),i∈I,j∈J},其中a(t)是时隙t处的二进制缓存动作向量,即表示时隙t处缓存刷新阶段执行的动作,ai,j(t)=1表示在时隙t+1处内容fj应存储在bi上。

c)奖励函数。因为目标是通过为流行内容选择最佳缓存位置来最大化缓存收益,同时最小化传输时延,所以即时奖励函数定义为组合后的单目标优化函数,表示为r(t)=(t)。

基于A3C的联盟链边缘缓存的训练过程描述如下:

a)actor进程:actor网络的任务是引导SBS选择并执行相应的缓存动作。在每个时隙t,通过输入当前状态s(t),在不超过SBS容量限制的情况下输出当前策略函数π(a(t)|s(t);θ′),并根据该函数选择合适的缓存内容的位置。在SBS执行当前动作a(t)后,状态将从s(t)转移到s(t+1),SBS获得即时奖励r(t)。最后,SBS将(s(t),a(t),r(t),s(t+1))存入缓冲区,重复执行上述过程,直到动作执行完tmax步。

b)critic进程:critic网络的任务是提供更准确的价值函数估计。通过输入当前状态s(t),输出当前价值函数V(s(t);ω′),并评估从actor网络中获得的策略,以便SBS学习到最优的缓存策略。

在actor-critic网络的每个线程执行完所有步骤后,开始使用梯度算法计算网络参数,并将其梯度信息发送到全局网络。在所有异步线程完成后,全局网络根据累积的梯度信息更新网络参数。此外,更新的参数将被发送到每个SBS以加速学习进度。该过程以迭代方式重复,在全局网络执行Tmax后结束。最后,全局网络将选择长期奖励最大的缓存方案。

c)梯度更新:A3C算法使用tmax步奖励来同时更新策略和价值网络,使函数变化更快,加快学习速度。定义优势函数At以减少估计的方差,作为所选行动的评价标准。通过式(15)计算。

A(s(t),a(t))=Q(s(t),a(t))-V(s(t))(15)

其中:V(s(t))是从critic网络的输出中获得的价值函数;Q(s(t),a(t))表示在时隙t内采取行动的长期折扣累积奖励,可以计算为

其中:n是tmax的上界,在采取tmax动作之后或达到最终状态时更新策略和价值函数;γ是提供当前奖励和未来奖励之间权衡的折扣率。

actor网络定义了带参数θ′的策略函数π(a(t)|s(t);θ′),损失函数定义为

LA=log π(a(t)|s(t);θ′)A(s(t),a(t))(17)

采用梯度上升算法更新actor网络的参数,表示为

同理,critic网络定义了带参数ω′的价值函数V(s(t);ω′),其损失函数为

LC=(A(s(t),a(t)))2(19)

利用梯度下降算法更新critic网络的参数,表示为

最后,算法1总结了所提基于A3C的内容缓存算法的详细过程,将算法1得到的最终缓存方案与式(10)(13)结合可得平均缓存收益和平均传输时延。

算法1 基于A3C的内容缓存算法

4 仿真分析

为了验证所提策略的性能,与现有的缓存策略进行分析对比[24],其中包括基于贪婪算法的缓存策略[25]、基于流行度的缓存策略和随机缓存策略。其中,文献[25]提出的基于贪婪算法的缓存策略在SBS的有限缓存空间下根据目标函数尽可能多地缓存流行内容;基于流行度的缓存策略中,SBS根据内容流行度的排序依次缓存,最终用尽缓存空间;在随机缓存策略中,SBS在缓存空间的约束下随机缓存内容。

为简化计算量,将内容数据量进行归一化处理,从{1Q0,2Q0,3Q0,4Q0,5Q0}中随机选择,Zipf分布指数αi,t在每个时隙[0.6,1.2]随机变化。将actor和critic网络的学习率分别设置为0.000 1和0.01[26],为了协调运营商收益和用户传输时延的重要程度,利用熵权法按指标提供信息量大小设置即时奖励权重β1=0.7和β2=0.3,其余仿真参数如表1所示[17,27~29]。

图4表示本文算法和其他两种基准算法之间平均累计奖励的性能比较。可以看出,DQN和AC的累计奖励均低于A3C,并且A3C的性能更稳定,收敛速度更快。这是因为A3C采用异步机制,即采用多线程并行探索,有助于快速发现未知的动作和状态,从而极大提高了学习效率。

图5描述了不同容量下SBS平均缓存收益比较,从图上可以看出,随着缓存容量的增加,缓存收益呈现增长的趋势,但增长的速度会逐渐下降。这是因为随着SBS缓存容量的增加,更多的内容能够缓存在SBS上,使得收益增加,随着本地缓存的内容越来越多,其需要通过联盟链进行内容共享的概率也会随之降低,进而缓存收益中通过内容共享获取到的收益会减少,导致收益增长的速度会逐渐下降。对比文献[16]提出的pPBFT算法,随着系统容量的增加,pPBFT缓存策略的收益逐渐升高,这是因为pPBFT会重复缓存某些内容,而本文缓存策略考虑内容的时变性不会对内容进行重复缓存,避免了节点间的恶意竞争。因此,本文基于联盟链的A3C算法缓存策略带来的收益明显优于其他四种方案,能够显著提高运营商边缘缓存系统带来的收益。

图6描述了SBS不同缓存容量下的用户平均传输时延的比较。由于随机缓存策略的性能不稳定,所以与SBS缓存容量大小不成正比。其中,不同缓存策略的用户平均传输时延均呈下降趋势,这是因为随着缓存容量的增加,SBS可以缓存更多的内容,用户请求的更多内容可以缓存在本地SBS或协作域SBS中,并且从SBS处获取内容的延迟比从MBS获取内容的延迟要小得多,通过MBS传输的概率会减少,所以缩短了用户从MBS处获取内容的传输时延。其次,由于本文算法考虑了SBS之间的协作,所以基于联盟链的A3C算法缓存策略的用户平均时延低于其他四种缓存方案,证明了联盟链和协作缓存对于用户传输时延的重要性。可以看出在SBS容量大小受到限制的情况下,本文缓存方案优于其他缓存方案,可以降低用户平均传输时延。

5 结束语

本文在基于联盟链的边缘缓存系统的缓存策略优化方案中同时考虑运营商缓存收益和用户传输时延的影响,改进了基于联盟链的内容共享交易流程,并综合考虑动态内容流行度以及SBS的协作程度,以最大化运营商缓存收益和最小化用户传输时延为目标建立优化问题。考虑到优化问题是NP-hard,提出基于A3C求解出最优内容缓存策略。仿真结果表明,与其他缓存策略相比,该策略可以提高运营商缓存内容的收益,同时降低用户传输时延。在未来研究中,本文将对联盟链真实场景进行测试,改进现存的共识算法从而降低系统共识开销。

参考文献:

[1]Jiang Wei, Han Bin, Habibi M A, et al. The road towards 6G: a comprehensive survey[J]. IEEE Open Journal of the Communications Society, 2021,2: 334-366.

[2]Sheraz M, Ahmed M, Hou X, et al. Artificial intelligence for wireless caching: schemes, performance, and challenges[J]. IEEE Communications Surveys & Tutorials, 2020, 23(1): 631-661.

[3]Guo Shaoyong, Hu Xing, Guo Song, et al. Blockchain meets edge computing: a distributed and trusted authentication system[J]. IEEE Trans on Industrial Informatics, 2020,16(3): 1972-1983.

[4]You Xiaohu, Wang Chengxiang, Huang Jie, et al. Towards 6G wireless communication networks: vision, enabling technologies, and new paradigm shifts[J]. Science China: Information Sciences, 2021, 64(1): 5-78.

[5]Sun Wen, Li Sheng, Zhang Yan. Edge caching in blockchain empo-wered 6G[J]. China Communications, 2021, 18(1): 1-17.

[6]牛淑芬, 杨平平, 谢亚亚, 等. 区块链上基于云辅助的密文策略属性基数据共享加密方案[J]. 电子与信息学报, 2021, 43(7): 1864-1871. (Niu Shufen, Yang Pingping, Xie Yaya, et al. Cloud-assisted ciphertext policy attribute base data sharing encryption scheme on blockchain[J]. Journal of Electronics & Information Technology, 2021, 43(7): 1864-1871.)

[7]Davenport A, Shetty S. Air gapped wallet schemes and private key leakage in permissioned blockchain platforms[C]//Proc of IEEE International Conference on Blockchain. Piscataway, NJ: IEEE Press, 2019: 541-545.

[8]Zheng Peilin, Xu Quanqing, Zheng Zibin, et al. Meepo: sharded consortium blockchain[C]//Proc of the 37th International Conference on Data Engineering. Piscataway, NJ: IEEE Press, 2021: 1847-1852.

[9]蒋宇娜, 葛晓虎, 杨旸, 等. 面向 6G 的区块链物联网数据共享和存储机制[J]. 通信学报, 2020,41(10): 48-58. (Jiang Yu’na, Ge Xiaohu, Yang Yang, et al. 6G oriented blockchain based Internet of Things data sharing and storage mechanism[J]. Journal on Communications, 2020, 41(10): 48-58.)

[10]Wang Hongman, Li Yingxue, Zhao Xiaoqi, et al. An algorithm based on Markov chain to improve edge cache hit ratio for blockchain-enabled IoT[J]. China Communications, 2020, 17(9): 66-76.

[11]Liu Jiadi, Guo Songtao, Shi Yawei, et al. Decentralized caching framework toward edge network based on blockchain[J]. IEEE Internet of Things Journal, 2020, 7(9): 9158-9174.

[12]Li Ding, Han Yiwen, Wang Chenyang, et al. Deep reinforcement learning for cooperative edge caching in future mobile networks[C]//Proc of IEEE Wireless Communications and Networking Conference. Piscataway, NJ: IEEE Press, 2019: 1-6.

[13]Chen Mengqi, Wu Guangming, Zhang Yuhuang, et al. Distributed deep reinforcement learning-based content caching in edge computing-enabled blockchain networks[C]//Proc of the 13th International Conference on Wireless Communications and Signal Processing. Pisca-taway, NJ: IEEE Press, 2021: 1-5.

[14]Du Jiangbo, Cheng Wenjie, Lu Guangyue, et al. Resource pricing and allocation in MEC enabled blockchain systems: an A3C deep reinforcement learning approach[J]. IEEE Trans on Network Science and Engineering, 2021, 9(1): 33-44.

[15]Ye Xinyu, Li Meng, Yu F R, et al. MEC and blockchain-enabled energy-efficient Internet of Vehicles based on A3C approach[C]//Proc of IEEE Global Communications Conference. Piscataway, NJ: IEEE Press, 2021: 1-6.

[16]姜静, 王凯, 许曰强, 等. 基于联盟链的运营商最佳缓存策略[J]. 电子与信息学报, 2022, 44(9): 3043-3050. (Jiang Jing, Wang Kai, Xu Yueqiang, et al. Optimal caching strategy of operators based on consortium blockchain[J]. Journal of Electronics & Information Technology, 2022, 44(9): 3043-3050.)

[17]杨帆, 姜静, 杜剑波, 等. 基于联盟链的边缘缓存系统收益最大化的缓存策略[J]. 计算机应用研究, 2023, 40(8): 2447-2451,2466. (Yang Fan, Jiang Jing, Du Jianbo, et al. Benefit maximization caching strategy in edge cache system based on consortium blockchain[J]. Application Research of Computers, 2023, 40(8): 2447-2451,2466.)

[18]Xu Qichao, Su Zhou, Yang Qing. Blockchain-based trustworthy edge caching scheme for mobile cyber-physical system[J]. IEEE Internet of Things Journal, 2019, 7(2): 1098-1110.

[19]Preneel B. Cryptographic hash functions[J]. European Trans on Telecommunications, 1994, 5(4): 431-448.

[20]Zhang Ran, Yu F R, Liu Jiang, et al. Deep reinforcement learning(DRL)-based device-to-device(D2D) caching with blockchain and mobile edge computing[J]. IEEE Trans on Wireless Communications, 2020, 19(10): 6469-6485.

[21]Li Qiang, Shi Wennian, Xiao Yong, et al. Content size-aware edge caching: a size-weighted popularity-based approach[C]//Proc of IEEE Global Communications Conference. Piscataway, NJ: IEEE Press, 2018: 206-212.

[22]王蕊, 申敏, 何云, 等. Cell-Free大规模 MIMO系统中基于传输时延的缓存策略研究[J]. 通信学报, 2021, 42(12): 134-143. (Wang Rui, Shen Min, He Yun, et al. Research on caching strategy based on transmission delay in Cell-Free massive MIMO systems[J]. Journal on Communication, 2021, 42(12): 134-143.)

[23]Mnih V, Badia A P, Mirza M, et al. Asynchronous methods for deep reinforcement learning[C]//Proc of the 33rd International Conference on Machine Learning. [S.l.]: PMLR, 2016: 1928-1937.

[24]蔡艳, 吴凡, 朱洪波. D2D 协作边缘缓存系统中基于传输时延的缓存策略[J]. 通信学报, 2021, 42(3): 183-189. (Cai Yan, Wu Fan, Zhu Hongbo. Caching strategy based on transmission delay for D2D cooperative edge caching system[J]. Journal on Communication, 2021, 42(3): 183-189.)

[25]Banerjee B, Seetharam A, Tellambura C. Greedy caching: a latency-aware caching strategy for information-centric networks[C]//Proc of IFIP Networking Conference and Workshops. Piscataway, NJ: IEEE Press, 2017: 1-9.

[26]Feng Jie, Yu F R, Pei Qingqi, et al. Cooperative computation offloading and resource allocation for blockchain-enabled mobile-edge computing: a deep reinforcement learning approach[J]. IEEE Internet of Things Journal, 2019, 7(7): 6214-6228.

[27]王亚丽, 陈家超, 张俊娜. 移动边缘计算中收益最大化的缓存协作策略[J]. 计算机应用, 2022, 42(11): 3479-3485. (Wang Yali, Chen Jiachao, Zhang Junna. Cache cooperation strategy for maximizing revenue in mobile edge computing[J]. Journal of Computer Applications, 2022, 42(11): 3479-3485.)

[28]黄永明, 郑冲, 张征明, 等. 大规模无线通信网络移动边缘计算和缓存研究[J]. 通信学报, 2021, 42(4): 44-61. (Huang Yongming, Zheng Chong, Zhang Zhengming, et al. Research on mobile edge computing and caching in massive wireless communication network[J]. Journal on Communications, 2021, 42(4): 44-61.)

[29]左亚兵, 王凯, 杨帆, 等. 基于用户偏好的协作内容缓存策略[J]. 计算机应用研究, 2022, 39(1): 123-127. (Zuo Yabing, Wang Kai, Yang Fan, et al. Collaborative content caching strategy based on user preferences[J]. Application Research of Compu-ters, 2022, 39(1): 123-127.)