基于排序学习的流式文档数据无损隐藏仿真

2022-04-19 00:45徐佳丽
计算机仿真 2022年3期
关键词:排序生命周期文档

徐佳丽, 罗 丽

(江西科技师范大学理工学院,江西 南昌 330038)

1 引言

数据无损隐藏技术主要是将秘密信息采用不可告知的方式嵌入到公开的数字载体中进行传输[1,2],有效实现隐蔽通信和版权保护等。随着各种通讯设备和网络技术的飞速发展,文本信息十分适合作为信息隐藏的载体[3],所以流式文档数据无损隐藏技术受到了越来越多的研究者关注。

国内外相关专家给出一些较为显著的研究成果,例如熊祥光等人[4]通过改进的插值算法获取图像待隐藏秘密数据的图像载体,将其划分为多个大小相同的分块,计算分块的基准像素方差,同时对其进行排序,获取不同的分块索引。采用自适应数据隐藏算法进行秘密数据隐藏。夏颖慧等人[5]针对医学图像像素的分布特点,采用最大累积方差法将背景区域进行分离,确定边缘像素。通过改进的预处理算法,自适应选取最优预处理区间,减少视觉失真,完成信息隐藏。

以上两种方法虽然现阶段取得了较为满意的研究成果,但是由于未涉及流式文档数据的研究,导致流式文档数据采用此方法进行隐藏时,传输时延大幅度上升,流式文档数据正确接收率和生命周期降低。为此,提出一种基于排序学习的流式文档数据无损隐藏方法。仿真结果表明,所提方法能够有效提升生命周期和流式文档数据准确接收率,减少传输时延。

2 流式文档数据无损隐藏

2.1 流式文档数据排序

在排序学习算法中,假设共有n个带标签的训练查询集合{qn,Xn,Yn},则流式文档数据对应的特征集合为

Xn={x1,x2,…,xM}

(1)

查询检索出的文档相关性标签为

Yn={y1,y2,…,yM}

(2)

采用强化学习解决流式文档数据的排序问题,主要通过一个连续状态的马尔可夫决策过程进行描述[6]。马尔可夫决策过程是由五个不同的元素组成,如式(3)所示

U={S,A,T,R,π}

(3)

1)S代表状态集,主要描述系统环境中的一组状态集合。将状态集设定为一个二元组,主要由排序位置信息和候选文档集合组成。

2)A代表动作集,是整个智能体Agent可选择的全部动作离散集合。其中,全部可选动作集合主要取决于当前的状态st,将其表示为A(st)。

3)T(S,A)代表状态转移函数,是描述环境状态转移的函数[7],完成动作选择后,说明文档需要放置在这个位置,同时将动作选择的文档在候选文档集中剔除,避免将文档重复进行排序。其中最新状态st+1的表达式为

(4)

4)R(S,A)代表激励函数,属于即时激励。在排序问题中,将激励作为对动作选择的评价。所以,将激励函数设定为信息检索的评价指标。当执行完动作ai之后,环境给予的激励被定义为信息检索的评价指标,经过归一化处理后获取的累积增益[8,9]。其中激励函数的表达式为

(5)

5)π(a|s)代表策略函数,主要是描述Agent行为,即从环境状态到动作文档的映射。其中策略函数能够表示为:

(6)

上式中,θ代表策略参数,θ的维度和文档向量的特征维度相等。

为了更加精准地对流式文档数据进行查询,因此对文章进行排序。同时排序结果的多样性也能够丰富查询结果,避免出现数据冗余的情况。

在采用排序学习算法进行流式文档数据排序时,因为受到复杂度与查询结果数据集A的限制,所以采用控制数据集A大小的方式,在满足多样性的同时降低排序算法的复杂度。数据集A的约束条件如下:

1)删除数据集A中相似度较高的数据;

2)删除数据集A中可以进行替代的原始数据集合。

由于排序学习算法是一种多样性策略,需要降低算法搜索的空间复杂度。由于各个文档向量十分长且是稀疏的,通过余弦相似度计算动作at的K个最近邻动作。设定相似度阈值衡量候选动作集中动作at的近邻动作,即

(7)

利用强化学习中的策略进行策略参数学习,排序学习就是目标最大化每一时间步的累积期望激励J(θ),具体的计算公式如下

J(θ)=EL~πω[G(L)]

(8)

式中,G(L)代表文档列表的累积激励,具体的计算公式如下:

(9)

式中,γ代表折扣因子;rk代表激励回报。

根据梯度调整策略参数,获取如下的参数更新式

θt=θ+η∇θJ(πθ)

(10)

在每次迭代过程中,通过当前策略函数选取一个序列。在各个取样序列的时间步中,策略参数主要利用策略梯度调整不同参数[11],其中从时间步t开始的累积奖励回报能够设定为

(11)

通过将排序学习行为建模为马尔可夫决策过程,同时在每一次迭代过程中采用全部排序位置信息作为各个排序位置选取最优的文档,即:

(12)

2.2 基于排序学习的流式文档数据无损隐藏

随着计算机硬件技术的不断创新与发展,传统的数据加密技术难以抵挡更加恶劣的攻击情况,一味地通过延长密码长度的方法来对文件数据进行加密,并不能满足日益增长的加密需求,反而能够暴露出文件数据的重要性,导致文件数据更容易受到攻击。因此,信息隐藏技术应运而生。

流式文档数据无损隐藏是一种高效安全的隐藏算法,在不影响载体信息感知效果和使用价值的情况下,将需要加密的信息隐藏在文档数据中。基于信息隐藏的特殊性,也可将信息隐藏过程称为嵌入隐藏,则需要隐藏的信息为隐蔽信息,文档数据则为信息隐藏的载体,信息隐藏通用模型如图1所示。

整个嵌入过程和提取过程能够表示为以下的形式

(13)

式中,K代表隐藏密钥;K′代表提取密钥。由于算法不同,隐藏密钥和提取密钥两者可以相同,也可以不同;假设信息在传输的过程中没有被破坏,则说明提取到的隐藏信息等于嵌入的秘密信息。

图1 信息隐藏通用模型

流式文档数据无损隐藏主要具有以下几方面的优势:

1)隐蔽性:

当信息嵌入载体之后并不会影响原始载体的使用,数据的质量也不会下降,同时也不会产生明显的嵌入痕迹。假设没有软件,很难发现信息的存在,使用者是无法感知的。

2)鲁棒性:

需要采用专用软件提取或者检测载体中的标记信息,进而确定归属权。

3)安全性:

隐蔽载体和载体信息紧密结合且融为一体,加密数据和初始数据分布相同,对大量数据进行分析也难以提取或者确定隐秘信息的存在。

由于网络中共包含N个待定位节点,根据3个已知节点计算当前节点所在的位置。假设A、B、C均为已知位置节点,其中定位误差对应的计算公式为

(14)

通过两点之间的直线距离组建方程组,解方程组能够获取节点N的位置(Nx,Ny),即

(15)

在信息嵌入的过程中,引入误差方程以完成信息嵌入,并将隐秘信息的值定义为误差方程系数。操作过程如图2所示。

图2 根据定位误差引入嵌入信息

完成信息嵌入后,根据操作者的需求进行信息提取时,需要采用三边测量法计算嵌入节点的位置与测量误差。

为了在信息隐藏技术下能够完整地提取出加密数据,需要采用数据过滤机制对数据来源进行验证,对非法数据进行滤除,具体操作流程如图3所示。

图3 CSFM认证过程

在CSFM机制中,由于执行的任务不同,节点划分为三种不同的类型,具体如下:

1)采集节点:

采集节点所采集到的数据用于形成原始数据集,并将需要隐藏的数据进行标记,形成隐藏数据包。在进行嵌入时,统计数据包的数据与顺序,以保证加密的质量。

2)中继节点:

中继节点需要进行隐藏标记的识别、验证与数据包的中继传输工作。将收到前一跳节点发送的数据包时,提取数据包的排序地址数,并对数据包的来源进行验证。

3)汇聚节点:

汇聚节点将接收到的全部数据包进行来源验证,以保证加密数据全部为可靠数据。

在上述分析的基础上,采用基于曼彻斯特码的信息隐藏算法MSHA,通过改变数据某些位置的跳变进行信息嵌入,最终实现流式文档数据无损隐藏

(16)

3 仿真研究

为了验证所提基于排序学习的流式文档数据无损隐藏方法的有效性,在64位的Win10的系统,i7-9700KF,CPU3.6GHz的计算机下进行实验测试。

1)流式文档数据正确接收率/(%):

流式文档数据正确接收率即正确数据和接收到全部数据之比,具体的计算公式为:

(17)

其中,ARDR的值越高,说明采用的方法具有较高的安全性,利用图4给出三种不同方法的数据正确接收率对比结果:

图4 正确接收率

分析图4中的实验数据可知,所提方法的流式文档数据正确接收率最高,说明所提方法能够更好隐藏流式文档数据。

2)生命周期/(s):

生命周期越长,说明衡量指标更加有效。由于网络的主要目标就是进行数据采集,假设采集到的有用数据较少,则说明生命周期长也没有实际意义,以下实验对比三种不同方法在不同规模网络中的生命周期,具体结果如表1所示。

表1 生命周期

分析表1中的实验数据可知,传输过程中对非法数据进行过滤有效延长了网络生命周期。如果网络不存在恶意节点,进行流式文档数据无损隐藏会消费较低的能量,同时延长生命周期。相比另外两种方法,所提方法的生命周期明显高于另外两种方法,且一直处于稳定的状态。

3)传输时延/(s):

传输时延越低,说明网络性能越好,同时安全机制对网络的影响也就越好,具体的实验对比结果如表2所示。

表2 传输时延

分析表2中的实验数据可知,所提方法的传输时延在三种方法中为最低,主要是因为所提方法排序学习算法对流式文档数据进行排序,进而达到降低传输时延的目的。

为了更进一步验证所提方法的优越性,以下对比数据嵌入前后的不同统计指标,具体结果如表3所示:

表3 数据嵌入前后统计对比

分析表3中的实验数据可知,数据嵌入后误差在可接受范围内。由此可见,由于数据嵌入标记所引发的数值变化是可接受的。

4 结束语

随着网络技术的飞速发展及在不同领域的广泛应用,各种安全问题被越来越多的研究者所关注。为此,提出一种基于排序学习的流式文档数据无损隐藏方法。仿真结果表明,所提方法能够有效提升流式文档数据正确接收率和生命周期,同时降低传输时延,有效预防各类型的攻击。虽然所提方法现阶段取得了一些较好的研究成果,但是仍然存在一定的弊端,后续将重点针对以下几方面的问题进行研究:

1)进一步提升感知精度,同时达到网络全面覆盖,使其能够适应各类型的网络。

2)进一步完善当前已有的安全策略,确保流式文档数据的安全性。

猜你喜欢
排序生命周期文档
全生命周期下呼吸机质量控制
基于工程全生命周期的项目管理过程创新分析
浅谈Matlab与Word文档的应用接口
基于云制造模式的产品碳足迹生命周期评价
射频识别技术在手术室仪器设备全生命周期管理应用
有人一声不吭向你扔了个文档
作者简介
轻松编辑PDF文档
恐怖排序
节日排序