基于动态迭代采样的异质信息网络推荐算法

2022-06-14 09:49刘宇辰曹媛媛刘景鑫
计算机仿真 2022年5期
关键词:异质信息网络动态

刘宇辰,曹媛媛,刘景鑫,苏 伟*

(1. 长春中医药大学医药信息学院,吉林 长春 130117;2. 吉林大学,吉林 长春 130012)

1 引言

大数据时代的来临势必导致数据信息系统的出现信息过载的问题,于此同时对传统协同过滤信息处理与数据推荐算法提出了严峻挑战。因此,如何建立更适用于当前数据量的数据推荐算法,解决在大数据信息过载条件下的有效信息推荐问题迫在眉睫。

随着机器学习、应用数学等学科的快速发展,采用机器学习等现代数据检索与推荐方法已成为解决信息过载和爆炸性数据重要方式[1],不同种类的推荐算法引起了学术界、工业界以及互联网下消费界等社会平台的研究焦点。同时,该技术目前已经在消费电子、社会与了、数字传媒等消费领域得到了前所未有的推广和应用。例如当前的淘宝、天猫、美团、京东等消费平台的商品和套餐的推荐;Facebook、腾讯、Twitter、SINA等互联网交友平台在好友推荐、信息咨询推荐等方面应用以及网易、Spotify、QQ音乐、Tik Tok等娱乐信息平台在音乐和视频推荐上的广泛应用。

在众多的数据推荐算法中,当前比较典型的数据推荐算法主要分为如下几类:混合推荐算法,该算法的主要优势在于它将不同的信息数据通过不同的方式进行组合以避免或弥补各自推荐技术的弱点;文献[2]提出了基于信息内容与数据关联的异质信息网络数据推荐算法,在该文章中算法主要依据当前的数据信息特特征,数据使用者使用的特点和数据与使用之间的交互关系来完成对用户喜好数据推荐,相比较与混合推荐算法的被动执行,该算法的优势在于它建立了与用户之间的信息数据闭环,提高了数据推荐的实时性和交互性,但是该算法无法挖掘出潜在的数据之间的关联性以及用户对潜在喜好信息之间的关系;基于协同过滤的数据推荐算法[3],该算法主要包括数据信息的在线协同和离线过滤两个部分。它相比较与基于信息内容与数据关联之间的数据推荐算法,更主要突出的特点在于它注重从用户的角度出发,同时挖掘用户以外的数据之间的关联关系。在完成数据推荐的基础上,还可以发现用户潜在的但自己尚未发现的信息偏好,从而更好的完成数据信息的推荐。

虽然以上典型的数据推荐算法目前已经广泛应用于工业、消费娱乐、信息传播等领域。但是从应用角度方面来看典型的数据推荐算法依然存在数据推荐精确度不高,辅助信息挖掘缺失以及实时性角度等实用缺点[4]。在此情况下,基于异质信息网络的数据推荐算法应运而生,尤其随着近几年数字及大数据时代的来临,该算法越来越受到国内外研究学者的广泛关注与研究。

其中,关于异质信息网络推荐算法的研究中比较典型有:文献[5]等人率先提出采用异质信息网络的方法来建立数据推荐算法。该文章研究的主要特点在于它完整的进行了异质信息网络建模,同时采用了基于异质信息网络中的语义信息来提高数据信息推荐的精准度。文献[6]提出了基于异质关系分析的社会化协同过滤算法Hete-CF。与现有方法不同该方法,Hete-CF算法可以有效地利用异构社会网络中的多种类型的关系。尽管该方法具有一定的普适性,可用于包括基于事件的社会网络、基于位置的社会网络以及与社会信息相关其它类型的异构信息网络,但是该方却法忽略了不同关系在异质信息网络中的辩证统一性。在对已知信息网络进行研究的过程中,一种基于加权异质信息的网络推荐算法在文献[7]中提出。该算法通过对异质信息网络中不同的元路径进行设置不同的权值,提高整个网络对异质信息的集成,从而提高整个算法的推荐性。另外,HERec异质信息网络推荐算法在文献[8]中被提出,该文献的主要贡献在于它将网络中的节点信息嵌入集成到扩展矩阵分解模型中,对异质信息网络进行改进。文献[9]结合机器学习神经网络,通过研究网络中不同节点的连接关系和当前信息网络结构的特点,同时结合多任务学习方法提出了一种基于神经网络的异质信息网络表示方法。文献[10]在经典异质信息网络的基础上进行改进,通过引入非对称系数提出了非对称的异质信息网络推荐算法。该算法在引入非对称系数之后,根据网络中不同的元路径信息特征,给元路径赋予不同的权重信息,最后将不同元路径的相似度结果进行加权以提高用户相似度的准确性;最后通过在矩阵分解模型中融合相似度信息与评分信息实现基于异质信息网络的评分预测推荐。虽然该算法引入了非对称系数来解决来优化均方差相似度,但是该方法在解决复杂数据关系的推荐过程中效果并不明显。

虽然基于异质信息网络推荐算法在不同方面进行的改进和优化,但是依然存在网络信息挖掘深度较浅,针对性低以及不具备深层次异质信息的缺点和复杂数据之间的任务处理。因此,为了解决以上存在的问题,本文提出了基于动态迭代采样的异质信息网络推荐算法。文章通过将动态采样与异质信息网络相结合来对异质信息网络进行改进,通过对网络中的参数进行不断迭代采样更新,从而提高整个网络推荐算法的精度。

2 异质信息网络与迭代采样建模

2.1 基础知识

通常在研究信息数据的过程中,往往把一系列的数据信息抽象为基于数学理论的信息网络进行描述。在进行把数据信息抽象为信息网络图的过程中,主要把信息节点抽象为点,同时把不同信息节点之间的关系抽象为网络边。在研究数据挖掘与学习的过程中。异质信息网络作为一种比较能够体现异质关系特殊网络,主要由网络节点、节点关系以及节点关系属性等内容组成。异质信息网络大规模、异质性和动态性等特点,造就其广泛的应用地位。首先将信息网络定义为具有对应类型映射函数φ:V→A以及节点对应关系的映射函数为ψ:E→R的一个有向图G=(V,E,φ,ψ)。其中,对于任意元素v∈V满足A:φ(v)∈A中的对象映射;同时对象节点之间的每一条链接关系e∈E满足R:φ(e)∈R中的某一个特定的关系映射。

其中,如果对象类型|A|>1或者关系类型数|R|>1时,将该信息网络定义为已知信息网络;否则称该网络为同质信息网络。

在研究异质信息网络的过程中,定义TG为异质信息网络G=(V,E,φ,ψ)的网络模式。其中NetG=(A,R)表示有对象映射A以及节点连接关系映射R组成的有向图。采用网络模型来描述异质信息网络,不仅可以将网络中各节点关系进行代数抽象化,同时更能方便的反映整个网络中的信息流以及节点对象之间的数据关系。

根据异质信息网络G=(V,E,φ,ψ)和网络模式NetG=(A,R),可以清除的描述任意不同对象节点之间的连接关系(序列),将该关系序列描述为节点元路径。例如节点A1与节点AN+1之间一条元路径可以表示为如下形式:

A1→A2→…Ak…→AN+1

(1)

其中,节点对象Ai与Ai+1之间的映射关系为Ri。因此,从对象节点A1到AN+1之间的组合关系A1A2…Ak…ANAN+1的组合关系可以表示为如下表达式:

R=R1·R2·…Rk·…·RN+1

(2)

其中,表达式中的"·"表示对象组合关系之间的组合函数。

2.2 动态迭代采样建模

在对异质信息网络数据进行训练并推荐的过程中,目前大多数的数据训练推荐模型往往存在训练后的同类数据波动较大,精确度低以及野数据较多等缺点。因此,在对传统异质信息网络数据采样算法进行改进的过程中,本文提出了采用动态采样的方法,同时根据训练后的结果逐步完善对应的动态迭代采样次数以及对隐藏层节点对象的采样方式。通过采用该方法可以有效解决传统迭代方式在中前期数据处理过程中存在的采样误差波动大、数据精确度低的现象。

在进行动态迭代采样建模的过程中,本文采用经典的文献检索与数据推荐的异质信息网络结构作为研究对象。动态迭代采样的数据结构如图1所示.

图1 异质网络结构示意图

根据图1中的对应的网络实例建立基于迭代采样的异质信息网络模型如图2所示。

图2 动态采样下网络模型结构示意图

迭代采样模型以连接关系Ri作为输入,同属输出隐藏层H以及连接关系层动态权值。因此建立动态迭代采样模型为:

(3)

其中,ζRj为所有连接关系函数。在进行反馈迭代过程中能量差函数为

(4)

其中,n为数据可见层的单元数量;m为隐藏层中的员舱单元数量;c为动态采样迭代层中的单元数量;k为节点评分数值;FV为可见层与迭代采样层的关联权重;FRj表示网络中不同节点对象之间的连接关系函数,ϑ为可见层与一阶隐藏层之间的自适应参量;b表示一阶隐藏层中各节点隐藏单元的自适应参量。其中,ζRj函数为

(5)

从可见层至隐藏层中第j个节点到第i个节点之间的传递函数为:

(6)

其中,Vmij表示可见层到第一层隐藏层之间的系适应权值;θij网络对象节点的自适应阈值;β表示网络节点向量化的基函数;σ(x)表示非线性激活函数,在本文中采用

σ(x)=1/(1+e-vi)

(7)

在进行迭代采样过程中算法简要流程如下:

1)数据输入

文献检索与数据推荐异质信息网络G=(V,E,φ,ψ),初始元路径信息{APath}集合,隐藏层数据节点层数{1,2,…,k-1,k},初始节点连接权值{Vij,Wij,Hij};迭代采样初始值{i1,i2,…,inum};迭代初始次数κ和期望迭代次数κdesire;初始化可见层与第一节隐藏节点之间的边值ϑi,δj:i∈n,j∈m。

2)算法流程处理

For range of the iteration numκdo

For iteration 1: κ1do

For t=0,1,…,t-1 do

For j=1,…,mdohj,Hijandhm

According to all above these perimeters doWijandRk

Then do iteration

k=1,…,k do sampleζRkand then compute theERk.

Then according to the ERkand update the (Hijκnum,Wijκnum,Vijκnum).

After all the iteration procedure, return the program and then update the iteration number κ.

If κis equal to the κdesireand theζRkis so mall, then exit the program.

3 实验结果及分析

为了验证本文提出算法的有效性,同时为了减少计算消耗的数据时间。文章以Springerlink 数据库的一部分为例对数据进行训练检索和推荐。在进行数据处理之前,为了表现推荐预测数据准确度。文章首先定义性能评估函数来描述本文提出的数据推荐算法的性能,即平均绝对误差fMAD以及均方根误差fRMSE。fMAD主要体现数据推荐算法的推荐数据与实际使用过程中的真实数据两者之间的匹配程度。平均绝对误差fMAD的计算公式如式(8)所示。均方根误差fRMSE如式(9)所示。

(8)

(9)

由式(8),(9)可以发现,当fMAD以及fRMSE的数值越小时,既可以说明推荐算法得到的推荐数据与真实数据之间匹配程度较高,同时进一步说明数据推荐算法的性能越好。

不同模型下在不同迭代次数下的预测值误差如表2所示。

表1 动态采样下不同模型预测值误差

如表1可以看出,首先在进行动态采样的过程中MA-DCRBM模型的推荐预测均方误差和平均误差相对较优;于此同时可以看出随着迭代次数的增加,不同模型下的动态采样模型算法推荐误差相对都开始降低。这一点更说明在动态采样的条件下,模型数据推荐相对较好。

为了进一步验证动态采样方法是否随着迭代采样次数的进一步关系,文章分别对两种方法进行高次数迭代仿真,仿真结果如图3-4所示。

图3 动态采样DCRBM模型推荐预测误差

图4 动态采样MA-DCRBM模型推荐预测误差

如图3所示,可以看出基于动态采样的DCRBM模型在随着迭代采样次数不断增加的情况下,模型的推荐预测的MAE和RMAE误差呈现下降的趋势,尤其在前1000次左右。另外可以看出在增加到1000次以上之后推荐预测的误差变化相对比较缓慢,分析数据看出,导致这种情况的主要原因在于数据量相对较少。

如图4所示,可以看出基于动态采样的MA-DCRBM模型在随着迭代采样次数不断增加的情况下,模型的推荐预测的MAE和RMAE误差呈现下降的趋势,尤其在前1000次左右。另外可以看出在增加到1000次以上之后推荐预测的误差变化相对比较缓慢,但是降低速率依然比DCRBM模型下降率大。

对比图3和图4可以看出,两种动态迭代采样模型虽然都随着迭代次数的增加,推荐预测误差都在降低,但是从最终的推荐误差大小可以看出,在迭代次数1000以后MA-DCRBM模型算法的又是更加明显。

4 结论

本文提出一种动态迭代采样的异质信息网络推荐算法,文章首先介绍了相关的异质信息网络的相关内容,然后论文以文献检索与数据推荐异质信息网络为例建立了基于迭代采样的信息网络模型。该模型通过对连接关系模型作为反馈信息,建立对应的自适应动态迭代采样反馈函数,不断动态优化对应隐藏层之间的数据权值,在不断的迭代过程中对象节点之间的连接关系得到不断的优化,从而得到更精确的节点链接关系以达到更精确的数据推荐。为了验证本文提出方法的有效性,文章给出了对应的数字仿真验证,通过仿真分析可以看出本文提出的算法在文献检索与数据领域有很好的有效性,并且可以获得更好的推荐结果.

猜你喜欢
异质信息网络动态
国内动态
国内动态
国内动态
基于异质分组的信息技术差异化教学
晋能科技半导体尖端技术喜获突破
碳排放对绿色全要素生产率的影响与地区异质效应
动态
基于CuO/ZnO异质结纳米花的薄膜型丙酮传感器研究
信息网络条件下党员教育工作问题与策略研究
国内教育微课发展与建设的初步探索