温 雪
(青岛酒店管理职业技术学院 山东 青岛 266100)
由于流媒体的兴起以及数字媒体的宣传工作落实不到位,极易导致数字媒体的宣传出现闭环。在这一过程中,对用户给予个性化信息的主动推荐,不仅可以帮助用户发现社会中更有价值的信息,还可以提高数字媒体的关注度[1-2]。本文在已有研究的基础上,对该系统展开进一步设计,根据系统功能需求选择合适的处理服务器和个性化的推荐引擎,运用大数据和关联规则采集用户日常行为数据,然后根据用户的行为习惯来实现数字媒体主动且精准的推荐,满足受众群体对数字媒体资源的需求,以此解决现有数字媒体推荐不准确的问题,提高推荐资源与用户需求之间的匹配度。
为确保开发的系统在应用中具有主动推荐数字资源的良好性能,应在设计系统功能前,进行系统硬件结构的规划[3]。具体设计见图1。
从图1可以看出,本次开发的系统主要由智能化处理端、数据源端、个性化推荐引擎、用户端等部分构成,并且每个终端在系统中发挥的作用是不同的。例如,智能化处理端主要用于处理网络信息,通过网络爬虫技术获取用户信息并进行信息积累,当积累到一定程度后,通过对信息的集中整理,掌握用户浏览数字媒体的行为习惯、用户检索数字媒体网站的偏好度等核心信息。将处理后的信息通过源端进行传输,使用个性化推荐引擎进行深度分析,最终实现为用户推荐个性化的数字媒体资源。
在规划好本文推荐系统的硬件结构后,为了确保系统稳定运行,所以选用ST584-89640型号的处理器,该型号处理服务器的性能参数见表1。
表1 ST584-89640型号处理器性能参数对照表
ST584-89640型号处理器不仅空间占用量小,而且运行状态下噪音低,非常适用于本文设计的推荐系统。ST584-89640型号处理器中的CPU采用G5420双核四线程3.8 G hz,内部含有4个内存插槽,并且支持DDR4 ECC/8 GB/16 GB,其中DDR4 ECC内存能够在标准的工作负载下有效降低功耗,提升系统整体能效,实现对更多数字媒体信息的高效存储[4]。ST584-89640型号处理器支持机械盘和固态硬盘的多种选择,是一种能够适用于企业的高容量驱动装置,同时在该型号处理器上应用RID备份功能,能够进一步提升本文推荐系统对数字媒体数据读写的效率和安全。
为了给不同需求的用户推荐其合适的信息资源,需要对用户行为进行分析,并应用合适的推荐引擎进行信息推荐。此次选用SN74CBTLV3245ADGVR芯片作为推荐引擎。SN74CBTLV3245ADGVR芯片的导通电阻为7O hms;传播延迟为250 ps;工作电源电压为2.3~3.6 V;安装风格为SMD/SMT;工作温度范围在-25~85 ℃之间;封装/箱体为TVSOP-20;运行中的电源电流最大值为20 μA;位数为8 bit。将该芯片应用到本文推荐系统当中,用于实现本文系统为不同用户的数字媒体资源个性化推荐提供分析依据。将该芯片作为个性化推荐引擎能够进一步提高推荐系统的运行效率,在保证推荐精度的同时,使系统的运行更具时效性。
软件部分首先进行用户浏览数据的导入,输入用户的浏览请求,Jena API即可根据持久化功能,将本体浏览信息存储在系统数据库中,并记录对应的数据库访问接口,便于后期查询与检索。Jena API可以有效构建语义网应用程序,在Java框架下可以为RDF等提供良好的编程环境,有利于规则化推理引擎,而API则可以借助应用代码实现不同机制的转换。根据用户数据性质构建不同数据集,如member.txt、tiezi.txt、bankui.txt等,用于集合用户的浏览信息。部分用户浏览数据导入代码见图2。
用户浏览数据导入后存储至数据库中,数据库存储信息不仅包括数据信息,还包括节点、图像等信息,因此使用Cypher语言对数据库内的待存储信息进行模式匹配。Cypher可以以一种标识符号给数据属性命名,也可同时执行查询、创建、删除节点等指令。数据库内数据类型见表2。
表2 数据库数据类型
为实现对数字媒体资源的智能化推荐,应在完成对该系统硬件结构的设计后,获取数字媒体推荐项目分布信息,掌握数字媒体资源在网络中的分布。并且可以使用大数据技术与关联规则,进行用户行为与特征的匹配,建立一个数字媒体资源推荐的训练样本,根据样本在网络空间中的分布,将其表示为(x,y),对应的样本表达式:{(x1,y1) ,(x2,y2),L ,(xn,yn)},将现有资源中,与用户偏好度较为匹配的数字媒体资源表示为(xi,yi),用(xi,yi)∈Rn代表资源历史推荐内容[5]。
在此基础上,根据数字媒体资源在网络中的空间分布,进行资源的语义重构,得到一个针对资源的个性化演化目标函数,函数表达式如下。
公式(1)中:min表示为数字媒体资源的个性化演化目标函数表达式;w′表示为资源语义偏好度;b表示为语义重构与演化过程。
采用对演化信息进行协同过滤的方式,进行数字媒体推荐项目分布信息的关联,检测关联信息的特征,建立一个数字媒体资源在网络中分布的核函数,函数表达式如下。
公式(2)中:Kmin表示为数字媒体资源在网络中分布的核函数表达式;β表示为演化分布特征;Kpoly表示为用户历史检索行为特征;Krbf表示为用户对该资源的下载率[6]。通过提取映射函数中关联信息,按照关联度进行资源类目输出,以此实现对数字媒体推荐项目分布信息的采集。
目前,对用户行为进行建模的技术已经被应用到了市场的各个领域,所获取的用户行为信息越多就对用户行为模型的勾勒越清晰。考虑到用户个人信息中存在隐私信息,因此无法构建与用户100%匹配的行为模型,只能把基础数据与历史行为数据库中的场景数据,作为用户行为基础模型的基础数据,对不同渠道获取的用户行为信息进行汇总。这些数据大多为显性数据,为了对用户行为模型刻画得更加精准,因此建立针对用户行为的隐性数据模型,对数据进行单维度表示,表达式如下。
公式(3)中:Siuation表示为用户行为隐性数据模型;Sxn表示为隐性行为特性。集成用户行为数据中的隐性数据与显性数据,对用户行为进行画像,按照此种方式,即可构建用户数字媒体浏览行为模型[7-9]。
对数字媒体资源主动推荐模块引进LDA技术,并且采用均值聚类的方式,对用户进行行为特征与资源的匹配。对匹配度较高的数据进行聚类,联合信息熵值的分布时间序列,进行数字媒体资源的主动推荐[10]。计算推荐资源在空间中的联合分布概率,函数计算表达式如下。
公式(4)中:E表示为推荐资源在空间中的联合分cv布概率; 表示为推荐信息模糊度; 表示为资源隶属度;Arec表示为资源与用户行为的关联度。按照上述计算公式,可以掌握用户偏好资源与其行为的关联度,根据两者的关联度系数,即可实现对媒体资源的主动推荐,当两者的关联度较低时,根据资源在网络中的分布类目,自动进行下一资源的跳转,以此完成基于用户行为的数字媒体推荐系统设计。
为保证实验测试结果的真实性与可靠性,此次所选的测试集合为国内公开研究的Movie-Lens据库中的基准数据信息。该数据库中的有效存储数据集合的网络资源占比为1.0 M,最早由美国苏达大学创立,库内的多个集成性表格中存储了8 000.0多名数字媒体用户信息、上万条数字媒体行业发布的信息与数10万条用户评价数据。其中用户评价数据由一星到五星构成。实验将数据库中的数据集合按照数值稀疏度,划分为5组,每组数据都可以作为此次实验的测试集合,并将剩余数据随机分组,作为实验过程中的测试集合与训练集合。
实验前,将本文设计系统安装在Windows10系统中,系统处理器为英特尔R酷睿TMI9-8500处理器。为避免单次输入量过大对终端设备运行造成负担,选择运行内存为8.0 GB的CPU,系统中对应软件程序的编译环境为MATLAB T2020AV9.8.0。实验中,选择基于Apriori改进算法的推荐系统作为传统系统,对同一批用户,分别使用两种系统对其进行资源主动推荐。完成对终端用户数字媒体资源的推荐后,使用平均绝对值差进行不同用户群体的推荐内容与需求内容匹配度的计算,将绝对值平均误差表示为MAE,对MAE的计算可用下述公式表示。
公式(5)中:MAE表示为系统推荐内容与用户需求内容的匹配度;N表示为用户行为维度;I表示为参与此次实验的用户数量;P表示为用户对推荐数字媒体资源的评价;r表示为数字媒体资源的社会价值度。按照上述公式,计算MAE的具体结果,设定MAE的有效取值在1~10之间,MAE的取值越高,说明系统为用户推荐的资源与用户需求匹配度越高,MAE的取值越低,说明系统为用户推荐的资源与用户需求匹配度越低。
对系统推荐内容与用户需求内容进行匹配,将匹配的结果绘制成图3。
由图3可知,本文系统为用户推荐的数字媒体资源与用户需求的匹配度明显高于传统系统。由此可以得出实验结论:相比传统系统,本文设计的推荐系统可以为用户推荐其个人需求的资源,为数字媒体网站保有更多的用户。
现代化社会中,数字化技术与多媒体技术高速发展,信息资源以碎片化方式呈现在网络中,越来越多的用户开始通过互联网获取信息。为了给我国数字媒体行业的发展提供进一步的支撑,本文在完成了对系统硬件设备的规划与部署后,从数字媒体推荐项目分布信息获取、建立用户数字媒体浏览行为模型、基于LDA技术的数字媒体资源主动推荐3个方面,对基于用户行为的数字媒体推荐系统的软件功能进行了优化。并通过对比实验证明了此次开发的系统在实际应用中具有一定可行性,可以代替传统的推荐系统在数字媒体行业中的推广应用。