赵红梅 肖明 白宇 王磊
摘要: 为提高网页数据查询速度、 精度及工作效率, 提出一种面向用户偏好的动态网页数据交互式查询算法. 首先, 构建用户偏好模型, 增加偏好组合的演化个体适应性, 综合计算适配值; 其次, 为防止数据冗余和重复, 基于兴趣相似性, 分离相似度高的查询数据和重复数据, 识别出网络数据的性质; 最后, 利用粒子群优化算法寻找最优的动态网页数据交互式查询方案. 实验结果表明: 在数据集基数影响下, 该算法的查询结果集质量在0.95以上; 在查询最大维数影响下, 该算法的查询结果集质量在0.96以上, 表明其查询使用时间短、 结果集精度高、 自适应能力强.
关键词: 用户偏好模型; 動态网页数据; 数据交互式查询; 粒子群优化算法; 空间维度
中图分类号: TP311文献标志码: A文章编号: 1671-5489(2024)02-0417-06
Interactive Query Algorithm for Dynamic Web Page DataBased on User Preference
ZHAO Hongmei, XIAO Ming, BAI Yu, WANG Lei
(Center of Modern Educational Technology and Information, Heilongjiang Bayi Agriculture University, Daqing 163316, Heilongjiang Province, China)
Abstract: In order to improve the speed, accuracy and efficiency of web data query, we proposed a dynamic web data interactive query algorithm based on user preferences. The user preference model was built to increase the evolutionary individual adaptability of the preference combinations, and the adaptive value was comprehensively calculated. Secondly, in order to prevent data redundancy and duplication, based on interest similarity, query data and duplicate data with high similarity were separated to identify the properties of network data. Finally, the particle swarm optimization algorithm was used to find the optimal interactive query scheme of dynamic web page data. The experimental results show that the quality of the query result set of the proposed algorithm is above 0.95 under the influence of the dataset cardinality, under the influence of the maximum dimension of the query, the quality of the query result set of the proposed algorithm is above 0.96, indicating that the proposed algorithm has short query time, high precision of the result set and strong adaptability.
Keywords: user preference model; dynamic web page data; interactive data query; particle swarm optimization algorithm; spatial dimension
目前, 人们的许多信息交流和查询方式都依靠各种软件功能实现, 如社会媒体信息动态更新、 在线购物、 等待客户在线回复等[1]. 因此, 需对海量数据进行分析和查询, 以提高系统的性能和效率[2]. 当服务器硬件和数据库的配置固定时[3], 数据量越多, 数据查询的速度越慢, 且会导致查询卡顿, 使网页数据库不能正常工作. 传统的大数据分析和查询方法普遍存在速度较慢的问题, 且采用的是不交互的查询方法. 所以, 需考虑一种能对动态网页数据进行分析和处理, 并能查询到各种交互式数据的算法.
邓斌等[3]提出了一种基于元数据关联特征的交互式数据快速查询方法, 通过建立Map Reduce编程模型, 利用该模型处理元数据, 获取元数据关联结果, 并建立高维相空间, 实现交互式数据快速查询. 周雨佳等[4]使用递归神经网络建立用户的个性化偏好以及用户兴趣的动力学模型, 然后通过注意力机制, 查询用户的历史行为动态权重, 与以往的用户兴趣模型相比, 该模型能更多地满足目前的用户需求, 最后根据评分显示文档查询结果. 唐运乐等[5]提出了通过动态分布式聚类算法实现大数据的查询, 将输入的数据分成若干个子集, 以RR的形式存于一套计算机节点中, 在Apache Spark平台上, 利用划分和层次动态聚类方法实现数据的分布式聚类, 根据K-近邻查询法, 得到查询结果. 虽然上述方法能实现数据查询目标, 但存在数据查询精准度较低的问题, 会出现结果冗余的情况, 影响用户满意度.
为解决上述问题, 本文提出一种面向用户偏好的动态网页数据交互式查询算法. 该算法首先构建用户偏好模型, 使数据查询结果更符合用户需求, 不仅能解决传统方法的数据丢失问题, 而且能提高用户满意度; 然后通过粒子群优化算法提高搜索能力, 实现动态网页数据交互式查询.
1 构建用户偏好模型
4 实验分析
下面通过实验验证本文算法的有效性, 将本文算法与递归神经网络算法和动态分布聚类算法进行对比. 实验数据来自数据集data.gov(http://www.data.gov/), 在该数据集中抽取部分用户相关数据形成实验数据集.
通常情况下, 用户会根据自己对数据集的理解不断调整自己的偏好, 单凭一次查询很难获得高质量的结果集. 因此, 根据数据的维数关系, 将数据分为正相关、 独立和负相关3种类型. 其中正相关数据集为同时增加或减少的偏好阈值, 独立数据集为训练数据和测试数据分布情况一致的阈值, 负相关数据集为增大特定维度和阈值而减小特定维度的阈值. 在查询时, 可按用户的交互动态调节偏好阈值.
4.1 交互次数对结果集质量的影响
首先, 验证交互次数对结果集质量的影响, 结果如图1所示. 由图1可见, 本文方法处理下的3个数据集中, 结果集质量交互超过0.85的顺序依次为正相关数据集、 独立数据集、 负相关数据集;
4轮互动后, 正相关数据的交互结果集质量为0.97, 后9轮正相关的交互结果集合质量均在0.90以上, 表明本文方法在早期的交互中, 可通过调节阈值快速减小结果集合与期望结果集合尺寸之间的偏差, 从而快速使结果质量提高到0.85.
4.2 数据集基数对算法性能的影响
基数在实验中用于表示查询信息集的大小, 实验设置3种算法结果集的基数在200~2 600内变化, 理想结果集不变, 数据集基数越大, 结果质量越高, 则表示查询情况越好. 数据集基数对各算法性能的影响如图2所示.
由图2(A)可见: 本文算法查询结果集的质量高于递归神经网络算法和动态分布聚类算法; 递归神经网络算法和动态分布式聚类算法结果集质量在0.50~0.70内, 而本文方法查询结果集质量均在0.95以上. 同时, 随着样本基数的增加, 对比算法的结果集质量逐渐降低, 对动态网页数据交互式查询效果较差. 由图2(B)可见, 本文算法能有效支持查询用户偏好动态页面数据的变动, 交互间隔较短, 在3种算法中的查询优势明显. 本文算法的平均时间随数据集基数的增加而增加, 这主要是因为两种方法每次都对全部数据进行处理, 其性能与数据基数之间的关系是线性的, 这种情况在图2(C)中尤其明显.
综上可见, 本文算法适用于动态页面的阈值变动, 每次执行时需要处理的数据集较少, 说明该算法的性能比前兩种算法好.
4.3 查询动态网页最大维数对算法性能的影响
选择独立数据集作为查询最大维数的测试对象, 查询1~13维的变化, 结果如图3所示. 维度的增大会使结果集包含的信息熵值增大, 用户初始选项变多, 查询会更困难, 需要消耗较多的时间.
由图3可见, 本文算法查询结果集质量在0.96以上, 而递归神经网络算法在0.92以下, 动态分布式聚类算法只有在9维度时能达到0.90, 本文算法性能不受查询最大维数影响, 系统自适应间隔和用户交互间隔数值都比其他两种算法小, 说明本文算法的查询效果较好, 能有效适应动态网页各种交互式数据类型数据集.
综上所述, 针对在数据查询时, 由于数据量庞大, 传统查询算法存在数据查询精准度较低, 且会出现结果冗余情况, 无法满足用户需求的问题, 本文提出了一种面向用户偏好的动态网页数据交互式查询算法. 首先建立用户偏好模型, 防止产生数据丢失问题; 然后判断查询数据的相似性, 并采用粒子群优化算法增强搜索性能, 从而完成动态网页数据交互式查询. 实验结果表明: 在数据集基数影响下, 本文算法的查询结果集质量均在0.95以上; 在查询最大维数影响下, 本文算法的查询结果集质量在0.96以上, 因此该算法的数据查询效果更好.
参考文献
[1]赵文涛, 张烁. 稀疏数据下基于用户偏好的协同过滤算法 [J]. 重庆邮电大学学报(自然科学版), 2021, 33(4): 669-674. (ZHAO W T, ZHANG S. Collaborative Filtering Algorithm Based on User Preference in Sparse Data [J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2021, 33(4): 669-674.)
[2]王卫红, 曾英杰. 基于聚类和用户偏好的协同过滤推荐算法 [J]. 计算机工程与应用, 2020, 56(3): 68-73. (WANG W H, ZENG Y J. Collaborative Filtering Recommendation Algorithm Based on Clustering and User Preference [J]. Computer Engineering and Applications, 2020, 56(3): 68-73.)
[3]邓斌, 陈会平, 李凯勇. 基于元数据关联特征的交互式数据快速查询 [J]. 计算机仿真, 2021, 38(7): 371-375. (DENG B, CHEN H P, LI K Y. Interactive Data Quick Query Based on Metadata Association Characteristics [J]. Computer Simulation, 2021, 38(7): 371-375.)
[4]周雨佳, 窦志成, 葛松玮, 等. 基于递归神经网络与注意力机制的动态个性化搜索算法 [J]. 计算机学报, 2020, 43(5): 812-826. (ZHOU Y J, DOU Z C, GE S W, et al. Dynamic Personalized Search Based on RNN with Attention Mechanism [J]. Chinese Journal of Computers, 2020, 43(5): 812-826.)
[5]唐运乐, 韦杏琼. 基于动态分布式聚类算法的大数据查询处理方法 [J]. 西南师范大学学报(自然科学版), 2021, 46(5): 134-139. (TANG Y L, WEI X Q. Big Data Query Processing Method Based on Dynamic Distributed Clustering Algorithm [J]. Journal of Southwest China Normal University (Natural Science Edition), 2021, 46(5): 134-139.)
[6]朱桂明, 宾辰忠, 古天龙, 等. 基于知识图谱的用户偏好神经建模框架 [J]. 模式识别与人工智能, 2019, 32(7): 661-668. (ZHU G M, BIN C Z, GU T L, et al. Neural User Preference Modeling Framework Based on Knowledge Graph [J]. Pattern Recognition and Artificial Intelligence, 2019, 32(7): 661-668.)
[7]SHE W, YANG X Y, TIAN Z, et al. Decentralization Configuration Method of Power Resources Based on User Preference [J]. Automation of Electric Power Systems, 2019, 32(7): 661-668.
[8]毛德磊, 唐雁. 基于歸因理论用户偏好提取的协同过滤算法 [J]. 计算机工程, 2019, 45(6): 225-229. (MAO D L, TANG Y. Collaborative Filtering Algorithm Based on Attribution Theory for User Preference Extraction [J]. Computer Engineering, 2019, 45(6): 225-229.)
[9]张学旺, 付康, 叶财金, 等. 面向医疗区块链的新型轻节点数据查询方法 [J]. 应用科学学报, 2022, 40(4): 600-610. (ZHANG X W, FU K, YE C J, et al. New Light Node Data Query Method for Medical Blockchains [J]. Journal of Applied Sciences, 2022, 40(4): 600-610.)
[10]钱忠胜, 涂宇, 俞情媛, 等. 一种融合用户动态偏好和注意力机制的跨领域推荐方法 [J]. 小型微型计算机系统, 2022, 43(6): 1335-1344. (QIAN Z S, TU Y, YU Q Y, et al. Approach to Cross-Domain Recommendation Fusing Users Dynamic Preferences and Attention Mechanism [J]. Journal of Chinese Computer Systems, 2022, 43(6): 1335-1344.)
[11]梁明玉, 蔡新红, 赵咪. 基于改进粒子群算法的光伏系统MPPT控制研究 [J]. 计算机仿真, 2021, 38(10): 133-139. (LIANG M Y, CAI X H, ZHAO M. Research on MPPT Control of Photovoltaic System Based on Improved Particle Swarm Optimization [J]. Computer Simulation, 2021, 38(10): 133-139.)
(责任编辑: 韩 啸)
收稿日期: 2023-03-23.
第一作者简介: 赵红梅(1979—), 女, 汉族, 硕士, 副研究员, 从事教育数字化和数据挖掘的研究, E-mail: zhm01230@163.com.
基金项目: 黑龙江省教育厅高等教育教学改革研究项目(批准号: SJGY20200508)和大庆市社会科学界联合会项目(批准号: DSGB2020084).