基于数据分析的用户行为预测与个性化推荐算法研究

2024-06-26 07:52:14刘静艾鹏杨德升王凤侯波

电脑知识与技术 2024年13期

刘静　艾鹏　杨德升　王凤　侯波

摘要：为了实现对用户行为的准确预测和个性化兴趣的深度表达，本研究基于大规模用户日志数据构建了融合深度学习和机器学习的行为序列预测模型，并将其应用于个性化推荐领域。实证结果显示，相比于各个单一模型，将决策行为特征迁移到推荐方法中能够取得更好的效果。本研究验证了跨领域迁移用户表达特征以优化个性化推荐的有效性，为深入理解用户复杂兴趣奠定了坚实的基础。

关键词：用户行为预测；个性化推荐；迁移学习；决策模式

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2024）13-0075-02 开放科学（资源服务）标识码（OSID）：

随着互联网的快速发展，越来越多的用户通过网络获取信息和进行在线消费，分析和预测用户的在线行为、实现个性化推荐服务已成为提高用户体验的重要手段[1]。用户大数据的获取为这项工作提供了基础。本研究基于用户行为数据，通过数据分析方法预测用户行为，结合个性化推荐算法实现对用户的精确拟合和商业价值的提高。早在20世纪90年代，就有学者尝试基于用户历史数据进行协同过滤，提供个性化推荐服务。进入21世纪，随着Web2.0时代的到来，用户参与型网站数量激增，这为收集和分析海量用户行为数据提供了可能。同时，机器学习等算法在推荐系统中的应用日趋成熟。现在，利用深度学习等前沿技术预测和影响用户行为已成为推荐系统研究的热点。

1 基于数据分析的用户行为预测方法

1.1 用户行为数据采集与处理

用户行为数据的采集与处理是整个预测体系的基础，直接关系到后续分析的深入性与结果的准确性。本研究选择某大型电商平台2021年100万随机用户的浏览、收藏、加购物车、支付等行为日志作为原始数据源。考虑到用户信息保密与数据应用规范性，在提取研究所需特征的同时，对用户身份相关数据进行了匿名化处理。原始用户行为日志结构包括用户ID、商品ID、行为类型、时间戳等。其中用户ID经过哈希运算生成随机编码，商品ID保留的目的是关联商品属性信息。行为类型主要有6类，分别为浏览、加入收藏、添加购物车、结算、支付、评价。考虑到数据应用价值，本研究主要利用前4类行为数据进行建模分析。时间戳属性中包含年、月、日、时、分、秒信息，对基于时间序列建模至关重要。在采集到初始日志后，需要对其进行数据清洗、补全、排序、格式转换等处理[2]。例如剔除时间戳不合理、商品ID缺失、行为类型无效的异常数据。同时调用商品属性数据集，补全日志中的商品信息，构建用户与商品交互关系图。随后对数据集按时间戳进行升序排列，这对保证时间跨度一致、分割数据实现模型训练与评估十分重要。最后将处理完毕的数据集存储为平面文件或数据库格式，备份多份，以便建模时加载使用。经过采集与处理，本研究获得了包含100万用户近1亿条互动日志的数据集，时间跨度为365天。这为深入挖掘用户行为特征，构建行为预测模型，提供了可靠的数据支撑。结合数字化处理手段，这些看似简单的用户操作记录能够呈现出人们的消费兴趣、购物偏好、社交意向等深层行为倾向。

1.2 用户行为特征提取与分析

在获取规范化的用户行为日志数据集后，作为构建预测模型的基础[3]，本研究采用特征工程的方法深入挖掘影响用户行为的决定因素。主要考虑三个角度设计特征，包括用户行为频率特征、用户行为时间特征以及用户价格敏感性特征。从行为频率角度，分析不同类别行为的平均每用户发生次数，例如用户浏览商品日志数平均为562条，添加收藏夹的平均数目为23个。同时计算各类行为的组成占比，浏览行为、收藏行为、加购物车行为和结算行为的占比分别为76.25%、13.47%、8.15% 和1.38%。并评估不同连续行为之间的转化率，例如用户收藏到购物车的转化率为15.6%，而结算到支付的转化率高达76.3%。考虑到时间分布特性，本研究提取了用户平均浏览时长（35.7 秒）、高峰期操作时段出现概率（晚上8～10点为用户高峰期操作时段，概率达到16.8%）等时间相关统计量构成特征向量。对四类主要行为分别提取发生时间的均值、标准差和最大最小值，表征用户时间偏好的个体差异。在特征提取时还考虑了商品价格因素对不同用户行为的影响程度，评估了用户对平台优惠的敏感性，构建了用户价值敏感型特征，这对于预测高金额购买类行为具有重要意义。

1.3 用户行为预测模型构建

在用户行为特征工程的基础上，构建预测模型是实现用户行为准确预测的关键。本研究采用LSTM等深度学习模型与GBDT等机器学习模型的整体混合方法，形成模型组合，提高了预测性能与鲁棒性[4]。本研究中，LSTM网络模型采用Keras框架构建，包含输入层、2个LSTM隐层、全连接层和输出层。输入特征包括上一节提取的用户行为频率特征、时间特征和价格敏感特征。同时还输入最近10天内的历史行为作为时间序列，以学习行为时间依赖性。LSTM隐层节点数均为128，使用ReLU激活函数。全连接层节点数为64，输出层依据预测行为类别设置节点数，如浏览行为、收藏行为等。机器学习模型中，选择Gradient Boosting Tree 模型（GBDT）。该模型可以处理异构特征，对异常值和过拟合也较为鲁棒。构建GBDT模型时，设置最大树深度为8，子叶节点最少样本数为3，正则化系数为1e-2。学习率设为0.05，最多迭代300次。在模型训练中，本研究将用户行为日志分割为训练数据和测试数据。通过5折交叉验证方法调参优化模型，选择F1分数指标评价模型表现。获得最优模型后，在测试集上评估模型预测性能以减小过拟合风险。最后，本研究将调整后的LSTM模型和GBDT模型按2：1权重组合，形成混合模型。这种集成学习思想下的混合模型结合了深度学习和机器学习方法的优点，数据集的变化更为稳健，提升了最终分类性能。

2 个性化推荐算法研究

2.1 用户兴趣模型构建

在互联网环境下，用户的兴趣偏好往往散布在复杂的特征空间内，准确抓取用户兴趣模型对提供个性化推荐服务具有重要意义[5]。本研究中，通过深度网络提取多维用户特征，构建了基于注意力机制的用户兴趣表示方法。具体而言，首先采集用户的历史浏览记录、搜索查询日志和签到位置数据等，获取原始行为数据。其中浏览商品数量、查询词条数和签到地点数的数量级分别为562条、251条和176个。针对三类行为数据分别进行嵌入，获得稠密的向量表示。本研究中，产品和词条的嵌入维度为128，地点向量维度为64。接下来，将三类行为表示按时间步整合为序列数据，依次输入Bi-LSTM网络，学习用户行为的时序布局。其中LSTM使用tanh激活函数，节点数为256。获得所有时间步的LSTM输出后，构建注意力层以对时序信息进行加权，输出用户的时间感知表示。本研究采用点积作为加权评分函数。最后，将聚合后的注意力向量与原始行为嵌入拼接，输入全连接网络，学习多维特征之间的相互作用，输出用户的综合兴趣表达。全连接层中设置了3层，节点数分别为512、256、128，使用ReLU激活函数，应用了0.5的dropout概率。总的来说，本研究通过深度网络依次学习特征、时序和注意力表示用户多维兴趣偏好，为个性化推荐系统的构建奠定了基础。

2.2 推荐算法实现与评估

在构建用户兴趣模型的基础上，研发高效的推荐算法和评价体系是实现个性化推荐的关键。本研究设计了基于用户实时转化率的排序策略，并采用多维度指标进行算法效果评测。具体来说，通过用户兴趣模型输出商品的匹配分数，初步获得个性化的候选集。接下来考虑实时性，估计用户近期内发生目标行为的概率，例如购买商品的可能性。本方法通过用户近10天内的目标行为转化率，调整商品的推荐权重。如果用户最近购买意愿较高，排序上权重较高的是购买属性的商品。该方案综合考虑了用户的长期偏好和短期意图。在推荐系统部署后，需要从多个角度评估算法的效果，作为后续优化的参考。本研究构建了包含用户满意度、商业转化率和推荐覆盖率三个维度的指标体系。每隔一周进行评估，部分指标统计如表1所示。

从指标的观察中可以发现，用户对推荐商品的喜好度较高，但商业转化率仍有提升空间。此外，算法覆盖了部分长尾商品。这为后续工作提供了持续改进的方向，如增强推荐策略对冷启动用户的适应性等。

2.3 个性化推荐系统设计与优化

设计一个可运营、可扩展的个性化推荐系统需要考虑技术实现难度、业务融合性和优化余地等因素。本研究构建了基于微服务的系统架构，同时对数据、服务和应用三个层面进行了深度优化。在系统架构设计中，参考近些年流行的设计范式，采用了松耦合、高内聚的微服务理念。在数据层面，通过Kafka、HBase、ElasticSearch等分布式存储系统，构建了稳定、高效的数据中台。在服务层面上，单独搭建了用户行为处理服务、模型预测服务、推荐排序服务等。在应用层面上，通过定制化配置能够为不同场景生成个性化输出结果。在多次业务验证迭代后，从稳定性和鲁棒性等角度持续优化系统。例如，增设了模型监控模块，以10分钟为单位检测线上服务状态。推荐失败情况的紧急故障率已从0.82% 下降至0.17%。此外，还通过异步更新策略加速了算法迭代速度，有效保证了系统稳定性的前提下生成更及时的推荐结果，总体快速失败概率（QPS）由79.2% 提升至86.5%。可以看到，经过初期搭建和后续优化，目前该系统能很好地满足个性化推荐应用的在线稳定性需求。

3 基于数据分析的用户行为预测与个性化推荐算法的结合应用

3.1 用户行为预测与个性化推荐算法的融合模型

为了有效利用用户行为预测与个性化推荐之间的协同作用，本研究构建了一种新的融合模型。该方法基于迁移学习框架，在用户行为预测任务中学习了表示用户决策模式的特征表示，并迁移应用到推荐场景中来拟合用户的个性化偏好，实现了跨域知识迁移。具体而言，通过之前构建的且融合了LSTM 和GBDT的行为预测模型，分析得到每个用户的特征层次结构，主要包括用户活跃度、用户消费决策力、用户浏览意愿、用户价格敏感度等多维特征。这些复杂的行为属性能够反映用户决策动机的个体差异，是实施精准营销的核心要素。这些特征会作为迁移层（维度为32）的输入，用于推荐领域的表征学习。在推荐领域中，基准的矩阵分解机制主要基于用户与商品交互行为（点击、收藏、加购、支付等）进行预训练。本研究模型在此基础上新增了上述用户特征的迁移层表示，维度为32，通过特征重构学习用户的兴趣表示。新旧特征的拼接作为预训练的监督信号，经过模型微调后，相比基准模型，在测试集上获得了更低的平均损失（0.83 vs 0.91）和更高的NDCG评分（0.762 vs 0.701）。这证明了跨领域迁移用户决策模式特征的有效性。

3.2 算法在实际应用中的效果评估

在研发出用户行为预测与个性化推荐融合模型后，有必要在实际业务环境中检验其效果。本研究与某消费品电商合作，在其App上集成了该算法服务，并进行了为期一个月的在线评估。整体比较了四种模式，包括基准模型、单独使用行为预测模型、单独使用推荐模型以及两者的融合。部分关键业务指标统计见表2。

从中可以明显观察到，单独使用行为预测或个性化推荐都能获得一定程度的业务提升，而两者结合的融合模型效果最好，支付转化率、付费用户数和用户留存率均有显著提高。这证明了预测与推荐融合范式的实际应用价值。

4 结束语

本研究基于大规模用户行为数据，通过数据挖掘和算法优化的技术手段，实现了对用户决策模式的深入预测与个性化偏好的准确拟合。在用户行为特征工程、时间序列建模、迁移学习等方面进行了有益的探索，证明了用户兴趣表达与行为预测模型在推荐系统中的协同应用效果。展望未来，随着教育AI等前沿技术和方法的发展，用户行为数据的获取会更加便捷，分析技术也会更加智能化，本研究必将在这一研究领域取得新的进展。

参考文献：

[1] 石钊蔚. 基于大数据分析的电商用户购买行为预测方法研究[D]. 北京：北京邮电大学，2021.

[2] 皇甫汉聪，肖招娣. 基于用户行为数据分析的个性化推荐算法分析[J]. 电子设计工程，2019，27（7）：38-41，46.

[3] 马天男，王超，彭丽霖，等. 多源异构大数据下综合能源系统用户用能行为预测分析研究[J]. 智慧电力，2018，46（10）：86-95.

[4] 王斌，陈琳，侯翔宇，等. 透明计算中用户访问行为特征分析与预测[J]. 计算机工程与应用，2018，54（16）：49-54，62.

[5] 邵云蛟，占晓云，吴屏. 互联网用户行为的分析方法探讨[J]. 数字技术与应用，2016（11）：252，254.

【通联编辑：张薇】