王瑛
基于深度学习BCCM模型的网上用户画像识别分析
王瑛
(闽江学院,福州 350108)
提出基于深度学习BCCM模型的网上用户画像识别方法,改善以往网上用户画像识别方法仅提取行为特征导致识别精度低的缺陷。采用爬虫软件挖掘网上用户的访问量、评论量、转发量、影响力、关注量以及网龄六种行为特征,采集网上用户发帖以及评论文本信息建立用户向量,规约处理所建立用户向量。以类别的总距离平方和最小为聚类目标,采用K-means聚类算法聚类处理用户向量。设置聚类结果为网上用户内容特征,将所获取的内容特征与所挖掘行为特征输入深度卷积神经网络中,通过卷积操作以及池化操作实现网上用户画像的有效识别。实验结果表明,采用该方法识别网上用户画像的精度高于99%,1值高于0.92,说明所提出方法的识别精度高。
深度学习;BCCM模型;网上;用户;画像;识别分析
目前,网络用户数量有所增加,网络用户行为数据直线上升[1]。网络中网页以及社交平台中包含大量用户,网络数据呈动态性、多样性以及非结构化形式存在。海量网上用户行为数据的科学合理应用是目前网络相关研究学者的主要研究话题,网上用户画像精准识别有助于提升人类对于海量用户信息的大数据挖掘与分析效率[2]。用户画像指依据用户行为模式、统计学信息等信息建立的用户模型,用户画像利用所建立的用户模型对用户实施标签化[3]。早期的用户画像常应用于电子商务中,通过用户画像体现的消费金额与消费习惯,便于商家实现精准营销。大数据技术发展迅速,网络中信息量剧增,用户画像已发展至不同领域中,依据用户网络中的听歌类型、身体状况、关注消息类型可为用户制定偏好画像、健康画像、关系画像等众多画像[4],便于各APP针对不同用户制定可满足用户需求的相关策略。
深度学习是伴随机器学习而来的高效学习方法,深度卷积神经网络和深度置信网络是目前应用较广的深度学习方法,将深度卷积神经网络方法应用于网上用户画像识别分析中,可有效提升网上用户画像识别效率[5],具有较高的应用有效性。
目前针对用户画像研究较多,张壮,李恒超等分别利用多模态融合技术以及二级融合算法构建用户画像[6,7],由于仅提取用户行为特征,识别用户画像精度较低。
目前用户画像多针对用户行为特征,并未重视用户内容特征,将行为-内容融合模型(behaviour and content combined model,BCCM)与深度学习方法相结合,研究基于深度学习BCCM模型的网上用户画像识别分析。充分考虑网上用户行为以及内容,实现网上用户画像精准识别,结合网上用户影响力、发帖量、访问量等众多行为特征,利用聚类算法获取网上用户的内容特征,将行为特征与内容特征结合,精准识别网上用户画像,为大数据环境以及信息化环境中海量用户画像精准分析提供理论基础。
聚类算法距离以及相似性判断准则通过欧式距离划分,聚类中心至数据集内各点的距离平方和公式如下:
所划分不同类别的总距离平方和最小即聚类目标,建立聚类目标函数如下:
求解聚类目标函数,得到网上用户内容特征:
深度卷积神经网络是通过卷积以及池化操作神经网络,处理数据样本后获取特征图,通过训练特征图降低原数据样本训练规模,提升深度学习训练效率[9]。将卷积神经网络应用于网上用户画像识别中,提升网上用户画像识别有效性。
深度卷积神经网络识别流程如图1所示。
图1 深度卷积神经网络识别流程
通过式(6)的均值池化完成深度卷积神经网络的池化操作。
设置约束条件如下:
满足式(8)约束条件计算后获取卷积神经网络全连接层[10-12],利用所获取全连接层建立分类器实现网上用户画像识别。
卷积神经网络权重更新公式如下:
卷积神经网络偏置更新公式如下:
更新后权重表达式为
更新后偏置表达式为
深度挖掘网络中海量用户信息,选取访问量、评论量、转发量、影响力、关注量以及网龄作为网上用户行为特征。访问量指用户使用网络的访问数量;评论量指用户发帖被评论数量以及评论他人数量;转发量指用户转发他人信息以及被转发信息数量[14];影响力指用户在网络中的微博等软件中对他人的影响能力;关注量指用户关注其它用户以及被他人关注的具体数量;网龄指用户活跃在网络中的时间。所选取网上用户行为特征具有较高的可获取性以及可用性,可利用爬虫软件有效获取,应用以上特征建立BCCM模型可有效提升网上用户画像识别精度。
基于深度学习BCCM模型的网上用户画像识别总体结构图如图2所示。
图2 网上用户画像识别总体结构图
基于深度学习BCCM模型的网上用户画像识别流程如下:
(1)采用爬虫软件挖掘网上用户于网络中的访问量、影响力、网龄等行为特征数据;
(2)充分挖掘网上用户网络中的发帖、评论内容的文本信息以及评论相关信息[15],获取用户向量;
(3)对网上用户向量实施维度规约处理,利用K-means聚类算法对从网络中所提取的用户向量实施聚类分析;
(4)将所获取聚类分析结果设置为网上用户的内容特征,与所提取的网上用户行为特征数据共同输入深度卷积神经网络分类器中,获取最终网上用户画像识别结果。
选取某网络论坛中8976名用户作为验证本文方法识别网上用户画像有效性的研究对象,充分挖掘用户的访问量、评论量、转发量等行为特征,将用户发帖以及回复内容中的文本信息作为内容特征。共采集用户网络评论共1254862条,所采集内容时间区间为2015年1月1日~2019年12月31日。采用人工标注方法标注8976名用户中的10类用户,标注用户数量为2000名,将人工标注结果与不同方法实际识别结果对比,验证本文方法的网上用户画像识别结果。
采用本文方法采集8976名用户行为特征数量如图3所示。通过图3可以看出,本文方法可有效采集网上用户的行为特征数据,为精准识别网上用户画像提供良好的数据基础。
图3 行为特征采集结果
采用三种方法分别识别已人工标注的2000个网上用户画像,画像识别结果如表1所示。
表1 不同方法识别结果
分析表1实验结果,采用本文方法识别网上用户画像,识别不同类型网上用户画像数量与实际用户数量相差较小;采用另两种方法识别网上用户画像的识别结果与网上用户画像实际数量相差较大,采用本文方法识别网上用户画像的准确性明显高于另两种方法,有效验证本文方法具有较高的网上用户画像识别结果。
本文方法采用K-means聚类算法实现海量用户文本信息聚类,选取F-measure值作为聚类方法有效性的评价指标,采用不同方法所获取聚类结果的F-measure值越大,表示聚类结果有效性越高。不同阈值时本文方法聚类结果的F-measure值对比结果如图4所示。
图4实验结果可以看出,随着阈值大小的提升,本文的方法采用K-means聚类算法对样本实施聚类的F-measure值有所提升。设置阈值为5时,聚类结果的F-measure值趋于稳定,继续提升阈值时,F-measure值提升幅度较小。为降低本文方法识别网上用户画像复杂度,设置K-means聚类算法阈值为5。
图4 F-measure值对比结果
选取文献[6]方法以及文献[7]方法作为对比方法,进一步验证本文方法的网上用户画像识别有效性。统计采用本文方法识别网上用户画像的精度、召回率以及1值。1值是衡量分类模型精确性的重要指标,1值是以每个类别为基础进行定义的,包括两大概念:准确率(precision)和召回率(recall)。准确率是指预测结果属于某一类的个体,实际属于该类的比例,召回率是指被正确预测为某个类别的个体数量与数据集中该类别个体总量的比例。计算出准确率和召回率后,就能得到1值,它是两者的调和平均数。1值的计算公式为
不同方法识别性能对比结果如表2所示。
表2 识别性能对比
表2实验结果可以看出,采用本文方法识别不同类别网上用户画像的识别精度以及识别召回率均高于99%,识别不同类别用户画像的1值均高于0.92。而文献[6]与文献[7]方法的识别精度最高为98.64%,并且两种文献对比方法的最高召回率分别为98.61%与98.64%,最高1值均未达到0.9以上。因此,充分说明本文方法识别网上用户画像的识别精度、识别召回率以及1值均明显高于另两种方法,验证本文方法具有较高的网上用户画像识别有效性。本文方法可获取最优的网上用户画像识别结果,将该方法应用于图书推荐系统、旅游推荐系统等应用中,可精准依据所获取网上用户画像识别结果为用户推荐用户感兴趣信息,具有较高的应用性。
综合深度学习方法以及内容-行为融合模型实现网上用户画像识别,利用实验验证该方法具有较高的网上用户画像识别有效性。采用该方法识别网上用户画像的召回率以及1值均优于对比方法,有效验证该方法具有更优的识别性能。将该方法应用于智能终端推荐系统中,可有效依据网上用户画像识别结果精准划分用户,为用户推荐满足用户兴趣度的内容。
[1] 林燕霞,谢湘生. 基于社会认同理论的微博群体用户画像[J]. 情报理论与实践,2018, 041(003): 142-148.
[2] 梁荣贤. 基于用户画像的图书馆精准信息服务研究[J]. 图书馆工作与研究,2019, 1(04): 67-71.
[3] 陈丹,柳益君,罗烨,等. 基于用户画像的图书馆个性化智慧服务模型框架构建[J]. 图书馆工作与研究,2019, 280(06): 74-80.
[4] 王益成,王萍,张禹. 基于向量空间模型的科技情报用户画像及场景化服务推送研究[J]. 现代情报,2020, 040(002): 3-10, 25.
[5] 单晓红,张晓月,刘晓燕. 基于在线评论的用户画像研究——以携程酒店为例[J]. 情报理论与实践,2018, 041(004): 99-104,149.
[6] 张壮,冯小年,钱铁云. 基于多模态融合技术的用户画像方法[J]. 北京大学学报(自然科学版),2020, 297(01): 108-114.
[7] 李恒超,林鸿飞,杨亮,等. 一种用于构建用户画像的二级融合算法框架[J]. 计算机科学,2018, 45(01): 157-161.
[8] 赵洪. 生成式自动文摘的深度学习方法综述[J]. 情报学报,2020, 39(03): 104-118.
[9] 刘海鸥,孙晶晶,苏妍嫄,等. 基于用户画像的旅游情境化推荐服务研究[J]. 情报理论与实践,2018, 041(010): 87-92.
[10] 汪一百,陈实,叶剑锋. 利用深度学习的文本相似度计算方法[J]. 湘潭大学自科学报,2018, 145(02): 108-111.
[11] 崔春生,王雪,李文龙. 情境环境下基于用户画像的旅游产品推荐算法研究[J]. 数学的实践与认识,2019, 049(020): 122-131.
[12] SCHNEIDER C, WEINMANN M , VOM BROCKE J . Digital Nudging: Guiding Online User Choices through Interface Design[J]. Communications of the ACM, 2018, 61(7): 67-73.
[13] 杨沛安,刘宝旭,杜翔宇. 面向攻击识别的威胁情报画像分析[J]. 计算机工程,2020, 046(001): 136-143.
[14] 张长浩,余志勇,周振,等. 基于国网商旅大数据融合背景的用户画像构建[J]. 电信科学,2019, 35(12): 148-154.
[15] 安璐,胡俊阳,李纲. 突发事件情境下社交媒体高影响力用户画像研究[J]. 情报资料工作,2020, 237(06): 8-18.
Online user portrait recognition analysis based on deep learning BCCM model
WANG Ying
(Minjiang College, Fuzhou 350108, China)
Research on the recognition of online user portraits based on the deep learning BCCM model, to improve the previous recognition of online user portraits only extracting behavioral features, resulting in low recognition accuracy. Use crawler software to mine the six behavioral characteristics of online users' visits, comments, reposts, influence, attention, and Internet age, collect online user postings and comment text information to establish user vectors, and process the established user vectors by protocol processing, using K -Means clustering algorithm takes the minimum sum of squared distances of the different categories as the clustering target. After the clustering analysis protocol is processed, the user vector is set, the clustering result is set as the online user content feature, and the obtained content feature is compared with the excavated behavior feature In the input deep convolutional neural network, effective recognition of online user portraits is achieved through convolution and pooling operations. Experimental results show that the accuracy of using this method to identify online user portraits is higher than 99%, the F1 value is higher than 0.92, and the recognition accuracy is high. It can be used in applications such as network intelligent recommendation systems.
deep study;BCCM model;online;user;portrait;identification analysis
2022-12-17
王瑛(1977-),女,,黑龙江齐齐哈尔人,本科,高级实验师,主要从事计算机应用研究,m7418956232@163.com。
TP311
A
1007-984X(2022)05-0011-06