商家衡 郝久月
摘 要: 针对现代互联网环境下,网络日志规模急速扩张,可挖掘内容极为丰富的现状,梳理国内基于网络日志的用户行为检测和用户画像领域的主要文献及工作。简要叙述上述两个领域的基本理论,并以公安工作、电子商务、医疗健康、旅游行业和图书馆业这五个行业中的案例来总结上述两个领域内的主要应用。对网络日志进行挖掘可以极大地提升用户体验,但也要正视其在隐私保护方面的缺失。
关键词: 用户行为检测; 用户画像; 网络日志
中图分类号:TP391.1 文献标识码:A 文章编号:1006-8228(2022)05-25-04
User behavior detection and portrait construction technology based on Web logs
Shang Jiaheng Hao Jiuyue
Abstract: In view of the rapid expansion of Web logs in the modern Internet environment and the current situation of extremely rich content can be explored, in this paper, the main literature and work in the field of user behavior detection and user portrait based on Web logs in China are sorted out. Briefly describing the basic theories of the above two fields, the actual cases in the five industries of public security work, e-commerce, medical health, tourism and library industry are used to summarize the main applications in the above two fields. Mining weblog can greatly enhance user experience, but it should also face up to its lack of privacy protection.
Key words: user behavior detection; user portraits; Web logs
引言
⑴ 研究背景
时至今日,互联网已成为全球大多数人生活的重要部分。据中国互联网络信息中心(CNNIC)《第47次中国互联网络发展现状统计报告》的数据显示,以网络购物和在线政务服务举例,截至2020年12月,我国网络购物用户规模达7.82亿,较2020年3月增长7215万,占网民整体的79.1%;我国在线政务服务用户规模达8.42亿,占网民整体的85.3%[1]。由此言之,基于互联网基础设施而建立起来的线上服务已经被大多数人所依赖,而用户也在使用服务的过程中在其上留下了海量的登陆记录、访问记录等网络日志信息。
⑶ 研究目的及意义
用户在互联网中留下的网络日志是一个隐含着大量可挖掘内容的宝藏。而用户行为检测着力于发现用户上网行为所存在的规律,在此基础上引入用户画像,能从更细的粒度出发,揭示用户的特征。例如,用户访问网站及APP时的登陆、点击、驻留时间等信息,这些信息如能被开发人员依法依规分析,则能对网站及APP的内容个性化推荐、广告引流以及恶意用户的防御起到比较好的作用,优化用户使用体验,提高APP的运营收益。
⑶ 各章内容介绍
本文的行文将分为四章,本章作为引言介绍研究的背景、目的及意义;第1章简要阐述用户行为检测和用户画像构建的研究现状和理论;第2章分五个行业及领域来说明利用用户行为检测的数据所构建出的用户画像在实际中的应用;第3章对全文做一总结并对未来有所展望。
1 研究现状与基本理论
本章将简要阐述用户行为检测和用户画像构建的研究现状和理论,具体的行文架构如图1所示。
1.1 用户行为检测研究现状
1.1.1 基于模式挖掘
基于模式挖掘的方式,其中心思想在于通过比较用户的历史行为模式与当前行为模式,对相似度低于某个阈值的行为做出预警。其中代表性研究如连一峰利用Apriori算法和序列模式挖掘来计算正常模式和现有行为的相似度[2]。宋海涛采用模式挖掘算法并结合滑动时间窗口策略形成一种行为异常检测算法[3]。
1.1.2 基于随机过程
基于随机过程的方式,其中心思想在于通过统计正常情况下的用户行为,可以计算出用户下一步行为可能选择的概率值,预警有所出入的概率值所对应的行为。其中代表性研究如谢逸引入隐半马尔科夫模型(HsMM)发现混杂在正常流量中的攻击流量,通过限制异常用户对服务器资源的占用来保证正常用户可以优先使用服务器的各项服务[4]。
1.1.3 基于机器学习
基于机器学习的方式,其中心思想在于通過训练降低人工开销。其中代表性研究如陆悠为了解决非平衡性和分布复杂性问题,基于选择性协同学习生成成员分类器并依此标记出异常行为[5]。陈胜采用深度神经网络(DNN)分析流量特征数据、检测未知异常行为,亮点在于引入的DNN算法对不断推陈出新的恶意行为有着更好的快速响应和应对能力[6]。
1.1.4 基于用户画像
基于用户画像的方式,其中心思想在于总结归纳用户的形象。其中代表性研究如赵刚针引入了用户画像技术并对比识别出异常行为,提供了更好的检测效果[7]。朱家俊引入了用户画像技术来提取用户行为中的特征,计算正常与待测特征的马氏距离并用孤立森林算法来判断异常[8]。
1.2 用户画像研究现状
1.2.1 基于用户行为
基于用户行为的方式,其中心思想在于以用户行为为素材勾勒出用户的画像。缺点在于用户行为可能会存在被滥用的情况。其中代表性研究如黄文彬构建出移动用户画像,并推测用户的居住地、工作地等信息,使得运营商根据用户画像做出个性化推荐成为可能[9]。王凌霄量化分析了“知乎”用户的资历、参与度等指标,使用户画像有更好的效果[10]。
1.2.2 基于兴趣偏好
基于兴趣偏好的方式,其中心思想在于参考用户感兴趣的内容。其中代表性研究如赵开慧分别将网络用户和资源分类,尔后依据相似度向用户展示个性化推荐[11]。石宇以“豆瓣”为基础,提取资源特征、识别用户感兴趣的资源,最终实现用户兴趣的表示,不足之处在于粒度上稍显粗糙[12]。
1.2.3 基于主题
基于主题的方式,其中心思想在于将用户所使用内容形成主题并生成画像。代表性研究如:林燕霞统计出新浪微博用户的主题偏好并依此得到为五个群体用户画像,应用于网络舆情治理[13];唐晓波使用隐含狄利克雷分布(LDA)对“豆瓣”电影集合做主题聚类,依此计算出用户对各个主题的倾向,最终形成的推荐结果取得了比传统算法更好的效果[14]。
1.2.4 基于本体
基于本体的方式,其中心思想在于做好用户画像就要先做好描述用户的几个维度。其中代表性研究如姜建武提取语义本体的行为主题,计算出权重并刻画用户的互联网行为形成用户画像,提供个性化推荐[15]。
1.3 用户行为检测理论
关于用户行为检测的概念,一种观点认为,用户行为模式体现了用户的行为习惯和特点,通过比较用户当前及正常行为模式的相似度来判断是否存在异常行为[2]。另一种观点认为,将用户的行为抽象化为数学上的随机过程并学习用户正常的行为概率矩阵,可以评估用户的行为是否可信。其次用户行为检测也有一定的特征:正常用户与异常用户的比例并不均衡,因此误报率较高,制定阈值和指标时应动态调整;检测程序需要适应用户行为随时间的推移会发生的新变化[16]。
1.4 用户画像构建理论
用户画像的概念来自于Alan Cooper所提出的“User Persona”:从大量的基础数据中提取用户的属性并将其凝练为有着一定特点的形象[17]。目前国内也形成了几种观点:用户画像是基于大量的用户基础数据提取出用户特征而得到的标签化用户群貌[18];用户画像是从大量真实数据中提取用户的行为和兴趣得到的虚拟用户模型[19]。其次,用户画像主要有三个特征:标签化、时效性、动态性[18]。标签是一种语义简明扼要的文本,特征标签化使得用户画像的生成更加方便,生成的用户画像能更好地反映用户或用户群体的全貌。另外,用户画像中存在随着用户行为的进行而有所变化的属性,只有不断地更新用户画像,才能保证用户画像的准确性。
2 应用案例
第2章将分行业及领域来说明利用用户行为检测的数据所构建出的用户画像在实际中的应用,通过阅读有关文献归纳得到应用的一般架构如图2所示。
2.1 在公安工作中应用
结合用户行为检测和用户画像技术,公安机关可识别出意见领袖以及推动舆论变化的主要推手,引导舆论向好的方向发展,打造一个风朗气清的网络环境[20]。其中代表性研究如梁越岭使用改进的Single-pass增量聚类算法得到用户行为的模式规律画像和舆情热点话题;使用社会网络分析技术分析某舆情群体组织并监控组织行为,预警网络舆情群体事件[21]。
2.2 在电子商务中应用
电商平台由于其通过互联网与用户进行线上交易,需要尽可能多的掌握用户相关信息,以便统计出用户的行为决策规律来进一步优化营销与推荐系统,提升用户体验、提高平台的营业额[22]。其中代表性研究如洪亮分析了淘宝、京东和亚马逊三家电商平台的推荐系统,简要概述了三家平台生成用户模型并做出推荐的思路及所采用的热点推荐技术[23]。
2.3 在医疗健康中应用
在医疗健康领域,患者看病难一直是一个较为突出的问题。其中代表性研究如韩梅花通过分析用户微博发帖的行为和文本,量化其抑郁情感指数并建立用户画像,向可能的抑郁症患者推送相应的阅读治疗资源,使患者的治疗效果相应地提高[24]。王智囊根据医院积累的患者信息和医疗健康领域的知识库建立了患者用户画像并将其应用于推荐算法之中,使得患者可以更快速地获得更准确的个性化医疗信息与医疗方案[25]。
2.4 在旅游行业中应用
相较于其他行业的推荐系统,旅游行业的推荐系统有着本行业独有的一些挑战[26]。其中代表性研究如刘海鸥将用户行为信息同情境信息相结合,建立标签化的用户画像,在此基础上利用用户的情境信息做协同过滤推荐并进行了实例验证[27]。
2.5 在图书馆业中应用
用户画像这一概念在建立的初期,即已受到图书馆业者的注意并尝试在业内落地应用,取得了较好的效果。其中代表性研究如何娟结合规则和具体借还书数据,建立了用户画像标签集,据此通过聚类和相似度计算实现了单个用户画像和群体用户画像,效果得到了读者的肯定[28]。
3 总结与展望
本文简单叙述了用户行为检测和用户画像领域的主要文獻和主要工作,从研究现状和基本理论入手,最后落脚于实践,列举了在几大领域内上述研究成果的具体应用和效果。在如今的互联网发展大背景下,用户实际上是一个较为渺小的存在:用户享受着互联网服务的便利的同时,也将自己的大量隐私暴露在互联网上。因此,用户体验和隐私保护之间应找到一个适当的平衡点,使得企业及运营者有法可依、有规可循,用户则可安全地取得更好的用户体验。
参考文献(References):
[1] 中国互联网络信息中心(CNNIC).第47次中国互联网络发
展现状统计报告[R/OL].(2021-2-3)[2021-8-1].http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203
334633480104.pdf
[2] 连一峰,戴英侠,王航.基于模式挖掘的用户行为异常检测[J].
計算机学报,2002(3):325-330
[3] 宋海涛,韦大伟,汤光明,等.基于模式挖掘的用户行为异常检
测算法[J].小型微型计算机系统,2016,37(2):221-226
[4] 谢逸,余顺争.基于Web用户浏览行为的统计异常检测[J].
软件学报,2007(4):967-977
[5] 陆悠,李伟,罗军舟,等.一种基于选择性协同学习的网络用户
异常行为检测方法[J].计算机学报,2014,37(1):28-40
[6] 陈胜,朱国胜,祁小云,等.基于深度神经网络的自定义用户异
常行为检测[J].计算机科学,2019,46(S2):442-445,472
[7] 赵刚,姚兴仁.基于用户画像的异常行为检测模型[J].信息网
络安全,2017(7):18-24
[8] 朱佳俊,陈功,施勇,等.基于用户画像的异常行为检测[J].
通信技术,2017,50(10):2310-2315
[9] 黄文彬,徐山川,吴家辉,等.移动用户画像构建研究[J].现代
情报,2016,36(10):54-61
[10] 王凌霄,沈卓,李艳.社会化问答社区用户画像构建[J].情报
理论与实践,2018,41(1):129-134
[11] 赵开慧.基于社会化标注的个性化信息推荐方法研究[J].
情报科学,2015,33(6):39-42
[12] 石宇,胡昌平,时颖惠.个性化推荐中基于认知的用户兴趣
建模研究[J].情报科学,2019,37(6):37-41
[13] 林燕霞,谢湘生.基于社会认同理论的微博群体用户画像[J].
情报理论与实践,2018,41(3):142-148
[14] 唐晓波,谢力.基于主题的用户兴趣模型的构建及动态更新[J].
情报理论与实践,2016,39(2):116-123
[15] 姜建武,李景文,陆妍玲,等.基于用户画像的信息智能推送
方法[J].微型机与应用,2016,35(23):86-89,92
[16] 张有,王开云,张春瑞,等.基于用户行为日志的内部威胁检
测综述[J].计算机时代,2020(9):45-49
[17] Cooper A,Robert Reimann R,Cronin D.About Face 3:
The Essentials of Interaction Design[M].New Jersey: Wiley Publishing Inc.,2007:19-22
[18] 宋美琦,陈烨,张瑞.用户画像研究述评[J].情报科学,2019,
37(4):171-177
[19] 徐芳,应洁茹.国内外用户画像研究综述[J].图书馆学研究,
2020(12):7-16
[20] 王淼,刘家委,朱鑫奕,等.网络舆情社会影响力研究综述[J].
电脑知识与技术,2020,16(25):71-72,79
[21] 梁越岭.互联网舆情信息挖掘与群体行为分析[D].武汉理
工大学,2010
[22] 陆冬磊.基于电子商务的用户画像分析[J].电脑知识与技
术,2018,14(22):306
[23] 洪亮,任秋圜,梁树贤.国内电子商务网站推荐系统信息服
务质量比较研究——以淘宝、京东、亚马逊为例[J].图书情报工作,2016,60(23):97-110
[24] 韩梅花,赵景秀.基于“用户画像”的阅读疗法模式研究——
以抑郁症为例[J].大学图书馆学报,2017,35(6):105-110
[25] 王智囊.基于用户画像的医疗信息精准推荐的研究[D].电子
科技大学,2016
[26] 常亮,曹玉婷,孙文平,等.旅游推荐系统研究综述[J].计算机
科学,2017,44(10):1-6
[27] 刘海鸥,孙晶晶,苏妍嫄,等.基于用户画像的旅游情境化推
荐服务研究[J].情报理论与实践,2018,41(10):87-92
[28] 何娟.基于用户个人及群体画像相结合的图书个性化推荐应用
研究[J].情报理论与实践,2019,42(1):129-133,160
收稿日期:2021-10-20
作者简介:商家衡(1997-),男,天津人,硕士研究生,主要研究方向:公安信息化。
通讯作者:郝久月(1984-),女,河北人,博士,副研究员,硕士研究生导师,主要研究方向:公安信息化、大数据技术、视频智能分析技术。