谢君臣,李 涛,黄 甫,常 远
(武汉科技大学 计算机科学与技术学院,湖北 武汉 430065)
截至2020年12月,在线医疗用户规模为2.15亿,占比为21.7%[1]。随着互联网的普及不断扩大,医疗行业的数据也呈现指数型增长,大数据的时代早已到来,并时刻影响着人们的思维和生活方式,这也使得大数据的分析、应用与发展成为社会关注的焦点[2]。医疗行业的大数据化,使得传统就医模式发生了逆转,用户不在拘泥于传统的挂号问诊方式,主动式的健康搜索查询成了解决日常健康问题的途径之一。与此同时,带来的是“信息冗余”、“信息过载”,用户很难从众多纷杂的药品中选出有效的药品,而企业也希望能够全面地了解用户,针对海量的用户进行活动促销、挖掘出更多优质用户,同时想从众多同质化的药店中提升用户体验等一系列的难题。随着用户画像[3]这一概念的提出,立即在各大领域得到了广泛的应用。
用户画像是通过数据标签化的方式对用户进行数据化的刻画,为服务方快速了解用户、分析用户,进行用户行为预测、用户预警等数据分析提供一种解决方案。用户画像已在电商、金融、医疗、教育等领域有了相关的研究及应用,基于用户的行为数据和大数据下用户行为的相似性,对用户进行个性化、精准化的推荐,俨然成为21世纪信息时代的热点技术。
传统的用户画像的构建通常是从采集数据、画像建模和画像更新三个方面进行相关的工作,针对不同应用场景、不同数据来源和建模方法得到的用户画像存在很大的差异,很难确保用户画像在推荐中的精确性。因此,为了解决现阶段药店会员画像构建方法存在数据收集模式单一,对数据分析力度不够和对知识的融合较差导致构建的用户画像维度单一、精准度较低等问题,该文提出了一种基于多视角、多维度的用户画像构建方法。在融合现有的数据特征基础上,更加深层次地对用户的行为偏好、用户群的行为相似性、用户群的消费区域性以及疾病爆发在时间与空间的维度上发病规律性等方面进行深度挖掘,综合众多有效的特征数据构建药店用户画像,为用户提供精准化、个性化的服务。
用户画像是对用户信息进行全貌的特征抽取,构建能够刻画、分析用户行为的标签,从而进一步实现对用户行为的感知预测。用户画像的概念最早由Cooper[4]提出,关于用户画像的构建流程,国内已有不少学者进行了大量的研究[5-6]。例如,Travis、梁荣贤等一些研究者分别对用户画像的特性、迭代等提出非常深刻的观点[7-8],对后续的用户画像研究提供了充实的理论基础和构建的方向。
该文主要研究是用户画像在医疗行业构建的问题,国内外已有许多学者对用户画像进行了大量的研究。从构建用户画像的角度出发,国外代表性的研究方法有:Lerouge等[9]通过老年慢性病数据构建用户画像,并在此基础上应用程序和健康信息推荐系统;Prantik等[10]通过关键字与评价构建用户的数据画像;Paula等[11]构建了用户群体知识本体的用户画像。国内代表性的研究方法有:唐晖岚等[12]通过书签数据构建的用户行为特征数据构建用户画像,并对用户的行为进行预测;马费成等[13]通过尝试医疗的语义分析来构建用户画像,应用在健康画像系统中;张海涛等[14]通过关联规则挖取用户群体行为相似度或差异度构建健康社区用户画像。
另一方面从应用的角度出发,建立用户画像只是解决了标签维度的稀疏性问题,但用户画像最终的目的是为用户提供个性化服务。因此解决画像的精确性,就必须构建更多的细粒度的特征标签。例如:采用数据挖掘构建多层级的用户画像模型,最终能对数据进行高效聚类,产生更为全面的用户画像[15]。张壮等[16]基于数据层次和特征层次对学生的多源数据进行集成,然后通过模型叠加构建用户肖像模型。郭娜等[17]针对网络安全风险检测中对用户行为异常特征提取的时间长、检测精度低的问题,提出基于用户画像的大数据环境中的异常特征提取方法,利用收集系统自动获取网络服务器日志中的用户行为数据。
目前,针对线下医药零售领域的用户画像研究还比较少,大多都是针对线上互联网领域及其相关行业。主要原因有以下几点:一是线下零售药店收集数据较为单一,构建用户特征维度单薄;二是线下药店很难收集到用户的反馈信息,对用户的偏好无法感知;三是数据庞大、杂乱,很难对用户行为进行持续追踪;四是日益激增的用户量使得推荐效率降低。针对以上问题,该文提出一种基于多视角、多维度的用户画像构建方法,通过构建细粒度特征的用户画像,解决用户画像维度单一、精确度较低等问题,同时采用离线计算,优化线上计算的时间;基于数据统计下的用药周期获得用户的偏好矩阵和在高维视角下分析的药品与疾病关联性和规律性、以及用户消费习惯的规律性,提取标签特征丰富用户画像的特征维度,同时构建信息熵分析模型对特征进行选择而构建多维度、多视角的用户画像。并将用户画像的特征带入推荐算法的模型中,对该方法的效果进行验证。
用户画像即用户角色,实际上是用户的标签化。主要是从数据中提取信息,如年龄、性别、喜好、历史购买记录等,利用大数据的统计分析、机器学习或者深度学习的方法,对数据进行统计、降维、分类、聚类、预测,再结合应用场景,构建不同维度的用户标签体系,进一步构建精准的用户画像。该文在参考其他领域[18]标签体系设计的基础上,总结了面向药店会员的标签体系的多维的用户画像结构方法。主要从传统视角和医药视角两个视角、六个维度进行用户的特征值提取,构建药店会员用户画像,最终汇总如表1所示。
2.1.1 传统视角的用户画像特征提取
传统视角的用户特征标签获取比较直接,通常通过对原始的数据库或者健康档案中已有的基础属性和消费数据进行数据统计、分析,来构建用户画像。如:性别、年龄、注册时间、城市、门店位置、购买品类数、月平均消费、年消费次数、平均消费间隔等,在此基础上对用户进行一步的划分,如:根据价值对用户进行分层。
表1 多视角、多维度用户画像特征分析
传统的用户分层是通过累计算用户消费数据,不能精确刻画当下的用户价值。因此,该文采用RFM模型根据用户活跃程度、交易金额和贡献,进行用户价值细分的一种方法,指标x1(数量),x2(售价),x3(积分)均为正态模糊集,计算待识别会员A1(x)、A2(x)、A3(x)的取值,按最大隶属原则,就可以确定会员价值类别进行用户价值分层,公式如下:
(1)
(2)
或,
(3)
2.1.2 医药视角的用户画像特征构建
药品是有别于传统商品的特殊商品,因为相同的疾病有着相似的用药关系,所以药品选择是根据疾病选择同属性或相同功效的药品。因此,根据用户与药品的交互关系,挖掘用户医药相关的特征,更能够提高用户画像的精准度。
(1)用户医药生命周期特征标签提取。
为了挖掘更加细粒度的用户医药生命周期属性特征标签,该文采取构建用药周期分析模型。通过大数据统计分析某一大类药品的购药周期,基于购药将用户划分成不同的用药时序。在不同的时序中,用户会和部分药品产生交互关系。因此,利用用户-药品的交互信息,结合用户在不同用药周期的持续购药行为,得出用户的赖药性特征、偏好性特征。
某一用户在不同的购药期Ti与药品Ix,y,z的关系如图1所示。用户的购药概率会随着用药周期进行衰减,在不同的周期构建衰减系数∂,计算用户对药品的偏好Pu,i,计算药品偏好的公式如下:
(5)
其中,τ是常数系数,ti为用户u在药品i上购买的时间,LTu,ti为用户u在药品i临近的购买时间差,IT是一个较大的常数,调节因子δ在[0,1]之间取值,通过公式(5)计算用户对药品的偏好值,得到用户的偏好矩阵,完善用户的消费习惯特征。
(2)用户医药特征标签提取。
会员医药属性维度中的疾病标签和购买药品组合标签与会员画像中的基本属性和消费属性标签不同,购买药品标签由于是多种药品的组合,所以该标签在建模时需要以向量形式表现,而疾病标签则基于消费行为所提取出的会员购买药品向量,和常用药品所属病类标签所形成的药品-病类矩阵计算而生成。
MT=MP*T=
(6)
会员用户的所有病类标签向量MT可表示为公式(6),其中mi表示会员是否购买过药品i,若购买过则mi为1,否则为0。矩阵T中tij表示药品i是否对应病类j。若二者对应,则tij=1,否则tij=0。
疾病标签仅仅是对用户的一种标识,更重要的是挖掘每种疾病的深层特征。通过对大量患者监测数据的挖掘,发现疾病发展、变化的一般性规律[19-20],在针对用户的个体差异性上进一步调整参数,从而形成个性化的用户医药特征。以药品为例,某些药品对时间比较敏感,因此部分药品的需求也会随着季节性变化。有些疾病会在某个时段普遍爆发,若从已知的数据中分析药品与疾病在时间和空间维度上的特征,不仅有利于商业营销,而且还可以给用户一些提醒和警示作用。图2展示了2019年药名含有“感冒”字样的药品销售与时间的分布,图3展示了随机5位用户的感冒购药与时间分布(数据来源于大型连锁药店会员消费数据)。
图2为2019年整年的“感冒”字样的药品销售,明显呈现出在春、秋、冬季节销售较高,刚好符合现实情况。图3为部分用户购药与时间的分布。如:u1、u2用户是全年普发性感冒,秋冬季感冒换季感冒高发。u3、u4用户有明显相似的变化趋势,在春夏交替时感冒次数较多,呈现春夏换季节性感冒。u5用户也是全年普发性感冒,但冬夏较为明显。因此需要将药品按照社会属性(流行度、季节性)、疾病属性(主治功能、治愈性、复发性、传播性、周期性)和营销属性(价值、利润、品牌)等三个方面多个维度构建药品特征矩阵,用户购买相应的药品就获得相应的标签。
为了缓解数据收集模式单一、对数据分析力度不够和对知识的融合较差等问题,该文提出了基于多视角、多维度的用户画像构建方法。然而,随着特征维度的不断丰富,不加区分的特征信息必然会带来“维度灾难”。因此,该文采取构建信息熵的数据关联分析模型对数字数据和文本数据进行处理,从而构建多视角、多维度的用户画像。
信息增益(IG)是一种基于熵的方法[21],在信息论中,样本的信息增益越大,它包含的信息量就越大。该思想用于特征选择则是衡量每个特征与类别间的信息增益,信息增益越大该特征所包含的分类信息就越大,即信息增益算法可以描述特征区分样本的能力,故选择信息增益算法作为下一步特征选择的方法。用X表示特征,Y表示用户是否为目标会员,信息增益公式如下:
(7)
通过卡方检验与信息增益算法对特征进行选择与评价,在特征选择实验时,对设计的消费会员特征库中的特征进行去冗余操作,将筛选过后的特征按照信息增益值大小进行排序,提取信息增益较大的特征。
该文从多角度、多维度构建用户画像,在实际的营销策略中,需要针对不同价值的会员、不同价格的药品进行组合推荐,以达到提升利润、巩固会员、激活会员的目的。因此,通过基于用户画像计算药店会员的相似度(UBCF)与目标用户和目标药品的相似度(IBCF)加权求和混合相似度(H-CF)计算排序进行推荐。根据公式(8)计算用户画像与目标用户的相似度,根据公式(9)计算用户画像对目标药品的评分(或预测评分),筛选出评分较高的用户。
sim(u,v)=×sim(u,v)+(1-)×PR(v)
(8)
(9)
其中,sim(u,v)表示用户u与用户v的用户画像相似度,表示标签相似度权重,p(u,i) 表示已知用户u对商品i的评分矩阵,p′表示药品关联度矩阵,P(u)表示最终对所有药品的评分。i∈(ui)表示用户u对商品i有交互关系,否则通过用户已有评分的药品的评分矩阵与药品关联度矩阵p′计算对未知药品的预测评分,最终输出相似度高和评分高的用户。推荐算法流程如下:
基于用户画像的推荐算法流程:
输入:
用户画像
评分矩阵
药品销售数据
目标用户
目标商品
输出:
会员top排序
过程:
1.根据公式(8)计算与目标的相似度
2.根据药品销售数据,计算关联度矩阵p′
3.根据公式(9)计算与商品的评分
4.输出目标用户top排序
实验采用的数据集为某连锁药店提供的线下2019年全年连锁药店真实消费数据构建的数据集。数据集是该连锁药店多个门店中最大门店的主营药品的销售数据、药品信息数据、会员健康档案信息和店铺营销活动数据;药品涵盖了儿童类、感冒类、计生类、慢性病类、保健类、中医养生类等药品。药品信息包括药品名、剂量单位、分类信息、主治功能描述信息等。会员健康档案信息包括会员ID,年龄,性别,积分,注册时间,近30天、60天、90天、180天等基础消费信息。连锁药店近一年的会员所购买的药品的消费数据(2 729 941条),所参加活动的推送数据以及会员的基本个人信息(178 637条),从中分离出常用的64大类共计9 080种药品。
实验运行环境:Windows 10系统,32G内存,3.5 GHz 8核心处理器,实验软件为Python 3.8。
为了模拟用户画像在实际生产环境中不同规模药店的推荐效果,调整样本比例30%、50%、70%来构建用户画像,通过对比精确率、召回率、F1值和推荐耗时来比较推荐效果。
(1)精确率Precision的定义如式(10)所示:
(10)
(2)召回率Recall的定义如式(11)所示:
(11)
(3)调和平均值F1的定义如式(12)所示:
(12)
其中,TP表示目标用户预测正确,FP表示目标用户预测错误。
(4)推荐模型在适应推荐需求的情况下,推荐的效率也是一个重要的衡量指标。因此,提出构建耗时的性能指标。
该文旨在解决现阶段药店会员画像存在维度单一、精准度较低的问题,提出了基于多视角、多维度的用户画像构建方法。将用户画像的特征应用于推荐模型中,验证提出的用户画像构建方法的有效性,并通过构建对比实验来评估用户画像的精确性。方法一为基于传统消费视角构建的特征进行推荐;方法二为基于医药视角构建的特征进行推荐。分别对推荐结果的召回率、综合评价指标F1值和精确率进行计算,得到的算法结果如表2所示。
表2 对比实验效果
耗时分析采取产生固定个数的推荐结果,对比推荐的计算耗时时间。为了消除实验误差,采取多次重复实验,计算平均时间作为推荐的效率,在实验环境中的耗时结果如表3所示。
表3 推荐耗时结果
通过三种方法构建的特征在不同的推荐算法中产生的推荐进行对比,实验证明该文提出的基于多视角、多维度的用户画像构建方法,无论在小样本的数据集上还是大数据集上的推荐效果都有一定程度的提升。特别是在大数据集上,通过基于多视角、多维度构建的特征,在协同过滤算法进行推荐比直接采用传统视角特征的方法构建特征精确率提升约15.41 %,在召回率、F1值上也有相应提高。
实验证明,提出的改进的构建用户画像方法,在刻画用户时更据有说服力,用户画像的精准度更高。此外,基于用户画像的推荐在保证推荐精确度的前提下推荐耗时也优于其他的推荐方式,证明了该方法的有效性。
该研究主要是药店会员用户画像的构建,目的是解决药店会员用户画像的维度单一和精度较低的问题。通过构建多视角、多维度的特征挖掘方法,解决用户画像维度单一的问题,通过特征进一步挖掘解决用户画像精度较低的问题,通过离线计算用户画像特征方法,降低了在线推荐用户时的计算时间,提高了推荐的效率。