基于商业智能WLAN的用户画像分析系统的设计及应用

2019-08-22 11:10周景
微型电脑应用 2019年8期
关键词:画像指纹商场

周景

(上海安达通信息安全技术股份有限公司, 上海 201210)

0 引言

随着社会经济和科学技术的不断发展,越来越多的企业进入到了移动互联网时代,信息量的爆发式增长以及信息获取方式的革新,使得商业智能分析受到越来越多的企业的重视的同时,其应用价值也得到了更好地体现。

近几年,随着无线网络的不断普及,为了提供更好的服务环境,提升竞争力,很多大型购物中心或者商场都为消费者提供了免费WLAN,在提供了便捷的上网服务的同时,也为自身的商业分析打下了坚实的基础。

基于WLAN的信息采集,商场的BI分析平台通过对用户画像构建技术的运用,可以准确识别和描绘目标客户特征。[1]在此基础上根据用户标签将消费者进行精细划分,了解消费者需求,分析消费者的消费意向及消费水平,为企业实施精准营销策略提供了决策依据。[2]

1 相关技术概述

1.1 基于WI-FI指纹的室内定位

在大型商场或购物中心等业务场景里,用户位置信息是用户画像建模过程中必不可少的组成部分。通过结合商户分布分析用户的常驻位置、来访次数等信息有助于建立用户兴趣属性。

由于在室内环境的限制,因此无法通过GPS进行定位。本文采用基于Wi-Fi位置指纹的定位系统,对室内移动物体及设备进行高精度定位。

其定位原理是通过在商场环境中合理部署相应的Wi-Fi 接入点,形成Wi-Fi信号的有效覆盖。定位时首先获取定位区域位置点上由一组Wi-Fi接入点的信号强度数据组成的指纹信息P={P1(AP1,AP2,AP4),P2(AP1,AP3,AP4),……,P16(AP2,AP3,AP6)}。如图1所示。

图1 Wi-Fi指纹定位示意图

根据以上获取的Wi-Fi指纹信息形成指纹信息库。最后在采集用户Wi-Fi时,通过匹配指纹库获取到用户位置,实现室内定位。

1.2 用户画像模型

用户画像(persona) 是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。通过用户画像,可以帮助企业实现精细化运营和分层运营。

用户画像模型建立的过程其实就是用户标签化的过程,通过用户属性的标签化来定义画像[3]。

用户画像的画像属性可以分类两类,一类是客观属性,一类是主观属性。客观属性包括个人的基本信息,如年龄、性别、籍贯、婚姻状况、学历情况、工作等。主观属性范围十分宽泛,如兴趣点、偏好倾向、消费习惯、支付习惯、性格倾向等等均属于主观属性[4]。

对于用户画像中的客观属性的标签化,只需收集相关信息即可,其信息相对容易确定。而对于主观属性则需要通过大量的数据采集并且通过机器学习等手段进行抽象和标签提取。

对于商场的用户分析而言,主观属性是不可或缺的,主观属性的标签化是否准确也是直接关系到BI分析的可信度。同时,用户画像的主观属性众多,为了更高效地建立在建立模型时,需要结合业务场景进行有针对性的进行属性标签化。

2 系统构建与设计

2.1 定位及位置信息采集子系统构建

定位及位置信息采集子系统由Wi-Fi探针、负载均衡、位置存储、定位引擎、指纹存储库和接口API等模块组成。系统架构图如图2所示。

图2 定位及位置信息系统架构图

Wi-Fi AP探针通过交换机将探针数据传送到定位服务器上。

负载均衡根据设置的负载策略将采集的数据转送至定位引擎,以实现并发处理。

定位服务引擎通过将接收Wi-Fi AP上报的探针数据,向数据服务器请求查询,并通过运行算法进行位置匹配。

指纹存储是用于存储Wi-Fi AP的指纹信息的信息库,用于位置信息匹配。

位置存储是用于存储计算的到的用户位置信息。

接口API提供用户管理接口,便于第三方应用进行位置管理。

2.2 用户画像分析系统构建

基于本文1.2章节对用户画像模型的定义,用户画像分析系统需要构建客观标签和主管标签。

对于客观属性的标签通常可以通过会员注册方式进行采集。主观属性则可以通过用户使用WLAN浏览信息时进行捕捉。

仅仅捕捉到用户浏览信息并不能直接抽象成标签,因此就需要通过模型对采集的信息进行训练再结合之前采集得到的位置信息形成标签集合。

用户画像训练主要是针对用户画像中主观兴趣偏好属性的分析建模。

1) 用户兴趣偏好主题构建

本文基于LDA模型的思想,建立用户兴趣偏好主题模型,实现兴趣偏好的标签化。通过将单个用户的浏览内容视作LDA模型中的一篇“文档”,对“文档”中的每个词的主题概率分布来获得用户的兴趣标签。

本文系统通过使用python的gensim库实现LDA模型,具体的实现方式如下:

Step1:导入gensim、pyltp等工具库

gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。

pyltp是 LTP 的 Python 封装库,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

Step2:将文档分句和分词

读取文档内容,并通过pyltp. SentenceSplitter().split()方法对文档进行分句和分词,并将分词的数据输出到指定文件。

Step3:加载数据

加载分完词的数据,并将所有词合并成一句句子。通过corpora.Dictionary将加载的数据形成词袋模型。

Step4:主题提取

使用models.ldamodel.LdaModel方法进行主题建模。

Step5:清理无用的标点与词

使用pyltp对词性进行标注, 根据词性标注表,保留词性为['a', 'b', 'd', 'i', 'j', 'n', 'nh','ni', 'nl', 'ns', 'nt', 'nz', 'v']的词。

Step6:输出每篇文档高概率的主题

使用lda.get_document_topics方法获取高概率的主题。

Step7:主题验证及标签化

结合用户位置信息等辅助信息,对高概率主题进行验证。

2) 用户画像模型构建

考虑到本文设计的系统构建用户画像的目的是为更好地了解用户的关注内容和潜在的消费倾向。因此在构建主题模型训练集时,结合商场运营品牌的类型,从目前公开的sougou新闻语料库中筛选出关于服装、鞋类、首饰、数码、饮食、运动、健康、教育等相关内容的语料,作为本系统的语料库。

由于该语料库的内容为xml,因此需要进行格式化处理,然后根据模型构建步骤对语料库进行主题模型训练,得到相关主题的关键词分布。训练结果的部分示例如下:

>>> lda.print_topics(10)

经多因素逻辑回归分析结果显示,侵入性操作、曾住ICU及住院时间长是骨科老年患者术后发生医院感染的危险因素(P<0.05)(见表3)。

Topic 0:0.066260*球+ 0.056633*胜+ 0.056031*教练+ 0.056094*名单+ 0.055958*比赛+……;

Topic1:0.022327*时装+ 0.012388*风格+ 0.012672*艺术+ 0.005783*气质+ 0.003268*元素 + 0.002304*造型+ ……

由此形成了适用于本系统用户画像模型的语料库。当需要预测用户的兴趣偏好时,可以将该用户浏览的网页内容格式化后作为新文档输入模型,得到主题分布概率,示例如下:

当输入的文档信息为某一篇体育新闻报道时,系统输出结果(部分)如下:

(0, 0.568434238758278281),

(1, 0.044391307824360784),

……

通过示例可以基本确定该文档的主题概率为Topic0,即体育运动类,系统将给该用户打上“运动”兴趣标签。

同时,根据用户在商场驻留时间可以对兴趣属性的标签进行修正。例如某个打有美容标签的用户在化妆品柜台楼层驻留时间长,则可以认为该用户对于美容、化妆内容确实有较高的兴趣,也证明用户标签设置正确。

在完成用户画像的偏好属性标签化后,就能构成一个完整的用户画像标签,为更好地是运营者直观地了解用户画像,本文设计的系统用户画像提供可视化界面,界面显示如下:

图3 用户画像标签集

3) 用户客群聚类

基于上述方法形成的用户画像其属性标签众多,而对于用户画像分析而言需要针对已形成的客户属性标签,进一步对客户进行客群分类。

本文主要使用了k-means聚类算法,其是一种无监督学习模型,可以在不带标签的多维数据集中寻找确定数量的簇。

主要实现思路是将用户画像属性标签向量化后作为输入,即将每个用户均看作是一个n维向量集P={p1,p2,……,pn}。通过k-means算法实现对多维数据集的聚类计算。算法的实现主要使用了python的sklearn库。

在k值的设定上主要根据行业经验将商场客户分为购物类、餐饮聚会、家庭亲子类、休闲娱乐类、闲逛类等五类。因此在这里将参数k值设为5,以此计算得到聚类分组。

最后通过对计算得到的分组数据进行解析,实现对标签属性相似的画像进行归类,形成客群信息,并实现可视化界面[6-7]。

3 用户画像的分析应用

基于用户画像构建和分析的商业智能分析可以用于商场的营销决策,帮助商场更好地了解用户需求,提升服务品质。

例如,针对客户在商铺的停留位置、来访次数、喜爱偏好等判断客户的人物属性,从而发现用户的当前兴趣热点,结合商场自身的商铺或者产品,就可以针对性的给予广告或者优惠提示。如图4所示。

图4 基于用户画像的兴趣热点分析

另外,通过客户群体在商铺的停留位置的热点规律,可以形成客流分布热力图,帮助商场了解哪些商铺位置是热门商铺以及哪些品牌是热门品牌,为商铺租金决策提供依据。另一方面也为集团化运营的商场集团在增设商场时提供了品牌入驻选择的依据。

图5 基于用户画像位置信息的热力图

4 系统验证

本问设计的系统在上线前通过了第三方软件测试,测试使用LoadRunner v9.5工具对系统的访问页面进行并发测试,测试结果如表1所示。

表1 测试结果

通过测试,证明系统在200个并发用户访问页面的场景下能达到平均0.899秒的响应,并且事务成功率能够达到99.976%。

同时,系统经过可靠性测试,测试结果证明系统具备长时间服务能力,测试内容和结果如表2所示。

表2 测试内容和结果

目前用户画像分析系统已在上海地区等35家购物中心投入使用,覆盖全国30家购物中心。系统日均完成5 000人/天的新增用户分析以及50 000人/天的活跃用户分析,成功支撑了包括百联中环、东方商厦、上海环球港在内的50余家商场近百场线上线下活动。

5 结语

本文结合商场提供顾客免费Wi-Fi的业务场景,基于商业智能的WLAN,以用户画像的构建为目的,运用了室内定位技术,通过Wi-Fi指纹和定位算法实现用户位置信息的获取。同时针对用户的浏览信息通过主题发现模型实现用户偏好和消费倾向的标签化,并运用标签的聚类分析形成用户画像,以此形成一套从信息采集、模型构建及数据挖掘分析的用户画像分析系统。

基于用户画像模型的商业智能分析可以帮助商场更清晰地了解用户的兴趣与需求,使商家和会员之间保持紧密沟通,便于向用户提供感兴趣的内容以此来提升广告的关注度,同时也使商场能够更加及时的提供服务,提升会员对品牌的好感度与忠诚度。这不但有助于品牌在会员中开展品牌理念与文化上的传播,在未来也将具有更大的商业价值和应用前景。

猜你喜欢
画像指纹商场
威猛的画像
像侦探一样提取指纹
为什么每个人的指纹都不一样
画像
脏物是如何被带出商场的
画像
唯一的指纹
香港ifc商场 本季好FUN乐
香港ifc商场
可疑的指纹