基于文本挖掘技术的用户画像设计分析

2022-01-20 13:29张昊

电子制作 2021年24期

张昊

（湖北第二师范学院计算机学院，湖北武汉，430205）

在互联网电子商务经济活动不断发展的过程中，用户画像对于电子商务企业来说价值也在不断增加。电子商务网站涉及领域广泛，不只是追求技术，还要对用户需求进行分析。但是，用户画像研究还处于初级阶段，只要创建完善用户模型，相关互联网商务网站才能够掌握用户实际需求。用户画像要求一定挖掘技术进行保证，以此本文就对文本挖掘技术和用户画像特征进行分析。

1 用户画像和创建

■1.1 用户画像

在设计产品初期，为了实现产品精准营销，企业使用创建用户画像方法，使设计与开发人员能够对用户需求理解。相关研究人员提出以用户为中心设计，其中就包括对用户画像概念的描述。对用户特征识别，实现用户类型的细分，根据用户特征对典型用户进行定义，发现用户使用产品倾向和需求[1]。

■1.2 用户画像创建

用户画像能够理解用户，使用户属性转变为方便计算机存储、规则的可持续数据格式，根据某模型规范化描述客户信息。创建用户画像模型，为了实现数据分析，将用户需求进行挖掘，为用户推荐感兴趣的服务和物品等功能。

1.2.1 用户画像维度

用户画像能够描述用户静态、动态的信息，用户画像模型能够以用户所提供数据使用合理方法规范、精准的描绘用户属性和信息，以描绘的用户信息实现用户分群，用户群内部充分展现明显相似性，各用户群之间具备不同差异性。本文数据都是爬虫和卖家授权数据，使用标签方式实现客户画像建模，也就是通过不同维护为用户设置标签，对客户各维度特征进行描绘，用户画像维度包括：

基础属性：指的是用户基本资料，比如年龄、性别、职业、单身、身高、尺寸、鞋码等；

行为属性：指的是用户偏好和行为，比如产品、类目、品牌、规格等标签和细分人群、购买动机、顾客满意度等；

社交属性：剁手族、夜淘族、吃货族、囤货族、收藏族等；

价值属性：购买频率、购买时间、单次最高交易额、平均每次交易额[2]。

1.2.2 用户画像数据的获取

图1为用户画像的流程，通过图1可以看出来用户画像流程就是闭环。利用淘宝爬取用户的场景和卖家授权用户数据创建数据源，使得到的数据格式化并且分析，比如对用户消费能力、活跃时间分析，得到用户初步分析。之后，使用文本挖掘和规则库结合对用户数据开展深度挖掘处理，得出用户画像。以用户画像开展精准营销，根据用户画像对产品改进和完善。对客户推销，构成闭环，使产品更加完善。

图1 用户画像的流程

利用淘宝中API得到用户购物数据，采集原始数据之后对数据进行清洗，对分析引擎提交清洗之后的数据，并且对原始数据备份。分析引擎分析数据，构成用户基本数据库，包括用户爱好清单、基本数据，通过挖掘模块挖掘，构成客户画像和内容推荐模型并且保存[3]。

用户中的标签根据通过淘宝手机的数据，淘宝数据包括最近半年和半年前的数据。利用淘宝API得到用户数据，比如购买商品ID、用户ID、商品所属子类目、父类目、商品标价等。因为使用语料为短文本，所以分词方法使用字符串词出现概率和字符串左右邻字中信息熵方法实现分词。在分词之后，以指定标签和规则开展分类，用户基础属性利用淘宝api接口和购买行为分析得出[4]。

1.2.3 挖掘文本数据

文本挖掘方法包括语义分析、观点挖掘、聚类分析等，相关研究人员所研发的网页监视工具WebWatcher，能够利用监测用户点击操作行为对用户行为与兴趣进行分析。世界中最大汽车销售站点Auto Trader利用数据挖掘得到用户对于产品喜爱偏好，实现指定服务。我国专家学者表示文本挖掘指的是通过文本数据中得到可用、可理解的知识，并且使用此知识组织信息实现参考。因为用户在平台中具备传播消息、消费信息功能节点，大量后台数据样本能够为数据挖掘提供富余准备条件。

1.2.4 用户属性分析

通过多维度属性创建用户画像，业界针对用户画像属性课题有大量的研究，使用户画像属性维度定义为六种，包括能力、基本、兴趣、行为、心理、社交、兴趣等属性，图2为属性标签分类[5]。

图2 属性标签分类

1.2.5 提取属性

为了得到用户属性，对已经访问的网页评分收集，之后通过其开展机器学习用户画像的创建本身就是用户本身。通过用户自发在网络平台中写下留言是商家和企业得到客户实际需求的主要途径，用户评论具备潜在用户需求与情感信息。得到文本型数据方式比较多，比如web页面数据。首先对html标签处理后开展分词处理，使其转变为结构化文本数据。在文本处理过程中，过滤常用停用词和出现频率比较高的信息价值，之后在文本中将可用分词打标，利用统计得出高频词语片断，并且邀请专家使此分词开展评估赋予权重值，并且将其作为用户属性。因为用户画像要求将用户目标需求和行为作为属性创建原型，所以利用文本挖掘技术通过大量文本抽取潜在用户信息，使其成为用户属性[6]。

1.2.6 聚类分析

为了使用户创建不同组群，相关人员提出了通过属性标签使具备类似思想与共同关注点的用户聚类，并且构成制定社会群体。聚类分析是以事物自身特点实现个体分类的方法，使数据划分为多个外部差异性比较大的群组，但是群组内部具有较高的相似度。目前聚类分析研究领域主要包括模式识别、图像处理与市场分析。K-means算法与模拟c-均值聚类算法为目前使用最为广泛的方法，K-means为硬划分算法，使对象排他地隶为类簇，假如两个类簇重合度较高，那么就无法区分。FCM算法具有完善理论，能够快速处理大数据集，但是其目标函数会局限在极小值中无法得到聚类最优解，基于此问题可以使优化遗传算法和FCM算法结合，使算法性能得到提高[7]，描述为：

（1）初始群体与编码的创建。选择s组作为对象，每组有c个簇，之后根据类内近距离最小，类间距最大原则使N-C个对象在C个簇中划分，从而产生c个聚类；

（2）适应度函数的计算；

（3）执行交叉、选择和变异操作，保留父代和下一代高适应度的个体，从而合成全新的下一代；

（4）假如到设定繁衍代数，结束算法；要不然继续执行第3步骤[8]。

2 用户画像的试验

在用户画像属性聚类分析过程中，模糊聚类理论利用matlab数据处理工具实现属性因子聚类分析，聚类数目设置为3-6个。在项目中与企业沟通，设置聚类类别c=3。利用遗传优化Fcm算法计算得到表1聚类原型矩阵中心表。

表1 聚类原型矩阵中心表

通过适应度函数执行变异、选择、交叉等操作步骤，将适应度高的个体保存构成下一代，图3为适应度曲线结果，通过图3可以看出来平均迭代30次之后开始适应度最佳，100次之后运算终止。

图3 适应度曲线结果

使30个用户样本根据最大隶属度对象分组，每个样本针对聚类原型隶属度和为1，得到聚类树状图，详见图4。通过图4表示，群组内部区具有较高的相似度，群组之间存在差异[9]。

图4 聚类原型树状图

3 结束语

在互联网信息技术不断发展的过程中，大部分电子商务网站也得到了更大的发展空间，在网络交易活动中，设置相关客户的用户画像，能够全面掌握客户信息和需求的主要工具。在规模不断扩大的过程中，对于大量客户系统化管理也会越来越复杂。如何在海量数据中利用文本挖掘技术得到相关客户的信息，用户画像为最合适的路径。