基于大数据的用户画像构建方法与运用探究

2022-02-18 04:25
科技创新与应用 2022年9期
关键词:分词样本文本

刘 姜

(贵州电网有限责任公司凯里供电局,贵州 凯里 556000)

从工业角度到计算机角度、从人机交互到智能驾驶、从虚拟实现到物体自动识别、从智能解译到遥感解译,大数据正像水电气一样持续地为人类造福,并且成为信息基础设备不可缺少的一个重要环节。大数据环境之下的智能互联平台,能够把具备海量、异构、多维、多尺度等特性的用户数据从终端聚集到云端并且进行实时监控、解析与管控。同时它是无所不在、具备自我学习能力的终端,能够不断从云端当中吸取很多智慧,如此正向循环,就能够成就“大数据”向“智能数据”的过渡。

1 用户画像的含义

用户肖像是主要基于实际生活中对用户数据的数学建模。主要包含三个含义,使用者肖像的构建需要社会属性、生活习惯、用户消费行为的数据。用户数据的累积就是用户的肖像基础。用户肖像和商业是不可分开的,这样才可以满足商业需求的特定用户肖像。数学的建模,是从当前的用户数据中去挖掘出能够接触到的用户需求,通过数据就能够可视化地显示出有用的信息以及深层的信息。用户画像的本质就是让用户的信息和行为都“可视化”地呈现在企业面前[1]。

2 用户画像构建

结合各种数据源来创设用户肖像的方法主要涉及人文科学研究方向以及计算机数据统计研究方向,其中前者所涉及的数据往往都是来源于业务系统以及相关信息。其主要缺点是肖像画的结构不能更准确更全面。后者的数据源主要依赖移动互联网、物联网、大数据等,可以通过多种渠道获取产品信息、用户社会信息、用户活动信息,构建全面的多维度用户肖像画。由于对数据的完全依赖,肖像画相对缺乏情感倾向,很难获得深刻的用户动力。为了更好地促进产品和用户的关系,获得用户的热情和期望,商业决策领域的专家认为,只有单一的模式和经验是不够的,需要进行组合来提高可靠性。总结出了在人的思维模式的定性以及定量集成方法的理论基础上所创设的知识框架。定量分析通常都是运用机械和定量研究的方法来对分支问题进行剖析,并且创设逻辑模型。定性的研究方法可以运用到解释问题的定义、属性以及与其他领域的关联关系上。整合集成解决方案层,利用整合问题逻辑模型来获取定量结论,利用专门的领域知识来判断解决实际问题的入手点[2]。

2.1 用户属性

用户的肖像需要创建多维属性标记,行业对用户的肖像属性进行了大量相关主题的研究。当前,用户的肖像属性的大小被定义为6类:基本属性、兴趣属性、社会属性、行为习惯、心理属性和能力属性。电子商务采购决策的人群分析提出了将这6种属性细分为主属性和精细的辅助属性标签,辅助属性标签主要是基本信息,而主要属性标签是信息要素。

2.2 文本数据挖掘

文本挖掘的概念首先由罗恩·费尔德曼等提出。在大量的文本和语料库数据中,可以潜在地找到宝贵的定位信息。文本挖掘的主要方法包括分类、聚类、意见挖掘、情感分析、自动关键字搜索、主题发现和聚类、语义分析、自动文档聚合、实体关系模型等。作为卡内基梅隆大学开发的网络监控工具,Web-Watcher可以通过监控用户的点击行为来分析用户的行为和兴趣。AutoTrader是世界上最大的汽车销售网站,它主要就是通过数据上的挖掘来获得用户们对于产品的喜爱进而提供相对的服务。经过专业人士的综合研究发现,文本数据挖掘实质就是利用文本数据来掌握更全面准确的知识,并且利用这些知识来组成信息,从而为后续信息利用创造良好的基础。因为用户在网络平台上十分的活跃,海量用户属于信息平台中拥有传递信息功能的一个基本单位,诸多后台数据样本也可以为数据挖掘技术的运用创造良好的条件[3]。

2.3 提取属性

要获取用户属性、收集访问网页的分数并将其用于机器学习,用户肖像的建立必须基于用户自身。用户们在网络平台上自发地输入消息,它是企业和企业之间去满足客户实际需求的主要途径,在用户们的评论中有很多的潜在用户需求以及情感信息。刘青、郑西和其他专家与学者依据主体去筛选出模型或者情感解析所评论的文章。在情感态度上去分析出产品的主要特征。虽然有多种检索文本数据(如网页数据)的方法,但该数据首先放弃HTML标记,然后对单词进行分段,这样就可以转变为需要的文本数据。在对文本进行加工的时候,需要对无用的、低频率使用的单词进行清楚。随后,在文本中进行分段标记,利用统计的方法来获取高频词片段,并且组织专业人士对这些词分段进行综合分析。因为用户画像往往都是结合用户行为以及目标实际需要来创设原型结构的,所以在将文本挖掘技术加以实际运用的时候,需要从诸多文本中选择潜在用户的信息,将其视作用户属性[4]。

2.4 聚类分析

为了将用户合并到不同的组中,属性标签可以将具有相似想法和共同兴趣的用户聚集在一起,从而形成特定的社交组。集群分析是根据个人独特的特性进行分类的方法,将数据划分为外部差异较大的多个组,但组内的相似性较高。目前,聚类分析的研究领域包括图像处理、模式识别和市场分析等。k均值算法和模糊c均值聚类算法(FCM算法)是使用最广泛的两种方法。k均值是专用于群集的硬分区算法。有两个一致度高的集群时,无法区别K-means。贝尔曼等人为了处理聚类问题,在20世纪60年代提出了模糊集的概念。在模糊聚类分析中,每个样本都属于具有特定成员资格的特定集群。这个分区可以更准确地描述样本的真实分布,因此可以得到更好的聚类结果。虽然FCM算法有能够快速应对大数据集的完美理论,但其目的和功能仅限于最小值,不能形成最为高效的解决方案。针对上述问题,专业人员将完善后的遗传算法与FCM算法进行整合运用,这样就可以有效地促进计算的综合性能的提升。(1)设计期初代码。挑选各个组内涉及到的c群集的对象组,结合相关规定和要求将n.c对象分解为c群集。(2)计算健身函数。(3)进行选择、交叉、突变操作,维护下一代具有高适应性的父母和个人,合成新的下一代。(4)达到集再生代数时,算法结束。否则,请转至上一个步骤[5]。

3 大数据环境下移动用户画像的构建技术

3.1 分布式计算技术

就现如今实际情况来说,移动用户画像创设的主要平台涉及到Spark以及Hadoop。其中Spark通常属于内存计算方法的分布式计算模式,能够切实地提高数据的处理效率和效果,并且也使得整个平台的兼容性和综合性得以提升,为Spark在硬件中发挥出良好的作用起到了积极的推动作用,借助分布式计算方法能够将分布存储的数据实施统一的统计,并且将任务设置到关键节点在短时间内完成计算,也可以将磁盘中的数据统计到内存之中,从而提升计算的效率。其次,Spark还具备高效性、易操控、兼容性强等优越性,在移动用户画像的创设中得到了大范围的运用。Hadoop是由HDFS以及Hive等元素组合而成,但是在实践运用的过程中,HDFS系统所起到的作用是最为巨大的,能够有效地将集群内部涉及到的全部节点文件加以统一存储,这样才可以将其引擎的作用充分发挥出来。

3.2 样本标注技术

移动用户画像的创设所需要运用到的数据样本数量较多,并且牵涉到的内容和种类较多,一般都是将人工标注以及自动标注加以整合运用。其中,自动标注往往都是结合样本的实际情况和特征以及相关关键词来完成标注,诸如:结合行业内的各个重点词语来实施标注。自动标注也可以利用半监督的方法来对样本实施标注,之后针对其余标注的样本进行分类处理。当下,使用最为频繁的自动标注方法为:自动训练法、多视角计算方法以及图论方法等等,人工标注往往就是专业技术人员通过手动的方式来对重点词语进行分类和标注,标注工作整体效果较差,但是具有较强的准确性,能够有效地规避分词不合理的情况发生。其次,在样本标注工作结束之后,还需要实施文本语义理解相关工作[6]。

3.3 机器学习技术

机器学习技术能够十分高效地完成对移动用户的分类,文章主要以移动商务环境中“孕妇标签”为实际实例,针对大数据深度学习建模的整个过程进行详细的阐述。首先,将移动用户在所有品类中所实施的采购行为当做基础模型训练的特征,并且将各个品类进行切实的分类,这样才可以确定与“孕妇标签”相一致的品类,诸如:孕妇套装、孕产品等商品,结合这类采购行为来实施筛选,从而确定出训练的正负样本。诸如:结合移动用户所有品类中的实际购买情况和次数来实施分类,如果与“孕妇标签”相统一的品类购买次数超过了3次,那么孕妇装以及营养品就可以被标记为正样本。如果与孕妇的表现不统一的购买次数超出了3次,那么就将这些样本标记为负样本。通过这样的标记行为,能够有效获取模型训练所需要的特征数据,从而创设出原始网络模型,并且对网络模型是否可以为自我学习给予帮助进行判断。因为“孕妇标签”往往对时间有较强的敏感性,在创设网络模型的时候还需要对时间维度的影响加以综合考虑。

4 分析与运用

将国内手机年轻用户相机拍照的行为当做项目的研究背景,选择年龄在18-25周岁的年轻用户手机拍照的要求来作为研究对象,创设相关用户画像结构。定量分析线上数据都来自于开放的数据平台,线下样本都是从一些经济较为发达的城市进行挑选,并且会对各个地区用户的生活习惯以及风土人文加以综合考虑。

4.1 评论数据收集与分析

GooSeeker爬虫工具实质就是一种将网页抓取、数据抽取和页面信息提取加以整合的一种先进的工具包,其在实践运用中具有较强的灵活性和实用性,其能够自行产生指令文件,针对指定的网页URL和HTML内元素实施定期提取,这样就可以从中获取需要的信息,并且将文件中有需要的文本数据进行打包输出。所以在选择运用这一软件包当做抓取评论数据的工具时,为了获取年轻用户的相关评论数据,挑选从2015-2017年两年时间内中国年轻用户摄影社交活跃度较高的平台的评论网页,借助专业的工具实施信息的采集工作,将获取的信息利用表格的形式进行存储,但是因为部分信息输出格式为XML文件,所以无法在实践中加以直接的利用,还需要使用专门的Swift软件将其转变为需要的文件格式。因为将爬虫技术加以实践运用的时候,数据中往往会涉及到一些无效评论数据,如果不能将这些数据进行清除,那么必然会对后续的模型分析工作造成诸多的影响,在将爬山虎采集器的筛选功能加以实践运用的时候筛选的条件为:首先,评论内容与拍照的主题二者并不存在任何的关联。其次,形式重复的文案以及辨识度较高的广告内容,在经过专门的处理之后会产生大量的有效样本评论数据。借助天据英眼工具利用机器学习的模式来对导入有效评论数据进行自行分词,这个工具中设置了HowNet情感词典能够为自然语言实施高效处理,将日常中使用较为频繁的词,但是使用价值较差的词语进行筛选,并且这些工具拥有一定的分词标记的功能,能够将高频分词进行统计,并且将其当做文本词语库。所以将预处理过的有效评论当做文档,通过达标的分词获取文本词语库当做基础,利用专用语言编程将其转变为分词。因为机器处理最终获得的部分主题分词的词意往往无法满足用户的实际需要,所以还应当对所有的分词进行二次筛选,并且安排专业人士将所有的主题分词进行综合评估,判断分词所具有的权重值,通过上述工作最终选择权重值较为靠前的部分分词作为需求属性词。

4.2 用户属性量表

针对文本数据进行深入的分析,并且对其中涉及到的高频需求属性词加以判断,这样就可以将所有用户的需求属性当做用户画像属性,并且将这些信息进行标签处理,为创设用户画像提供需要的信息和维度条件。5W2H法是在情境分析法(Scenario Analysis)的基础上演变而来的一种新型方法,利用概括影响因素的方法来创设出产品的框架。借助5W2H法对用户属性量表来实施设计,量表可以划分为2个部分,首先是将拍照的过程划分为10个功能场景,对于用户拍照的整个过程进行详细记录,并且也能够对所有场景的使用频率进行记录。第二部分主要涉及到5个影响因素。可以对用户深层次的拍照需求和动机判断,涉及拍摄的动机、拍摄的对象、拍摄的时间空间等等。结合主题词的种类划分,针对所有的影响因素挑选出5个词频排列较为靠前的需求属性词当做属性因子。

5 结束语

文章主要以大数据挖掘以及模糊聚类的方式为基础,解析我国的年轻用户在拍照时的行为属性具体特征。以5W2H的方式功能以及文本挖掘去获得相关的需求属性语言为基础,在拍照的过程中设定与用户相关的属性尺度之后,从主观以及客观两个方面对用户的定量价值数据加以获取,将优化的FCM算法运用到聚类用户属性的原始形态之中,这样就可以协助代表用户以及相关产品的肖像创建更多的帮助。在和传统的用户研究方式进行对比,前者的效果更加完美,适合在实践中大范围加以运用。

数据分析的用户调查方法更加客观,相关的用户属性可以通过多个渠道获得。另一方面,由于是大型数据库,提高了用户属性的可靠性,同时避免了用户属性主观定义的因素过多而影响到属性的准确性判断。基于此,用户肖像的建立有助于促进产品开发效率的提高。本文主要从用户属性的定量提取和属性尺寸的聚类角度研究用户肖像画的施工方法,但由于没有全面研究将属性尺寸转换为立式需求设计的方法,因此跟进工作需要进一步研究。

猜你喜欢
分词样本文本
文本联读学概括 细致观察促写作
用样本估计总体复习点拨
分词在英语教学中的妙用
作为“文本链”的元电影
在808DA上文本显示的改善
结巴分词在词云中的应用
结巴分词在词云中的应用
基于doc2vec和TF-IDF的相似文本识别
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计