基于大数据的校园就业用户画像的构建与应用

2019-09-10 02:38刘艳
现代信息科技 2019年17期
关键词:用户画像大数据

摘  要:随着时代的发展和进步,大数据理念已经逐渐为人们所熟知,并无时无刻不在影响着人们的生活和工作。通过利用大数据能够有效促进校园管理和建设的开展,能够对校园就业情况进行用户画像建设,一方面实现校园就业用户的更好管理,另一方面也能够促进校园就业工作的更好开展。

关键词:大数据;校园就业;用户画像;数据收集

中图分类号:TP311.13;TP391.1     文献标识码:A 文章编号:2096-4706(2019)17-0110-03

Abstract:With the development and progress of the times,the concept of big data has gradually become known to people,and has always been affecting people’s lives and work. The use of big data can effectively promote the development of campus management and construction,and can build user portraits of campus employment. On the one hand,it can achieve better management of campus employment users,on the other hand,it can also promote better development of campus employment work.

Keywords:big data;campus employment;user portrait;data collection

0  引  言

伴随着大数据时代的到来,社交网络与互联网的应用范围处于持续扩大之中。在整个互联网中,社交发挥着重要的基础作用。对于各个重大网站而言,其重要课题之一就是采集用户数据,并对其开展科学推荐工作。在开展个性化推荐工作的过程中,其包括许多步骤,用户画像提取过程发挥着关键作用。

1  画像的定义和用途

1.1  画像的定义

画像与profile为同一概念,均是通过不同的维度,来对一个人进行描述,这些维度可以是事实的,亦可以是抽象的;可以是性别、年龄等自然属性,亦可以为职业、社交特征等社会属性;可以为是否高收入人群、是否有固定资产等财富情况,亦可以为是否已婚、是否有子女等家庭情况;可以是喜欢网购、喜欢逛商场等购物习惯,亦可以是位于在城市生活等位置特征;也可以是其他行为习惯。总而言之,在画像的范围中,将各个大家能够想象到的表达一个人特征的都包括进来,实际上,画像就是利用各种方法,通过数据来对人的特征进行描述。

1.2  画像的用途

(1)能够精确开展相关营销工作,对产品潜在用户进行科学分析。通过短信邮件等形式,针对特定群体,开展相关营销工作。

(2)针对对用户进行相关统计,例如:全国就业高等院校有哪些、中国大学购买书籍人数TOP10等。

(3)进一步挖掘相关数据,建设智能推荐系统,通过关联规则,开展相关计算工作,比如,就业岗位更喜欢什么样的学生。通过聚类算法,开展相关分析工作,了解就业学生的特点以及行业分布状况等。

(4)开展效果评估工作,健全产品运营情况,以此来实现服务质量的提升。换而言之,就是开展市场与用户调研活动,在短时间内对服务群体做出定位,并提供具备较高水平的服务,

(5)针对特殊用户开展私人定制工作,换而言之,对某类群体,甚至每位用户提供个性化服务。

(6)可以科学分析业务经营情况,亦可以合理分析竞争情况,上述分析结果会对企业发展战略的制定与实施,造成一定的影响。

2  大数据的校园就业用户画像的构建和应用

2.1  数据收集

通常情况下,在数据收集方面,可以分为四种类型,即:基本用户数据、就业行为數据、就业行业数据以及未来发展数据。

(1)基本用户数据。其主要内容包括就业学生的姓名、性别、年龄、年级、学习的专业等。

(2)就业行为数据。其主要包含:就业中的表现、就业的情绪、就业过程中的经历、面试的单位、参与面试的心理状态、进入就业市场到成功就业时间等。

(3)就业行业数据。其主要包括:就业的行业、就业的类别、就业岗位、就业之后的薪资待遇、走入工作岗位的心理感受、就业环境等。

(4)未来发展数据。此部分数据主要包括学生就业行业的未来发展趋势、就业岗位的未来发展趋势、自身的就业成长前景等。

这些所收集的数据信息具备一定的不确定性,其准确率不能够达到百分之百,在后台阶段之中,需要开展相关建模工作,并在此基础上,做出相关判断。例如:在性别一栏中,某用户所填写的为“男”,但是利用其他数据,能够有80%的概率判断其性别为“女”。值得注意的是,针对用户行为数据信息,在开展相关储存工作的过程中,应当最大限度地对发生该行为的场景进行存储,这样有助于数据分析工作的顺利开展。

针对这一阶段所收集的数据,应当开展行为建模工作,以此来将用户标签抽象出来。在该阶段中,应当高度关注大概率事件,利用数学算法模型,最大限度地排除用户偶然行为。在这个过程中,也应当通过机器学习,针对用户的行为以及偏好,开展相关猜测工作。

在这个阶段中,为了能够针对用户贴标签,需要运用许多模型,行为建模这一阶段的深入,就是基于大数据校园就业用户画像基本成型,应当从大体上,标签化用户基本属性、购买能力、行为特征、兴趣爱好、心理特征,以及社交网络。其中,其基本属性主要指的是性别、年龄、地域等。这里所指的基本成型,究其缘由就是在对个人进行描述的过程中,用户画像不可能对其进行百分之百的描述,只能够不断贴近实际情况。所以,针对基于大数据的校园就业用户画像,能够依据变化的基础数据,持续开展相关修正工作。与此同时,还能够依据已知数据,对新标签进行抽象,进而提升用户画像的立体性。

针对“标签化”而言,通常情况下,会运用多级标签与多级分类。其中,年龄、性别、地域等基本信息属于第一级标签,消费习惯与用户行为属于第二级标签。在第一级分类中,将人口属性包括进来。在二级分类中,除了基本信息与地理位置之外,还将人口属性等内容包括进来。在地理位置方面,可以划分为工作地址与家庭地址三级分类。

针对基于大数据校园就业用户画像,要想将其真正利用起来,就需要采用数据可视化分析。在该步骤中,相关工作的开展,通常是针对群体分析来进行的。例如:能够依据用户价值,对相关核心用户开展细致划分工作,并对某一群体的潜在价值空间进行相关评估,进而不断提高相关运营工作的针对性,确保运营工作的高效开展。

2.2  常用算法

在对模型设计与数据计算处理方式进行确定的过程中,应当以业务目标与原材料为基础来进行。在面对不同行业与应用情景的情况下,应当利用不同的数据源,开展不同的标签设计和计算工作。

(1)人口属性主要指的是人的基本特征,例如:年龄、性别等;

(2)资产情况主要指的是资产特征,例如:房产、收入、车辆等;

(3)兴趣特征主要指的是兴趣偏好,例如:运动健康、阅读资讯等;

(4)消费特征主要指的是网上消费类别品牌、线下消费类别品牌等;

(5)位置特征主要指的是职住距离、常驻城市等;

(6)设备属性指的是所运用终端的特性等。

要想对上述标签的设计进行计算与支持,离不开多种维度的数据源:

(1)针对产生维度而言,包括线下数据、移动终端数据、PC端数据;

(2)针对数据拥有者而言,包含市场采集数据、外部官方渠道数据以及一方客户自身数据;

(3)针对数据类型而言,包括交易数据、位置数据、运营商数据、社交数据等。

通过这些不同源的数据,在对处理业务所需要的标签进行计算的过程中,通常包括以下步骤:

(1)抽取数据:通过不同数据源,将需要计算标签的数据原材料抽取出来;

(2)数据标准化:清洗所抽取的数据使其成为标准格式,并提出错误与无效数据;

(3)数据打通:数据来源不同,其所具备的主键与属性就有所不同,数据打通的关键就是怎样将这些数据关联起来;

(4)模型设计:在构建模型的过程中,针对不同的数据内容与业务目标,对不同的规则与算法进行设计。

常用算法方面,主要包括线性回归、逻辑回归与多分类逻辑回归。

2.3  重点难点

(1)怎样对画像主体进行定义。在现实世界中,每个人均为一个独立实体。然而,在虚拟世界中,个人可能进行变身,不再是一个独立个体,可以成为多个。例如:每个人的身份ID只有一个,但是可能具备多部手机,这样对应的手机号为多个,设备终端ID为多个,所对应移动终端的使用行为同样为多个。对于这个实体而言,多个终端ID所对应的特征不同,只有拼接起来这个实体,才能够将整体画像体现出来。一个人的QQ号可能为多个,倘若通过QQ行为角度做出相关分析,其所运用的逻辑基本相同,充分表现出终端实体多对一。反而言之,一对多的情形也会存在。例 如:对于一个家庭用的iPad而言,儿童可以通过iPad进行游戏,父亲可以通过iPad来查收有关邮件,母亲可以通过iPad来开展相关购物活动,通过这一个iPad,能够将多个实体的行为特征体现出来,并且很难将其拆分开来。因此,要想对实体进行完整的定义,其所存在的难度系数非常高。这就要求,在相关业务领域中,部分情况下,要追求标签的整体性,要想实现该目标所存在的难度系数非常高,反之,应当不断提高对标签代表性的关注度,不论是在一对多的情况下,还是在多对一的情况下,只要能够利用标签,将所需要寻找的受众群体筛选出来即可。即使是面对家庭共用的iPad,虽然具备相关游戏标签,这能够充分体现出,在该家庭中,其成员具备相关方面的兴趣爱好。

(2)怎样将不同源的数据打通。针对一些不同源的数据,主要包括PC端的行为信息、移动终端的行为信息,以及TV端的行为信息,怎样关联起上述信息内容?在上述问题中,居于核心地位的問题就是怎样打通这些终端的唯一标识ID。在Talking Data的数据体系中,已经完成了ID关联图谱的建设工作。在该ID关联图谱中,TD ID居于核心地位,发挥着至关重要的作用。通过Talking Data的ID-Mapping能力,已经促进了跨设备ID关联映射工作的完成。因此,只需要将一家与Talking Data类似的数据接入,就能够解决不同源ID的打通问题。

3  结  论

伴随着社交网络突飞猛进的发展与进步,媒体类型变得更加丰富多彩,正在持续降低用户参与门槛。用户表达的数据模态变得更加多样化,进而促使用户画像提取空间变得更加宽广。伴随着用户画像数量的持续增长,越来越多的用户开始通过大数据技术,开展高效的存储以及用户画像计算工作。相关人员及院校也需要在大数据掌握基础上做好校园就业用户画像的构建和应用,使校园就业工作得以更好推动。

参考文献:

[1] 袁军.大数据环境下用户画像在高校图书馆的应用研究 [J].图书馆研究与工作,2019(6):22-26.

[2] 汪强兵,章成志.基于手势行为的社交网络用户兴趣画像构建及应用 [J].图书与情报,2019(2):114-119+132.

[3] 刘漫.基于用户画像的高校图书馆阅读推广模式构建 [J].图书馆理论与实践,2019(1):1-8.

[4] 茶利强,余添李,施菡,等.用户画像在企业人才标准构建中的应用 [J].管理观察,2019(6):39-40+47.

[5] 姚远,张蕙,郝群,等.基于本体的用户画像构建方法 [C] //中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会.北京:北京联合大学北京市信息服务工程重点实验室,2018.

作者简介:刘艳(1982-),女,汉族,湖南长沙人,讲师,硕士,研究方向:移动应用、大数据。

猜你喜欢
用户画像大数据
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
移动用户画像构建研究
基于微博的大数据用户画像与精准营销
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
移动互联网下手机用户使用行为特征的研究