基于职业社交网络的职业轨迹分析与可视化

2016-12-15 07:39屈弘扬於志文
太原理工大学学报 2016年3期
关键词:轨迹可视化流动

屈弘扬,於志文,胥 皇,郭 斌

(西北工业大学 计算机学院,西安 710072)



基于职业社交网络的职业轨迹分析与可视化

屈弘扬,於志文,胥 皇,郭 斌

(西北工业大学 计算机学院,西安 710072)

通过职业轨迹构建职业轨迹网络,分析了网络的拓扑结构和网络特征,进一步根据轨迹中行业和空间信息对网络核心进行了行业可视化和区域可视化,直观地发现职业轨迹流动方向和特征,得出了职业轨迹变迁规律。分析结果显示,职业轨迹网络是一个稀疏网络,拓扑结构呈现出蝴蝶结结构,流动方向上是以IT公司为核心进行职业流动。

职业轨迹;结构分析;可视化

近年来,社交网络发展迅速,社交网络的类型也同步增长,主要有:基于位置的社交网络,如Foursquare[1];基于活动的社交网络,如豆瓣同城;基于职业的社交网络,如LinkedIn[2].与基于位置、活动的社交网络相比,职业社交网络作为一种更加正式化、商务化的社交网站逐渐引起研究人员的关注。

LinkedIn作为全球最大的职业社交网络,拥有超过3亿6千万的用户,涵盖了22种语言。个人主页包含了用户职业、教育、社交等多方面的内容。公司主页包含了公司介绍、招聘、新闻等内容。这些内容信息为研究职业社交网络提供了大量的数据,成为研究职业社交网络的基础。

通过挖掘分析职业社交网络中的信息,对于分析个人职业发展、人才市场、人力资源等方面有着重要作用。随着全球化程度进一步提升,个人职业发展也从单一区域向多重区域扩展开来,分析个人职业轨迹为个人、公司发展建议提供依据。当前世界的竞争归结于人才的竞争,通过分析职业轨迹,有利于把握人才的流动方向,更好地服务于人力资源管理。

分析挖掘职业社交网络,一个重要方向是分析职业轨迹,即更换工作行为。职业轨迹能够清楚地表示个人、公司甚至行业、区域的发展状况。在人力资源管理、社会学学科方向,THOMAS et al[4]的研究是理论性地整合、扩展更换工作因素。该文研究结果丰富,但是这些结果缺少数据的支撑,需要通过数据进一步说明。目前在其他学科尤其是计算机学科也有对于职业轨迹的研究,YU et al[1]通过研究社交网络挖掘个人与公司在就业市场上潜在的行为和关系,设计工作推荐系统,实现对工作的推荐。YE et al[2]的工作是通过挖掘职业轨迹,对职业相似性进行建模,发现不同个体职业轨迹中相似部分,为职业规划、招聘等提出建议。XU et al[3]的工作通过挖掘LinkedIn和Foursqure两个数据集的联系,预测用户职业变迁的时间。这些工作都是基于LinkedIn数据来完成的,然而,它们都缺少对职业轨迹网络的分析,对于职业轨迹网络的了解缺少直观性。

笔者通过采集处理LinkedIn用户轨迹数据和公司数据,构建职业轨迹网络,并对职业轨迹网络拓扑结构进行特征分析,从稀疏性、度特征、强连通核、蝴蝶结结构等方面分析职业轨迹网路的拓扑属性,根据该网络的特征和公司属性数据,从行业分类和区域分类两个方面对网络核心进行了分析,并对行业进行可视化操作,说明职业轨迹流动的特性。

1 数据采集与处理

1.1 数据采集

LinkedIn作为全球最大的职业社交网络,拥有数以万计的用户和公司信息。其中用户数据信息包含了用户名片、用户背景、职业轨迹以及教育背景;公司信息包含了公司的背景、公司新闻、公司职位招聘信息。本文主要采用用户个人信息、职业轨迹和公司背景信息来构造职业估计网络的数据。

采集数据是通过用户LinkedIn主页,使用Web流采集用户主页的整体页面信息。根据解析职业轨迹部分的页面信息,获得用户职业轨迹中的公司接口,然后再通过Web流获得公司信息的整体页面。通过上述方法,共采集到157 857个用户数据,56 570个公司数据。

1.2 数据处理

数据采集是通过Web流的方式获得整体网页的信息,这些信息含有较多的冗余信息,构建职业轨迹网络,需要用户个人信息、职业轨迹信息、公司背景信息。因此通过解析页面来获得相应的数据信息。

对于用户数据,通过解析相应的页面,分别获得用户的以下数据:用户名、职业轨迹编号、公司名称、就职起始时间、就职终止时间。如表1所示。这些数据构成一条职业轨迹,由于用户在不同公司之间更换工作,同一用户可以有多条职业轨迹。

表1 用户信息

对于公司数据,通过解析公司背景页面,分别获得公司的以下数据:公司接口,公司名称,公司类型,公司所在地,公司所在国家,如表2所示。

表2 公司信息

这两种数据中,虽然数据量较大,但是仍有数据存在数据缺失。根据需要对数据进行过滤,保留信息完整的数据。在后续网络可视化过程中,仍需对数据进行过滤处理。

2 网络构建与特征分析

2.1 网络构建

通过采集处理数据,根据用户的职业轨迹数据来构建职业轨迹网络。但是由于存在部分用户只有一条职业轨迹,或者用户多条职业轨迹在时间上存在重叠,因此在构建网络中选择用户的职业轨迹须满足三个条件:a.用户的职业轨迹至少为两条;b.用户两条职业轨迹在时间上衔接;c.用户两条职业轨迹所在公司不同。

满足上述条件的职业轨迹网络为一个加权有向图。因此使用G=〈Vf,Vt,Eft,Wft,f≠t,Tf≤Tt〉表示职业轨迹网络。其中Vf表示一个公司端点f,Vt表示一个公司端点t,Eft表示从公司f跳槽到公司t,Wft表示边Eft的权重,是从公司f跳槽到t的人次,Tf为在公司f就职结束时间,Tt为在公司t就职开始的时间。

2.2 特征分析

由于职业轨迹网络G是一个宏观的加权有向图,那么它具有有向图的特征。根据汪小帆[6]一书提供的网络分析方法和igraph工具提供的接口,对职业轨迹网络G提取了一些网络特征。这些特征对G有直观的了解,对于职业轨迹网络的跨学科研究也具有一定的解析意义。

2.2.1 宏观描述

对G的宏观性进行描述。G共计1 241 138个节点,1 725 775条边。G是一个稀疏图。其中一条边的权重最大,值为85,两个节点分别为Nokia和Microsoft.边权重最小值为1,共计1 693 374条。边权重小于10,共计1 725 451条边。

2.2.2 度分析

分析G的出度和入度特征。由于G为一个有向图,因此G的度需要分为出度和入度。G中各个节点所有的出度总和与入度总和相同,出度、入度的平均度为1.46.根据入度和出度情况对G中节点进行分布统计。使用“双对数”方法判断入度分布和出度分布是否幂律化,如图1,2所示。从两个图中发现,在度值更大时入度分布比出度分布更符合幂律分布。

图1 入度分布Fig.1 The distribution of in degree

图2 出度分布Fig.2 The distribution of out degree

2.2.3 拓扑结构

分析G中的连通巨片和蝴蝶结结构。根据度值大小升序排列节点,从度值为1开始依次增加,逐步删除节点,计算新的网络的强连通性。当G中最小度为126时,此时新的网络是一个强连通图。上述结果说明G中存在一个连通巨片,也就是存在一个强连通的核。通过分析G中其他节点,存在部分节点不通过该核能够连通。其拓扑结构如图3所示。该结构在文献[5]中被称为蝴蝶结结构,该职业轨迹网络和WWW网络具有相同的拓扑结构。

图3 职业轨迹网络蝴蝶结结构Fig.3 The bow-tie structure of career trajectories metwork

2.2.4 其他特征

通过igraph工具,对G的聚类性、同配性进行特征分析。其聚类系数为0.004,同配系数为-0.01,造成这两个系数值偏低的原因是网络中存在大量的度值较低的节点,这两个特征再次说明G是一个稀疏图。

3 数据可视化

在上一章节构建的职业轨迹网络中存在一个强连通核,为更加直观地了解该核心,需要对该核心进行可视化操作。

在分析职业轨迹网络特征时发现度值较大的节点之间有向线的权重也较大。由于直接提取强连通核较为复杂,因此通过选择权重较大的边和节点来构造新的网络。该网络包含了强连通核心,但是在规模上比职业轨迹网络G小的多。

本文主要通过ECharts工具来实现可视化。根据公司的属性,从行业类型和区域两个方面对数据进行分析,并对行业进行可视化处理。

3.1 行业分析与可视化

在数据处理时,已经提取了公司的类型这一属性,共计38种。根据这些类型的特点,又划分为10个大类。分别为IT、服务、科研、媒体、制造业、管理、健康、金融、娱乐、商业,如表3所示。

根据划分的10种大类,以38种小类别作为节点,绘制行业之间流动的和弦图,如图4所示。其中节点的大小表示该节点流动的频繁性,节点越大表示流动越频繁。

如图4所示,IT行业之间职业流动较频繁,其中计算机软件、IT信息服务、互联网3种类型的公司居于首位,相比于其他行业,IT行业和科研、金融、管理行业之间的流动较频繁。

图4 行业之间流向和弦图Fig.4 The chord diagram of industries

10种大类38种公司类型IT计算机硬件、计算机网络、计算机软件、电子消费、信息技术服务、互联网、通信、微电子服务航空公司、酒店科研高等教育、科研所媒体广告、广播、报纸、在线媒体、媒体制作、出版商、摄影制造业汽车业、航空制造、工业制造管理人力资源、管理咨询健康医院、医疗设施、药物金融会计所、银行、资本市场、金融服务、投行娱乐娱乐公司商业零售、服装、不动产、餐饮、贸易

和弦图表示行业之间的流动性,但是没有方向性。为了弥补这些不足进而绘制了行业之间流动的导向图,如图5所示。图中节点大小表示流动的频繁性,图中流动具有方向性,不同节点之间的距离表示两个节点之间流动的频繁性,节点距离越近,节点之间流动越频繁。

图5 行业之间流向导向图Fig.5 The guide graph of industries

通过图5可以发现,IT行业中出现较大的重叠现象,说明这个行业内部流动性是很频繁的,并且IT行业和科研之间的流动比其他行业之间流动性相比也是很频繁的。

造成这一现象的原因首先是IT行业中的公司数量较多,通过统计抓取的数据发现IT公司占所有公司总数的38.1%,其次是发现IT从业人员的职业变迁频率较高,统计个人职业变迁,IT人员跳槽次数平均为3.65次,而其他行业从业人员只有1.72次。由于图中节点数量较多,部分节点出现重叠或者没有连线的现象。为了更加直观地表现IT行业之间流动的频繁性,因此单独对IT行业进行绘制导向图,如图6所示。

图6 IT行业流向导向图Fig.6 The guide graph of IT

3.2 区域分析

由于部分边权重较低,并且这类边所对应的节点度值也同样较低,这对于分析主要区域职业的变迁造成干扰和影响,因此适当的删除部分权重较低的边和所对应的节点来方便对区域职业流动进行分析。

首先根据公司所在地,对区域之间职业流动情况进行分析。在处理数据过程中,发现大量公司所在地为美国,因此着重研究分析从美国流向其他国家,其他国家流向美国和其他国家之间相互流动三种流动模式。经过统计发现,区域之间职业流动中,这三种模式所占比分别为47%,42%,11%。因此美国成为职业流动的核心区域。

美国是区域跳槽主要的出发地和目的地。造成这一现象是因为在LinkedIn上注册用户和注册公司以美国居多,其中IT、媒体、金融等行业中的众多世界级大公司位于美国,这些公司雇员数量比其他公司在数量级上高出许多。

由于在分析区域之间流动时,只研究一条边的两个公司节点在两个不同国家的情况,而区域内部的流动情况未充分研究,即一条边的两个公司出现在同一国家的情况。由于美国是区域之间职业流动的核心,因此对美国国内的职业流动情况进行统计分析。

通过统计分析发现,美国国内职业流动主要集中于美国大城市,尤其以华盛顿地区、纽约地区、旧金山地区和雷德蒙德地区为核心。87%的职业流动在这4个区域相互流动。经过数据统计发现造成这种现象的主要原因是华盛顿地区为美国的首都,纽约地区则是众多媒体公司、金融公司的所在地,而旧金山地区的硅谷是大量IT行业公司的发源地,微软总部坐落在华盛顿州的雷德蒙德。这一结果从侧面也反映IT行业职业流动较大的特征。因此美国的内部职位流动受公司规模和公司所在地影响较大。

4 结论

本文通过采集职业信息数据,构建职业轨迹网络并对其拓扑结构进行分析,研究该网络的拓扑性质,通过对职业轨迹核心的可视化,更加清晰直观地展示了职业流动情况。本文对于职业轨迹网的分析和可视化工作,对于全面、直观了解该网络有较大帮助。根据本文的工作,下一步工作将着重于研究职业流动模式和用户职业变化行为模式,进而挖掘公司、行业、区域的发展模式。

[1] YU C,XIE Yusheng,CHEN Zhengzhang,et al.Jobminer:a real-time system for mining job-related patterns from social media[C]∥ACM.The 19th ACM SIGKDD:International Conference on Knowledge Discovery and Data Mining,Chicago,USA,2013:1450-1453.

[2] YE XU,LI ZANG,ABHISHEK GUPTA,et al.Modeling professional similarity by mining professional career trajectories[C]∥ACM.The 20th ACM SIGKDD:International Conference on Knowledge Discovery and Data Mining,New York,NY,USA,2014:1945-1954.

[3] XU H,YU Z,XIONG H,et al.Learning career mobility and human activity patterns for job change analysis[C]∥IEEE.The 2015 IEEE International Conference on Data Mining,Atlantic City,NJ,USA.2015:1057-1062.

[4] THOMAS W H NG,KELLY L SORENSEN,LILLIAN T EBY,et al.Determinants of job mobility:A theoretical integration and extension[J].Journal of Occupational and Organizational Psychology,2007,80(3):363-386.

[5] ROBERT M,SEBASTIANO V,OLIVER L,et al.Graph structure in the web-revisited:a trick of the heavy tail[C]∥WWW.The Companion Publication of the 23rd International Conference on World Wide Web Companion.Switzerland:Republic and Canton of Geneva,2014:427-432.

[6] 汪小帆,李翔,陈关荣.网络科学导论[M].北京:高等教育出版社,2012.

(编辑:贾丽红)

The Analysis and Visualization of Career Trajectories Based on Professional Social Network

QU Hongyang,YU Zhiwen,XU Huang,GUO Bin

(SchoolofComputerScience,NorthwesternPolytechnicalUniversity,Xi’an710072,China)

This paper structures a career trajectories network by these trajectories and analyzes the topological structure and network characteristics of the network, then visualizes the network core according to the industry information and spatial information. It can discover the flow direction and characteristics of trajectories visually, and can be conducive to understanding career trajectories change law. The results show that the career trajectories network is a sparse network and the topological structure is of a bowknot shape. IT company is the center of trajectories.

career trajectories;structural analysis;visualization

1007-9432(2016)03-0394-05

2015-05-30

国家重点基础研究发展计划资助项目:城市大数据三元空间协同计算理论与方法(2015CB352400),国家自然科学基金资助项目:移动社交中感知数据收集的机会路由与交互式内容移交(61332005)

屈弘扬(1991-),男,硕士生,主要从事普适计算研究,(E-mail)qhy33966@mailnwpu.edu.cn

於志文(1977-),教授,博士生导师,CCF高级会员(E200008324S),主要从事普适计算和社会感知计算研究,(E-mail)zhiwenyu@nwpu.edu.cn.

TP391

A

10.16355/j.cnki.issn1007-9432tyut.2016.03.022

猜你喜欢
轨迹可视化流动
基于CiteSpace的足三里穴研究可视化分析
思维可视化
轨迹
轨迹
基于CGAL和OpenGL的海底地形三维可视化
流动的光
“融评”:党媒评论的可视化创新
轨迹
进化的轨迹(一)——进化,无尽的适应
为什么海水会流动