张浩飞 袁梦宇 胡振坤
摘 要:为更客观、全面地了解目前大学生用户的行为特征情况,本文从特定大学生用户的关注和被关注关系出发爬取新浪微博大学生用户数据并存储,利用xpath库对数据进行解析得到大学生用户的微博地址、微博名称、用户性别、用户所在地、关注和被关注数量、粉丝数量、微博数量等信息,并对这些数据信息进行可视化分析从而得到大学生用户的行为特征。新浪微博作为国内最大、最有价值的移动社交平台,对其大学生用户群体进行研究分析将有助于人们更全面地理解大学生日常网络行为,有利于移动社交平台及时掌握大学生用户的需求,为用户提供更优质的服务,稳定平台客户群。
关键词:移动社交网络 大学生用户 特征分析 数据可视化分析
中图分类号:G252;TP311.56 文献标识码:A文章编号:1674-098X(2021)05(b)-0140-06
Analysis and Empirical Behavioral Characteristics of College Students in Mobile Social Networks
ZHANG Haofei YUAN Mengyu HU Zhenkun
(School of Information and Engineering, Henan Institute of Science and Technology, Xinxiang,
Henan Province, 453003 China)
Abstract: In order to understand the behavior characteristics of college students users more objectively and comprehensively, this paper climbs and stores Sina Weibo university student user data from the concern and concern relationship of specific college students users, uses xpath library to analyze the data to obtain the information of college students' micro-blogging address, MicroBlog name, user gender, user location, number of followers and followers, number of fans, number of MicroBlogs, etc., and makes a visual analysis of the data information to obtain the behavior characteristics of college students. Sina MicroBlog, as the largest and most valuable mobile social platform in China, will help people to understand the daily network behavior of college students more comprehensively, help mobile social platform to grasp the needs of college students in a timely manner, provide users with better service and stabilize the platform customer base.
Key Words: Mobile social network; College users; Feature analysis; Data visualization analysis
随着5G技术的不断发展和成熟,用户使用移动社交网络在线交流的方式发生了巨大的变化,从最初的在线留言、博客、说说等非即时通信形式到现在的实时音频、实时短视频、视频直播、实时地理位置分享等即时通信形式,尤其是青年用户群体更愿意使用简单易操作且节省时间的方式发布自己的动态。在移动社交网络用户群体中大学生用户是其中最为活跃的用户群体之一,他们热衷于向同龄人展示自己的出行、用餐、就医、聚会、购物、学习等方面的动态信息,并从中获取更多的关注和肯定,因此选取移动社交网络中大学生用户作为研究分析对象将有助于平台精准定位用户的需求,有助于高校深入了解用户的网络行为特征。
近年来,微博作为重要的社交平台和信息传播平台迅速融入人们的生活。根据新浪微博在2021年3月18日发布的2020年第四季度及全年财报显示,微博的用户规模、活跃度和收入均实现高速增长。截止四季度末,微博净营收5.134亿美元,同比增长10%,依据去年同期汇率计算同比增长3%。2020年12月的月活跃用户数为5.21亿,较上年同期净增约500万。月活跃用户数中约94%为移动端用户。2020年12月平均日活跃用户数为2.25亿,较上年同期净增约300万[1]。因此,本文以新浪微博为例,从中选取大学生用户样本,分析微博中大学生用户的行为特征。
1 国内外研究现状
随着5G技术的出现和移动社交网络的进一步飞速发展,国内外学者也越来越重视对用户社交行为和信息传播影响力的分析和研究。
早在2009年国外学者就开始对用户的社交网络行为进行研究,当时主要是围绕社交网络中用户之间的互动关系和发帖行为进行研究的,而在2011年后学者则侧重于用户的个人兴趣特征偏好、个人传播的影响力、社交行为预测等方面的研究[2-4]。国内对移动社交网络用户行为研究则是从2010年开始,在2013年进入高峰期。张胜兵等人采用 Log-linear模型来拟合各个用户特征间系数,并基于这些系数对微博用户转发行为形成的内在原因进行分析[5]。彭希羡等人以新浪微博为例,使用计量学方法,对用户特征进行统计分析发现3种类型的用户群体之和占用户总体的85%以上,为微博客用户特性的深入研究提供参考依据[6]。薛飞从通信的角度出发,利用移动通信的信令系统,实时识别捕捉移动用户呼叫记录、上网信息和驻留位置等多种行为特征,通过大数据和社交网络建模等技術,预测用户发展并对用户流失进行提前预警[7]。丁阳通过全面分析知乎用户的各种行为,并设计实现能体现用户行为的影响力评价算法,可以有效识别出知乎数据中行为数据表现较为突出的高影响力用户[8]。于亚新等人基于此,提出用户-时间-活动模型和和用户-时间-区域模型可以深刻理解用户行为规律;同时将服务地点属性内耦合性纳入考虑提出了基于耦合和距离的矩阵分解算法,用于提高用户个性化推荐质量[9]。
在移动社交网络中大学生是一群比较特殊的用户,他们在移动社交网络中的行为特征也具有一定的特殊性,但关于这方面的研究却很少。在早期,张雪分析了大学生群体使用社交网络的行为特征,并且利用机器学习的方法构建出大学生用户分类器,为高校学生教育管理提供支持[10]。张辉等人利用微博中高校标签筛选出大学生用户,分析了在校大学生于社交网络平台上的时间、空间方面的行为模式[11]。随着5G技术的出现和迅速发展,更多大学生用户借助音频、短视频、视频直播、实时位置分享等即时通信方式分享个人动态。大学生用户在移动社交网络中所体现出的特征、表现出的兴趣偏好及个人影响力等方面都发生了巨大的变化,因此本文将继续研究大学生用户在大数据背景下的移动社交特征。
2 微博用户数据采集与预处理
2.1 爬取流程
网络爬虫能够持续爬取大量数据主要是借助网页之间的链接关系,从最初若干个网页开始,获取其中的其他网页链接,并将其组织成一个链队列,然后依次从队列中读取网页链接,并不断从网页中识别新的网页链接入队,直至爬虫满足系统设置的结束条件时结束。本文使用Python开发的爬虫爬取数据的流程可分为6个步骤,如下所示。
(1)设置初始网页链接,从设置网页链接开始爬取。
(2)根据爬取算法,首先爬取对应链接中所有的网页链接,并将链接地址存入链接列表。
(3)通过去重比较操作,去除列表中重复链接;同时在爬取网页链接若发现新的链接,则将其存入链接列表。
(4)依次将去重后的链接列表的网页链接插入到链接队列和数据库中。
(5)从链接队列取出一个链接,转至步骤(2)。
(6)当爬取数量达到设定的阈值时,爬取过程结束。
2.2 数据爬取
本文从河南科技学院信息工程学院计算机科学与技术专业4个年级的本科生中选取18位在新浪微博上的注册用户,且长时间状态是活跃状态的,如经常进行更新微博、“@”或“被@”、参与话题讨论等一些社交行为,将这18位作为大学生种子用户数据集;然后根据大学生用户在微博上的好友关注关系和被关注关系出发,爬取从2021年3月2日—2021年4月13日时间段内的37115个用户及其信息;再根据目标页面url的特点,本文采用“固定地址”+“不同数字码”的方法来获得所有页面的url,并用request库的get方法获得原网页代码;然后利用xpath库解析源代码,并用正则等方法筛选出目标数据信息;最后获得的原始用户数据集,包括:用户id、用户名、用户性别、用户位置、用户所在地区、关注数、粉丝数、微博发文数、第一篇微博发文时间、用户简介、教育信息、用户标签等属性信息。
2.3 数据预处理与存储
对原始用户数据进行预处理,清洗掉其中的噪音数据,主要操作有去除重复的记录、缺失值填充、修复异常值、数据转换和标准化处理等。首先去除用户id字段重复的记录;再去除教育信息字段值为空的记录;然后根据用户发第一篇微博的时间计算用户的博龄,并从中去除博龄值大于3年的用户;接着从省份的角度转换微博用户地址,例如从原数据“北京-朝阳区”“上海-黄浦区”中拆分得到“北京”和“上海”等数据,最后对用户记录中的性别、省份等字段进行规约处理。
将数据进行预处理之后,利用xlrd库和xlutils中的方法将所有数据按行存储到excel表格中,如图1所示。
3 微博大学生用户的识別
3.1 大学生用户识别算法
本文采用文献[12]中的聚类算法识别微博大学生用户。首先根据相似度公式计算种子用户与原始数据集中其他微博用户的初始相似度,若相似度大于等于设置的阈值,则初步认为这些用户是大学生用户,然后再根据识别算法对大学生用户进行聚类,将原始数据集分为n个子集,之后通过不断的聚类分配,直到n个子集的中心不再变化,算法实现的主要步骤如下所示。
Input:微博信息系统WS=,其中U为大学生用户集,分为种子用户集U1和其他用户集U2,A为用户属性集,R为用户关系集,f为映射函数,且相似度阈值为thp。
Output:n个大学生用户簇。
Step1:根据相似度公式计算U1所有大学生用户到U2中任一用户的相似度,若相似度≥thp,则将该用户加入集合U中。
Step2:计算大学生用户集合U中任意两个用户之间的相似度。
Step3:从U中选择相似度最小的两个用户,并将其作为初始聚类中心,记为c1=u1和c2=u2,然后将c1和c2并入初始聚类中心集合C中。此后继续寻找与C中用户相似度小于thp的对象ui,将其加入至C中,直到找不到相似度小于thp的用户为止,由此得到初始聚类中心集合C={c1,c2,…,c|c|}以及簇数n=|c|。
Step4:重新计算用户集U中各个用户到各簇中心的相似度,将用户分配到相似度距离最近的簇中。
Step5:计算由步骤4所生成的所有簇中所有用户与其所在簇的中心的相似度之和J1。
Step6:计算子集中各维度的平均值作为新的簇中心。
Step7:重复步骤4。
Step8:计算新生成簇的相似度之和J2,若J1=J2,则该算法结束,输出n个大学生用户子集;否则转至步骤5。
3.2 大学生用户聚类分析
首先计算选取的18位微博大学生用户记录到原始数据集中其他用户之间的初始相似度,并筛选出thp≥0.6用户记录,共计20601条,记为Dcu;接着以用户的5个属性:性别、关注数、粉丝数、是否认证、微博创建时间作为分类属性,根据上述算法对各个数据集进行初始聚类,生成不同的初始聚类集合分别为Dgr、Dnc、Dnf、Dct、Dye;再使用上述算法对这各个聚类集合进行多次聚类,直至每个聚类集合稳定位置,从中将阈值>0.6的用户记录去除,最终得到16550个用户记录。不同聚类集合的基本情况如表1所示。
4 大学生用户特征分析
4.1 大学生用户性别对比情况分析
根据清洗后的数据集,采用饼图对微博的用户的性别占比情况进行分析,如图2所示。由此可知新浪微博大学生用户中男生占比约为45%,女生占比约为55%,说明在大学生用户群体中处于活跃状态的女生用户数量高于男生用户数量。
4.2 大学生用户地域分布情况
本文采用将我国分为34个省市地区的划分方法,包括23个省、4个直辖市、5个少数民族自治区、2个特别行政区,并以折线图的方式比对分析我国各个地区大学生微博用户数量,如图3所示。
从图3可知在新浪微博中北京地区的大学生用户数量最多,有3526名用户,其次是广东,有2290名用户;再次是上海,有1605名用户。用户数量较少的是西藏、澳门和内蒙古。由此可见大学生用户主要集中在经济发达的一二线城市,合计比例超过5成,而经济发展缓慢的地区用户数量偏少,这说明了微博大学生用户数量和当地的经济发展情况有密切的关系。
4.3 大学生用户拥有不同粉丝段人数的对比分析
由于微博用户数据量庞大,用户与用户之间的粉丝数量差异较大,本文采用直方图分析微博用户粉丝数量情况,根据数据集设定直方图组距为210万,如图4所示。
由图4可知拥有0~210万粉丝的大学生微博用户最多,其次是210~420万的微博用户,整个直方图呈下降的趋势,由此可以推测,粉丝数越大,大学生微博用户数量越少,这与实际情况相符合,拥有庞大粉丝数量的只有少数微博用户。
4.4 对微博用户教育程度的分析
本文只分析教育程度是大学的用户,剔除掉没有填写教育信息的用户或者填写的跟教育无关的信息,从中选出教育程度最为明显的4300条用户记录进行分析,本文采用树形图进行结果展示,如图5所示,所占面积越大,颜色越深,表示受过此教育的微博用户数量越多。
由图5可知教育程度是北京大学的人数最多,有90人;其次是清华大学,有63人;再次是中国传媒大学,有56人。说明微博用户的受教育程度较高,这为营造良好的网络环境提供了一定的基础。
5 结语
本文以新浪微博为例,以河南科技学院大学生种子用户的关注与被关注关系出发,爬取微博大学生用户数据信息作为样本,经过预处理后从性别、地区、粉丝数和受教育程度等方面对微博用户数据进行的特征分析。数据结果表明,从用户的性别角度来看,女生用户数量略高于男生用户数量,说明微博男女生用户数量较为平衡;从地区的角度来看,经济发达地区的省份大学生微博用户更多,而那些经济发展缓慢的地区使用微博的大学生数量较少,说明微博的使用与地区的经济发展情况和高校地域分布情况都有一定的关系;从粉丝数量分布的角度来看,粉丝数量越大,微博用户数量越少,与实际情况相符合,微博大部分用户的粉丝数量较少,拥有庞大粉丝数量的只有少数微博用户;从用户受教育程度角度来看,北京、清华大学、中国传媒大学等名校占居高位,说明微博用户的受教育程度较高,这为营造良好的网络环境提供了一定的基础。
参考文献
[1] 新浪微博.2020年第四季度及全年财报[EB/OL].http://finance.sina.com.cn/stock/usstock/c/2021-03-18/doc-ikkntiam4887520.shtml?source=cj&dv=1&source=hfquote&wm=3049_0005494002016.
[2] Mican Daniel,SitarT?utDanAndrei,Mihu?IoanaSorina. User Behavior on Online Social Networks: Relationships among Social Activities and Satisfaction[J]. Symmetry, 2020, 12(10) : 1656-1656.
[3] Hongxia Wang. Research on User Behavior with Collaborative Recommendation Based on Social Network[J]. Journal of Physics: Conference Series, 2020,1575(1):012133.
[4] XuYongshun,Liu Yuan,Zhang Xiaoshuang. Analysis of social network user behaviour and its influence[J]. Journal of Intelligent & Fuzzy Systems,2020,38(2):1159-1171.
[5] 張胜兵,蔡皖东.用户关系特征对微博转发行为影响分析研究[J].计算机工程与应用,2014,50(11):11-16,20.
[6] 彭希羡,朱庆华,刘璇.微博客用户特征分析及分类研究——以“新浪微博”为例[J].情报科学,2015,33(1):69-75.
[7] 薛飞.基于用户行为特征的移动社交网络分析与应用[J].移动通信,2017,41(23):79-83.
[8] 丁阳.基于用户行为的社交网络用户影响力评价[D].大连:大连海事大学,2019.
[9] 于亚新,刘梦,张宏宇.Twitter社交网络用户行为理解及个性化服务推荐算法研究[J].计算机研究与发展,2020,57(7):1369-1380.
[10] 张雪.微博上大学生用户特征分析与识别研究[D].哈尔滨:哈尔滨工业大学,2014.
[11] 张辉,刘成.基于微博的在校大学生用户行为分析[J].信息安全与通信保密,2016(9):90-96,101.
[12] 王全蕊,张浩飞,袁梦宇.大数据背景下移动社交网络中大学生用户信息泄露的研究分析[J].现代计算机,2020(26):21-26.