微博的热点数据处理与公众关注分析

2021-06-11 23:59王坤张益民
锦绣·下旬刊 2021年2期
关键词:热门话题方差分析爬虫

王坤 张益民

摘要:文章在使用爬虫获得不同种类的热点数据后,提取了一些关于用户和微博间的一些基本相关数据,并用最新的spss分析软件进行清洗数据和分析软件中的数据,运用单因素方差分析法,比较不同话题分类样本和话题样本对热门微博下的粉丝数、关注数、转发数、评论数、点赞数这些观测值有没有产生显著性影响,从而研究分析出公众对哪方面的热门话题更感兴趣。

关键词:微博;爬虫;方差分析;热门话题

0引言

由于热门话题内容复杂,普通网民往往缺乏对专业性较高问题的判断能力,需要在新浪微博上找到热点话题,抓取热点数据,为人们从海量信息中提取有价值的信息节省时间,正确引导普通网民思考问题的角度和趋势。对于热点研究方面角度不同,方法多样,运用于的领域也不同,本文着重关注某一方面热点数据,自建合理scrapy框架,运用于微博大量的数据爬取,实现数据的获取、查找、整理与分析。[2]

1爬虫系统设计

Scrapy框架用于对微博上的热门数据抓取。当爬虫程序成功登录到微博并获得微博页面后,可以解析HTML脚本并将其提取到所需的数据中。一篇热门微博文章的主要数据包括:用户昵称、用户ID、关注数、粉丝数、微博内容、转发数等。[1]使用爬虫爬取数据的主要流程有以下三步。

1.1微博内容获取

在微博登录方面,我们使用一种简单的方式:抓取微博登录cookie[4],然后使用cookie登录微博。这样就可以浏览某个人的微博内容了,爬取微博正文的代码如下:

#-*-coding:utf-8-*-

fromscrapyimportItem,Field

classTweetsItem(Item):

"""微博信息"""

_id=Field()#微博id

weibo_url=Field()#微博URL

created_at=Field()#微博发表时间

like_num=Field()#点赞数

comment_num=Field()#评论数

content=Field()#微博内容

user_id=Field()#发表该微博用户的id

crawl_time=Field()#抓取时间戳

1.2用户信息获取

抓取登录微博的cookie,使用cookie登录微博后我们可以看到登录用户的个人信息。为了研究热门话题对公众的影响,我们需要确定一个微博用户作为抓取数据的起点,部分代码如下:

classInformationItem(Item):

"""个人信息"""

_id=Field()#用户ID

nick_name=Field()#昵称

gender=Field()#性别

province=Field()#所在省

city=Field()#所在城市

brief_introduction=Field()#简介

birthday=Field()#生日

tweets_num=Field()#微博数

1.3用户关系获取

新浪微博用户之间存在互相关注的情况,为了方便起见,本文只对用户的粉丝进行了爬行,以了解两个用户之间是否存在关注关系。代码如下:

classRelationshipsItem(Item):

"""用户关系,只保留与关注的关系"""

_id=Field()

fan_id=Field()#关注者,即粉丝的id

followed_id=Field()#被关注者的id

crawl_time=Field()#抓取时间戳

微博用户关系数据表共有5列属性,采集到的用户关系信息包括:信息爬取的爬行时间、用户关注对象ID列表、用户粉丝ID列表等。

2数据分析结果与解释

本文把话题分类作为定类数据,关注数、粉丝数、转发数、评论数、点赞数作为定量数据进行方差分析,结果如下[3]:

(1)分类相比较于关注数呈现出0.01水平显著性(F=40.25,P=0.00),以及具体对比差异可知,有着较为明显差异的组别平均值得分对比结果。

(2)分类相比较粉丝数表现出0.01水平显著性(F=26.31,P=0.00),由具体对比差异可以知到,有着比较明显差异的分组平均值得分比较结果。

(3)分类相比较转发数表现出0.01水平显著性(F=8.18,P=0.00),由具体对比差异可以知到,有着较为明显差异的分组平均值得分比较结果。

(4)分类相比较评论数表现出0.01水平显著性(F=6.36,P=0.00),由具体对比差异可以知到,有着较为明显差异的分组平均值得分比較结果。

(5)分类相比较点赞数表现出0.01水平显著性(F=17.91,P=0.00),由具体对比差异可以知到,有着较为明显差异的分组平均值得分比较结果。

总结可知:各种话题样本对于关注数,粉丝数,转发数,评论数,点赞数全部均呈现出显著性差异。为了检验以上分析结果是否准确,本文把话题和话题分类这两个数据指标做成了词云图,通过词云图显示具体哪个话题或者话题分类出现的频率最高[2,5]。通过对微博热门话题关注程度的分析,发现用户在娱乐的同时也应该多去了解下国家正在发生的社会事件。

参考文献

[1]王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(04):224-228.

[2]方洁,龚立群,魏疆.基于利益相关者理论的微博舆情中的用户分类研究[J].情报科学,2014,32(01):18-22.

[3]戴金辉.单因素方差分析中异方差的检验与修正[J].统计与决策,2017(08):23-26.

[4]安子建.基于Scrapy框架的网络爬虫实现与数据抓取分析[D].吉林大学,2017.

[5]刘志明,刘鲁.微博网络舆情中的意见领袖识别及分析[J].系统工程,2011,29(06):8-16.

(辽宁大连东软信息学院 辽宁 大连 116000)

猜你喜欢
热门话题方差分析爬虫
热门话题 一季报惊喜不多
基于Python的网络爬虫和反爬虫技术研究
Python反爬虫设计
基于Scrapy框架的分布式网络爬虫的研究与实现
国产传统影视剧中故事来源刍议
谁抢走了低价机票
高校二手书市场细分研究
应用统计学课堂教学组织实践与探索
金华市大学生幸福感调查研究
“互联网+”时代的出租车资源配置