陈雅婷 段华斌 李娅菲 宋均
摘 要:随着有声读物市场迅猛发展,各类有声读物内容呈现百花齐放的姿态,越来越多的人开始利用碎片化的时间阅读。本文基于Python针对喜马拉雅有声读物各类型读物播放量、粉丝数等进行了可视化分析。
关键词:python;scrapy;数据分析;可视化
由于我国有声读物的市场规模迅速发展,各类有声读物层出不穷,有声读物的内容边界逐渐扩大,不断满足各类用户的需求,但是目前对于有声读物的类型、阅读人群等缺少专业的数据分析,本文主要研究有声读物的数据分析以及可视化的方法,基于Python的Scrapy框架,实现了有声读物数据的可视化分析。使人们直观的了解现阶段有声读物在我国的发展情况,人们喜爱的有声读物是哪些,有声读物的作者可以投其所好创造出更多更优秀的作品。
1 研究设计
1.1 数据来源
本文的数据来源于喜马拉雅FM2020年1月至6月的有声读物数据,含作品信息、作者信息等相关数据,将有声读物数据进行格式转换,转换成易处理的格式化数据并储存至MySQL数据库中进行可视化分析。本文使用到的数据有有声读物类型、有声读物标题、有声读物标签、有声读物播放量、有声读物作者姓名、有声读物作者粉丝数。
1.2 研究方法
本论文基于Python的Scrapy爬虫框架结合Docker、Splash、xpath、MySQL等技术结合实现对于有声读物的数据分析及可视化。
1.3 框架设计
系统框架设计主要分为三部分:网页数据爬取模块,数据处理模块,数据存储模块,如图1所示。网页数据爬取模块中Scrapy引擎通过控制调度器、下载器和Spiders各部分相互配合爬取数据。然后,通过Spiders中Xpath完成数据清洗,将后期要处理的数据转化为Item类的属性交给数据处理模块。最后,数据存储模块将爬取到的数据格式化并储存至MySQL数据库中,以csv格式导出。
1.4 数据处理
本文将采集到的数据分为作品信息与作者信息两类,使用的数据集与数据结构如表1所示。从数据库中以csv格式导出爬取到的数据,通过数据清洗来处理数据中的臟数据、异常值、缺失数据。数据清洗工作在爬虫框架爬取数据之时中已同步完成。在Jupiter中将转换好的数据从csv文件中读取,给这些数据加上类型标记,这些标记是根据数据的自身属性来进行划分的,将这些数据合并为一个DataFrame。最后DataFrame将数据依类型分组按照播放量之和进行降序排序,将数据依类型分组按照粉丝数之和进行降序排序,将数据依作者分组按照播放量之和进行降序排序,将数据依作者分组按照粉丝数之和进行降序排序。
1.5 任务抽象
针对采集到的数据,根据数据的特征提出了下列可视化任务:
任务1:分析有声读物各类型中热门的标题。
任务2:分析有声读物中受欢迎的类型。
任务3:分析有声读物中受欢迎的作者。
任务4:分析有声读物各类型中热门的标签。
2 数据可视化分析结果
2.1 播放量分析
2.1.1 总体播放量分析
总体数据按各类型播放量进行排序如图2所示,有声书、人文、儿童占据前三,可见喜爱书籍、人文文化的民众很多,同时儿童类型的受欢迎程度也反映出中国家长们对孩子在儿童时期的重视。从总体数据将作者按照播放量进行排序,有声的紫金、采采、超级制作三位的作品是播放量最多的有声读物创作者。
从总体的播放量分析,将有声读物标题作为对象按照播放量绘制词云图如图3所示,最受欢迎的作品一目了然。很容易找出在有声读物中独占鳌头的是《段子来了》,《摸金天师》和《晚安妈妈睡前故事》的受欢迎程度紧随其后。
2.1.2各类型播放量分析
各类型的标题按照播放量进行了词云图和柱状图分析。从有声书词云分布(图4)来看,南京1937、平“语”近人、百家讲坛、党史故事100讲等有声作品播放量最大。人文类的词云如图5所示,人文作品百花齐放,其中《古今女子图鉴》为大家诠释古今的女子而广受欢迎,每个人都有个武侠梦,《金庸笔下的情爱江湖》倍受追捧。
除此之外,我国家长们对儿童阅读越来越重视。儿童类词云图如图6所示。家长们对孩子的开始阅读年龄也是逐渐的在降低,胎教普遍流行,睡前故事、童话故事、儿童文学对于有儿童的家长们来说非常受欢迎。
2.2 粉丝量分析
总体数据将各类型按照粉丝量进行排序如图7所示,找出最受欢迎的前三类依次是相声、人文、有声书,儿童类紧随其后。总体数据将作者按照粉丝量进行排序如图8所示,无独有偶“德云社郭德纲”是最受欢迎的创作者。结合之前按照播放量排序的结果,可以得出相声、人文、有声书、儿童这四类从各方面来看无疑是最受欢迎的类型。
3 结语
针对有声读物的类型和阅读人群等缺少专业数据统计、分析,不利于有声读物网站或行业的运营。本文通过搭建基于Python的Scrapy爬虫框架结合了多种工具及Python库,从网络爬取数据,再进行数据清洗处理,使用词云图和柱状图将数据可视化。使人们更直观的了解现阶段有声读物在我国的发展情况,人们喜爱的有声读物是哪些。通过数据分析帮助有声读物平台及创作者能够创造出更优秀的作品,赢得听众们的喜爱,增加市场价值。
参考文献:
[1]陆树芬.基于Python对网络爬虫系统的设计与实现[J].电脑编程技巧与维护, 2019(02):26-27+51.
[2]何远宏.基于Python语言的Web数据挖掘研究[J].计算机产品与流通, 2019(01):112.
[3]罗咪.基于Python的新浪微博用户数据获取技术[J].电子世界, 2018(05):138-139.
基金项目:国家级大学生创新创业训练计划项目(201910551031)
作者简介:陈雅婷(2002— ),女,湖南株洲人,本科在读,研究方向:大数据应用;李娅菲(1984— ),女,湖南永州人,硕士,实验师,研究方向:人工智能;宋均(1999— ),男,湖南溆浦人,本科在读,研究方向:网络安全及应用。
*通讯作者:段华斌(1981— ),女,湖北荆门人,硕士,讲师,研究方向:大数据应用研究,网络安全。