钱贝贝 陈志波
摘要:随着大数据时代的到来,互联网技术的快速发展,人们的听歌模式也发生了翻天覆地的变化,音乐数字化给人们的生活带来了便利,在线音乐播放成为主流。听音乐是当代年轻人最常见的解压方式之一,随之而来的在线音乐平台更是层出不穷,其中的网易云音乐最受当代年轻人的青睐。为了让用户更加清晰地了解音乐类型的分布、音乐潮流趋势,文章利用 Python网络爬虫技术,从网易云网站爬取相关数据,对音乐类型、音乐播放数量以及评论等多个角度进行分析,并使用Python可视化库中的Matplotlib对数据进行可视化分析,用图表的形式,从多重角度对音乐进行分析,让用户更加清晰地了解音乐类型的分布、音乐潮流趋势,为用户选择音乐提供一个参考。
关键词:计算机科学与技术; Python;在线音乐;爬虫;可视化
中图分类号:TP312 文献标识码:A
文章编号:1009-3044(2022)08-0006-03
1 引言
随着移动互联网迅猛发展、数字音乐的兴起,人们听音乐的方式转变为在线音乐,导致在线音乐的需求不断在增加,各大音乐网站上也有了海量的用户群体[1]。成长在移动互联网环境下年轻一代,越发依赖在线音乐。QQ音乐、酷我音乐、网易云音乐等是国内现有的几大主流音乐平台。其中网易云音乐登顶音乐类App用户的榜首。网易云音乐最初的目标是建立一个音乐社交网络,就不同操作系统客户端上线效率而言,网易云音乐侧重于小众圈子,提高了对小众人群的关注,而小众人群有比较大的概率形成社群,经过这种网络关系来提升品牌价值。根据易观分析发布的《2021中国在线用户洞察报告》中的数据显示,相比酷我音乐、酷狗音乐和QQ音乐等,网易云音樂是年轻用户占比最大的平台,35岁以下的用户约占80%。如图1所示,根据《2020年网易云音乐销售手册》显示:网易云的用户中,以学生及白领、15~35岁、高学历、一二线城市、可支配收入高的群体为主,听歌的人群更加年轻化。因此对网易云音乐进行数据可视化分析,有利于提高用户的音乐体验,即用户可以根据自己的喜好,选择自己对应音乐标签的听音乐,也有利于更加直观地剖析音乐数据,辅助音乐公司做出决策。
2 相关技术
2.1 网络爬虫技术
网络爬虫也称为“蜘蛛”,它可以在海量的互联网信息爬取需要的信息。简单地说它是模拟人类请求网站的行为,即自动请求网页、抓取数据,然后从中提取有价值的数据[2]。具体步骤如下,首先发送请求获取目标网页,通过分析页面获得网页的源代码。其次,解析页面从网页源代码中提取出本研究所需的数据。该操作为数据的处理以及分析提供便利,因此需要给予高度重视。最后,以适当的格式保存抽取的部分数据。通常以TXT文本、CSV或JSON等格式将数据保存在文本中[3-4]。
2.2 可视化技术
数据可视化是把数据以图形或者表格的形式展示。用图表的方式能清晰地展示数据信息,不仅保证数据直观易分析,而且保证了美感。本文利用Python将数据可视化,可以快速生成各种简单美观的图,例如柱状图、饼状图、折线图、树状图等,其语言简洁、效率高,将数据直观地呈现出来,让人们更加方便地理解数据,从而更好地辅助人们做出决策。其次,Python能将数据爬虫及数据分析集成在一起,便于方便信息的获取及分析,并且基于Python的数据可视化使用起来相对灵活[5-6]。
3 数据的获取及处理过程
首先在网易云网站爬取音乐相关数据,其次对爬取下来的数据进行预处理,即除去残缺、冗余的数据,最后将数据可视化,如图2为数据处理流程。
3.1 数据的获取
数据集来源于网易云网站,登录网易云网站,点击排行榜进入各大榜单,进入开发者工具查看、分析网页的源代码。Python爬虫算法通过调用Requests模块向网页发起请求,请求通过后即可抓取网页的数据,根据网页节点属性使用BeautifulSoup 获取所需要的数据,包括每首音乐的具体介绍都包含在一对 div 中提取出音乐的信息后,根据需要借助库文件 BeautifulSoup 提取出音乐介绍、名称、评论人数等相关信息。Python内置了CSV文件操作函数,然后将数据写入CSV文件实现保存工作。如图3所示为数据爬取流程图。
网易云音乐对数据爬虫的IP有限制,所以通常无法直接获取目标音乐的全部数据,这是由于网易云是一个具有反爬虫功能的网站,此时通过Requests库设置爬虫User-Agent,一般来说第三方库发送请求会有一个默认的User-Agent,如果直接用这个User-Agent,就很容易被禁止,可以弄一个User-Agent池,然后每次访问时都从中随机抽取一个User-Agent[7]。
3.2 数据预处理
通过爬虫得到的数据并不是就可以用,因为有一些关键信息的残缺数据或者重复的数据,所以此时要对这些残缺重复的数据进行处理工作。残缺关键信息的数据通过数据预处理变完整,错误的数据、多余的数据经过处理将其纠正、去除,进而将所需的数据挑选出来,并且进行数据集成。数据清洗、数据集成这些都是常见数据预处理的方法。
本文采取数据清洗将爬取的数据进行处理,数据清洗主要有以下几个步骤,首先去掉重复值,其次删除缺失重要信息的数据项,最后处理空值。比如在同一个歌单下,去掉重复地爬取某几首歌曲;爬取到歌曲信息不全的数据进行删除。通过数据清洗可以使数据保持一致性和完整性。
4 实验过程及分析
4.1 实验平台
本文是在Pycharm中完成,Pycharm是一款配置简单、功能强大的支持多语言的编译器,在使用Python语言开发时其效率很高,提供了如调试、代码跳转、智能提示、Project管理等功能,为项目开发提供了便利。CA3E1CE6-D75E-4DDF-BAF2-9A2417BDDD0D
4.2 实验结果分析
本文数据来源于网易云音乐网站,利用Python爬虫技术获取到音乐数据,并对数据进行处理,最后利用Python可视化工具,将实验结果以更直观的形式呈现出来。如表1和表2所示为部分歌单索引信息表和部分歌单详情表。
那么音乐类型、评分等因素对用户的选择有什么影响呢?首先,从音乐类型的数量分析热门类型,可以发现哪种类型的音乐最符合大众的需求,即所谓的潮流音乐。其次,用户的收藏是一个显性行为,可以直接反映出用户对音乐的满意程度。再次,结合歌单的播放次数,播放的次数越多,说明此歌单最受大众的喜爱。最后,大众的评论数也是可以直接反映音乐的热度。
网易云音乐为迎合不同喜好的用户,设置了许多类型的标签,其中主流10种音乐标签类型有:欧美、流行、电子、说唱、放松、浪漫、摇滚、R&B/Soul、兴奋和影视原声。从图4可以看出:欧美音乐的数量是1306首,是流行类数量占比的两倍多,说明欧美类型音乐最受听众的追捧。从图中可以清晰地看出主流音乐的类型,这个对于音乐制片公司来说,也是一个启发,大部分音乐制片公司都会选择主流的音乐,这样能获取的利益较大。
收藏歌单这个行为充分反映了用戶对歌单的喜好,如图5所示为歌单播放量前十名单,第一名336万的收藏量,是第二名收藏量的4倍多,说明欧美私人定制这个歌单比较受大众的喜欢,在新用户加入网站时,想要选择一些当前比较热门的歌曲,此时,歌单收藏就可以作为一个参考,收藏得越多,说明是当下比较流行的音乐。
用户收听次数从侧面反映用户对音乐的喜爱程度,用户喜欢这首音乐,可能在试听过一次后,会重复收听多次,反之,用户可能在试听过一次就不再收听,如图6为网易云歌单播放Top10,从图上可以清晰地看出当下播放最多的歌单。
评分是用户最直接体现对音乐的喜好程度,也是用户对音乐的接受程度进行的评价和回馈,一方面取决于音乐自身的艺术质量,另一方面则取决于用户本身情感的需求。通过可视化网易云音乐歌单评论,通过用户的评论,音乐网站根据意见和建议,做相应的改进与完善,而且刚刚入驻音乐网站的新用户能够根据评论挑选出自己喜爱的音乐,是新用户听音乐参考的重要指标,也是反映了当时的音乐潮流。如图7为网易云歌单评论Top10图。
综上所述,音乐数据可视化,对于用户选择音乐有一定的参考价值,也能看出欧美音乐还是比较受大众的喜爱,也给国产音乐一定的启发,未来国产音乐创作需要创新,以满足用户在大众文化的时代背景下高速增长的听觉需求。
5 结束语
本文通过Python爬虫技术,在网易云网站上获取数据并对数据进行处理,并利用Python数据可视化工具,将实验数据通过图表的方式呈现出来,通过对网易云网站的音乐数据分析,可以给音乐公司一些决策提示,也可以为用户收听音乐提供重要的参考指标。
参考文献:
[1] 李娜娜.数字化时代的青少年音乐亚文化研究——基于自目的性分析视角[J].中国青年研究,2021(9):47,89-95.
[2] 潘晓英,陈柳,余慧敏,等.主题爬虫技术研究综述[J].计算机应用研究,2020,37(4):961-965,972.
[3] 于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237.
[4] 秦雅琴,马玲玲.网络爬虫技术在交通信息获取中的应用综述[J].武汉理工大学学报(交通科学与工程版),2020,44(3):456-461.
[5] 李晶,黄杰,袁慧,等.大数据环境下网络威胁可视化分析系统设计与实现[J].中南民族大学学报(自然科学版),2022,41(1):79-86.
[6] 贾艳平,翟晋刚.基于Python爬虫技术的游客评论数据可视化分析[J].安阳师范学院学报,2021(5):51-54.
[7] 刘毅.网站反爬取机制的研究与应用[D].北京:北京邮电大学,2017.
【通联编辑:谢媛媛】CA3E1CE6-D75E-4DDF-BAF2-9A2417BDDD0D