王雪
摘 要:观看电影是现代人在繁忙的工作学习之余放松身心、获得精神安慰的重要休闲方式,然而现在国内外影片繁多且质量参差不齐,各类影评网站对影片的评价也比较分散,获取集中的信息难度较大。由此,本文进行了基于爬虫技术的电影评论信息获取及可视化设计,将电影影评等数据信息采集、分析与挖掘、可视化等功能集于一体,帮助电影观众汇总了解电影评论信息。
关键词:网络爬虫;可视化设计;电影评论
中图分类号:TP391.3 文献标识码:A 文章编号:1003-5168(2021)18-0014-03
Abstract: Watching movies is an important leisure way for modern people to relax their body and mind and obtain spiritual comfort after busy work and study. However, there are many films at home and abroad and their quality is uneven. The evaluation of films by various film review websites is also scattered, so it is difficult to obtain centralized information. Therefore, this paper carried out the film review information acquisition and visualization design based on crawler technology, which integrates the functions of data information collection, analysis and mining, visualization and so on, so as to help the film audience summarize and understand the film review information.
Keywords: web crawler;visual design;film review
在互联网与多媒体技术结合的初期,视频网站类型和数量比较少,而且各类多媒体信息的数据总量也不大,互联网用户在寻找特定需求信息时相对较容易,花费时间也较少。而随着互联网技术在全球的迅速普及,各类网站在短期内纷纷涌现,互联网用户要想快速、准确地搜寻到所需要的数据或内容变得越来越困难,花费的时间也越来越多。为此,各类搜索网站以及搜索引擎便产生、发展壮大起来。网络爬虫是搜索引擎的核心,例如,国内的百度搜索,其爬虫名称为百度蜘蛛,它每时每刻都会在大量的互联网信息和内容中不间断地进行爬取操作,获取并记录有用的信息和内容,对互联网用户的关键词进行分析、处理,从已经爬取并记录的信息内容中找出用户所需信息所在的网页,并按照某种排序规则排名,然后将相关信息结果推送给用户[1-2]。
网络爬虫技术作为搜索引擎最重要的技术组成部分之一,已成为当前网络技术研究的焦点和热点。网络爬虫技术可以分为通用爬蟲技术和聚焦爬虫技术两类。其中,通用爬虫技术主要用来提供基于关键词的搜索或检索服务;聚焦爬虫技术主要用于搜集、下载网页信息内容,其会依据提前设定的内容来抓取信息,更加具有针对性,它并不追求覆盖率,而是使特定用户因特定目的获取某类特定的数据资源。
1 网络爬虫架构
网络爬虫架构主要由三部分构成:网络爬虫调度端、网络爬虫主程序、目标数据。其中,网络爬虫调度端主要负责启动网络爬虫主程序,启动整个爬虫的工作状态;网络爬虫主程序主要负责调用URL管理器、网页下载器和网页解析器;目标数据主要负责抓取并解析有价值的信息。
网络爬虫主程序主要由三部分构成:URL管理器、网页下载器、网页解析器。URL管理器的主要功能是管理、存储URL,包括已经爬取过信息的URL和待爬取信息的URL,目的是防止出现重复爬取或漏爬取的问题;网页下载器的主要功能是连接URL地址,将相关信息下载保存到本地电脑中;网页解析器的主要功能是将已经获取并下载存储的信息中有价值的内容进行解析,得到更加直观的信息。网络爬虫架构见图1。
网络爬虫架构及爬取信息的流程主要是依靠爬虫调度端调用爬虫主程序来获取特定的目标数据。首先,调度器调用URL管理器,询问是否存在待爬取的URL,若询问返回的结果是肯定的,则调度器从URL管理器提取排序第一个的待爬取URL地址,并利用下载器通过URL地址下载特定信息,然后将获取到的信息内容发送给解析器,以便于解析可能存在的有用数据信息或得到新的URL,最后调度器将获取到的有用数据信息发给应用程序,并将新得到的URL新增到URL管理器。重复执行上述流程。
调度器调用URL管理器的流程是:调度器调用URL管理器,可以从一个URL开始,也可以从多个URL开始,将这些URL存储在“待爬取”的URL队列中,并按照设定的排序从队列中提取出URL地址,然后将URL地址发送给网页下载器,其执行下载信息内容的操作,调度器收到下载的信息内容后,再将相关内容发送给网页解析器,爬取用户所需要的内容信息。在整个爬取过程中,还会遇到可能已经爬取过信息内容的URL,这时需要在已经爬取过信息内容的URL队列中比对,如果确认是没有爬取过的信息内容,则作为新的URL进行处理,把该URL放到URL队列末尾的位置。整个过程是循环执行的,直到待爬取的URL队列全部为空时,才能停止爬取,并下载已爬取的信息内容。
2 功能模块设计
2.1 设计流程
本文基于爬虫技术的电影评论信息获取及可视化设计流程如图2所示。
本文的电影评论信息获取及可视化设计的主要用户群体为:想深入了解某部电影、决定值不值得看并且可以在线观看的用户。设计的主要功能是:全面有效地采集电影相关信息、对采集的信息进行处理、将信息进行解析并直观地展示。采集的电影数据主要有三类:电影基本信息、影评文本信息、电影评价分布。本研究主要采集的数据源是豆瓣电影,实现采集数据源的预处理,把数据分析结果在文件中直观地展现出来。
2.2 电影信息采集模块
电影信息采集模块的主要功能是采集电影相关数据信息,然后对已采集到的数据信息进行清洗处理。豆瓣电影网站是一个没有视频版权的网站,它可以為用户提供电影评论、交流的平台,而且与其他视频网站相比,豆瓣电影网站在电影评论和交流信息方面具有较好的区分度。为此,本文以豆瓣电影网站为数据来源,采集的数据信息源均来自豆瓣电影网站[3-5]。
网络爬虫爬取的信息主要有两类:第一,电影的基本内容,例如,电影名称、语言类别、导演姓名、演员姓名、评分信息等。这类电影信息可以用作电影详细信息页面的展示。第二,影片的网络地址,可以作为影片及信息的特征标识项来构造采集相关电影评论信息的URL。
本文选择《丛林奇航》作为示例,电影采集的字段包括电影名称、基本信息、评分信息、电影简介、影评信息,如图3所示。打开网页后,找到该影片的评论页面,建议使用的浏览器是“Chrome浏览器”,使用开发者工具,用于查看网页的源代码。通过查看网页的源代码可以发现,包含电影名字的结点为span property="v:itemreviewed",导演、编剧、主演、类型、制片等信息均位于节点class="pl",豆瓣评分位于节点class="ll rating_num",影片简介位于节点property="v:summary",影评信息(短评)位于节点class="short",影评信息(完整评论)位于节点class="full"。
网络爬虫可以根据用户提前设定的爬取条件,拼接成目标URL并进行访问。一般来说,爬取的信息数据是不能直接使用的,需要用户结合浏览器工具对HTML源代码进行分析和判断,然后通过解析库来拆解得到需要的特定信息。
另外,豆瓣网站虽然对网络爬虫较为友好,但仍有反爬虫机制。如果没有进行延迟的设置,同时发起大量访问请求,可能会被拒绝访问。此外,如果没有登录豆瓣,只能访问前10页的影片。因此,发起爬取数据的HTTP请求需要带上已注册会员账号的cookie。
2.3 数据可视化处理
获取电影评论信息后,可以通过利用可视化软件生成词云图,或者利用其他可视化方法更加直观清晰地表达出给定电影的影评信息图。
豆瓣电影网站用户数量非常庞大,且拥有非常丰富的影评信息。如果潜在的观影用户希望获取某特定电影的各类信息,特别是关于电影的评论信息,其需要打开豆瓣电影网站页面,找到相关电影,然后再逐条查看关于电影的各种评论信息,最后还需要对各类评论信息进行归纳汇总后形成一个更加直观的关于电影情况的印象,从而做出最后判断,即是否是自己喜欢的电影,是否愿意付费观看电影。整个过程非常复杂,而且对潜在观影用户的要求较高,且会花费用户较多的时间来完成整个过程,这显然与用户想通过观影来放松心情、获取感官享受的目的相悖。因此,通过技术手段采集、汇总观影评论信息,以直观的方式推送给用户就非常有必要。
本文首先介绍了网络爬虫的进展情况,然后讨论了网络爬虫架构,最后介绍了实现功能模块设计、采集电影信息功能模块设计、数据可视化处理等内容,以期为用户了解网络爬虫机制、实现简单的功能提供一定的参考。
参考文献:
[1]郭二强,李博.大数据环境下基于Python的网络爬虫技术[J].计算机产品与流通,2017(12):82.
[2]董博,李羽中,刘学敏,等.基于爬虫的数据监控系统[J].计算机系统应用,2017(10):53-56.
[3]周昆,王钊,于碧辉.基于语义相关度主题爬虫的语料采集方法[J].计算机系统应用,2019(5):190-195.
[4]林椹尠,袁柱,李小平.一种主题自适应聚焦爬虫方法[J].计算机应用与软件,2019(5):316-321.
[5]萧婧婕,陈志云.基于灰狼算法的主题爬虫[J].计算机科学,2018(增刊2):146-148.