郑聪
摘 要:随着“互联网+”的迅猛发展和移动互联网的大范围普及,大众的旅游行为越来越依赖于网络平台,而随之产生的海量舆情数据也成了评价各种旅游要素的重要指标。但因为其数据量大、信息复杂,在进行旅游满意度统计时很难将其进行有效的统计分析,从而造成资源浪费。文章从爬虫入手,分析现阶段网络舆情监控体系核心技术要求,根据其技术要点,提出一种旅游满意度网络舆情调查解决方案,进行系统构建及采集策略规划,实现旅游满意度网络舆情数据的采集和分析,并对其可行性进行实验验证。
关键词:爬虫;旅游满意度;网络舆情
1 现状
“互联网+”的概念提出之后,许多行业都发生了翻天覆地的变革[1]。旅游行业也是如此,网络因素在旅游要素中的占比越来越大,几乎成为必备。而在移动互联网发展迅猛、新媒体技术频出的当下,旅游网络舆情数据也变得越来越立体和生动,内容载体从单一的文本形式扩展到图片、地理位置、短视频、直播、弹幕等,平台载体有携程、去哪儿、飞猪、美团旅游、蚂蜂窝等。对其产生的大量数据进行有效的搜集和分析,可以准确和全面地反映出旅游产业方方面面的问题,这一做法已经被旅游行业、学者和政府所认可[2-4]。但是就目前实际操作情况来看,主要存在两个问题,一是数据的不公开阻碍数据获取;二是传统的旅游满意度调查手段在如此巨大的数据面前显得力不从心。针对这两个问题,本文提出使用爬虫技术辅助旅游满意度网络舆情调查,并根据理论研究实现对某一特定旅游平台的舆情数据进行采集和分析的系统原型。
2 爬虫核心技术
爬虫(Crawler)或者网络爬虫(Web Crawler)又叫作网络蜘蛛(Web Spider)、网络蚂蚁(Web Ant)、自动索引器(Automatic Indexer)、网络疾走(Web Scutter)等[5],通過访问特定的一组URL(统一资源定位符)来获取里面的超文本标记语言(Hyper Text Markup Language,HTML)信息,HTML中包含的新URL将会重新进入待抓取程序,成为新的访问对象,通过这种方式达到对特定站点、系统以至整个互联网进行爬取,搜索引擎背后就是有强大的爬虫系统支撑,才能获取检索整个互联网的能力。一个常规爬虫主要包含网页地址访问、列表页分页采集、HTML标签解析、内容页分页采集、查重与查新等技术。
2.1 网页地址访问
网页地址访问是爬虫通过模拟浏览器访问行为,通过GET和POST等访问方式向目标URL发起HTTP访问,然后获取服务器所返回的HTML文档。被访问的网页可分为首页面、列表页、内容页3种类型,这是爬虫最基础的技术要点,后续所有的操作都跟首页面地址有关,因此,该起始地址的选择很重要,一个好的首页面可以为后续的爬取提供充裕的资源。
2.2 列表页分页采集
列表页分页采集指对于有分页存在的页面需要将其分页地址进行解析和重组,以循环访问的方式加入到爬虫任务列表中,通过对分页页面的循环访问达到爬取该分类信息下所有资源的目的。移动互联的崛起也让信息分页显示发生了重大变革,诞生了瀑布流的展现形式,但是背后的核心要点与分页相似,也可以通过循环分页地址形式爬取数据。
2.3 HTML标签解析
HTML标签解析是要对获取的HTML文档进行分析和有效信息抓取,HTML文档为描述性结构,通过标签、ID、Class等信息对内容进行限定,如“
段落1”这一行代码描述的就是ID为001、采用c001样式表、HTML标签为p的一个段落,段落内容为“段落1”,其中“段落1”就是要抓取的有效数据,而其余的则为抓取条件,通过这些限制条件可以唯一定位到该有效数据。
2.4 内容页分页采集
内容页分页采集与列表页分页采集相类似,当内容页内容过多会产生分页,也有可能是瀑布流的形式,需要对其采用分页采集技术爬取全部内容。
2.5 查重与查新
查重与查新是大型、持久性爬虫必不可少的一个功能,通过记录访问过的URL地址可以在进行新的访问时进行过滤操作,对已经爬取的地址进行时间戳标记,然后再将其与在库的数据进行对比,如果有更新则入库,如果没有更新则丢弃,以此来减少冗余和噪声数据。
3 关键系统构建
依据上文对爬虫核心技术的分析研究,网络爬虫在旅游满意度网络舆情调查中的系统构建应用,首先应对平台进行分类和对应策略研究,其次是针对平台数据特点构建分页策略和HTML标签解析策略,最后是内容查重、查新、分析以及导出。
3.1 平台分类及数据获取策略构建
旅游类平台产品经过多年的发展大致分为工具类和社交类,工具类平台有携程、去哪儿、飞猪、美团旅游等,主要以交通、住宿、景点门票等产品的销售为主,辅助以产品评论功能;社交类平台有蚂蜂窝、蝉游记等,主要以游记、线路规划、自由行记录等为主,在此功能基础上添加商品预定与购买功能。随着移动互联网的快速发展,两种平台逐渐有融合趋势,但是其带动点还是有很大区别。
对于工具类平台,在选择入口网址时应该首先确定调查对象,比如目前要对XXX景点进行网络舆情满意度调查,那么就将该景区的产品售卖页面作为入口URL,通过分析全文链接,获取有价值的二级页面数据如产品销售数据、产品评价数据等。值得注意的是工具类平台的旅游产品都是以线路形式展现,因此,一个景点会包含在多条线路中,需要对全部包含此景点的线路进行数据抓取和分析,才能获取较为全面的满意度数据。
而社交类平台相对单一,其数据组织方式以景点为中心,用户的反馈数据会集中在特定页面或者区域,对其进行抓取和分析就能获得较为完整的数据。目前社交类平台也涉足线路类产品,因此也会存在游客评价散落在线路产品评价里面,这方面数据也要引起重视。
3.2 分页策略构建
分页策略用于列表页和内容页,其技术特点相类似。主要有两类分页情况,一是数字翻页形式,另外一种是瀑布流形式,二者都需要使用包含通配符的通用列表页模板进行循环访问。在设置循环阈值时需要与数据总量相适应,并略微大于真实分页量,这么做是为了保证数据采集的完整性;如果可以通过接口数据获取总数据量也可以通过计算获得较为准确的分页值。
特殊情况下如果目标站点使用了静态地址转换,如京东网上商城,为每个商品分配了ID标识符,则可以通过模拟生成产品ID号来自动组合生成访问地址,从而省略分页过程;有的平台也会提供API接口返回JSON数据用于分页显示,如果JSON数据覆盖面比较广,可以通过JSON解析替代下文3.3所述的内容抓取策略。
3.3 HTML内容抓取策略构建
HTML是现代互联网的重要组成部分,包含头部信息和实体信息两个要素,头部信息用来定义网页,实体信息记录网页要显示的内容,需要采集的有效数据就保存在实体信息中[6]。各种信息使用标签进行标识,并辅助以ID和Class等进行限定。
对HTML内容的抓取可以通过标签解析、ID定位、Class定位、XPath定位以及字符串匹配等方式。其抓取策略和特点如表1所示,表中的模糊采集和精确采集是对采集策略的一种评价,判断标准是其能否在HTML文档中进行唯一定位,如果能则其是精确的,反之是模糊的。在进行数据采集操作时,往往需要多种策略相结合,尤其是HTML5环境下,资源框架体系进一步精细化,很多内容可以通过标签解析来获取,这是最快捷的方式;而一些比较特殊的数据则需要通过定位方式来采集。
3.4 内容分析及导出策略构建
内容分析是对抓取后的有效数据进行筛选和甄别,这个过程在游客滿意度问卷调查中对应打分环节,打分能通过游客精确地对景区或者产品进行评价;而在网络舆情中,有两部分数据可以使用,一是平台的星级策略,通常为5星制,通过用户的星级分数来反应产品价值,这一部分可以精确采集;另一部分是用户的评价,这部分数据需要人工阅读或者语义分析才能知道内容的观点和价值。数据采集和判定结果通过数据库和Excel表格两种方式导出和长期存储,数据库中数据主要用来进行查重和查新;Excel按照任务分类进行按日期存储,以便进行任务调度和数据展示。
4 关键系统实现
本文选取美团旅游的“桂林漓江风景名胜区”为例进行原型系统实现,入口地址为http://www.meituan.com/cate/1222649。该产品包含产品评分、产品图片、人均消费、用户评价、评价时间、评价图片、商家回复等信息,分页采用传统分页,具有典型性。
4.1 数据采集实现
对页面上的典型数据如评分信息、帐户名称、用户等级、产品名称、评价内容、评价时间等进行采集,采集实现如表2所示。
4.2 分页实现
通过点击页面上的翻页按钮发现地址栏没有变化,推测其应该使用了Ajax异步获取JSON数据进行分页展示。通过对访问过程的抓包分析,获取到该产品的评价信息API地址http://www.meituan.com/ptapi/poi/getcomment?id=1222649&offset=0&pageSize=10&mode=0&starRange=&userId=&sortType=1,分析得知ID对应该产品的编号,在入口地址中有体现;pageSize为每页显示的评价数量,默认为10条。分页时查看下方总评论数为780条(截至2017年11月21日),因此采用http://www.meituan.com/ptapi/poi/getcomment?id=1222649&offset=[0-780]&pageSize=1进行分页获取,中括号里面为取值范围。
5 测试结果分析
测试结果共采集数据781条,依据字段结构完整性判定其中730条为有效数据,数据在参考文献中公开[7]。经统计分析发现,406名用户给出了5分评价,155名用户给出了4分评价,74名用户给出了3分评价,38名用户给出了2分评价,57名用户给出了1分评价,用户等级从无等级跨度到6级。统计结果如图1所示。
进一步对点赞数量大于10的15条评论分析发现,6条给出了5星评价,4条给出了4星评价,1条给出了3星评价,1条给出了2星评价,3条给出了1星评价。此数据说明景区整体形象较好,获得了较多用户赞同。但是问题也很突出,主要集中在景区存在隐形消费(游船升舱陷阱)、时间安排混乱、对网上购票用户有歧视等问题,这些都获得了大量用户赞同。而对于景区的反应来看,只对评分靠前的3条正面评价记录做了回应表示感谢,并没有对负面评价做出道歉或者解释,这将会对景区形象造成很大影响。
针对升舱问题进一步分析可以发现,最早反应此问题的时间是2015年6月20日,距最近一次该问题的反馈时间2017年10月16日已过去了两年多时间,但该问题依然在景区存在,给游客造成了很负面的影响,因此,景区应加强自身管理,为游客提供一个完美的出行环境。
6 结语
本文尝试使用爬虫对网络平台上的旅游满意度舆情数据进行采集和分析,为“互联网+”和移动互联网时代的旅游满意度调查提供一种新的思路和方法。经过系统构建、实现和测试结果分析发现,该方案切实可行,能有针对性地对某个景区的网络舆情数据进行采集和分析,生成可视化图表结果,并可以针对某个问题进行深入挖掘,比传统旅游满意度调查在样本空间、数据丰富程度、时间跨度、空间跨度、数据搜集、存储、清洗上都有较大优势。
[参考文献]
[1]黄楚新,王丹.“互联网+”意味着什么—对“互联网+”的深层认识[J].新闻与写作,2015(5):5-9.endprint
[2]丁璐.政府行为对旅游公共事件危机演化的影响研究—以网络舆情为视角[J].旅游纵览,2015(7):27-29.
[3]付业勤,郑向敏.旅游网络舆情研究体系建构研究[J].重庆工商大学学报(社会科学版),2015(2):74-82.
[4]付业勤.旅游危机事件网络舆情研究:构成、机理与管控.[D].泉州:华侨大学,2014.
[5]Wikipedia.Web crawler[EB/OL].(2017-06-11)[2017-12-04].https://en.wikipedia.org/wiki/Web_crawler.
[6]百度百科.HTML[EB/OL].(2017-09-23)[2017-12-04].https://baike.baidu.com/item/HTML/97049?fr=aladdin.
[7]鄭聪.论文公开数据[EB/OL].(2017-11-21)[2017-12-04].http://www.pfyz.bid/blog/2017/11/21/5385.
Abstract:The behavior of travelers on public is increasingly dependent on the Web platform with the rapid development of “Internet +” and the widespread popularization of mobile Internet. The resulting mass public opinion data has also become an important indicator to evaluate various elements of tourism. However, because of the large amount of data and the complicated information, it is very difficult to carry out statistical analysis of tourism satisfaction statistics. As a result, resources are wasted. This paper starts with crawler and analysis the current network of public opinion monitoring system of the core technical requirements, according to the technical points, this paper proposes a solution to solve the network public opinion investigation of tourism satisfaction, and then conducts the system construction and collection strategy planning to realize the collection and analysis of travel public opinion network public opinion data, and verifies its feasibility.
Key words:crawler; tourism satisfaction; network public opinionendprint