何彩娟 于碧鹏 李荣华
【摘 要】步入“互联网+”与大数据时代,网络爬虫与用户数据分析已经成为技术舆论新格局的重要组成部分,各个行业都在积极的朝着互联网转型,旅游行业也在不断的在尝试智能化转型,其中用户数据的分析也是最为热门的话题之一。本文以马蜂窝网旅行网的用户在网站发表的行为数据,基Python这一时下流行的人工智能编程语言,做详细的数据爬取、数据分析,为旅游组织方在旅游产品追求个性化、差异化的市场提供一个有效的优化方向。
1.分析背景
伴随着经济蓬勃发展及人们对生活品质的高要求,外加各国政府不约而同的采取优惠政策促进旅游服务产业发展,使得全球旅游产业保持快速、稳定的发展。近年来,中国旅游业竞争力呈现快速上升趋势。据统计数据得出,2018年全国旅游出行人数超55亿,总收入超5万亿元,与2017相比分别增长11.09%和11.98%;全国境外旅行人数约为1.5亿人次,同比增长11.5%。消费升级的社会,全民旅游意愿、支出节节攀升,未来旅游产业市场仍是块大蛋糕。
2.国内外研究现状
用户在选择具体的旅游景点和规划旅游路线时,国内大多数都是基于基本的旅游咨询,根据用户的旅游需求,结合景点一些对外开放的信息进行数据采集、分析,最后推荐给用户。马蜂窝旅游分享社区目共有 1.25亿用户,每月在线活跃的人数超过 1 亿,用户量广,月产优质游记超过 13 万篇。其中涉及国内外目的地攻略、游记、问答、点评等用户真实分享的UGC信息,对服务企业规划旅游路线有重要意义。
3.本文实现思路
本文研究主要由通过网络爬虫技术获取马蜂窝城市数据及用户足迹数据,并将获取到的用户数据存储至数据库中。具体实现思路如下。
(1)以Python为编程语言,通过Scrapy分布式爬虫框架获取城市数据和用户足迹数据,将获取到的用户数据以文档的形式存储到MongoDB数据库中,数据存储之后完成网络爬虫部分。
(2)统计数据中每个城市累积旅游人数和用户游记中累积出现的词语。将所有城市的出游情况通过热力图的形式附着至中国地图上,以观察国内整体旅游城市持有趋势。另外根据Python提供的中文词库,对爬取的游记进行分词统计,获得出现次数较多的关键词并可视化分析,通过这两点对国内的旅游特点进行总体概括。
(3)从总体可视化方向对用户具体的旅游行为进行分析,主要通过出行伴侣、出行天数、出行季节、人均花费四个特征对用户的个人旅游特征概括,以达对用户之间的区分。
(4)根据以上分析结果,将其结合至实际的旅游行业情况,得出一些优化旅游服务行业的方向以及个人旅游未来的趋势。
互联网时代的到来,网络所容纳的信息数量级已无法确切统计,对传统的纸质记录、电脑录入、系统管理,如何将如此海量的数据收集到文本或者数据库中,是个巨大的难题。面对如此庞大,错综复杂的网络信息,一套自动获取信息的网络爬虫系统孕育而生,以减少数据检索,机器维护,网络技术学习等各方成本。本论文以Python作为编程语言来完成相关数据的收集。
4.网页爬虫流程
网络爬虫的是给定一个需要访问的URL,通过HTTP协议与服务器建立连接,得到对应页面的数据,然后根据一定规则进行数据爬取,本文单个网页爬取流程如图1-1所示。
基本流程如下:
步骤1发送请求:给定需要访问的URL,通过HTTP协议向站点发起连接请求(Request),等待响应与服务器响建立连接。
步骤2获取响应内容:正常响应后建立连接,服务器返回一个携带网页内容的Response,类型为HTM。
步骤3解析内容:通过Python提供的Beautifulsoup和Json库对获取内容进行解析,解析方式主要为Beautifulsoup提供的DOM文档节点提取。
步骤4存储数据:将所需的数据从对应节点中提取出来,并存储到数据库。
整体爬取过程:
(1)爬虫引擎与起始URL建立站点连接。
(2)爬虫引擎将URL封装为请求,并通过下载中间器将其传递给下载程序。
(3)下载器把访问服务器并下载返回内容,封装成应答包,并发送给爬虫。
(4)爬虫解析Response,从网页中抓取需要的信息,并将解析出信息传送给实体管道
(5)若爬虫解析出的是链接,则将链接返回存放给调度器。
(6)重复以上步骤直到调度器中没有请求,结束对站点的爬取。
5. 总结
基于网络爬虫的旅游用户数据分析模型是挑选马蜂窝旅游社区用户数据设计的分析模型,实现了从庞大的数据中从两方面提取用户的指定数据,一方面从马蜂窝社区用户的某個个人主页进行数据获取,数据获取后通过其关注的用户和访客深究整个社区的其他用户,直至穷尽所有。另一方面由旅游目的地为切入点,提取社区网站中的国内热门旅游城市数据,其参考重点主要是所有城市的数据均有旅游用户在网站发布的行为活动组成。
旅游的体验联系到生活的方方面面,希望旅游服务商以跨界为新思路。社交为例,有旅游+社交的模式,相同目的地且体验心理一点的用户可以有拼单的自驾游需求,从而推广当地文化。希望未来中国旅游能出现新灵感方式。
参考文献:
[1]邢琦. 旅游信息服务视阈下的智慧旅游概念[J]. 旅游纵览,2019.
[2]米也塞·艾尼玩. 基于Python的维吾尔文文本聚类系统设计与实现. 新疆大学,2012.
[3]耿大伟. 基于Python技术的校园网搜索引擎的设计与实现[D]. 燕山大学,2015.
作者简介:
何彩娟,1983年8月8日。
于碧鹏,1978年2月,汉,教师,研究方向:人工智能、计算机、物理学教育。
(作者单位:广州大学华软软件学院;2广州石化中学)