冯娟 张雅丽 梁栋栋
摘要:由于常规的问卷调查方式获取出游行为数据存在人为性和时间间断性,耗资大,不能轻易地实现时空数据的可视化,导致研究者难以有效地分析人们的出游时空分布规律。该文以芜湖市市民出游行为为研究对象,结合地理实体改进基础的网络爬虫算法,构建出游数据抓取模型获得市民出游行为时空数据。并利用商业级图表数据库Echarts作为可视化工具研究对象,实现对芜湖出游时空数据动态地图的可视化。
关键词:居民出游;时空分布;网络爬虫;Echarts;动态地图
中图分类号:TP302 文献标识码:A 文章编号:1009-3044(2017)31-0215-04
Research on the Temporal and Spatial Distribution of Residential Travel Based on Echarts— Taking Wuhu as the example
FENG Juan1,2, ZHANG Ya-li1,2, LIANG Dong-dong1,2
(1.College of Land Resources and Tourism ,Anhui Normal University, Wuhu 241003, China; 2.Geographical Data Research Center,Anhui Normal University,Wuhu City,Wuhu 241003, China)
Abstract: Because the conventional way of questionnaire to obtain data travel behavior has limitations and defects and also can not realize the visualization of spatio-temporal data.Its difficult for researcher to effectively analyze the temporal and spatial distribution of travel behavior of people. Taking Wuhu citizen's travel behavior as the research object, this paper constructs the travel data capture model which combines the geographical entity with the basic network crawler algorithm to obtain the citizen traveling behavior spatio-temporal data. And the commercial chart database -Echarts is used as the visualization tool to realize the visualization of the dynamic map of Wuhu travel spatio-temporal data.
Key words: Travel; spatio-temporal distribution; visualization; Echarts; web crawler;dynamic map
1 概述
随着旅游业的兴旺发展,越来越多的人选择“走出去”。因此在这个错综复杂的庞大行为系统中,如何掌握人们出游行为规律为越来越多的学者关注。学者期望能够通过实时掌握人们出游的动态演变规律,促进对当前旅游业的发展趋势的研究,为旅游业进一步兴旺,协调地发展提供科学的建议。由此可见出游行为时空分布规律的研究便在旅游系统中起到了举足轻重的作用 [1-2]。但是目前有关的出游行为时空分布数据稀缺,而且常规的数据获取方式已很难满足和实现对人们出游行为时空规律的深入研究。本研究基于GIS时空数据挖掘技术构建出游数据抓取模型获取相关出游行为数据,不仅使数据获取实现客观化、自动化,而且减少了传统人工获取数据的时间与经济消耗。对于复杂时空数据的可视化,本研究采用Echarts可视化工具实现时空数据可视化分析,并自动创建动态地图。从不同的可视化效果中,可以探讨芜湖市市民出游时空数据分布规律。安徽省芜湖市是省内乃至全国的重要旅游地,是华东地区综合交通枢纽。因此本次研究选择芜湖市市民的出游作为研究对象。
2 出游数据获取方法及处理
传统的网络爬虫机理是通过对一个或多个原始网页URL进行访问,得到初始的URL集合,在爬取进程中,从当前访问网页中获取新的URL加入集合,符合停止条件则终止运行[3-4]。本研究主要通过将地理实体与基础网络爬虫方式(Web Crawler)相结合作为搜索引擎的关键组成部分,实现页面信息提取的自动化。通过网络爬虫方法从海量的网络信息中解析得到芜湖市出游时空分布的数据。图1为数据获取流程图。
2.1 出游数据抓取模型
普通的网络爬虫技术抓取数据难以满足获取具有确定地理空间的特定属性数据。因此本研究首先建立与芜湖市出游相关的地理词汇的网络关键词链接,在网络爬虫中,利用输入带有时空信息的关键词,对网络链接内容进行文本匹配、时空数据探测与数据提取、页面与时空数据相关度度量。当所有链接追踪结束后,芜湖市出游数据获取工作同时结束。
出游数据抓取模型主要包括输入参数、获取流程、输出结果三方面。
(1) 輸入参数
为了能最大限度获取与市民出游行为的相关链接,根据芜湖市人口出游的两种主要交通工具以及出游的目的,在此以芜湖市市民相关出游信息为例,输入关键词“芜湖火车站”、“芜湖汽车站”、“芜湖旅游”。图2为模型参数输入界面
(2) 获取流程
通过对关键词进行搜索,抓取含有芜湖市出游行为时空信息的链接。具体的流程为:首先利用网络爬虫技术搜索关键词,同时还需要考虑到关键词的分词、每个分词与网页中标题、关键词、内容的匹配度,并且要兼顾空间数据是否存在。其实现方法不仅仅涉及普通网页内容下载及匹配,还包括时空信息的探测技术。图3为模型启动运行界面。
(3) 输出结果
通过出游数据抓取模型得到如图4所示,基于芜湖市出游关键词抓取的所有网络数据链接。
2.2 数据抽取及处理
2.2.1 抽取出游信息
抽取时空出游行为数据主要通过读取出游行为数据获取模型中的链接集合,解析链接网页中潜在的芜湖市出游行为时空数据内容。获取网页标题、文本,剔除噪声信息。
2.2.2 对出游数据处理
先以单一链接为单位进行空间信息的提取,然后采用敏感词汇过滤(DFA)算法解析得到的隐含芜湖市出游数据的文本。敏感词汇过滤算法是通过事件和当前的结果来获取下一个结果,用递归的方式来获取最终的结果。数据处理过程中把每一个地名看做事件,统计到地名的数量看成结果。统计结果如表1:
3 时空数据可视化工具-Echarts
3.1 时空数据可视化理论
实现出游时空数据可视化可以更好地帮助研究者掌握出游时空分布规律并挖掘相关信息。科学计算机可视化是时空数据可视化的基础,时空数据可视化即地理信息本体在视觉上表达与分析,展现地理信息数据的时态性和可交互性[5-6]。由于其具有时间和空间数据动态性表达的迫切需求 ,可视化工具必须包含两个特点[7]:①数据的动态更新和查询;②可视化显示的动态视觉感受,如静态地图中的视觉变量渐变而产生的动态感。
3.2 Echarts介绍
ECharts是一个纯 Javascript 的图表库,当前流行的百度迁徙和百度大数据预处理,其数据可视化都是利用ECharts实现,作为商业级数据图表,能够在PC和移动设备流畅的运行,兼容当前绝大部分浏览器,具有绝对的优势。
3.3 基于Echarts创建动态地图
出游时空数据是存在时间维度和空间维度的数据集,普通的图表不足以表达在时间序列上出游者的动态变化,利用ECharts编码设计创建动态地图可以言简意赅地表示出在一段时间间隔芜湖市出游数据变化,以便更好地发现芜湖市出游时空分布规律,如图5所示。
4 出游行为时空数据分布可视化
将出游时空抓取模型获取到的2000年、2005年、2010年、2015年四个时段的芜湖市出游时空数据,通过Echarts可视化工具对此期间的芜湖市市民出游流动方向及流量大小进行不同效果的可视化表达。
4.1 人口迁徙图
图6和图7为芜湖市出游人口迁徙图,图中直观的地展示了从出发地(芜湖市)到目的地(北京、上海、合肥、重庆等各地)的信息。迁徙图中以15秒为一个动态数据加载周期,采用了外分层设色法。该方法是利用一定的颜色变化次序或色调深浅来表示芜湖市人口出游频次的大小,同时图中标注的圆圈半径越大表示通往该城市出游频次越高。用户可以通过鼠标自由控制地图色彩的变化,并通过这种变化表现数值。迁徙图可以实现数据分布展示的直观性与形象性,尤其在展示出游流动方向上效果更佳。通过网络资源信息的解析,利用迁徙图表达2000年、2005年、2010年、2015年以芜湖市为出发点去往各个城市的动态走向,这种地图标注移动的效果既可以增加视觉感官度又可以帮助研究者实时的掌握人们出游的动态流向,解析出游行为的指向性与变化规律。在图6和图7中a、b、c、d四幅子图都依次代表着2000年、2005年、2010年、2015年芜湖市人口出游时空分布的人口迁徙图。
4.2 散点地图
图8-图11采用散点符号表示芜湖市人口出游行为时空分布数据,它的优势在于简单明了地显示出芜湖市人口出游的目的地,如合肥、南京、杭州、重庆、南宁等。同时图8和图10两幅散点地图中时间属性也以图例(legend)的方式加载,方便选择展示单一时间范围内的出游行为时空数据效果图。图9中散点符号大小和图11中散点符号亮度值可以衡量人口出游频次的高低,散点面积或亮度越大表示从芜湖市出发到该城市人数越多。在图8和图10中a、b、c、d四幅子图都依次代表着2000年、2005年、2010年、2015年芜湖市人口出游时空分布各的散点地图。
4.3 热力图
热力图是以特殊高亮的形式显示芜湖市出游目的地的区域分空间布及该去往该区域频次的。它的优势在于可以直观清楚地看到中国每一个区域对于来自芜湖访客吸引力程度以及人们感兴趣的焦点所在位置。这种效果图无须分析报告数据就可以简单直观了解到游客的感兴趣区域与出游人数的变化信息,对于没有分析数据经验的用户更是大有益处。在图12中a、b、c、d四幅子图都依次代表着2000年、2005年、2010年、2015年芜湖市人口出游时空分布的热力图。
4.4 表达效果分析
总的来说利用动态地图实现可视化表达芜湖市出游行为时空数据有以下几个方面优点。
(1) 数据表现形式多样,表达效果美观,包含数据信息丰富,同时便于用户进行数据查询操作。
(2) 可以进行动态地图标注,无级、无缝和动态变化的显示出游数据值以及出游目的地,使得出游数据在地图上展示清晰美观。
(3) 实时更新显示出游数据,在海量的网络数据更新的过程中可以不断地获取最新的芜湖市出游行为数据,取代旧数据,让信息表达更为准确。
5 结束语
本文以芜湖市市民出游行为为研究对象,结合网络爬虫技术核心构建出游时空数据抓取模型获取出游行为数据,可以实现对出游数据的实时更新,同时保证数据的客观性与准确性。同时更着重对获取的出游行为时空数据进行可视化研究,选取Echarts作为研究可视化效果的重要工具,通过一系列动态地图展示时间与空间两个维度的芜湖市市民出游行为特征。实现不同风格、不同类型的动态出游行为时空数据地图。实现出游数据的时空可视化可以帮助旅游研究者甚至是没有经验的用户直观的掌握人们出游行为的时空动态变化规律,同时也便于信息的挖掘与分析,减少复杂冗长的分析过程。
参考文献:
[1] Pearce D. Tourism Development[M].Harlow,London&New York:Longman,1989:102-107.
[2] 吴晋峰,包浩生.旅游系统的空间结构模式研究[J].地理科学,2002(1):96-101.
[3] Csdn.网络爬虫,你知道多少? [Z]. 2007.
[4] 孙作 何旧辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2001(6):4112-4115.
[5] 岳志兰.基于地理信息本体的语义转换[D].山东大学.2012.
[6] 李霖,苗蕾.时间动态地图模型[J]. 武汉大学学报:信息科学版,2004(6):484-487.
[7] 郑幸源,洪亲,蔡坚勇,等.基于AJAX异步传输技术与Echarts3技术的动态数据绘图实现[J/OL]. 软件导刊,2017,16(3):143-145.
[8] 明日科技.Java从入門到精通[M].北京:清华大学出版社,2016.
[9] 叶枫,王志坚,李凌,等. 地图可视化与常用工具的研究[J].水利信息化,2015(6):8-13+31.
[10] 高宪慧. 基于地理信息系统的时空数据挖掘研究[J]. 广东科技,2013,22(12):160+106.