基于热力图的公共自行车站点时间与用户类型分析

2021-06-08 12:30梁家康刘汪洋
计算机时代 2021年1期
关键词:影响因素

梁家康 刘汪洋

摘  要: 应用热力图对公共自行车站点数据进行可视分析和展示。研究结果显示,公共自行车的租借量的影响因素主要与以下几点有关:天气晴朗会使租借量增多;旅游业的发展也会带动公共自行车的租借;男性由于裤装会更易于租车;工作时间内租车量在工作区域内会显著增加。

关键词: 公共自行车; 站点管理; 可视分析; 热力图; 影响因素

中图分类号:G312          文献标识码:A          文章编号:1006-8228(2021)01-29-04

Analyzing the time and user types of public bicycle sites with heat map

Liang Jiakang, Liu Wangyang

(Hangzhou Dianzi University, Hangzhou, Zhejiang 310000, China)

Abstract: The heat map is used to visually analyze and display the data of public bicycle stations. The results show that the factors affecting the rental of public bicycles are mainly related to the following factors: sunny weather will increase the number of public bicycles renting; the development of tourism will also promote the rental of public bicycles; men will be more likely to rent bicycles because of their trousers; and the number of bicycles rental will increase significantly in the working area during working hours.

Key words: public bicycle; site management; visual analysis; heat map; influence factor

0 引言

公共自行车在日常出行提供方便的同时,还能缓解交通压力。近年,公共自行车的使用率逐渐增加。固定站点公共自行车系统有两个重要的组件:自行车和车站。用户通常会在出发点附近的车站租借公共自行车,然后在目的地附近的车站“还车”。但在一些热门景点或当天气恶劣时往往会出现自行车或停车位供不应求的情况。利用可视分析方法来研究公共自行车数据有助于公共自行车站点车量数量的管理。

可视化技术融合了图形学、数据管理、网络技术和人机界面等诸多分支,逐步成为一门新兴學科,可视化技术和数据分析相结合又形成了可视分析学这门新的学科。基于可视交互界面的分析推理科学称之为可视分析学[1]。可视分析学现在被应用于多个领域,如经济领域、科学与生命领域和军事领域等。

利用可视分析方法研究公共自行车数据是当下一个热门学术研究课题。Ying Zhang等[2]利用热力图的方式展现中山市公共自行车站点的用户骑行量空间分布情况并用2014年3月及4月的数据进行对比分析。Wood等[3]采用地图的方式显示伦敦公共自行车站点的分布情况,采用柱状图来展示不同骑行时间段的骑行记录频率和不同骑行距离的骑行记录频率的关系,并根据站点地理位置的相对关系,将反应不同站点公共自行车租借量变化的单个折线图组成一个整体,方便用户对同一站点的工作日和周末的公共自行车骑行状态进行可视分析。史晓颖等[4-7]对杭州的公共自行车可视分析方面进行了广泛的研究,其利用丰富的图形探索了公共自行车的时空数据,采用热力图对西湖周边的公共自行车站点进行可视分析并把规律进行对比。

由于管理者并不能准确的了解在不同时间,不同用户类型对自行车的租借量的影响,可能导致在某些站点自行车数量不足或自行车数量未使用数量较多。故本文对芝加哥市公共自行车的骑行量进行可视化分析,获取在不同时间、不同用户对公共自行车的租借量。再通过所掌握的信息及规律,绘制出关于城市自行车骑行量的热力图来使空间信息可视化,根据其中所存储的不同信息去描述不同用户在城市的空间和时间的运动,帮助管理员较准确的观察出在不同条件下不同用户对城市自行车的骑行量规律。最后通过调配各个车站站点的自行车数量来解决自行车数量不够、用户出行不够及时等优化用户体验方面的问题。

1 研究背景

图1展示的是芝加哥市部分景区分布图,图2展示芝加哥市对于公共自行车站点的分布。从两个图中可看出在热门景点,如动物园,林肯公园等区域,公共自行车站点的设置的较为密集。同时芝加哥的市中心地区的两大部分,卢普区和密西根大道,卢普以西是有芝加哥"华尔街"之称的金融中心,芝加哥期货交易所、芝加哥商业证券交易所、芝加哥市政厅、伊利诺州政府大楼、美国第一国家银行办公大楼、芝加哥的著名中心大剧院、购物中心,以及众多酒店及消费场所云集之地。从图1可以明显地看出,在那些工作场景较大,以及消费产物较多的区域,公共自行车站点分布更为密集且其使用也更加频繁,为人们的生活提供的帮助更大。

2 可视化分析方法

2.1 数据的获取

数据的获取是可视分析的基础,本实验的数据集是芝加哥公共自行车网站上下载的芝加哥Divvy公共自行车系统2016年1月1日到2016年12月31日全年的数据。Divvy公共自行车系统数据集中包含站点信息和骑行记录表,其中站点信息表站点ID、站点名称、站点地址、站点上线时间等站点信息,骑行记录表包含骑行持续时间、用户类型、用户性别、出生年份等用户信息。用户类型分为两种:一种是购买24小时通行卡的通卡用户,另外一种是正式在官网注册账户并且购买年费的年卡会员,如图3所示。相比而言,通卡更加适合游客等骑行频率不高的人群,年卡则适合上班族等骑行频率较高的人群。

2.2 数据预处理

未经处理的数据中包含相当多错误,这就可能导致数据无法被利用,甚至导致数据分析结果的错误。针对可视化的数据预处理,有利于提高数据的质量,增强可视化效果,使后续可视化步骤更加简便、易行。数据的预处理通常包括数据清洗、数据集成、数据变换等步骤。

2.2.1 数据清洗

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值,缺失值等。数据缺失是数据清洗后经常遇到的数据错误类型。目前处理数据缺失有均值填补法,最近距离决定填补法等方法。本文使用的方法为删除缺失值法,因为本次实验的数据庞大,所缺失的数据占比较小,在此情况下,删除缺失值为最简单且代价最小的的处理方法。它将存在缺失值的记录删除,比如dataframe可以使用dropna方法来实现删除缺失值。

df.dropna(axis=0, how='all')  #删除所有字段值均为空值的行

df.dropna(axis=0, how='any') #删除任何一个字段值为空值的行

芝加哥公共自行车系统提供的数据包含49条重复骑行记录,预处理中需要将其删除;根据芝加哥公共自行车系统数据集官方说明知24小时通卡用户不包含性别和年龄信息,因此删除了353条带性别信息的24小时通卡用户骑行记录,以免对可视分析造成困扰。为了更好的研究不同因素对公共自行车骑行的影响,采取将天气历史信息集成到骑行记录中的措施。

2.2.2 数据变换

芝加哥公共自行车系统的数据只包含了骑行的基本信息和时长。而可视化阶段需要用到骑行记录中起始站点到目的站点的距离,因此需要根据起始站点的经纬度和目的站点经纬度来计算用户的骑行距离。

[φ1=lat1×PI()/180], [φ2=lat2×PI()/180]

[?λ=lon2×PI()/180-lon1×PI()/180]

[d=arccos (sinφ1×sinφ2+cosφ1×cosφ2×cos?λ)×R]⑴

其中:[lat1]是起始点纬度,[lon1]是起始点经度;

[lat2]是目的地纬度,[lon2]是目的地经度;

[PI()]是圆周率π,[d]是骑行距离。

如表1所示,为站点新增一条distance字段,通过上述公式计算得到站点419和站点413的距离为1.85km。

2.3 热力图理论

“热力图”一词最初是由软件设计师Cormac Kinney于1991年提出并创造的,用来描述一个2D显示实时金融市场信息。最开始的热力图是矩形色块加上颜色编码,经过数年的演化后热力图多数是指以特殊高亮的形式显示访客热衷的页面区域或访客所在的地理区域的图示。热力图的本质就是对每一点进行数据分析。通常情况下每一事件都可抽象为空间位置上的一点,通过对这个点进行数据分析可以使点数据变为点信息,再由每个点信息组成一幅图,这样有助于发现和探索在空间中所含有的信息与规律。

对于地图类型的元素而言,制作热力图通常选用核密度估计(KDE)。这是一种用于估计概率密度函数的非参数方法,采用公式⑵来计算每一点的概率密度。

[fhx=1ni=1nKix-xih=1nhi=1nX(x-xih)] ⑵

其中[x1,x2, x3,…,xn]为独立同分布F的n个样本点,[K(.)]为核函数(非负、积分为1,符合概率密度性质,并且均值为0),[h>0]为一个平滑参数,称作带宽,或被称为窗口。[Khx=1/h×K(x/h)]为缩放核函数概率密度函数为f。

在一幅热力图中有若干个点,每个点的事件的数据是不一致的,再通过计算,得出不同的结果,之后设置不同区间的不同颜色,在图中显示出来,最终得到了一副完整的热力图。

3 实验数据分析

3.1 时间分析

通过如图4所示的可视结果,可以发现旅游季节对自行车骑行量有显著的影响,旺季时公共自行车骑行次数更加频繁。在日常的生活中,工作日的公共自行车骑行量也相比周末更加庞大。另外,天气对于公共自行车骑行量也具有影响。从图4中我们可以看出在旅游淡季与旺季的中雨天气条件下,用户骑行站点热度对比于同阶段的晴天有所下降。

根据图5分析节假日的芝加哥公共自行车站点的骑行情况后,我们发现不是所有的节假日公共自行车用户的骑行量都很高。新年、情人节、总统日、感恩节和圣诞节的公共自行车骑行量明显偏低,而纪念日、独立日和劳动节骑行量较大。在一些公共自行车骑行量较大的节假日如劳动节,其站点热力分布与图4中旅游旺季的热力分布十分相似。

3.2 用户类型分析

在研究过节假日对公共自行车骑行量的影响后,我们将继续研究不同用户类型的骑行规律。如图6所示,在天气情况相同的情况下,旅游旺季时通卡用户公共自行车骑行量稍大于年卡用户,而在旅游淡季年卡用户公共自行车骑行量大于通卡用户。通卡用户骑行站点频率较高的站点集中在芝加哥海军码头、汉考克天文馆和亚当斯公园附近,年卡会员骑行频率较高的站点集中在卢普区商业中心和,林肯公园附近。

在年卡会员中,男性年卡会员的骑行分布与年卡会员基本一致,但与女性年卡会员的骑行分布有较大差别。天气情况相同的条件下,男性年卡会员的骑行量都大于女性年卡会员的骑行量。从中可以看出不同人群对公共自行車的需求也有所不同。在芝加哥大学区域,旅游旺季骑行的主体人群是通卡同户,而在旅游淡季骑行的主要用户是年卡会员,且是男性年卡会员。

4 结束语

在城市中对于公共自行车的租借量有很多影响因素,例如天气、日历、使用者的性别、工作区域以及景区等。经过上述分析可以总结出①当天气晴朗,居民外出几率大而且易骑车,所以晴天的使用量大于雨天;②旅游旺季城市流动人口数量增加,使用交通工具更频繁,所以旅游旺季的使用量大于旅游淡季;③在日常生活中女性常穿裙装,男性的裤装比裙装方便,所以男性骑车较多;④在工作时间,工作区域的人流量较大,所以工作区域附近站点比其他站点的使用更加频繁。管理者可以通过以上规律在不同天气不同日历等情况下对自行车站点及时调配,从而使人们出行更加方便与快捷。

参考文献(References):

[1] Thomas J J, Cook K A, Electrical I. Illuminating the path:The research and development agenda for visual analytics[J]. Computer Graphics,2005.

[2] Zhang Y, Thomas T, Brussel M J, et al. Expanding Bicycle-Sharing Systems: Lessons Learnt from an Analysis of Usage[J].Plos One,2016.11(12):e0168604

[3] Wood J, Slingsby A, Dykes J. Visualizing the Dynamics of London's Bicycle-Hire Scheme[J]. Cartographica the International Journal for Geographic Information &Geovisualization,2011.46(4):239-251

[4] Shi X Y, Yu Z H, Xu H T, et al. PBikeVis: Applied Visual Analytics for Public Bicycle System[C]//International Symposium on Computational Intelligence and Design. IEEE,2016:490-493

[5] Shi X, Zhou Q, Qu X, et al. Visual Analysis of Station Usage Patterns in Public Bicycle System[C]//International Symposium on Computational Intelligence and Design. IEEE,2017:132-135

[6] Shi X, Yu Z, Chen J, et al. The visual analysis of flow pattern for public bicycle system[J].Journal of Visual Languages & Computing,2017.

[7] Shi X, Yu Z, Chen J, et al. Clustering the Stations of Bicycle Sharing System[J]. Journal of Donghua University (English Edition),2016.33(6):968-972

收稿日期:2020-07-27

作者簡介:梁家康(1996-),男,内蒙古呼伦贝尔人,本科生,主要研究方向:数据可视化,数据分析。

猜你喜欢
影响因素
突发事件下应急物资保障能力影响因素研究
环卫工人生存状况的调查分析
农业生产性服务业需求影响因素分析
村级发展互助资金组织的运行效率研究
基于系统论的煤层瓦斯压力测定影响因素分析