城市企事业人群出行链提取及出行特征分析

2022-03-24 04:01晋泽倩陈艳艳李臣
科学技术与工程 2022年6期
关键词:特征分析企事业功能区

晋泽倩, 陈艳艳, 李臣

(北京工业大学城市建设学部, 北京 100124)

研究居民出行时空特征及其内在机制为城市规划建设、运营管理、交通政策提供了数据支撑,对城市空间发展、城市规划具有重要意义。当前企事业人群出行量在城市居民出行中占比逐渐增高,2020年北京市企事业人群出行量占比已超47%,武汉市企事业人群出行量占比约55%,因此探究企事业人群的出行特征分析对城市居民出行特征研究具有重要意义。

Peterson等[1]基于调查问卷数据,确定了对公园游客出行模式影响最大的时空变量,并利用时空变量对旅游群体进行聚类。Calderón等[2]基于网约车数据,对居民出行时空特征和通勤模式进行分析,得到出行目的为工作和上学的网约车用户较多。Wang等[3]基于个人出行轨迹数据,提出了包含行程分割、出行模式和出行类型识别的完整出行链提取过程。Zhang等[4]基于南京市共享单车出行数据,研究了共享单车系统中绿色出行行为的时空特征。苏跃江等[5]根据传统入户抽样调查居民的社会经济属性,以及手机信令数据获取居民出行影响因素及出行时空特征分布。周英迪等[6]提出了基于出租车轨迹和兴趣点(point of interest, POI)数据的地理信息系统(geographic information system,GIS)时空分析方法,对居民出行的时空分布等进行量化分析。王宇环等[7]利用出租车全球定位系统 (global positioning system,GPS)轨迹生成上下车热点,从不同时段、周末与节假日等多角度比较居民出行的时空特征。张圆等[8]从个体特征、出行特征和出行者对共享汽车服务水平的主观感知三个方面分析了影响使用共享汽车出行的主要因素。崔洪军等[9]基于公交IC卡数据,识别乘客出行目的,实现完整乘客公交出行链的提取。

当前基于出租车数据、网约车数据的城市居民出行特征分析的研究较多,而对企事业人群出行特征分析的研究相对较少。在有效获取企事业人群出行意愿数据的基础上,改进DBSCAN算法有效识别出居民出行停留点,进而结合关联规则提出出行链的提取方法,挖掘企事业人群出行时空分布规律,并进一步探究不同功能区域企事业人群的出行特征,以期为预测交通客流及信息服务提供基础支持。

1 研究方法

基于居民出行调查问卷数据,提出针对企事业人群的居民出行特征分析方法,分析流程如图1所示。首先,清洗调研数据,进行数据信度与效度分析,检验数据的可靠性和效度水平;其次,改进DBSCAN算法,识别居民出行停留点,进而基于关联规则,提出了居民出行链数据的提取方法;最后,从居民属性、时间属性、空间属性和功能区划分4个角度,分析居民出行特征,挖掘出行规律。

图1 居民出行特征分析流程Fig.1 Residents’ travel characteristics analysis process

1.1 数据预处理

1.1.1 数据清洗

所采取的出行数据会存在多种异常类型的数据,如数据是否存在重复、是否存在缺失、数据是否具有完整性和一致性、数据中是否存在异常值等。因此,需要对数据进行清洗。在重复观测处理过程中,采用duplicated方法进行验证,再将重复观测数据删除;在缺失值处理过程中,常采用删除法、替换法和插补法;在异常值处理过程中,常采用n个标准差法和箱线图判别法。

1.1.2 信度与效度检验

为保证数据的有效性和一致性,需要对调研数据进行信度检验。通常采用Cronbach’s Alpha系数(α系数)作为衡量调查数据一致性的重要指标。一般情况下,当α系数大于0.7时,可以认为调查数据的可信度较好。效度检验常采用主成分分析法,以Kaiser-Meyer-Olkin值(KMO值)和Bartlett球体检验作为判断效度水平的标准。当KMO值大于0.6时,Bartlett球体检验的结果小于0.05,表明数据效度水平高。

1.2 居民出行链提取

1.2.1 改进的DBSCAN算法

DBSCAN算法是基于密度的空间聚类算法,该算法能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。传统DBSCAN算法[10-11]的核心思想是对给定的数据集、聚类半径r、最小点数minPts,任选一个点,以半径r为邻域扫描数据集,统计领域范围内所有的点数,如果大于最小点数minPts则将该点标记为核心点,领域内的其他点标记为边界点,否则标记为噪声点,依次遍历整个数据集直至遍历完所有的点。

1.2.2 基于改进DBSCAN算法的出行停留点识别

在改进DBSCAN算法的基础上,提出停留点识别实现流程,如图2所示。

图2 改进的DBSCAN算法的停留点识别流程图Fig.2 Stop point identification flow chart of improved DBSCAN algorithm

1.2.3 基于关联规则的出行链提取

关联规则是反映一个事物与其他事物之间的相互依存性和关联性,用于从大量数据中挖掘出有价值的数据项之间的相关关系[12]。因此结合主观调查问卷数据,引入关联规则方法挖掘居民出行的关联特性,进行稳定性辨别。利用支持度、置信度和提升度3个参数描述挖掘关联规则的有效性和确定性。首先,基于改进的DBSCAN算法识别出的个体出行停留点,利用关联规则对停留点进行初步分类,确定最小支持度阈值δs;其次,选出满足δs的集合为频繁项集;最后,从频繁项集中提取满足最小置信度和提升度的规则,确定为强关联规则。

在利用关联规则对停留点进行初步分类的过程中,根据出行目的地不同,将出行者出行停留点分为三类,分别为居住停留点、工作停留点、休闲娱乐停留点,对应的出行链也划分为三类,分别为基于居住地的出行链、基于工作地的出行链、基于休闲娱乐地出行链,用式(1)特征向量表示。

(1)

式(1)中:Chain1为工作地出行链;(lati,longi)为居民出行目的地位置信息;Tsi为出行到达时间;Activity为一次出行活动;(lati+1,longi+1)为一次出行结束的位置信息;Tsi+1为一次出行结束的到达时间,Tei+1为一次活动的驻留时长。以此类推,Chain2为居住地出行链,Chain3为休闲区出行链。

居民每天的出行链为不闭合单向链,包含一天内居民的所有时间、位置信息,活动类型包含通勤、就餐、居住情况等。利用居民出行链可以识别出居民出行的时空信息,一天中的第i(i>1)个停留点代表居民出行目的地,可识别出居民目的地的位置信息(lati,longi),出行到达时间Tsi。之后根据第i+1个停留点的活动属性可以判别居民到达下一目的地的时间Tsi+1和驻留时长Tei+1,或者结束出行的位置(lati+1,longi+1)和时间。

1.3 基于出行链的出行特征分析

在获得居民出行链数据的基础上,根据出行链数据的时空属性,进行居民出行时空特征分析。首先,居民出行时间特征分布主要从出行量和行程时间两方面进行分析,探寻不同时段出行行程时间分布规律,研究居民时间特征分布。其次,借助ArcGIS软件中的核密度分析工具进行居民出行空间特征分析。在核密度分析过程中,首先将出行起讫点以点的形式呈现出来,根据核函数定义,设定population字段值为None,输出值是基于实际输入点数计算的,进而所得到的核密度栅格图即为企事业人群出行起终点分布热点图。

除了居民时空特征分析,居民个人属性特征分析也能够直观的反应研究企事业群体的个体基本属性特征。其次,通过功能区的划分,对比不同功能区的起终点出行量分布,可以得到不同功能区出行者的出行特征。

2 案例分析

2.1 数据处理

选取北京市亦庄经济技术开发区作为研究区域,进行居民出行特征分析。研究区域覆盖核心区、路东区、河西区以及路南区,总面积105 km2,是北京城市总体规划的重点新城之一。针对亦庄区企事业人群开展居民出行意愿调研,共发放问卷18 300份,回收有效问卷16 537份,问卷有效率为90.4%。调研内容包含居民社会经济属性、出行属性和出行意愿三个方面。

在数据采集过程中难免会出现不良现象导致数据采集出现错误。首先对重复观测数据和缺失值进行处理,重复观测处理采用duplicated方法进行验证,再删除,缺失值处理采用均值替换法;其次,为了提高数据分析精确度,采用如下规则进行数据处理:居民出行会有一定的时间限制,研究选择出行总时间在4 h内,且对出行次数大于1次的居民出行进行研究;同时选择年龄在16岁以上的调研样本进行分析。

通过对调查问卷数据进行信度与效度分析,得到α系数为0.765,大于0.7,认为该调查数据可信度较好。效度分析结果如表1所示。

表1 KMO和巴特利特检验Table 1 KMO and Bartlett tests

根据表1 中KMO和巴特利特检验结果得,KMO值为0.698,大于0.6,并且通过了Bartlett球形检验,该数据效度水平高。

2.2 居民出行特征分析

2.2.1 居民属性分析

1)居民社会经济属性分析

居民社会经济属性分析如表2所示。由表2可知,亦庄区居民出行年龄在20~30岁的占比最大,为45.42%;工人群体出行占比最高,占比为37.45%。同时,本科学历的人群出行占比最大,占比达35.02%。此外,年收入在5万~10万的居民占比为37.95%,10万~15万的居民占比为20.36%。亦庄区企事业单位的出行群体主要是中低等收入的中青年通勤群体。

2)居民出行属性分析

居民出行目的和出行方式统计分析如图3所示。

表2 居民社会经济属性分析Table 2 Analysis of residents’ social and economic attributes

图3 居民出行属性分析Fig.3 Residents travel attribute analysis

上班为目的的居民占比为38.92%,出行目的为回家的占比为32.44%,得出通勤出行占比最大;28.82%的乘客选择地铁出行,16.14%的乘客选择公交出行,18.22%的乘客选择共享单车出行。因此,公共交通出行方式在所有出行方式中占有较大比例。

2.2.2 居民出行时间特征分析

企事业人群工作日与休息日出行量随时间分布[11,13]如图4所示。

亦庄经济开发区居民出行呈现明显的潮汐现象,且企事业人群的出行早晚高峰与北京市总体人群的早晚高峰一致。与休息日相比,工作日出行更加集中。其次,工作日居民有固定的通勤行为,而休息日居民出行时间较为灵活。

统计居民不同出行行程时间,如图5所示。

企事业人群大部分行程时间都在20~40 min,分布最密集的时段是30 min。出行时长超过70 min的占比相对很小,且亦庄区企事业人群总体出行时间较短,远程出行较少。

居民出行不同时段行程时间分布如图6所示。以小时为单位,分析不同时段居民出行行程时间分布,其中,橙色线条代表每个时段的行程时间中位数,红色圆点代表平均行程时间,绿色箱体的长度代表行程时间分布集中程度。

图4 居民出行时段特征曲线Fig.4 Characteristics curve of residents’ travel time

图5 全天行程时间分布Fig.5 All day trip time distribution

图6 分时段行程时间分布Fig.6 Time-divided travel time distribution

根据行程时间分布图,在5:00和17:00高峰时期,平均行程时间最长,且行程时间分布较为集中;在18:00和22:00,平均行程时间较小,且行程时间分布最为分散;与高峰时期相比,平峰时期平均行程时间较小,且行程时间分布更为集中。

2.2.3 居民出行空间特征分析

在对出行数据进行核密度分析时,由于包含较少部分的长距离出行,导致核密度分析结果误差较大。为了提高精确度,只研究亦庄经济开发区内的短距离出行。在此基础上,分析工作日早晚高峰时段以及休息日居民出行起终点分布,探寻居民在不同时段出行空间分布特征。

居民在工作日早高峰(7:00—9:00)和晚高峰(17:00—19:00)出行起终点分布,如图7所示。将研究区域划分为商务区、居住区、休闲区和混合区,分析工作日早晚高峰起终点分布情况,在核密度分析过程中,将出行量划分为8个等级,为更好地对比高峰时期起终点分布,把第1个等级颜色设置为空,其他等级代表不同程度的出行量,颜色越深,代表出行量越大。

图7 工作日起终点分布Fig.7 Distribution of working days starting and ending points

根据早晚高峰起终点分布核密度图,早高峰起点分布和晚高峰终点分布基本一致,主要集中居住区;早高峰终点分布与晚高峰起点分布一致,主要集中在商务区。对比早晚高峰起终点分布,早高峰终点分布最为密集,晚高峰终点分布最为分散,这表明亦庄区就业办公区较为集中,而居住区较为分散。

居民在休息日出行起终点分布,如图8所示。

图8 休息日起终点分布Fig.8 Distribution of rest days starting and ending points

休息日出行终点比出行起点分布更加集中,且起终点集中分布在商务区,较少部分分布在居住区、休闲区或混合区。与工作日起终点分布相比,休息日起终点分布更为随机,与休息日时间分布特征一致。

2.2.4 不同功能区居民出行特征分析

结合亦庄区用地性质和居民出行目的,根据出行目的的差异性划分功能区[14],以上班、公务为主要出行目的的出行到达区域划分为商务区,以回家为主要出行目的到达区域划分为居住区,以餐饮、购物、文体娱乐等为主要出行目的的到达区域划分为休闲区,而将既有上班、回家或文体娱乐等为出行目的的区域划分为混合区。根据以上假定将功能区划分为商务区、居住区、休闲区和混合区,通过分别对每个功能区进行逐时出行起终点出行量分析,进一步对比不同功能区的出行特征,研究功能区的出行特征分布规律。

不同功能区起终点出行量随时间分布如图9所示。

图9 不同功能区起终点出行量分布Fig.9 Travel volume distribution in different functional areas

商务区和居住区出行量分布呈现明显的高峰时段,7:00—9:00为早高峰,18:00—19:00为晚高峰;早高峰出行量大于晚高峰出行量,且早高峰出行量更为集中,晚高峰则因加班、购物或者娱乐等其他出行活动引起出行量较为分散。

休闲区终止出行量集中在18:00—20:00,起始出行量集中在20:00—22:00;与商务区何居住区相比,休闲区出行比较随机,且夜间出行量较大。混合区起始和终止出行量在一天内呈现双高峰,表明混合区多为居住区和商务区的混合。

不同功能区全天起始出行量对比[12]分析如图10所示。

图10 不同功能区对比分析Fig.10 Comparative analysis of different functional areas

通过对比分析图,商务区和居住区出行量主要集中在早晚高峰时期;休闲区出行量没有明显的高峰时期,出行时间随机,且出行量较少;混合区呈现双高峰出行特征,且高峰时间段与商务区和居住区高峰时间段相对应。

3 结论

基于居民出行调查问卷数据,对居民出行行为特征分布进行了研究,得到以下结论。

(1)在经典DBSCAN算法的基础上,提出了扩展时间维度的时间阈值β以及自适应选择时间阈值β参数的改进方法,进行居民出行停留点识别,结合关联规则挖掘停留点的关联特性,提取居民出行链信息。

(2)亦庄区居民出行多为中低收入的中青年通勤族,且71.36%的居民为通勤职工出行,63.18%的居民选择公共交通出行。

(3)从出行时间特征分布看,工作日和休息日具有明显的潮汐现象,且工作日高峰时期出行量更为集中且出行量大;行程时间分布最密集的时间段是20~40 min,居民出行多为短距离出行;从空间特征分布来看,工作日起终点分布更为集中,且出行多集中在商务区和居住区,而休息日出行起终点分布更为分散,且与工作日相比出行量较小。

(4)对比不同功能区起终点出行量分布,商务区、居住区起终点主要集中在早晚高峰时期且出行量较大,而休闲区出行起终点出行量随时间分布更加随机,且出行量较小。

猜你喜欢
特征分析企事业功能区
企事业单位经济管理责任要素及功能分析
1822号台风“山竹”演变特征分析
64排CT在脑梗死早期诊断中的应用及影像学特征分析
产业功能区人才发展现状与探索
穆夏艺术特征分析
大数据时代人力资源管理变革方向研究
企事业单位人力资源管理工作改进探析
浅谈企事业单位管理中的人力资源经济管理
衡水市不同功能区土壤营养元素的比较
基于PowerPC的脉内特征分析算法的工程实现