朱权 张荣川 段利敏
Keywords:Bus electronic station board; big data; comprehensive selection model; cluster analysis
0 引言
城市交通对于城市社会经济的正常运转和城市居民的正常生活具有重要作用[1]。然而,城市交通也带来了拥堵、交通事故和环境污染等严重的城市问题。公共交通具有运载量大、运输效率高、能源消耗低、相对污染小和运输成本低等特点,是世界公认的解决城市交通问题的最佳选择。然而,人们对城市基础设施的期望在不断提高,传统的公交系统已不能满足乘客对公交服务及时性和舒适性的更高需求。与发达国家相比,我国公交调度方法仍比较原始,大多采取在始发站按照发车时刻表发车,而中途各站点并没有到站时刻表,车辆到站时间不稳定,乘客在公交车站等车时不知车辆到站时间。乘客长时间等车而又不知车辆到达时间会导致乘客的公交满意度大大降低,长此以往公交乘客将大量流失。
为了加快城市智能化公共交通建设,为市民提供便捷、因此舒适的公共交通服务,提升乘客公交服务满意度,因此诞生了智能公交电子站牌系统[2-4]。公交电子站牌系统主要由车载设备、数据管理中心以及电子站牌组成。通过 GPS/北斗导航系统定位车载设备的位置,车载设备将其经纬度数据信息、瞬时速度数据信息进行上传,有的系统为了预测到站时间,还会集成站点的上下车人数信息,一起打包发送给數据管理中心进行处理,然后将处理结果发送给电子站牌。现代的电子站牌已经能够较为准确地提示下一趟车的到站时间或预测到站距离。此外,还可以动态显示换乘线路信息、天气和时间等信息。
然而,由于公交电子站牌的经济成本较高,各城市很难一次性将整个城市所有公交站点投放布设电子站牌。在经费有限的情况下,优先选择哪些站点进行电子站牌投放,当前缺少科学系统的选择方法,各城市大多是由管理部门主观来进行确定。
针对上述问题,本文提出了公交电子站牌投放综合选择模型。在明确了模型指标体系后,构建了主成分-TwoStep聚类模型算法,并基于哈尔滨市公交大数据进行了实例分析。结果表明,所提出创新的综合选择模型取得了良好的效果,实例分析结果与实际情况一致,验证了模型的有效性及可应用性。
1 电子站牌投放综合选择指标体系
本文构建的电子站牌投放综合选择指标体系是在考虑了当前智能公交系统可用的大数据基础上,充分研究了影响公交站点安装电子站牌需求的影响因素,从公交站点地理位置、站点重要性、站点出行需求、公交车辆到达站点稳定性等多个方面考虑而建立的量化指标体系。具体的指标确定如下:
(1)站点线路数。
同一个智能公交电子站牌上可提供多个线路的公交车信息,因此,选择在公交线路更多的站点建立电子站牌,可发挥电子站牌更大的价值。
(2)车辆到站稳定性(PRDM)。
PRDM(Percentage regularity deviation mean),该指标首先由Hakkesteegt P等提出,Oort等[5]将其使用在了公交站点车辆到站间隔规律性分析上。
PRDMj=∑iDi,D′i,jDi,jnj。
式中:PRDMj为站点j的车辆到站间隔稳定性;Di,j为车辆i与前车在站点j的计划到达间隔时间(在本研究中,车辆i在线路各个站点与前车的计划到达时间间隔均取值相同,为在始发站车辆i的发车时间与前车发车时间的间隔值);D′i,j为车辆i与前车在站点j的实际到达间隔时间;nj为所有在站点j停车的公交线路总车辆数。
车辆到站稳定性受到天气、交通信号灯、交通拥堵和驾驶行为等多方面影响。PRDM值越小,表明该站点车辆到达稳定性越好,该值越大,表明到达站点的车辆串车现象越严重。
(3)公交站点出行总需求。
公交站点出行总需求越大,投放智能公交电子站牌所能服务的乘客就越多,其价值就越大。因此,公交站点出行总需求为电子站牌投放指标体系的一个重要的指标。该指标将通过公交IC卡数据与公交GPS数据匹配后统计汇总获得。
(4)公交站点老年人出行总需求。
如今人口老龄化速度加快,老年人的出行需求也占整体需求的较大部分。相比于年轻人,在雨雪、高温等恶劣天气情况下,老年人对公交车辆到站信息的需求更为迫切。因此在老年人活动较为密集的地区,筛选出老年人刷卡量大的公交站点,优先布设电子站牌是极为必要的。
(5)公交站点重要性。
旅游景点代表一个城市的特色,同时也是城市的名片,故交通的可达性和公交的服务质量显得尤为重要。钟杨等[6]通过对哈尔滨旅游游客满意度问卷调查的结果分析得出,游客对交通旅游线路的设施及交通服务的满意度均值较低。而布设公交电子站牌可以显著提升游客对交通系统的服务满意度。因此,有必要针对城市旅游热门线路及旅游景区周边相关公交站点进行优先布设电子站牌。此外,重要政府机构、大型医院和大型场馆周边公交站点也是电子站牌布设的重点考虑对象。
在GIS中选取重要旅游景点、政府机构、大型医院和大型场馆,选择适合的服务半径对其构建缓冲区。在公共交通研究及工程实践中,不同城市、不同区域和不同公交站点类型有着不同的服务半径。国外Biba等[7]以400 m半径覆盖区域作为常规公交站点的可达服务区域,800 m半径为轨道交通站点服务区域[5];Daniels等[8]通过调查数据得到到达公交站点的平均步行距离为461 m,到达轨道交通站点为805 m[6];A.El-Geneidy等[9]通过对加拿大蒙特利尔详细的OD调查数据进行统计分析,获得公交乘客到公交站点步行距离的85%分位数是514 m,到轨道交通站点步行距离的85%分位数是1 259 m。国内朱权等[10]将普通公交站可达半径定义为300 m,将换成枢纽公交站定义为500 m。杨晓飞等[11]根据问卷调查获取南京市75%乘客步行距离为540 m,对应的公交站点服务半径约为431 m。根据以上国内外研究现状,结合哈尔滨实际情况,考虑服务重要旅游景点、政府机构、大型医院和大型场馆等的公交站点相较于普通公交站点会有更大的服务半径,本文选取服务半径为500 m构建重要景点等图层的缓冲区。对构建的缓冲区与公交站点图层进行叠加分析,被缓冲区所覆盖到的公交站点确定为重要站点。如图1所示。
(6)超过容忍极限的到站间隔频次。
在公交站点长时间等候却不来车,会导致乘客心里焦急,公交服务满意度大大下降。结合本文案例城市GPS数据中提取的平均发车隔值,将乘客所能容忍的两辆车的到站间隔选为平均发车间隔值的2倍,即20 min为本文案例研究实验的极限忍受时间,该值将根据不同的城市、不同的实际情况来确定。该指标与车辆到站稳定性(PRDM)都是体现可靠性的指标,PRDM描述的是车头时距的可靠性,属于公交运行时间类可靠性评价指标[12]。而超过容忍极限的到站间隔频次是准点类可靠性指标,相较PRDM,该指标亦可反映出平峰时段由于公交发车间隔大导致的公交站长时间不来车状况。
2 基于主成分-TwoStep聚类的电子站牌投放综合选择模型
主成分-TwoStep聚类综合选择模型是一种组合模型。前部分主成分分析(PCA)通过正交变换将可能存在相关性的多个变量转换为线性不相关的一组新的综合指标变量。后部分TwoStep聚类算法属于分层聚类算法(Hierarchical Algorithms)的一种,算法可应用处理大数据量、混合属性数据集的聚类,并可自动确定类的数目。由于Two Step算法的前提之一是变量之间不存在多重共线性,因此,本文将主成分分析与Two Step聚类算法结合,将主成分分析转换后的新指标体系作为TwoStep聚类算法的输入,采用组合模型进行公交电子站牌综合投放选址。
当前已有文献将主成分分析与聚类算法结合使用,并取得了很好的应用效果。陈梦音等[13]应用主成分分析算法筛选曲拉品质的评价指标,通过聚类分析对曲拉样品进行分类,运用方差分析对曲拉进行品质进行综合评价。周亚峰等[14]基于主成分-聚类分析综合算法,结合回归分析对各指标的耐冷系数(α值)进行综合评价,构建了甜瓜幼苗耐冷性综合评价体系,结果表明该耐冷性评价体系可广泛用于不同甜瓜种质耐冷性的快速鉴定和预测。IN Martínez等[15]将主成分分析与聚类算法结合应用在生物学领域,通过实验验证了算法的实用性与有效性。
2.1 主成分分析
主成分分析(PCA)是当前最流行的多元统计技术之一,几乎所有的科学学科都在使用它。它是一种多变量分析技术,通过正交变换将一组可能存在一定相关性的多个变量重新组合转换为一组线性不相关的综合变量来替代原指标体系,转换后的这组变量被称为主成分[16]。由于本文确定的电子站牌投放综合选择指标体系中的指标来源于人为选定,因此各指标间可能存在一定的相关性。在此通过主成分分析技术将6个指标进行正交变换,获得一组新的不相关的指标体系,变换后的新指标体系将作为Two Step聚类分析的输入。
2.2 Two Step聚类分析
Two Step聚类算法是一种分两步进行聚类的算法。第一步是将原始输入数据进行压缩,使其变成方便进行处理的子聚类。第二步通过分层聚类逐步将小的子聚类合并成越来越大的聚类。Two Step聚类算法可以处理混合字段类型数据,并且可以高效处理大数据量的数据集。此外,该算法不必事先定义要聚类的个数,而是通过对生成的多种聚类结果方案进行评价从而自动获得聚类效果最好的聚类方案。Xueling Wu等[17]应用Two Step聚类分析算法和Apriori算法对三峡库区两类典型崩塌体变形状态进行了分类。采用Two Step聚类分析方法,将崩塌滑坡的月位移曲线分为3类,再选取5個驱动因子作为Apriori算法的先行因子,得到描述滑坡变形与影响参数之间关系的规则。结果验证了Two Step聚类算法的有效性。Two Step聚类算法具体方法如下。
2.2.1 预聚类阶段
预聚类阶段所使用的聚类特征树(CF树)算法与BIRCH算法[18]中CF树生长思想相似,首先逐个读取数据集中数据点,将其插入到CF树中,实现CF树的生长;当CF树成长超出阈值体积时,首先将CF树的可能离群点剔除,再增加空间阈值且对CF树进行缩减,之后将未缩减后的CF树的离群点插入CF树中。
当遍历一遍数据后,真正离群点即为不能插入CF树中的潜在离群点,最后将最终CF树叶元项对应子簇的聚类特征输出至算法的第二阶段。
2.2.2 聚类阶段
根据预聚类阶段所获得的CF树最终叶元项各子簇的聚类特征作为聚类阶段的输入,对子簇Cl={Cl1,Cl2,…,Cln}进行二次聚类。
聚类阶段采用的是分层聚类中的凝聚法(agglomerative hierarchical clustering method)。该方法通过不断重复的去合并距离最近的簇直到满足迭代终止条件,来达到最终聚类目的。从n个子簇Cl1,Cl2…Cln中找寻距离最近的两个子簇,合并其到一个新簇;继续找寻新的n-1个簇中距离最近的两个簇进行合并,重复该过程直到所有的簇都合并到一个大簇中为止。在聚类的过程中由最开始的n个簇合并到最后的1个簇,若期望获得聚类结果为m(1≤m≤n)个类簇,则输出为聚类过程中剩余m个簇时的聚类结果。
3 案例分析
哈尔滨是黑龙江省省会和国际冰雪文化名城。根据交通运输部科学研究院及高德地图联合发布的2017年全国城市拥堵排名,哈尔滨市高居第三。众所周知,大力发展公共交通是解决交通拥堵非常有效的途径,但哈尔滨当前的公共交通面临很多问题。由于哈尔滨市公交车到站没有固定时刻表,漫长冬季冰雪天气下拥堵频发,公交长时间不来车、车辆到站已满载无法上车等现象频繁发生,公交乘客满意度低。公交电子站牌可使乘客获取实时公交到站信息,有选择等待或换乘其他交通方式,对于哈尔滨这座城市老龄化程度较高、冬季漫长的旅游城市来说非常重要。哈尔滨全市公交站点众多而可投入经费有限,因此,有选择的在最有必要的站点建立公交电子站牌是本案例研究目的。
3.1 实例数据
实例数据包含公交IC卡刷卡数据及公交车运行GPS数据,数据来源于2015年3月2日到2015年3月15日共计14 d数据。公交IC卡刷卡数据字段说明及统计分析见表1。
公交GPS数据包含两种表,公交车运行完整GPS轨迹表及公交车到站离站时间表。公交运行GPS轨迹表每条记录包含线路信息、车辆编号、当时时刻的经度坐标、纬度坐标、车辆行驶方向和下一站到站编号等。公交车到站离站时间表记录了线路、车辆编号、车辆行驶方向、车辆到站时间、离站时间和到站站点编号等信息。
3.2 公交IC卡与GPS数据匹配算法
由于哈尔滨市的公交IC卡系统与车辆运行GPS系统为独立的两个系统并且未集成到一起,IC卡系统根据车辆配置的刷卡机POS ID号对应具体的车辆,GPS系统数据表中终端号TERMINAL NO作为车辆识别号,两个系统都有车辆线路号来辅助识别,而POS ID与TERMINAL NO并无相关对照表。此外,由于两个系统有各自独立的时钟系统,在同一时刻两个系统所记录的时间有时间差,且不同车辆上两个系统间的时间差也不同[19]。因此,本文的匹配算法将在两系统存在时间差的前提下,找到IC卡POS机ID与GPS系统TERMINAL NO的一一对应关系。具体匹配算法如下:
步骤一:根据IC卡刷卡机POS ID号进行数据的划分,一台刷机卡上的所有刷卡记录单独划分成一个小的文件并按照刷卡时间进行排序。
步骤二:根据GPS到站离站时间表的终端号TERMINAL NO进行数据的划分,一个GPS终端号TERMINAL NO对应的该车辆所有到站离站时间值存储为一个单独的小文件。
步骤三:选定IC卡刷卡机POS ID记录文件,设置初始时间差为-600 s,用该刷卡机上的所有刷卡记录时间值加上该时间差值得到实验刷卡时间值,再选定相同公交线路一个划分后的GPS到站离站数据文件,二者进行匹配验证。用每一条IC卡记录中的实验刷卡时间去匹配GPS到站离站时间值,当公交GPS到站时间(arrive time)<实验刷卡时间<公交GPS离站时间(leave time)时,记录为一个成功的匹配。匹配实验可获得在初始时间差为-600秒时选定的刷卡机记录与对应的一个GPS终端匹配的匹配记录数与匹配率。将初始时间差增加10 s,再进行一轮匹配。循环该过程直至初始时间差变为+600 s为止。该过程可获得选定的IC卡POS ID与GPS数据 TERMINAL NO在不同时间差下的匹配率。表2中的算法阐释了数据匹配算法的过程。
步骤四:用选定的IC卡POS ID数据去匹配同线路下一个GPS 终端TERMINAL NO文件,获得不同时间差下匹配率。循环该过程,直至选定的POS ID与相同线路所有的GPS终端TERMINAL NO文件都验证了匹配率。
步骤五:完成全部14 d的数据匹配验证,计算POS ID与同线路所有终端TERMINAL NO数据14 d匹配率均值,匹配率最高的POS ID与TERMINAL NO选定为归属同一车辆数据,所对应的时间差即为两个系统的时间差。将IC数据所有的时间值加上确定的时间差值,得到最终IC卡刷卡时间。重复上述过程,可将每一对POS ID与TERMINAL NO确定出来,并获得修正后无时间差的IC卡刷卡时间值。
步骤六:根据确定出的POS ID与TERMINAL NO及修正后的IC卡刷卡时间进行两个系统数据的匹配。由于GPS到站离站时间表有一些缺失值,部分IC卡刷卡数据存在未成功匹配。针对未成功匹配记录,搜索未匹配刷卡时间所对应GPS车辆行驶轨迹表数据中所处经纬度坐标、方向及下一站到站编号,确定未匹配IC卡刷卡记录所对应的公交站点。
3.3 实验结果分析
在完成公交IC卡及GPS数据匹配后,从大数据中提取出哈尔滨全市共计1 553个公交站点相关数据进行本案例研究的实验分析,首先按照电子站牌投放综合选择模型指标体系所确定的6个指标进行指标值计,将计算的结果输入主成分-TwoStep聚类综合选择模型。
經过主成分分析后,最初的站点线路数、车辆到站稳定性、公交站点出行总需求、公交站点老年人出行总需求、公交站点重要性和超过容忍极限的到站间隔频次共6个指标经过正交变换最终提取出了5个主成分。表3显示了模型中的主成分解释的总方差。左侧为初始特征值,显示了初始集合解释的方差,右侧为提取平方和载入,显示由模型中保留的主成分解释的方差。5个主成分的累计方差贡献率达99.46%,即涵盖了大部分信息。
表4显示了主成分分析结果中的公因子方差,表示主成分占每个初始变量字段的方差比例。
通过主成分分析转换获得的5个主成分作为下一阶段TwoStep聚类算法的输入,经过聚类算法后获得结果见表5。由表5可知,使用TwoStep聚类算法,根据算法自动确定聚类数量后共产生5个类簇。其中数目最小的1类Cluster-1有77个站点记录,最多的一类Cluster-5有959个站点。第3列主成分综合得分为主成分分析结果相应的因子得分乘以相应的方差的算术平方根获得的,综合得分越高表明该公交站点建立公交电子站牌的需求也就越大,表中每一个值对应该类簇的均值。站点主成分综合得分均值辅助验证了聚类效果。第4列优度是一种测量聚类内聚性和分离性的指标(优度介于-1~0.2之间表明聚类效果差,0.2~0.5表明效果中,0.5~1表明效果良)。
图2为聚类实验所获结果的类簇之间聚类距离关系图。由聚类距离关系图可看出本实验聚类结果的5个类簇类间区分明确,聚类划分较为清晰,进一步验证了本文所构建的聚类模型应用到实例数据后取得了很好的聚类效果。
将聚类结果与GIS结合进行可视化分析,借助ArcGIS软件平台进行了实现,可视化结果如图3所示。图3中5个类的站点分别用5种颜色表示,每个类中不同站点的可视化大小也不同,依据的是主成分综合得分高低。颜色最深,量级最大的是Cluster 3, Cluster 3中共包含135个公交站点。本文选取哈尔滨市实施公交电子站牌需求最大的10个站点进行结果的代表性分析。10个站点依照需求高低依次是秋林公司(方向1)、哈站(方向0)、秋林公司(方向0)、博物馆(方向0)、哈站(方向1)、会展中心(方向0)、和兴路(方向1)、医大二院(方向1)、建国街(方向0)和儿童医院(方向1)。其中秋林公司(双向)、哈站(双向)、会展中心(方向0)、博物馆(方向0)和儿童医院(方向1)在站点线路数、站点总需求、站点老年人需求和站点重要性4个方面都有很高的值,而站点稳定性值、大间隔次数处于适中水平;和兴路(方向1)有突出的大间隔次数值及公交到站稳定性值(即到站稳定性极差);医大二院(方向1)、建国街(方向0)大间隔次数值、总需求较为突出。通过哈尔滨公交管理部门相关人员结合哈尔滨公交站点实际情况对本文结果进行了验证,经验证,本文研究结果与实际需求情况整体相符,验证了本文所提出的电子站牌投放综合选择模型合理、有效和可应用性强。
4 结论
研究在城市智能公交建设经费有限的前提下,如何科学的选择最有必要的公交站点投放建设电子站牌。本文构建了以城市公交大数据为基础的指标体系、公交电子站牌投放综合选择模型,并应用实际数据进行了案例分析。论文取得的主要研究成果如下。
(1) 提出了可通过公交大数据及GIS构建的电子站牌投放选择指标体系,指标体系包含站点线路数、车辆到站稳定性、公交站点出行总需求、公交站点老年人出行总需求、公交站点重要性和超过容忍极限的到站间隔频次共6个指标。
(2) 提出了主成分-TwoStep聚类组合模型,该模型以指标体系所确定的指标值作为输入,经过主成分分析将原指标体系转化为新的线性不相关综合变量,进而采用TwoStep聚类算法对所有公交站点进行聚类分析,利用组合模型获取城市所有公交站点的电子站牌投放需求大小。
(3) 基于哈尔滨市公交大数据进行了实例分析。提出公交IC卡与GPS数据匹配算法,该算法在两系统存在时间差且无对照匹配字段的前提下,将两系统数据成功匹配。实例分析结果验证了所提出的综合选择模型具有良好的效果,并且经过哈尔滨公交管理部门相关工作人员对实例结果的分析验证,证实了实例分析结果与实际需求情况相一致,验证了模型的有效性及可应用性。
本文仍存在一些需要进一步深入研究的问题。本文所提出的指标体系是考虑了影响站点安装电子站牌需求的因素以及当前智能公交系统可用的大数据基础上得出的,但一些现实的情况并未考虑周全,如供电情况,由于一些站点所处地理位置及周边情况复杂,安装电子站牌可行性较差,在未来的研究中将会考虑加入一些现实因素到模型中。此外,电子站牌可以分为LCD电子站牌、LED电子站牌以及手机端扫码查询实时信息等多种类型,不同类型成本、广告收益及适用站点条件都差异很大。未来研究将会根据不同站点特性、需求,在有限的资金投入情况下细分站点适合采用的电子站牌模式,在满足站点对电子站牌不同需求的前提下,使受益站点、人数最大化。
【参 考 文 献】
[1]王雷,安实,杨海强,等.基于出租车轨迹数据的交通异常识别算法[J].科学技术与工程,2018,18(32):239-247.
WANG L, AN S, YANG H Q,et al. The study of traffic anomaly recognition based on taxi track data[J]. Science Technology and Engineering, 2018, 18(32):239-247.
[2]韦昳. 智能公交电子站牌系统的设计与应用 [J].重庆工商大学学报(自然科学版),2018,35(6):114-120.
WEI Y. Design and application of intelligent bus electronic station card system[J]. Journal of Chongqing Technology and Business University (Natural Science Edition), 2018, 35(6):114-120.
[3]崔杨,曾俊伟,钱勇生,等.基于拓扑性质的河谷型城市公交站点网络复杂特性分析——以兰州市为例[J].公路工程,2018,43(4):1-6.
CUI Y,CENG J W,QIAN Y S,et al.Analysis of complex network characteristics of bus stations in valley city based on topological property--taking lanzhou as an example[J].Highway Engineering,2018,43(4):1-6.
[4]李碩,郝伟.设有公交专用道的信控交叉口人均延误模型研究[J].公路工程,2017,42(3):37-39.
LI S,HAO W.Research on the model of the per capita delay of signal control intersection with bus lane[J].Highway Engineering,2017,42(3):37-39.
[5]OORT N V, NES R V. Regularity analysis for optimizing urban transit network design[J].Public transport, 2009,1(2): 155-168.
[6]钟杨,那守海,徐秋华,等. 哈尔滨市湿地旅游接待设施及服务满意度研究[J].森林工程,2014,30 ( 2): 167-172.
ZHONG Y, NA S, XU Q, et al. Study on Harbin city wetland tourism reception facilities and service satisfaction[J].Forest Engineering, 2014,30(2): 167-172.
[7]BIBA S, CURTIN K M, MANCA G. A new method for determining the population with walking access to transit[J]. International Journal of Geographical Information Systems, 2010, 24(3):347-364.
[8]DANIELS R, MULLEY C. Explaining walking distance to public transport: The dominance of public transport supply[J]. Journal of Transport and Land Use, 2013, 6(2): 5-20.
[9]El-GENEIDY A, GRIMSRUD M, WASFI R, et al. New evidence on walking distances to transit stops: Identifying redundancies and gaps using variable service areas[J]. Transportation, 2014, 41(1):193-210.
[10]朱权,何保红,唐翀,等.基于公交可达性的停车分区研究[J].森林工程,2015,31(6):110-115.
ZHU Q, HE B H, TANG C, et al. Study on parking zoning based on public transportation accessibility - A case study in Kunming[J]. Forest Engineering, 2015, 31 (6):110-115.
[11]杨晓飞,马健霄,仲小飞.公交服务半径及服务水平研究[J].森林工程,2011,27(1):61-64.
YANG X F, MA J X, ZHONG X F. Research on bus service radius and the service level[J]. Forest Engineering, 2011, 27(1):61-64.
[12]耿会灵.基于轨迹与刷卡数据的公交运行可靠性评价[D].济南:山东大学,2018.
GENG H L. Bus operation reliability evaluation based on trajectory and smart card data[D]. Jinan: Shandong University, 2018.
[13]陈梦音,王琳琳,韩玲,等.基于主成分和聚类分析的曲拉品质的综合评价[J].食品科学,2017,38(13):102-107.
CHEN M Y, WANG L L, HAN L, et al. Comprehensive evaluation of the quality qula, dried residue of naturally fermented skim yak milk, based on principal component analysis and cluster analysis[J]. Food Science, 2017, 38(13):102-107.
[14]周亞峰,许彦宾,王艳玲,等.基于主成分-聚类分析构建甜瓜幼苗耐冷性综合评价体系[J].植物学报,2017,52(04):520-529.
ZHOU Y F, XU Y B, WANG Y L, et al. Establishment of a comprehensive evaluation system for chilling tolerance in melon seedlings based on principal component analysis and cluster analysis[J]. Chinese Bulletin of Botany, 2017, 52(4):520-529.
[15]MARTINEZ I N, MORAN J M, PENA F J. Two-step cluster procedure after principal component analysis identifies sperm subpopulations in canine ejaculates and its relation to cryoresistance[J]. Journal of Andrology, 2006, 27(4): 596-603.
[16]ABDI H, WILLIAMS L J. Principal component analysis[J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(4): 433-459.
[17]WU X, ZHAN F B, ZHANG K, et al. Application of a two-step cluster analysis and the Apriori algorithm to classify the deformation states of two typical colluvial landslides in the Three Gorges, China[J]. Environmental Earth Sciences, 2016, 75(2): 146.
[18]WITTEN I H, FRANK E, HALL M A, et al. Data mining: practical machine learning tools and techniques [M]. Massachusetts, United States: Morgan Kaufmann Publishers, 2016.
[19]刘春琳.基于大数据的哈尔滨中高龄老年人公交出行特征研究[D].哈尔滨:哈尔滨工业大学,2016.
LIU C L. The travel characteristics by bus of the elder people based on big data: A case study of Harbin[D]. Harbin: Harbin Institute of Technology, 2016.