谢小兰+彭亚发
【摘要】根据东阳市公共自行车各站点间的自流动性的特点,借助于成熟的回归分析方法,提出了迭代回归模型。通过挖掘城市公共自行车系统中的原始数据,依据公共自行车需求与用地类型,居住人口和建筑面积等相关变量,利用多元回归分析法确定统计数据与自行车投放预测量间近似的函数关系,再通过若干次迭代提高预测精度,以达到更准确的预测站点投放自行车的数量。迭代回归模型不仅能够有效预测并改善目前公共自行车站点的投放数量需求,同时能够对初次设置公共自行车站点的城市提供投放依据,在满足城市居民低碳出行需求的同时节约资源,具有一定的实用价值与现实意义。
【关键词】数据挖掘;公共自行车;回归模型
1引言
当前,城市大气污染和交通拥堵问题日益严峻,汽车排放的尾气已经成为影响城市空气质量的最主要因素。而城市公共自行车能够在很大程度上缓解这一问题,城市公共自行车系统作为大众运输的重要组成部分,在短程接驳、站间换乘以及休闲旅游中发挥着巨大的作用,因为在城市短距离的空间,骑自行车出行很显然是一种低碳环保的方式。东阳市公共自行车系统服务项目自2014年11月第一期运营以来,受到市民的广泛关注,据了解,东阳从一期公共自行车投入运营以来到目前,已办理公共自行车租赁功能的公交IC卡1.2万余张,自行车租用量累计40余万人次。二期投入运营后,东阳市公共自行车租赁点累计达到135个,公共自行车投放累计达3000辆。但是,随着市民对公共自行车的需求量不断的增大,东阳市公共自行车系统在运行过程中逐渐出现站点规模等级化程度不高。站点的分布规模不成层次系统,出现有的站点利用率不高,闲置太多车辆,造成资源浪费,而有的站点租车换车紧张的现象;各站点内锁桩数量的设置趋于经验化,各站点投放公共自行车数量经验化主要体现在投放模式比较单一粗放,没有充分的考虑站点之间的不同所造成的不同需求。公共自行车投放数量的不科学造成部分站点内的自行车供不应求,而也有不少站点的自行车供大于求,达不到资源优化配置的效果,不能为城市人群提供更好的服务,因此,如何合理高效的优化城市公共自行车服务系统已成为当下亟待解决的问题。
因此,利用迭代回归模型对东阳市公共自行车系统进行优化,可以依托于租赁点日常自行车借出情况的详细统计数据,租赁点所在地区的土地利用情况,居民人口数量和建筑面积的数据,建立迭代多元回归模型来求解租赁点自行车投放数量,通过迭代循环近似求解出租赁点公共自行车的投放量。迭代回归模型在公共自行车系统优化中的应用研究,可以预测数据来源于东阳市公共自行车系统对站点每日不同时段的自行车租借人次与周转率的准确统计,数据准确可靠,预测采用回归分析法与迭代法相结合方法,逐步逼近实际需求,回归分析法基于观测数据与影响范围内的土地利用建立适当的变量依赖关系,以分析数据内的关系,迭代法则保证了预测数据与实际需求的尽可能的接近,两种方法的结合保障了预测方法的科学与精确,从而确保了模型较高的可靠性。
2东阳公共自行车数据再处理分析
数据挖掘需要处理大量的数据,这些数据都会存储在公共自行车服务系统数据库中,但这些原始的数据没有经过预处理分析统计是不适合直接挖掘,需要对原始数据进行有针对性的筛选、转换和消除一些冗余数据等,因为数据预处理工作是否到位直接影响着挖掘算法是否高效。
以东阳市公共自行车服务系统中提供的原始数据进行统计分析。首先应将数据表进行分别统计分析,统计公共自行车服务系统中每天所有站点的借车频次和还车频次,对有异常的数据,利用统计判别法给予剔除,并按累计的借车频次和还车频次分别给出排序,同时,统计分析出每次用车时长的分布情况。通过数据分析,结合绘制的图形进行描述统计。统计借车频次最高和还车频次最高的站点,需根据相关数据进行逐一统计,并综合统计数据统计每张借车卡累计借车次数,同时根据统计数据分析分布情况。另外,需要定义两个站点之间的距离为从某一站点借车到另一站点还车所用的最短时长,由此,从数据中可以得到一些基本站点之间的距离,对于不能从数据中读取的两个站点间的距离可以应用算法进行求解。
公共自行车的原始数据都是数据挖掘技术的必要准备数据,数据的准确度将直接影响公共自行车服务系统优化模型的构建。对于公共自行车站点与锁桩数量设置效果的评定,数据处理分析的准确度将对优化模型的构建产生直接的影响,因此对于关键数据要进行再处理和精确分析。假如某个站点的自行车利用率高,借车和还车的频次相协调,那么这个站点设置的很成功,就要对这类数据进行分析保存。对一些站点自行车利用率不高,数据没有明显变化,那么可以取平均值为衡量标准,利用相关原始数据统计分析归纳最终可得到68个样本,截取部分数据如表1所示。
表1公共自行车站点布置情况统计表(部分)
站点
ID主要
对象
性质区域对象的
经济水平站点区
域类别住宅
距离商场区
距离附近
站点人流量站点
锁桩
密度站点
设置
效果
等级Z001外地人低商场区近近少大不GOODZ003本地人高高级宅区较近近无大不MID3迭代模型的建立与回归方法的求解
回归分析法从被测变量和与它有关的解释变量间的因果关系出发,通过建立回归分析模型,预测对象未来发展的一种定量方法。通常处在一个系统中的各种变量可以有两种关系即函数关系和相关关系。当事物之间具有确定关系时,则变量之间表现为某种函数关系。另外有些事物,比如租赁点投放自行车数量与土地利用类型,周边一定范围居住人口数量和有效建筑面积之间,虽然有着密切的联系,但并不能准确的用某一函数关系式确定投放数量与三者间的关系,称这类事物之间具有相关关系。
通过比较现有预测模型的缺陷,从而提出迭代回归模型的有效性和可靠性。回归分析法从被测变量和与它有关的解释变量间的因果关系出发,通过建立回归分析模型,预测对象未来发展的一种定量方法。通常处在一个系统中的各种变量可以有两种关系即函数关系和相关关系。当事物之间具有确定关系时,则变量之间表现为某种函数关系。另外有些事物,比如站点投放自行车数量与土地利用类型,周边一定范围居住人口数量和有效建筑面积之间,虽然有着密切的联系,但并不能准确的用某一函数关系式确定投放数量与三者间的关系,称这类事物之间具有相关关系。迭代回归模型的建模要立足金华市范围内设置的所有自行车站点,每个站点的投放数量上必然存在供不应求与供大于求的情况,也必然存在一部分运作良好,供需平衡的站点。这些供需平衡的站点的自行车投放数量必然与周边包括土地利用类型,居住人口数量和建筑面积等等条件相适应,即投放数量与周边条件之间具有的这种确定的关系,投放数量是多种相关因素的函数,满足一定的近似函数关系式。具体算法分析如下。
首先以属性P进行假设,假设正例集的个数为x个,反例集的个数为y个,那P的信息量为Ix,y=-xx+ylog2xx+y-yx+ylog2yx+y,E(P)为EP=∑ki=1mi+nix+yEPi
其中EPi=-mimi+nilog2mimi+ni-nimi+nilog2nimi+ni。设r=mi-nimi+ni;则EPi=1+r2log21+r2+1-r2log21-r2=1+r2ln2ln(1+r)+1-r2ln2ln(1-r)-1。把ln(1+x)和ln(1-x)展开,则EPi=1+r2ln2∑∞n=1(-1)n-1rnn-1-r2ln2∑∞n=1rnn-1=…=1ln2∑∞n=1r2n2n(2n-1)-1
根据公式推出EPi=1ln2(r22+r412+r630+r856+…)-1代入上式计算出误差在0.1以内并推出EP≈∑ki=1mi+nix+y[1-0.72*r2]。为了克服算法以非最优属性作为新节点的缺点,在算法中设置一个权值J,设属性P有a种值,则J=1/a。将属性P的信息增益公式G(P)=I(x,y)-EP改为G′(P)=[I(x,y)-∑ki=1mi+nix+y(1-0.72*r2)]1a。
4总结
立足东阳市公共自行车各站点间的自流动性的特点,借助于数据挖掘技术中成熟的回归分析方法,提出了迭代回归模型。通过挖掘公共自行车系统中的原始数据,依据公共自行车需求与用地类型,居住人口和建筑面积等相关变量,利用多元回归分析法确定统计数据与自行车投放预测量间近似的函数关系,再通过若干次迭代提高预测精度,以达到更准确的预测站点投放自行车的数量。迭代回归模型不仅能够有效预测并改善目前公共自行车站点的投放数量需求,同时能够对初次设置公共自行车站点或增加站点的城市提供投放依据,在满足金华市居民低碳出行需求的同时节约资源。
基金項目:
本文为2016浙江广厦建设职业技术学院“应用数据挖掘技术优化东阳公共自行车系统研究”的研究成果,课题编号:16ZR011。