居民出行OD调查数据统计分析方法的研究与实现

2013-11-04 06:55李文平王卫青
交通信息与安全 2013年3期
关键词:语句交通样本

李文平 王卫青 赵 顗

(1.常熟市公安局交通管理科学技术研究所 江苏 常熟 215500;2.南京柏博交通科技有限责任公司 南京 210018)

0 引言

一般来讲,城市居民OD 调查采用的抽样率在3%~4%[1]。所以,即使是一个人口为40万的中等城市,其需要采集的样本问卷也需在1.4万份左右。例如,在湖州市城市综合交通规划中,总抽样率为3.05%,得到有效居民出行表格共13 377份。由此看来,城市居民OD 调查所得到的样本数据是非常庞大的。

在后期的数据处理方面,一般都是将Access、Excel、Matlab等软件结合使用;虽然可以满足大部分OD统计分析的功能需求,但是这些软件设计的初衷是通用性,即大众化、简单化、易用化,面向的处理对象是一般的商业数据,对于OD 出行这种特殊的海量工程数据的处理分析,显得力不从心。

比如Access的查询功能兼顾了所有用户,提供了一个查询窗体设计器,可以实现简单的按列匹配进行查询,但是对于“按年龄组的平均出行次数分布”这样的查询,简单的查询窗体无法很好的满足要求;即使工程人员有较高的计算机、数据库方面的知识与经验,并且掌握了基本的SQL 语言,要实现出行次数的统计,仍然需要自己为每个年龄组手工设计两条查询语句,分别得到结果,然后进行除法运算。这样一来,如果存在6个年龄组,那么至少需要12条SQL语句和6次除法运算才能实现以上功能要求。而且极易出现人为操作失误,比如,除法运算错误等。同样,对于更高阶的统计,如“各出行目的的出行方式”,统计出的结果应该为1张表格,假设出行目的、出行方式均有9种,那么需要绘制的表格就有81个单元格,同样需要对每个单元格进行数据统计,这样的工作量是很大的。再者,Access这种小型关系数据库的效率并不高,在动辄几十万数据样本的OD调查中,搜索一次所要花费的时间也是比较长的。在一篇出行调查与特征分析的报告或论文中,需要几十个大小不等的数据表格,如果所有的统计数据均依靠这种半人工方式实现,效率将会非常低。

为了解决上述实际操作存在的问题,对当前OD调查中使用到的统计方法以及利用该统计方法得到的大量数据表格、图形进行分析,提取出几乎所有OD调查所用到的统计方法的基本共性,加以分类、总结,最终提出了统计分析的核心技术,即下面所介绍的OD Result Set Exchange Standard和ODQL。OD Result Set Exchange Standard的优势在于将所有的统计结果的存储方式统一化,能够满足几乎任意维的数据空间;并且易于交换、修改、转换到表格、图形等更直观的表述形式。ODQL则是为解决所有的OD统计方法而专门设计的一门查询语言,语法与SQL 类似,但是提供了统计任意维数据空间的功能,甚至可以得到“非规则”的数据空间;其最终的结果则使用OD Result Set Exchange Standard进行表述。

1 OD数据特点和统计需求分析

目前所使用的出行调查问卷的形式是以自然人为单位,包括其自身的特征属性,如年龄、性别、收入等,以及在特定时间段(通常为24h)内的所有出行记录,出行记录数量一般在10次以内。个人特征属性为一维表结构,出行记录则为二维表结构。从出行本身的性质来看,以一个被调查人员为例,其出行记录之间的基本关系如下:①出行的完整性;②出行信息的合理性;③居民的属性与出行信息的关联性[2]。

其中,样本数据的完整性,是指居民调查表和居民调查子表中所包含的出行者家庭与个人特征以及出行信息等相关信息能够满足建立活动模型的需要;出行信息的合理性,主要包括出行记录的空间一致性、出行记录的时间连续性、出行方式的一致性;居民的属性与出行信息的关联性,主要包含工作-职业、工作-年龄、上学-职业、上学-年龄等方面的检验。

1.1 传统统计分析方法

传统的OD数据统计方法可分为出行次数和特定属性的统计,出行次数的统计又可分为出行次数总量的统计,即出行量和平均出行次数的统计;指定属性的统计可分为属性的总量(如总时耗、总花费)、平均量(如平均时耗、平均花费)、最大量、最小量共6种统计方法[3]。

1.2 统计结果形式分析

传统的OD数据统计方法所统计得到的结果数据集形式通常为一维空间或二维空间,坐标轴通常对应特定的属性,即出行调查表中的列(如出行方式、出行目的),也可为组合列(如时耗,到达时间减去出发时间),空间中数据点的值通常有整型的出行量、浮点型的平均出行次数或平均耗费,或将前两者数据按照某个方向归一化后的百分比数据[4-5]。

该类统计结果的特点是各个数据点所代表的数据空间均为独立不重叠的,即任意一点数据不包含其它任何点的数据;基于这一点,对结果的归一化操作才有实际意义。

由于原始样本的出行记录数据一般保存在关系数据库中,单次出行以数据表中行的形式存在,数据类型一般均为常见计算机语言内置类型,如整型、浮点型,因此利用现有的计算机语言处理原始数据会带来很大的便捷。目前国内普遍使用Microsoft Office办公套件中的Access、Excel等软件对出行数据进行统计分析,常见方式为利用Access的查询窗体对数据样本进行简单查询,或者使用结构化查询语言SQL对样本进行高级查询,可以实现多表的连接查询或更高级的功能,采用这种方式,用户可以完全自定义查询方法;缺点是对用户的计算机水平要求较高、整体自动化程度不高、查询速度较慢等。因此,无论是从便捷性还是专业性方面来看,将办公软件用于交通调查统计中,效果不是很理想。

同时由于在交通出行调查统计分析领域,尚未出现专用的软件和通用开放标准,因此我们提出了一套开放标准和实现。

ODQL和ODRS就是根据上述理论分析的结果,设计的类自然语言和数据格式规范。ODQL与ODRS在设计之初就考虑到如何同时满足高度的专业化、功能的灵活性以及使用的便捷性。现有的版本是参考了SQL的语法和一些工程软件的数据文件格式,经过不断改进而成形的。

ODQL与ODRS已经在OD Star中实现,通过该接口,我们实现了43种常用统计方法。

2 ODQL语言设计

ODQL的 全 称是origin-destination query language,即交通起止点查询语言。

ODQL所针对的原始数据空间是以一次出行记录为基本单位的全体出行样本,其首要设计目标是满足各种需求的OD数据统计,按照针对坐标轴和全局的约束条件进行查询并建立起符合OD Result Set Exchange Standard的数据结果空间模型。在这里我们只关注ODQL的语法如何满足不同需求的统计以及最终结果的存储形式,对于原始出行记录的存储格式以及ODQL如何被解释执行等方面的介绍请参阅OD Star说明书。

完整的ODQL语句包含几个要素,见表1。

表1 ODQL语句说明Tab.1 Illustration of ODQL statement

*归一化:假设统计的数据空间为二维空间,如需要按列计算各个单元格所占的百分比,则可以设置归一化方向为0;同理,如需要按行计算各个单元格所占的百分比,则可以设置归一化方向为1;设置为-1则不进行归一化处理。

ODQL文法(正则表达式描述)如下。语法关键字说明见表2。

表2ODQL文法(正则表达式描述)

ODQL核心特征:

1)支持交通量(出行量)、平均出行次数的统计。

2)支持无限多空间坐标轴。

3)支持符合坐标轴。

4)支持任意多轴约束。

5)支持不同类型的轴约束结合。

6)支持全局约束条件。

3 试验结果

3.1 ODQL Query Engine

Query Engine是为了解释并执行ODQL语句而实现的解释器和执行器。

在OD-Star中集成了一个ODQL的命令行接口——ODQL Shell,通过该接口,用户可以直接执行完全自定义的ODQL语句。详细介绍请参阅《基于B/S模式的居民OD调查统计分析软件的研究与开发》,这里不再赘述。

3.2 性能测试

执行一次ODQL所需要的时间依赖于结果集的规模。根据不同规模的测试结果见表3、表4。

由平均单次执行时间可以看出,随着统计结果空间规模的增大,总执行时间接近线性增长,平均单次执行时间保持在200ms左右。常用的统计方法的规模一般在100以内,出行记录一般也小于10万规模,因此ODQL Executer的性能完全能够满足一般的工程应用。ODQL所面向的原始数据的规模一般在几十万,虽然ODQL可以一次性执行得到一个完整的空间数据集,但是执行所需的时间还是相当可观的。如果使用传统的Access、Excel等软件对数据进行一个一个的统计,可想而知其中存在大量的重复劳动会消耗大量的时间。

表2 语法关键字说明Tab.2 Keyword description in syntax

表3 测试样本数据总量Tab.3 Total amount of test sample

表4 测试环境Tab.4 Test environment

4 结束语

在现有的OD 调查数据基础上,我们提出的ODQL标准查询语言和ODRS标准数据集格式,规范了查询数据的方式,覆盖了绝大多数的分析需求并大大减少了时间开销。用户通过标准的ODQL语句能得到各种所需的数据结果形式,实现了数据结构标准查询,使居民OD 调查数据得到最大化的利用,也为调查数据的挖掘工作提供便利的途径。

表5 测试结果Tab.5 Test result

[1]东南大学交通学院.蚌埠市城市综合交通规划[R].南京:东南大学交通学院,2007.

[2]王伊丽.城市居民活动-出行特征分析方法研究[D].南京:东南大学,2007.

[3]王建军,严宝杰.交通调查与分析[M].2版.北京:人民交通出版社,2004.

[4]王 炜,陈学武,陆建.交通规划[M].北京:人民交通出版社,2007.

[5]陆 建,王 炜.面向可持续发展的城市交通系统调查内容与分析[J].中国市政工程,2003(5):1-4.

[6]王小敏,熊 军,马木欣.基于GPS的大跨度桥梁变形监测与数据处理[J].武汉理工大学学报:交通科学与工程版,2009,33(2):219-223.

[7]戢晓峰,刘 澜.多模式公共交通系统的出行信息有效性研究[J].武汉理工大学学报:交通科学与工程版,2009,33(5):980-983.

猜你喜欢
语句交通样本
用样本估计总体复习点拨
繁忙的交通
重点:语句衔接
推动医改的“直销样本”
小小交通劝导员
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本
如何搞定语句衔接题
作文语句实录
阅读理解三则