基于区间二型模糊集合的人工交通系统可信度评估

2019-11-01 03:53李润梅梁秋鸿

自动化学报 2019年10期

李润梅梁秋鸿

人工交通系统是利用人工社会的基本理论与方法,通过抽取交通环境中单个个体或局部交通行为的基本属性或动态规律,基于Agent 建模技术,通过交通系统个体或局部Agent 之间相互作用,“涌现(Emergence)”出复杂的交通现象,这是一个“自下而上”、基于“简单一致原则”人工“培育”出来的交通系统[1−3].人工交通系统可把“仿真”结果作为现实的一个替代版本,而把实际系统也作为可能出现的现实中的一种,与仿真结果等价[4−6].

霍兰指出:“涌现现象是以相互作用为中心的,它比单个行为的简单累加要复杂得多”[7].对代理、环境及规则上描述的细微差别,在涌现过程中,就可能出现“差之毫厘,谬以千里”的结果,从而仿真结果失去了对现实的指导意义,甚至给出完全错误的指导方案.正如社会学家Helmreich 所批评的一样:人工社会的模型反映的是其创造者的潜意识中的文化假设和偏见[8].

如何避免这一问题? 在人工交通的建模及平行系统的研究中,需要引入严密的量化评估体系,建立系统“可信”或“可用”的数学描述,并从多维度、多粒度的数据层面进行量化评估,从理论上保证人工交通系统与现实交通系统在统计特性上、在动态演化规律上、在行为特性上的一致性.本文针对人工交通系统,基于人工交通系统基本体系结构,将二型模糊集合方法引入人工交通系统可信度评估中,建立了一种适用于人工交通系统的可信度评估理论体系与具体评估方法.并利用一个“人工公交交通系统”模型,进行了可信度评估的数据验证.

本文结构安排如下.第1 节介绍了可信度研究的意义,对可信度研究方法和成果进行了综述,并提出了本文的可信度评估框架.第2 节为可信度评估使用的核心算法介绍.第3 节仿真验证.最后给出结论.

1 可信度研究综述及评估体系

可信度定义:对于一个事物或现象为真的相信程度.可信度的量化值一般在[0,1]之间,值越大,表示该事物越“真”[9].评估复杂仿真系统可信度的过程称为复杂仿真系统的可信度评估.通过开展复杂仿真系统的可信度评估研究和应用,可以提高综合仿真系统的仿真结果的正确性,降低其应用的风险保证仿真系统的质量.可信度评估在交通仿真、网络管理、信息管理、远程通讯以及导弹系统等各个领域都有广泛的应用[10−13].

文献[12]针对微观交通仿真模型开发者和使用者的不同需求,研究了交通仿真模型可信度评价内容及其与仿真模型校正、校核、验证和确认的关系;分析了三种可用于微观交通仿真模型可信度评价的方法:层次分析法、相似度法以及模糊综合评判.文献[14]使用模糊三角函数与层次分析法及网络层次分析法综合评价列车控制仿真系统的可信度,获取定量的可信度结果.文献[15]在对当前城市交通导航系统的分析中发现,许多共享交互的弱点会损害系统的可信度.论文提出了改进的交互机制,以提高导航系统的可信度.在比较用户的研究中评估了所提议的机制,并给出了确认其可信度的积极影响的结果.

从应用上分类,可信度评估方法主要有仿真结果评估与VV&A (Verification,validation and accreditation)两种模式[16−18].基于仿真结果验证的方法主要是应用定性或定量评估方法,并结合统计学的相关知识,通过仿真结果与实际或预想结果的比较,得出仿真可信度评价[16],是交通仿真系统中主要使用的可信度评估模式.人工交通概念提出以来,关于其建模方法及应用的研究成果较多,但可可信度评估的研究相对较少[19].Li 等[20]在前期研究中,建立了基于二型模糊集合方法的人工交通系统可信度评估体系.

因为一般现代综合评估方法存在:1)因评价专家主观上的随机性和不一致性导致问题描述的混乱;2)隶属度函数及权重难以精确确定;3)简单的评价结果无法精确地反映评价结果与评价对象内在因素的多维关系等问题[21−22].同时考虑到人工交通系统不依赖精确数学模型、不确定性因素多、输入输出数据随机性强等特点,本文应用二型模糊集理论,利用其较强的处理不确定性及随机性的能力来对人工交通系统的可信度做具体的评估研究.建立了以区间二型模糊集合理论为核心数据处理算法的评估方法,如图1 所示.评估方法的核心由三部分构成:数据处理、区间二型模糊集、Jaccard 算法.

该方法应用可信度概念,描述将人工交通系统视为交通系统的现实版本的真实程度,通过评估人工交通系统和实际交通系统输出数据的统计一致性程度,来评估人工交通系统的可信度.即在一致输入条件下,输出的统计特性一致.具体思路描述如下:

1)将来自于实际交通场景的大量数据进行前期处理,考虑到交通系统的非严格重复的周期性、随机性和不确定性,基于置信区间概念,将其处理为区间化数据:同理,将相应的人工交通系统的输出数据也做同样的处理.

2)区间化数据表达符合对开放复杂系统的输出数据不确定性和波动性的描述,在剔除了噪声数据的同时,也完成了二型模糊集建模的输入数据准备.

3)应用区间二型模糊集合算法,将处理后的区间输入进行深度加工,得到更准确刻画系统特性的两个交通系统(实际交通系统和人工交通系统)的数据集合.

4)基于Jaccard 算法对二型模糊集输出数据集合进行一致性比较,通过一致性结果数据,评价人工交通系统的可信度.

上述评价方法,有效地实现了基于Agent 建模的复杂系统评估问题.该方法以系统数据为驱动,不依赖于数学模型,同时通过数据的波动性描述系统的不确定性特征:应用了二型模糊集处理带有噪声及不确定性数据的优越性能,保证二次数据的精准性.

2 核心算法

2.1 区间二型模糊集合

Zadeh[23]在1975 年提出了二型模糊集合的概念,二型模糊集合是传统模糊集合(称为一型模糊集合)的拓展.二型模糊集合由于隶属度本身是不确定的,可以对不确定的数据进行确定描述,在处理带有噪声及不确定性数据方面具有优越的性能[24],这使它用于处理不确定性强、随机性强的交通流数据成为可能.2017 年,二型模糊集合理论得到了进一步的修正[25].

定义1.设C(I)是由单位区间I的全体非空闭子集构成的一个集合.论域X上的一个二型模糊集合ω定义为

图1 基于二型模糊集合理论的人工交通系统评估过程Fig.1 Artificial traffic system assessment process based on type-2 fuzzy set theory

其中,x为主变量,u为次变量,z为第3 变量,Lx为主隶属度,由一个多值映射定义而得,表示为

即∀x ∈X,存在Lx ∈C(2I),使得

定义2.二型模糊集合ω的支集为在X ×I中使次隶属度大于0 的全体元素构成的集合,记为Supp(ω),即

若为一个连续函数,则由连续函数的性质,可记CoS(ω)为支集Supp(ω)的闭包(Closure of support),表示为

如果对∀x ∈X,∀u ∈Lx,都有则称ω为一个区间二型模糊集合.

2.2 交通数据的区间化方法

城市交通环境因其开放性、不确定性和随机性较强,导致交通数据具有不确定性和随机性特征,但同时,城市交通环境作为一个大惯性系统,其数据的非严格重复性又使其具有较好的统计特征.

图2 以24 小时交通流量数据为例,刻画了多天交通流量的分布及区间化描述.在某一给定时刻,区间的最大和最小值表明了该时刻交通流量可能的变化范围.

交通流量的区间化描述方式不仅能够给出交通流量丰富的分布信息,并可以用构造内嵌一型模糊集合,以作为二型模糊集的源数据.

本文引入置信区间的概念,应用中心极限定理,将交通流数据由点值数据转化为区间描述[26].

置信区间是指由样本统计量所构造的总体参数的估计区间:

设θ是总体的一个参数,该参数空间为Θ,x1,x2,···,xn是来自该总体的样本,n为样本量.对于给定的一个α(0<α<1),若有两个统计量:对任意的θ ∈Θ,有称随机区间为θ的置信水平为1−α的置信区间.

构造未知参数θ的置信区间最常用的方法是轴枢量法.考虑到对于非正态分布的随机序列总体,一般难以求出其总体的轴枢量,因此利用中心极限定理将其近似分布转化为正态分布,从而求得参数的置信区间估计[27].

勒维–林德伯格定理如下:

设x1,x2,···,xn为相互独立同分布的随机序列,且E(xi)=µ,D(xi)=σ2>0,i=1,2,3,···,则{xi}服从正态分布,即

针对这样一个正态分布,可按照式(7)构造轴枢量

经过不等式变形,方差σ2已知条件下,期望µ的置信区间为

2.3 基于Jaccard 算法的集合相似性计算

Jaccard 算法是由Jaccard 在1908 年提出的,用于对两个集合的相似度进行比较[28].其中被广泛使用的参数为Jaccard 相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异性,Jaccard 相似系数越大,样本相似度越高.

图2 24 小时交通流量的区间化描述Fig.2 The interval description of 24 hours traffic flow

从20 世纪初到现在,Jaccard 算法已经在生物学、经济和社会研究领域中被广泛运用并取得了较好的效果.Bell 等[29]在评估植物图像分割的子集匹配时采用了Jaccard 算法,对分割图像和地面实际图像这两个像素集合进行相似度的计算.Rinartha等[30]在文章搜索中运用Jaccard 相似度对关键词的处理时间和搜索文章的结果精确性进行了比较分析.结果发现Jaccard 相似性查询建议将产生更加准确的搜索结果.研究表明,Jaccard 相似度的平均绝对误差(Mean absolute error,MAE)相较于皮尔逊相关系数法、对数似然值相似度和余弦相似度等误差较低,且算法简单,运算速度快.在通常情况下,Jaccard 系数值越大,样本相似度越高,本文采用Wu 等[31]提出的针对二型模糊集合Jaccard 算法,如式(9)所示.

3 人工交通系统可信度评估实例验证

3.1 系统建模

本文选择北京海淀区某道路为典型建模场景进行可信度实验研究,该路段双向2 车道,包含三个公交车站、两个定时控制的信号灯路口和3 条公交线路,全长约为1.4 公里.

研究者以2015 年3 月至4 月中旬的每周二、周三、周四共计六周18 天,在每一天的上午8 点到下午8 点进行数据调研,以调研数据作为人工交通系统的数据来源.包括双方向车流量、车辆类型、多点车辆速度等.因为在该场景中,有比较繁忙的公交线路,公交线路的参与者又受到周边环境的影响,具有复杂系统典型性数据特征.因此本文特别对参与公共交通运输的数据:包括上下车乘客数、公交车到、发站时间等也进行了数据调研,完成了该典型交通场景的人工交通系统建模的数据准备.并选取随机性较强、对公共交通调度规划具有重要影响的乘客上车人数作为人工交通系统可信度评估参数,进行可信度验证.该路段上三个公交车站在调研时段的乘客等车调研数据如表1 所示(实际系统).限于篇幅,关于人工交通建模的研究内容将在另文进行阐述.

搭建的人工交通系统运行界面如图3 所示.根据实际调研数据,在人工交通系统中设置该路段初始计划乘车人数为50 人,系统将这50 个人随机分布在路段的不同地方,然后各自判断自己离哪个公交车站更近,从而选择自己的前进方向.多次运行人工交通系统,得到三个车站等车乘客人数的仿真数据,其均值也列入表1 (仿真系统).

图3 典型人工公共交通系统模型Fig.3 Typical artificial transit traffic system model

3.2 数据处理

为了对数据进行统一处理,把每个参数的输入数据除以一个比例因子进行“归十化”到区间[0,1].对“归十化”得到的数据进行一型模糊化处理,由式(8)将交通流数据由点数据转化为区间数据,表2 展示了区间化数据结果.基于此数据基础,即可构造内嵌的一型隶属度模糊集.设每一个区间左端点为b,右端点为c,左右端点的中间值为a,本仿真中,用区间数据构造三角型隶属度函数,则

因此,每一个区间都对应着一个一型模糊集.运用式(10)进行集合并运算:

其中,µA(x)和µB(x)为一型模糊集合A和B的隶属度函数,µC(x)为集合并运算得到的新集合C的隶属度函数,即二型模糊集合CoS.本文将某5分钟的前两个时段和本时段及后一个时段共四个时段进行了并运算,得CoS如图4 所示.

对实际交通系统和人工交通系统,研究时间轴为每一天的上午8 点到下午8 点,共12 个小时.因为按照5 分钟进行数据统计,所以得到144 个CoS,限于篇幅,仅列出一个5 分钟数据采样时段,两个系统的二型模糊集合图例,结果如图5 所示.

表1 三个公交车站上车人数的实际调研数据和人工交通系统运行数据Table 1 The actual data and simulation data of people get on the three bus stops

表2 三个公交车站上车人数模糊化以后的实际数据和仿真数据Table 2 The actual data and simulation data after fuzzified of people get on the three bus stops

图4 区间算法一型模糊集合并运算Fig.4 An example of the union of type-1 fuzzy sets

经过解模糊化处理,可以得到两个系统分别由144 个重心组成的上限重心和下限重心值构造出来的144 个集合,根据式(9)可计算出两个系统三个站点各144 个集合的相似度值,记为Jsm(x)(x=1,2,3).

图5 三个候车站实际候车乘客数据和对应的人工交通系统候车乘客人数数据的二型模糊集合Fig.5 Two-type fuzzy set of three stations actual data and corresponding simulation data

3.3 模型评估

由式(9)可计算得到人工公共交通系统可信度评估结果:

第1 站的评估结果为Jsm(1)=1

第2 站的评估结果为Jsm(2)=1

第3 站的评估结果为Jsm(3)=0.6331

整个系统的评估结果为

针对这一结果,本文使用克朗巴哈系数(Cronbachs alpha)进行评价,通常Cronbach 系数的值在0 和1 之间.如果系数不超过0.6,一般认为内部一致可信度不足:达到0.7∼0.8 时表示量表具有相当的可信度,达到0.8∼0.9 时说明量表可信度非常好,如表3 所示[32].本文所建立的人工交通系统,以车站候车人数为计算指标,得到的可信度为0.88,表明人工交通系统很可信.

表3 可信度值与Cronbach 系数的关系Table 3 The relationship between the value of credibility and Cronbach coefficient

4 结束语

本文进行了人工交通系统模型可信度评估的研究:针对交通数据的不确定性和随机性特性,在可可信度评估中引入区间二型模糊集理论,利用基于统计的数据一致性分析思想,构建了基于区间二型模糊集方法的人工系统可信度评估方法.本文核心思想是对实际系统和人工系统的输出数据进行了二重处理,一重处理通过置信区间获取数据的统计特征,同时区间化得到二重处理的输入数据:二重处理通过二型模糊集方法处理不确定性数据、随机性数据以及噪声数据的能力,获得更细致刻画系统特性的输出数据集,通过两个数据集的相似性程度评估系统的可信度.

本文使用人工交通系统中候车乘客人数这一类易受周边环境影响的数据进行了计算验证,结果表明了基于区间二型模糊集合的可信度评估方法的有效性和合理性.

本文的研究过程中还存在着如下一些问题:1)在建模过程中没有完全提取交通系统的所有参数及特性;2)在案例研究中,也只针对公交运行过程中乘客上车人数数据进行评估,相对单一.后续的研究工作要继续完善人工交通系统模型,获得更多类型的数据,通过更多案例研究实现系统的可信度评估.同时,也将研究如何通过可信度评估过程及结果对人工交通系统建模过程提出优化建议.