程锦宝 石 琴 陈一锴 丁晶晶
(1.合肥工业大学汽车与交通工程学院 合肥 230009)(2.合肥工业大学管理学院 合肥 230009)
基于树增强朴素贝叶斯分类器的出租车制动系统安全状态预测∗
程锦宝1石 琴1陈一锴1丁晶晶2
(1.合肥工业大学汽车与交通工程学院 合肥 230009)(2.合肥工业大学管理学院 合肥 230009)
制动系统故障是引发出租车交通事故的主要原因之一,预测出租车制动系统的安全状态对于主管部门维护管理出租车、减少道路交通伤亡和经济损失具有重要意义。论文基于合肥某机动车安全技术检测站提取的335组出租车制动系统检测数据,以品牌、使用年限和整备质量为属性变量,分别构建树增强朴素贝叶斯分类器模型、决策树模型、K近邻模型预测出租车制动系统的安全状态。结果表明,树增强朴素贝叶斯分类器模型的预测准确率、灵敏度、特异性均优于决策树模型和K近邻模型,可准确预测出租车制动系统的安全状态。
树增强朴素贝叶斯;出租车制动系统;安全状态
随着城市交通系统的快速发展,出租车引发的道路交通事故受到越来越多的关注。2015年,我国共发生出租车交通事故4489起,造成750人死亡、4765人受伤,分别占生产经营车辆交通事故的11.3%、3.9%和12.3%;而在所有机动车安全状态不良引发的交通事故中,制动不良、制动失效的事故分别占53.5%和16.6%[1]。因此,学者们针对汽车制动系统故障与交通事故间的关系开展了一系列研究。刘静等运用Logistics理论,建立了车辆机械故障与交通事故严重性之间的量化模型,指出相对于转向失效、失去动力及其他机械故障,车辆制动失效导致人员死亡事故的概率较大[2]。骆颖哲运用灰聚类评价法,对汽车故障所引发交通事故风险等级进行评估,分析表明制动失效和制动不良易导致高风险等级的道路交通事故;并综合运用层次分析法与模糊评价法,建立了汽车底盘故障事故模糊综合评价模型,结果表明制动系统故障易导致重大交通事故[3]。
由上述研究可知,出租车制动系统的安全性与道路交通事故密切相关,预测出租车制动系统是否处于良好安全状态,加强对可能存在安全隐患车辆的维护管理,是提高出租车行驶安全性和减少道路交通事故的重要方法。
树增强朴素贝叶斯(Tree Augmented Naive Bayesian,TAN)分类器作为朴素贝叶斯[4](Naive Bayesian)分类器的扩展,相比决策树和K近邻等机器学习算法,可有效利用变量之间的相关关系,整合专家知识经验,揭示模型预测的不准确性风险[5~6]。当前,在诸如医学,社会学,食品安全等众多领域,TAN分类器作为预测方法具有较好的表现[7~9]。然而,在车辆制动系统安全状态预测领域还未见应用和报道。
本文基于2016年合肥某机动车安全技术检测站1月份的294组出租车制动系统检测数据,运用相关性分析,选取基本信息中与制动系统安全状态相关性较大的变量,作为TAN分类器模型的属性变量。运用最大期望值算法(EM)构建TAN分类器模型,用于预测车辆制动系统安全状态,并使用来自2月份的41组检测数据检验该模型的预测精度。最后,通过与决策树模型和K近邻模型的对比,分析了三种方法的预测准确率、灵敏度和特异性。
采用合肥市某机动车安全技术检测站2016年1~2月的353组出租车制动系统检测数据作为研究样本,依据样本数据生成时间先后顺序[9~10],选取1月份的294组(88.6%)数据作为训练样本,2月份的41组(11.4%)数据作为测试样本。每个样本数据包括车辆基本信息(车身颜色、车辆轮距、车辆品牌、车辆整备质量、车辆使用年限等)和检测结果数据(各轴制动力、左右轮制动力最大差值、各轴制动率、各轴不平衡率及驻车制动率等)。检测结果数据中各轴制动率、不平衡率及驻车制动率等某一项不合格车辆,即视为制动系统安全状态较差车辆,各项均合格车辆视为安全状态良好车辆。
运用相关性分析,选取车辆基本信息中,与制动系统状态相关系数绝对值大于0.1的三项[11],车辆品牌、使用年限和整备质量作为TAN分类器模型的属性变量。
TAN分类器是Friedman在Chow和Liu依赖树的基础上建立[12],是朴素贝叶斯分类器的树形依赖扩展,能够有效利用属性变量之间的依赖信息,当属性变量和类变量之间具有相对星形结构更复杂的依赖结构时,可得到更好的分类预测效果。
TAN分类器结构中,类结点是每一个属性结点的父结点,属性结点之间形成一棵最大权重跨度树。一个简单的TAN分类器模型如图1所示。
图1 TAN分类器模型示意图
TAN分类器结构需要学习,学习过程如下:
1)在各属性结点间建立无向边,并计算属性变量Xi、Xj之间的条件互信息:
其中,I(Xi,Xj|C)作为边的权重,Xi、Xj表示属性变量,C表示类变量,xi、xj表示属性变量Xi、Xj的取值,c表示类变量C的取值。
2)依据不产生回路的原则,按照边权重由大到小的顺序选择边,直到选取n-1条边,构建最大权重跨度树,其中,n为属性变量数目。
3)选择一个结点作为根节点,设置所有边的方向是由根节点向外的方向,把无向树转变为有向树。
4)增加一个类结点及类结点指向所有属性结点的有向边[13]。
TAN分类器中,对于未知类别样本X=(X1,…,Xn),由贝叶斯公式,计算其后验概率p(c|x1,…,xn),选择使其后验概率最大的类变量取值c,作为类变量预测值:
其中,c作为类变量C的预测值,(X1,…,Xn)为属性向量,c(x1,…,xn)表示在属性向量 (X1,…,Xn)取值为x1,…,xn时类变量C的取值,GT表示在类变量C约束下(X1,…,Xn)的最大权重跨度树,π(xi)是在最大权重跨度树中 Xi的属性父节点∏(Xi)的取值。
本文基于294组训练样本,采用R软件使用最大期望值算法(EM)学习TAN分类器模型结构及其参数[14],其结构如图2所示。所建TAN分类器模型中的变量包括车辆品牌、使用年限、整备质量和安全状态,变量的含义及取值如表1所示。其中变量“安全状态”为类变量,其他变量为属性变量。
图2 构建的TAN分类器预测模型
表1 TAN分类器模型变量
本文使用41组测试样本检验所建TAN分类器模型预测效果。表2显示了用于预测的出租车基本信息和模型预测结果。
表2 41组测试样本的部分预测
结果表明,TAN分类器模型正确预测了41组中35组样本安全状态,其预测准确度为85.4%,其预测灵敏度、特异性分别86.7%、83.3%(见表3),所建TAN分类器模型在预测出租车制动系统安全状态良好与否方面具有良好表现。
表3 各模型预测结果对比
决策树方法是以实例为基础的归纳学习算法,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论[15],从而生成决策树分类模型,利用生成的模型对待分类样本进行分类。本文采用CART决策树算法中的Gini系数作为分支划分标准:
其中,T为训练样本集,m为训练样本类别数,pi为类别ci在样本集T中的出现概率。
K近邻方法是基于实例学习的非参数预测算法,通过计算待分类样本与训练样本之间的距离,选出与待分类样本距离最近的K个训练样本,K个样本中出现次数最多的类别,即为该待分类样本的预测类别。本文所用样本间距离为欧氏距离:
其中,X、Y分别为待分类样本和训练样本,d(X,Y)为样本 X 、Y 之间的距离,(x1,…,xn)、(y1,…,yn)分别为 X、Y特征向量值。
分别使用TAN分类器、决策树和K近邻方法构建的模型,对41组测试样本进行预测,预测结果如表3所示。本文以准确率、灵敏度和特异性为预测效果的评价指标,其中,准确率表示模型对全部样本预测的正确率;灵敏度表示模型对实际状态“良好”样本的预测正确率;特异性表示模型对实际状态“较差”样本的预测正确率。
结果表明,所建TAN分类器模型的预测准确率相对于K近邻模型提高了6.1%,相对于决策树模型提高了3.0%;灵敏度相对于K近邻模型提高了8.4%,相对于决策树模型提高了30%;特异性相对于K近邻模型提高了11.1%,与决策树模型相同。体现了所建TAN分类器模型在预测方面的实用性及优越性。
本文基于2016年合肥某机动车安全技术检测站的335组出租车检测数据,针对决策树和K近邻等机器学习算法,难以有效利用变量间相关关系、揭示模型预测不准确性风险的问题,运用期望最大化算法,构建了用于预测出租车辆制动系统的安全状态的TAN分类器模型,并通过与决策树模型和K近邻模型的预测效果对比,体现了所建TAN分类器模型在预测出租车制动系统安全状态方面的实用性与优越性,可为相关主管部门管理、维护出租车辆提供理论指导,预防因制动系统故障引发的道路交通事故。
[1]公安部交通管理局.中华人民共和国道路交通事故统计年报(2015年度)[R].无锡:公安部交通管理科学研究所,2016.Ministry of Public Security Traffic Administration Bureau.The People's Republic of China Road Traffic Accident Sta⁃tistics Annual Report(2015)[R].Wuxi:Ministry of Pub⁃lic Security Traffic Administration Science Research Insti⁃tute,2016.
[2]刘静,冯忠祥,赵汝海.车辆机械故障与交通事故严重性关系模型[J].安徽理工大学学报,2016,36(1):25-29.LIU Jing,FENG Zhongxiang,ZHAO Ruhai.The Model of Relationship between Vehicle Mechanical Failures and Accidents Severity[J].Journal of Anhui University of Sci⁃ence and Technology(Natural Science),2016,36(1):25-29.
[3]骆颖哲.汽车故障事故风险评价方法研究[D].哈尔滨:东北林业大学,2014.LUO Yingzhe.Research of Risk Evaluation Methodology of Automobile Failure Accident[D].Harbin:Northeast Forestry University,2014.
[4]PEARL J.A constraint propagation approach to probabilis⁃tic reasoning[A].In:KANAL L N,LEMMER J F.Pro⁃ceedings of the First Conference Annual Conference on Uncertainty in Artificial Intelligence[C]//Corvallis:AUAL Press,1988:31-42.
[5]BURITICA J A,TESFAMARIAM S.Consequence-based framework for electric power providers using Bayesian be⁃lief network[J].International Journal of Electrical Power and Energy Systems,2015,64(0):233-241.
[6]GENC O,DAG A.A Bayesian network-based data analyt⁃ical approach to predict velocity distribution in small streams[J].Journal of Hydroinformatics,2016,18(3):466-480.
[7]肖利洪,陈沛然,李梅,等.TAN贝叶斯网络模型在前列腺癌中的预测研究[J].中华男科学杂志,2016,22(6):506-510.XIAO Lihong,CHEN Peiran,LI Mei,et al.Tree-Aug⁃mented Naive Bayesian network model for predicting pros⁃tate cancer[J].National Journal of Andrology,2016,22(6):506-510.
[8]伍杰华.基于树状朴素贝叶斯模型的社会网络关系预测[J].计算机应用,2013,33(11):3134-3137.WU Jiehua.Tree augmented Naive Bayesians model for ties prediction in social networks[J].Journal of Computer Applications,2013,33(11):3134-3137.
[9]BOUZEMBRAK Y,MARVIN H J P.Prediction of food fraud type using data from Rapid Alert System for Food and Feed(RASFF)and Bayesian network modeling[J].Food Control,2016,(61):180-187.
[10]ZHANG Y,ZHAO H,HE X,et al.Bayesian prediction of earthquake network based on space-time influence do⁃main[J].Physica A,2016(445):138-149.
[11]SUN L,SHENOY P P.Using Bayesian networks for bankruptcy prediction:Some methodological issues[J].European Journal of Operational Research,2007,180(2):738-753.
[12]FRIEDMAN N,GEIGER D,GOLDSZMIDT M.Bayesian network classifiers[J].Machine Learning,1997,29(2-3):131-163.
[13]王双成.贝叶斯网络学习、推理与应用[M].上海:立信
会计出版社,2010:146-152.
WANG Shuangcheng.Learning,Inference and Applica⁃tion of Bayesian Network[M].Shanghai:LIXIN Accoun⁃tant Express,2010:146-152.
[14]DEMPSTER A P.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statis⁃tical Society.Series B:Methodological,1977,39(1):1-38.
[15]孙英云,何光宇,翟海青,等.一种基于决策树技术的短期负荷预测算法[J].电工电能新技术,2004,23(3):55-59.SUN Yingyun,HE Guangyu,ZHAI Haiqing,et al.A short-term load forecasting method based on decisiontree approaches[J].Advanced Technology of Electrical Engineering and Energy,2004,23(3):55-59.
Prediction of the Working Condition of Taxi's Braking System based on Tree Augmented Naive Bayesian Classifier
CHENG Jinbao1SHI Qin1CHEN Yikai1DING Jingjing2
(1.School of Automotive and Transportation Engineering,Hefei University of Technology,Hefei 230009)(2.School of Management,Hefei University of Technology,Hefei 230009)
The malfunction of the braking system is a main cause of the taxis'accidents on the road,therefore,predicting the working condition of taxi's braking system is meaningful for the management and maintenance on the taxis,reducing the casualty and economic losses caused by traffic accidents.This study is based on the database of 335 cases which is extracted from one of the Hefei Motor Vehicles Safety Technology Inspection stations.Based on three basic vehicle parameters-age,brand and weight,this study builds Tree Augmented Naive Bayesian Classifier(TAN)model,Decision Tree(DT)model and K Nearest Neighbors(KNN)model to predict the working condition of taxi's braking system.The results show that the TAN model outperforms the other two mod⁃els with higher accuracy,sensitivity and specificity,thus with a good performance the proposed TAN model can be employed to pre⁃dict the working condition of taxi's braking system usefully.
tree augmented naive bayesian classifier(TAN),taxi's braking system,working condition
Class Number TP393
TP393
10.3969/j.issn.1672-9722.2017.12.029
2017年6月15日,
2017年7月19日
安徽省科技攻关计划项目(编号:1501b042211)资助。
程锦宝,男,硕士研究生,研究方向:载运工具运用与交通安全。石琴,女,博士,教授,博士生导师,研究方向:车辆工程。陈一锴,男,博士,副教授,硕士生导师,研究方向:车辆工程,结构工程。丁晶晶,男,博士,副教授,硕士生导师,研究方向:统计与决策科学。