智能算法在交通事故分析上的应用

2013-11-18 06:28林颖
科技致富向导 2013年20期
关键词:智能算法关联分析聚类分析

林颖

【摘 要】随着计算机应用技术的不断普及、发展和完善,利用数据挖掘技术、专家系统、计算机人工智能来对道路交通事故进行处理已经越来越广泛。鉴于道路交通事故的过程具有系统性、强关联性、复杂性等一系列特点,运用计算机人工智能技术对道路交通事故的突发性、致因性、规律性、模糊性进行分析和研究等已经成为现实。本文通过对智能算法在交通事故分析中应用的可行性研究,提出了利用聚类分析算法和关联分析算法分别对事故黑点的排查及事故因素的关联分析。

【关键词】智能算法;事故信息;聚类分析;关联分析

1.智能算法在交通事故分析上的应用

目前人们广泛采用的智能计算方法主要有统计方法)、器学习方法、面向数据库的方法、聚类分析方法、人工神经网络方法、遗传算法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集或模糊集方法、集成方法、关联规则算法、决策树方法等。

发展智能交通的最终目标就是通过对各类的交通信息、数据进行分析,对交通系统的控制方案和策略予以优化,通过调整各类交通参与者的行为以及道路交通设施设备的建设、改善,从而实现交通系统的优化及高效运行的目的。因此,分析交通信息、制定控制策略是整个系统的关键。本文在总结和借鉴大量学者研究的基础上,介绍两种基于数据挖掘理论的智能算法DBSCAN及Apriori,分别用于交通事故黑点的排查及事故关联因素的分析。

2.基于密度的聚类分析算法DBSCAN

2.1算法应用的数据类型与数据结构

数据挖掘不能直接把任何数据进行计算,要事先对数据进行预处理,构成算法能够应用的数据类型,然后输入到算法中的数据结构中去。基于内存的聚类算法通常都采用以下两种数据结构[1]。

2.1.1数据矩阵

数据矩阵是一个对象-结构。它是由n个对象组成,如:人;这些对象是利用p个属性来进行描述的,如:年龄、高度、体重等。数据矩阵的表达方式为n×p的矩阵。

2.1.2差异矩阵

差异矩阵是一个对象-对象结构。n个对象彼此之间的差异将存放于该矩阵中,采用n×n矩阵来表示。

由交警部门提供的交通事故数据经过整理后存放到数据矩阵中去保存。如:一个交通事故点可以占用一行,而它的每一个属性可以占用这一行的每一个列元素。对于差异矩阵,可以反映每两个事故数据的差异,它可以是两个事故发生地点的距离,也可以是两个事故发生情况的相似度倒数,还可以是两个事故发生的时间差。总之,它可以灵活的反映事故之间的差异。在本系统中对于事故黑点的聚类分析采用事发地点的空间距离来构成差异矩阵。

2.2 DBSCAN算法在交通事故黑点排查上的应用

DBSCAN算法是一个比较典型的基于密度的聚类分析法,它能从含有噪声的空间数据库中发现任意形状的聚类。关于该算法的2个基本概念:(1)一个给定对象的ε半径内的近邻就称为该对象的ε-近邻;(2)若一个对象的ε-近邻至少包含一定数目(MinPts)的对象,该对象就称为核对象。DBSCAN算法的基本思想就是通过不断的搜索临近点来使核对象周围的密度逐渐增加,从而寻找到一个区域内所查找点或对象密度大的地方。算法中所要研究的点可以描述为交通事故发生的地点,对于算法中的ε-近邻区域可以理解为道路的公里数,因此DBSCAN算法在道路交通事故黑点的智能排查上就可以理解为排查在半径为ε公里内发生MinPts以上交通事故的地点或者路段。

3.关联规则挖掘的算法分析

3.1关联规则挖掘的过程

设I={i1,i2,.....im}是项的集合。设任务相关的数据D是数据事务的集合,其中每个事务T是项的集合,使得T?I。每一个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当A?T。关联规则是形如A?B的蕴涵式,其中A?I,B?I,并且A∩B=?。规则A?B在事务集D中成立,具有支持度support,是指D中包含A和B的事务数与所有事务数之比它,即概率P(A∪B )。规则A?B在事务集D中具有置信度confidence,是指D中包含A和B的事务数与包含A的事务数之比,即条件概率P(BA) [2]。

给定一个事务集D,挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度(Minimum Support Count,简称min_sup)和最小置信度 (Minimum Confidence Count,简称min_conf)的关联规则[3]。

项的集合称为项集(Itemset),包含k个项的项集称为k-项集。项集的出现频率是在整个事务数据集D中包含该项集的事务数,简称为项集的频率、支持计数或计数。如果项集的出现频率大于或等于min_sup与D中事务总数的乘积,称项集满足最小支持度min_sup。如果项集满足最小支持度,则称它为频繁项集(Frequent Itemset),简称频集[3]。频繁k-项集的集合通常记作Lk。

3.2 Apriori算法在交通事故关联因素分析上的应用

Apriori算法是根据频繁项集中所有非空子集都必须也是频繁项集这一性质[4,5],对目标进行第k遍扫描之前,可先产生候选集Ck,Ck可以分两步来产生,设前一步(第k-1步)已生成(k-1)-频繁集Lk-1,则首先可以通过对Lk-1中的成员进行连接来产生候选,Lk-1中的两个成员必需满足在两个成员的项目中有(k-2)个项目是相同的这个条件方可连接,即:Ck=Lk-1ΘLk-1={AΘB│A,B?Lk-1,│A∩B=k-2}。接着,再从Ck中删除所有包含不是频繁的(k-1)-子集的成员项目集即可。

发生道路交通事故的原因是由多方面因素决定的,与驾驶员、车辆、道路、时间、天气等都是有一定联系的,是综合共同作用的结果。具体思路是利用多维Apriori算法得出各种事故相关因素的关联规则,以“条件集合?结果”的方式显示,条件集合包括驾驶员因素、车辆因素、天气因素、时间因素、照明因素中的某一个或几个因素,即可能引发道路交通事故的原因因素。结果包括事故本身因素中的事故类型、事故主要原因、事故形态、伤害程度,即导致道路交通事故的结果因素。通过得到的每条规则的支持度和置信度来判断规则对道路交通事故影响的程度及规则的重要性和有效性。 (下转第98页)

(上接第86页)具体描述:通过选定要分析的交通事故本身与驾驶员、车辆、道路、天气、时间等具体选项信息,利用多维Apriori算法作关联分析。发现各个因素之间的联系,结果采用文本形式来描述,形如(A,B,C)?D(min_sup;min_conf),其中A、B、C分别代表规则的前提条件,D代表规则的结果,min_sup和min_conf表示该规则的支持度和置信度,取值均为0%到100%之间。支持度描述的是在所有的记录中,A、B、C同时出现的概率;置信度表示在A、B、C同时出现的条件下,发生情况D的概率。当一条规则满足一定的最小支持度和最小置信度时,可以认为该规则是比较常见的,可信度比较高的。如:天气:晴&照明条件:白天&驾驶员:无证驾驶?伤人事故(12.7%;29.8%),表示在所有的事故记录中,同时满足晴、白天和无证驾驶条件的记录占12.7%,由于这3个条件而出现伤人事故的占29.8%。 [科]

【参考文献】

[1]鲍海涛.聚类分析在交通事故黑点智能排查中的应用[D].吉林大学,2004:25-35.

[2]毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005:65-68,280-290.

[3]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006:123-125.

[4]Yang Xue-bing.A High Efficient Multi-dimensional Association Rules Mining Algorithm [J].Computer Development,2012(6):33-39.

[5]Qin Feng,Yang Xue-bing.Research and analysis of multi-dimensional association rules mining [J].Anhui University of Technology,2013,20(2):66-69.

猜你喜欢
智能算法关联分析聚类分析
基于随机函数Petri网的系统动力学关联分析模型
关联分析技术在学生成绩分析中的应用
改进的多目标快速群搜索算法的应用
农村居民家庭人均生活消费支出分析
烟草香级智能集成分类方法
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
基于关联分析的学生活动参与度与高校社团管理实证研究
“县级供电企业生产经营统计一套”表辅助决策模式研究
基于Robocode的智能机器人的设计与实现