覃文文,李欢,李武,谷金晶,戢晓峰*
(1.昆明理工大学,交通工程学院,昆明 650504;2.云南省现代物流工程研究中心,昆明 650504;3.大连理工大学,建设工程学部,辽宁大连 116024;4.同济大学,电子与信息工程学院,上海 201804)
营运货车一般具有重心位置高、载货量大、行车时间长、动能高及减速能力弱等特点,其引发的事故通常比未涉及货车的事故更加严重。近年来,我国道路运输业发展快速,营运货车的数量迅速增加,货运规模逐渐向大型化和重载化方向发展,由此带来的交通安全隐患问题也日益突出。据《中国道路交通事故统计年报(2017年度)》[1]针对营运车辆肇事情况的统计结果表明:2016年发生39462起事故,导致19018人死亡;营运货车(重型、中型及轻型货车)导致26649起事故,占总数的67.53%,并导致14231人死亡,占总数的74.83%。报告中特别指出,由营运货车驾驶人引起的不当驾驶行为,例如,超速、疲劳驾驶及违反交规等造成了大量的交通事故。可以看出,货车驾驶人作为车辆的决策和控制者,其行为标准极大影响着道路交通的安全性。为预防和减少重特大事故的发生,如何科学合理地描述、甄别及预测货车驾驶人潜在的驾驶行为风险,并揭示其与行车安全的内在复杂关系,已成为我国道路运输业安全可持续发展亟待解决的核心问题,对于选拔培训货车驾驶人,减少人员伤亡及财产损失具有重要的现实意义。
大量研究表明[2-4]:驾驶人驾驶行为与道路交通安全具有极强的相关性,超过90%的交通事故和65%的危险工况均与人因有关。显然,事故致因由人为因素占主导,驾驶人是车辆的直接操控者,其驾驶行为是导致车辆是否具有事故风险的重要因素。一般来说,驾驶人的驾驶行为可分为两类[5]:一类是常规驾驶行为,包括自由直行、跟驰及换道等;另一类是危险驾驶行为,包括分心驾驶、疲劳驾驶、超速驾驶及饮酒/醉酒驾驶等。危险驾驶行为蕴含着由于驾驶方式的不规范而可能产生的事故风险性,在货车驾驶人中表现得尤为突出。受行程距离偏长和限时送达的现实制约,货车驾驶人为了规避运输超时的处罚,普遍存在疲劳驾驶和超速驾驶等危险驾驶行为[6-7]。驾驶行为作为影响交通安全最活跃的因素,目前,从该角度研究货车的行车安全性获得了国内外学者的广泛关注,涉及问题包括但不限于货车的驾驶行为识别[8-9]及其与行车安全关系分析[10-11],碰撞事故致因分析[12-14]及驾驶人驾驶风险评估[15-16]等。然而,已有涉及行车安全相关内容的主题研究,通常从小汽车驾驶人角度,探究驾驶人的视觉[17]、超速行为[18]、分心行为[19]及疲劳行为[20]等特性与驾驶风险的关系,缺乏针对货车驾驶人驾驶行为与行车安全研究进展的系统性总结和梳理。例如,驾驶行为数据采集方式虽然丰富但各有弊端且适用场景不统一;所采集的样本数量大多有限,缺乏大规模路网的货车驾驶行为监测、干预及管理,使得数据和结果的参考价值受到一定局限;货车驾驶人驾驶行为辨识单一,且特征指标的合理性分析较少,缺少通用的指标适应性选取原则;目前,无论是国内还是国外,尚没有较优的基于货车驾驶人特性的驾驶安全风险评估方法及干预手段;同时,在高新智能自动化环境下,货车驾驶人危险驾驶行为与道路环境和交通拥堵程度等因素之间复杂的交互关系仍有待细化。随着研究的深入和技术水平的发展,可以预见,从人、车、路这3方面,基于车辆轨迹数据、车辆运动数据、视频监控数据及气象数据等多源数据的融合,研究货车在途动态风险预测和道路风险实时预警系统在复杂行车环境中的可靠性和鲁棒性将是未来货车驾驶人驾驶行为与行车安全领域的长期研究方向。相关的货车驾驶人危险驾驶在线监测技术和主动安全干预系统也将会有较大发展。
鉴于主题模型具有从大量繁杂文本中自动组织、搜索和挖掘隐含语义结构的特点,形成的主题群有利于凝练研究领域的发展方向[21]。因此,本文采用主题模型,全面梳理近12年内货车驾驶人驾驶行为与行车安全领域的38 篇文献,系统总结该领域内的各类研究主题,并归纳总结各类研究主题的通用分析路径,综述和分析各类研究主题涉及到的数据源、变量选择方法、研究地点及建模方法。此外,本文在总结现有研究存在问题的基础上展望未来可能的研究方向,以使读者对于“货车驾驶人驾驶行为与道路行车安全交互作用机理”这一关键问题有相对全面的认识,从而在中国范围内促使面向货车驾驶人的危险驾驶行为预警干预与主动式道路风险防控决策的深入开展。
为了筛选出与货车驾驶人的驾驶行为和行车安全相关的研究文献,本文从以下4个数据库中进行英文和中文文献的搜索:Web of Science,Scopus,TRID(Transport Research International Documentation)和中国知网。其中,文献搜索时间范围设定为2010—2021年,文献搜索截止时间为2021年12月31日,搜索关键词的词组由3 个部分组成:(1)货车,营运货车,重型货车,货车驾驶人,freight truck,commercial truck,large truck,heavyduty truck,heavy goods vehicle,truck driver;(2) 驾驶行为,驾驶风格,驾驶风险,driving behavior,driving style,driving risk;(3)碰撞风险,碰撞严重程度,道路风险,道路安全,交通事故,crash risk,crash severity,road risk,road safe,traffic accident。
上述关键词的词组主要根据研究对象和与研究对象相关的研究内容进行整理和提炼。在文献搜索过程中,词组的每个部分至少要有1个关键词起作用,并根据不同的数据库调整搜索语言和搜索关键词。在此基础上,通过剔除数据库间重复的文献、综述性文献、与生态驾驶相关的文献及与心理学和社会科学相关的文献,最终得到38 篇关键文献,如表1所示。
主题模型是一种无监督的机器学习模型,在自然语言处理中被广泛应用于大规模文档集或语料库中潜藏的主题信息和语义结构的识别。例如,如果一篇文档的主题与足球相关,那么某一些特定的词,例如,“足球”“球队”“球员”等,将更频繁地出现在该文档中。主题模型能够自动地分析语料库中的文档,并根据文档中单词的共现情况提取潜在的主题信息。LDA(Latent Dirichlet Allocation)模型作为主题模型家族中最流行和最经典的模型,采用词袋方法将每篇文档处理为1个词频向量,从而将文本信息转化为易于建模的数字信息[49]。本文采用LDA 模型实现表1中38 篇文献的研究主题分类。LDA的概率图模型表示如图1所示。
图1 LDA的概率图模型Fig.1 Probability graph model of LDA
图1中,空心圆为变量;阴影圆为可观测变量;圆角矩形为参数;矩形框为迭代循环;矩形框右下角的数字为循环的次数;M为语料库中的文档数;Nm为文档m中的单词数量;K为潜在的主题数量;α和β分别为文档中主题分布和主题中单词分布的超参数;φk为主题k的单词分布,是1个Nm维向量,且有k=1,…,K;θm为文档m的主题分布,是1个K维向量,且有m=1,…,M;zm,n为文档m中第n个单词的主题,且有n=1,…,Nm;wm,n为1个具体的单词。
具体地,图1中的概率图模型可用数学公式表示为一个带参数的分层贝叶斯模型,即
结合式(1)~式(4),LDA 模型生成M篇文档的过程如下。
(1)对于每个主题k∈[1,K],从式(4)中抽样生成单词分布φk。
(2)对于每篇文档m∈[1,M]有:(a)从式(3)中抽样生成主题分布θm。(b)对于每个单词在文档中所处的位置n∈[1,Nm]从式(2)中抽样生成文档m中第n个单词的主题zm,n;从式(1)中抽样生成主题k等于zm,n时的单词wm,n。
LDA 模型的求解有两种常用的学习算法:变分推断[50]和Gibbs采样[51]。本文主要采用结合了期望最大化算法的变分推断估计LDA模型的参数θm和φk,具体的算法步骤可参考HOFFMAN等[51],本文不再赘述。同时,为有效提高模型求解的运行效率,每篇文档均由研究文献的英文题目和英文摘要组成,语料库由38篇文档组成。
在文献主题分类的基础上,本文通过系统梳理各主题中文献的研究目标,所采用的数据源,研究方法及研究结论,提炼出包括数据源、变量选择方法、变量类型、建模方法及研究地点等论文的基本组成要素,由此构成任意一个研究主题下的通用研究路径,如表2所示。根据表2中的各组成要素,每篇文献的研究框架可大致得以重构。
表2 研究路径组成要素Table 2 Components of study pathways
为了确定最佳的主题个数,本文采用困惑度(Perplexity)指标[49]评价LDA 模型的主题分类效果。该指标基于信息理论,衡量当前文档m归属于不同主题的不确定程度。Perplexity的值Eperplexity越小,主题之间的差异越大,说明LDA模型的主题分类效果越好,具体的计算式为
式中:wm为文档m中的一个单词;p(wm)为文档中产生词wm的概率。
主题个数从2 变化到20 时(步长为2),困惑度指标和算法运行时间的变化趋势如图2所示。根据困惑度指标的数值变化趋势,最佳主题个数可确定为4,此时的困惑度数值最小,算法运行所花费的时间也最少,相对应的分类结果更加准确和稳定。
图2 不同主题个数的困惑度和运行时间测试Fig.2 Change of perplexity and time elapsed with topic number
最佳主题数为4时,各个主题的词云分布,前7个共现高频词概率及文献组题分类结果如表3所示。从表3可知,主题1 的前7 个共现高频词分别为driver、datum、vehicle、behavior、driving、traffic及analysis。其中,括号内的数值表示单词出现的概率。结合词云可以发现,高频主导词组合偏向于定性描述基于数据的货车驾驶人驾驶行为分析。具体地,主题2关注利用相关性分析方法探索货车驾驶人驾驶行为与道路安全事故风险的关联性;主题3 聚焦于人为因素为主导的货车碰撞事故致因研究;主题4强调了利用相关模型评估货车驾驶人的驾驶行为风险性。
表3 主题生成结果Table 3 Results of topics generation from titles and abstracts
根据上述分析结果,本文将4个研究主题概括为:主题1为驾驶行为辨识,主题2为危险驾驶行为与行车安全,主题3 为货车碰撞事故致因分析,主题4 为驾驶安全风险评估。各研究主题下的关键研究进展如下。
2.1.1 主题1 驾驶行为辨识研究
驾驶行为是驾驶人为响应当前道路行驶环境而执行的特定驾驶操作,实现车辆实际运行状态跟随驾驶人驾驶意图的过程[52]。一般来说,驾驶行为是驾驶风格的外在表现形式,用于刻画驾驶人的驾驶习惯,不同的驾驶人通常也会表现出不同的驾驶风格。因此,国内外大部分研究主要基于不同的驾驶行为模式(例如,跟驰、换道、加速、制动及转向等行为模式),综合评定驾驶人的驾驶风格。实现驾驶风格评定通常涉及3方面研究内容,具体如下。
(1)特征变量选取
相关研究发现驾驶人的驾驶风格和加速度、速度、燃油量及能量功耗等变量具有很强的相关性[53]。例如,孙川等[30]、Wu等[32]及王海星等[9]均提取营运货车行驶过程中的车速超过限速80%的时间比例,速度的均值/标准差及加减速度的均值/标准差等8维特征变量,聚类分析货车驾驶人的驾驶速度行为。FIGUEREDO 等[38]采用驾驶时长、每日平均驾驶距离、紧急制动次数、超速时长及节气门开合度作为输入变量,实现驾驶风格的识别。WANG等[48]利用货车行驶过程中加速踏板位置的最大值/均值/标准差,油门踩踏角速度的最大值/均值/标准差,速度的最大值/均值/标准差及纵向加速度10维特征变量用于驾驶风格的分类。
(2)风格分类
在上述研究中,速度和加速度是一对极为重要的参量指标,既有研究通常将这两个指标与其他变量和统计特征组合作为输入变量,分类和识别货车驾驶人的驾驶风格。在分类结果层面,目前研究大多是使用2 个或3 个类别区分驾驶人的驾驶风格。例如,从驾驶安全的角度,部分研究学者将驾驶风格划分为激进型和保守型[8]。进一步地,WANG等[41]则将驾驶风格分为中等型、温和型及激进型。此外,部分学者倾向使用更高类别数目的驾驶风格分类。例如,ZHOU等[7]选用超速、疲劳、急动度这3个类别指标,采用主成分分析和密度聚类相结合的方法,将驾驶风格划分为:冒进型、比较冒进型、轻度冒进型、轻度谨慎型及谨慎型。
(3)风格识别
现有针对货车驾驶人的驾驶风格识别研究主要是借鉴小汽车驾驶人驾驶风格辨识的分析模式,采用车辆运行状态数据,提炼出特征变量(例如,车速平均值与标准差、加速度、急动度及横向速度等)刻画货车驾驶人的驾驶风格。例如,徐婷等[8]通过提取最高车速、横向加速度峰值、行车方向加速度峰值及车速与发动机转速的最大相对比值构建货车驾驶人安全倾向性评价指标,定量评估驾驶的激进程度。
在方法层面,基于机器学习算法识别货车驾驶人驾驶风格是目前的主流研究范式。由于驾驶风格是对驾驶人习惯性驾驶方式的泛化概括,通常情况下缺乏先验知识,难以人工标注识别无标签的驾驶风格数据。因此,有监督机器学习算法是需要输入已标注的驾驶风格数据,而无监督机器学习算法不需要预先了解数据的属性,能够自适应分析和自动划分类别,更适用于驾驶风格的评定。常用的无监督机器学习算法包括聚类算法[7-8,30,32,43]、LDA 模型[54]等。其中,k 均值聚类算法以其计算简单和运算快速的特点,特别是在处理大规模数据集时具有可伸缩性和高效性,被广泛应用于驾驶风格研究中。
2.1.2 主题2 危险驾驶行为与行车安全研究
危险驾驶行为主要分为3 类[55-56]:①驾驶疏忽,驾驶人因对行车环境观察错误或不周导致的操作疏忽,例如,分心驾驶和疲劳驾驶等;②驾驶失误,驾驶人因对当前车辆状态、行车环境状态及变化趋势估计错误导致的决策失误,例如,错误估计前车速度,导致刹车过猛;③违法驾驶,驾驶人因不按交通法规和其他交通安全规定行车等产生的交通违法行为,例如,超速驾驶和饮酒/醉酒驾驶等。已有研究表明,驾驶人的危险驾驶行为是导致交通事故的主要诱因,与行车安全有极强的相关性[57-58]。对于行车安全而言,研究货车驾驶人的危险驾驶行为,可以从根本上更好地理解货车驾驶人的驾驶行为风险性。本文从上述3 类危险驾驶行为与行车安全的关联性进行综述。
(1)驾驶疏忽与行车安全
与小汽车驾驶人相比,由于货源的不确定性及其与目的地的距离偏长等因素,货车驾驶人普遍存在工作负荷大、作息混乱及注意力不集中等特点,更容易发生以分心驾驶和疲劳驾驶为主的驾驶疏忽行为,极大影响着道路行车安全[7]。
在分心驾驶方面,现有研究主要聚焦在货车行驶过程中不同分心源(例如,操作手机、进食、饮水及调整座椅等)组成的次要任务对行车安全的影响。例如,CLAVERIA 等[37]基于问卷调查数据,采集货车驾驶人的社会属性、工作属性、驾驶行为及车辆配置等参量,采用随机参数二项Logit模型,探究手机使用对货车驾驶行为的影响发现,驾驶人的驾驶行为、社会属性、工作属性、工作时间及工作管理特征会显著影响货车驾驶人在驾驶过程中使用手机的可能性。此外还发现,工作管理和安全培训能有效降低货车驾驶人使用手机的概率。探究分心驾驶通常使用问卷调查数据,辅以观察和访谈的方式,更加精准地获取驾驶人执行次要任务的原因、类型和频率。目前,基于自然驾驶数据的货车驾驶人分心驾驶监测开始获得学者们的关注[39]。
在疲劳驾驶方面,货车驾驶人属于职业驾驶人,往往需要长时间驾驶车辆,正常作息难以保障。因此,疲劳驾驶发生的可能性极大,货车驾驶人的警觉性、工作表现及风险处理等能力也随之不同程度地下降。例如,CHEN 等[27]研究发现,睡眠质量较差的货车司机,在日常工作中疲劳程度越高,更倾向于表现出驾驶失误、驾驶分心及交通违法等行为。FILTNESS 等[44]研究表明,咖啡因虽然能有效对抗驾驶人的嗜睡特性,但摄入过多的咖啡因并不能明显提高驾驶安全性能,且容易对职业驾驶人的身体健康和睡眠质量产生不良影响。此外,CORI 等[11]发现,延长换班之间的休息时间可显著提升货车驾驶人的睡眠质量,并对货车驾驶人的警觉性和工作表现产生适度的积极影响。上述疲劳研究通常将驾驶人社会工作属性(年龄、收入及违章记录等)、驾驶人风格/操作特征(紧急驾驶和近距离跟驰等)、车辆运行特征(车速平均值和加速度等)作为输入变量,利用统计学模型建立输入变量与疲劳驾驶的关系,缺乏从人工智能的角度研究数据驱动型的疲劳驾驶与行车安全。
(2)驾驶失误与行车安全
在日常驾驶任务中,货车驾驶人往往频繁地行驶在同一片区域,对车况、道路条件及环境会比较熟悉,进而在日积月累中形成自身的驾驶经验和行为习惯。然而,这类经验型和个性化的货车驾驶人可能会表现出程序化/激进化驾驶和分心驾驶的现象,一定程度上增加了在途运输的驾驶风险。目前,针对由于驾驶经验和个性化情绪造成的驾驶失误与行车安全的相关研究相对偏少。这类研究主要以问卷调查数据为主,通过提取货车驾驶人的性格特征、社会和工作属性及风格特征等变量,采用统计学模型方法,探究驾驶经验和个性化情绪对驾驶人安全驾驶行为的作用机制。例如,GIROTTO等[31]利用Logistics回归模型,对货车驾驶人的不同个人属性(例如年龄、收入及经验等)、驾驶操作特点及不同驾驶时间段与事故风险之间关系进行统计分析发现,只有10年及以上货车驾驶经验的驾驶人,发生事故的概率能够降低30%。LANDAY等[45]说明,同理心较强的货车驾驶人发生事故的概率较低,而具有焦虑、易怒、冒险及内疚倾向的货车驾驶人,更容易诱发交通事故。
(3)违法驾驶与行车安全
研究表明,导致货车驾驶人事故的4大危险因素包括:超速驾驶、超载驾驶、酒驾及疲劳驾驶[1]。其中,与货车驾驶人违法驾驶(例如超速驾驶和酒驾)有关的人为因素包括驾驶人社会经济属性和驾驶状态等方面,研究货车驾驶人交通违法行为或危险事件与行车安全之间的关系。同样地,这类研究成果偏少,仅有的研究见于MEHDIZADEH 等[42]和CAI 等[10]的报道,初步探讨了危险驾驶行为与碰撞风险的关联性。MEHDIZADEH等[42]的研究结果表明,每增加1%的由攻击性驾驶行为造成的交通违法,货车交通事故发生的概率增加42%。CAI 等[10]则指出,在10 km内,每增加1%的由货车驾驶人造成的危险事件数,货车交通事故发生的概率增加8.4%,人员伤亡的可能性增加8.7%。
2.1.3 主题3 货车碰撞事故致因分析研究
基于统计学模型的货车碰撞事故影响因素辨识是目前应用最为广泛的事故致因定量分析方法。大部分研究基于文本和电子记录数据,从驾驶人社会经济属性[12-13,22,33,43]、车辆特征[14,33,43]、空间特征[12-14,29,40]、时间特征[29,40,43]及天气特征[33,40,43]等方面对货车碰撞事故致因进行相关探索。本文从货车碰撞事故显著影响因素集和建成环境影响因素集分别进行综述。
(1)货车碰撞事故显著影响因素集
国内外学者不仅仅关注货车碰撞事故的直接致因因素,还注重探讨违法行为、车辆类型及道路线形等因素对碰撞事故的影响。例如,CANTOR等[22]分析美国高速公路交通事故数据显示,涉及卡车的事故中有74%是由于违反交通法规、危险驾驶行为和身体状况等驾驶人因素引起。PAHUKULA等[29]发现,在早上和晚上时段,货车混入率(特别是大型载重货车)与事故发生率呈显著正相关关系。WANG等[43]揭示了弯道、坡度及平曲线等线形因素显著影响大型货车的事故伤害程度。在开展人、车、路等因素对货车碰撞事故影响机制研究的基础上,货车混入对道路交通事故发生的影响也逐渐得到了研究者的关注。HONG 等[40]研究了驾驶人个人属性、违法行为、交通状况、路面状况及天气等因素对韩国高速公路碰撞事故频率的影响关系,发现道路线形、路侧结构及时间和季节性货车涉入交通流比例等特征对碰撞事故有非线性影响。
(2)建成环境影响因素集
一般认为,建成环境(包括土地利用、交通基础设施及道路网络等)决定了出行者/驾驶人的活动空间范围、集聚程度及活动强度,直接影响着出行者/驾驶人的出行质量和满意度。然而,建成环境如何影响交通事故的发生,在多大程度上影响货车碰撞事故,这类问题鲜有报道。YANG等[12]尝试将道路基础设施、道路线形条件、货运OD、人口密度及土地利用作为自变量,以货车碰撞严重程度作为分类因变量,构建基于可解释性机器学习算法的货车碰撞严重度分析模型,分析发现,人口统计、土地利用、道路网络与碰撞严重程度显著相关。
在两类影响因素集分析的基础上,总结近年来货车事故致因分析的研究方法和关键影响因素如表4所示。由表4可知,货车事故关键影响因素中,驾驶人人为因素占主导,主要包括驾驶人在驾驶过程的行为失当。一般认为,通过规范货车驾驶人的驾驶行为和控制人为风险因素,可以有效提高道路交通运输的安全性。因此,针对货车驾驶人进行安全培训和风险监控具有非常重要的意义。虽然国内外学者一直关注货车碰撞事故成因及对策,但研究视角主要集中于高速公路、隧道及长大下坡等特定路段,目前,对山区公路货车碰撞事故机理与防治的关注仍较为有限。如何合理、准确和及时地评估货车驾驶人潜在的驾驶行为风险性及其发展态势,是目前研究亟待解决的核心问题。
表4 货车碰撞事故影响因素集Table 4 Previous studies for key factors in truck-involved crashes
2.1.4 主题4 驾驶安全风险评估研究
目前,关于货车驾驶安全风险评估的相关研究仍不多见。共检索到8篇相关文献,分别从车载监控系统和驾驶人驾驶行为与交通流运行特征的角度,评估车载主动安全设备产生的安全效益[24,46]、驾驶人驾驶风险[15-16,25-26]以及道路行车风险[41,47]。
(1)车载主动安全设备产生的安全效益评估
针对车载主动安全设备产生的安全效益评估,已有研究发现,车载监控能有效降低驾驶人的危险驾驶行为发生频率[24,59-60]。保险公司则将上述研究成果成功应用于车联网保险产品的定价,一般做法是通过安装车载监控系统,获取驾驶人的加速、左右转弯及超速等行为,再融入到保险精算模型中,对驾驶人进行评分,根据得分高低计算保费[61]。然而,既有研究更多地关注于车载监控系统本身所带来的安全效益,并未深入地剖析:①与未部署监控系统相比,安装车载监控是否能显著提高安全效益?②如果同时对货车驾驶人进行安全培训和驾驶监控,是否能对安全效益提升产生协同效应?③以上两种情况,哪种情况产生的安全效益更为显著?为了尝试回答这些问题,MASE等[46]基于英国两个货运公司的驾驶人视频监控数据和驾驶事故数据,以没有进行安全培训和监控设备部署的试验方案为比较基准,采用方差分析方法对比评估了上述3种情况下产生的安全效益。研究结果显示,在实施驾驶行为监控后,由急刹车和超速引起的事故发生率总体上显著降低;对驾驶人进行安全培训后,由急刹车引起的事故发生率进一步显著降低。此外,与仅采用视频监控的试验方案相比,由视频监控和安全培训的监督干预模式能显著减少急转弯事故的发生频率。
(2)驾驶人驾驶风险评估
针对驾驶人驾驶风险评估,已有研究主要基于车辆轨迹数据、固定点检测数据及文本和电子记录,综合提炼出车辆运行状态、驾驶人信息及道路几何线形等特征指标,构建多维结构的驾驶人驾驶风险评估模型。例如,任园园等[26]从事故发生概率、事故严重度、驾驶员风险认知水平、驾驶员控制能力及交通信息不对称5 个方面,设计了5 种风险因素的量化表达式及其对应的风险度函数,在此基础上,构建综合风险度函数评估不同车型的驾驶人行车风险。
(3)道路行车风险评估
针对道路行车风险,这类研究还处于初期阶段,尝试利用统计模型和机器学习方法探索货车混入率和行车环境与道路交通事故风险之间的关系,并寻求驾驶安全提升策略。例如,JIN等[41]基于2个月的微波检测数据,首先,采用门控循环单元预测不同类型(微型、轻型、中型及重型)的货车流量,将其作为自变量;然后,利用速度变异系数将道路风险分为零风险水平、低风险水平及高风险水平3类,将其作为因变量;最后,建立多项Logistic 预测模型,预测货车混入条件下道路交通处于不同风险水平的概率。NIU 等[47]从车辆轨迹数据和气象数据中,提取出7类风险暴露变量,分别为行程时间、日期、平均时速、道路类型、每日平均行车里程、天气及交通流,采用生存模型和风险模型分析危险品运输货车的行车风险与暴露因子之间的关联性。研究结果表明,天气、交通流、行程时间及平均时速对零交通事故记录的驾驶人有显著影响。
为更好地理清主题的研究脉络,本文尝试通过数据源、变量选择方法及建模方法等论文的基本组成要素提炼主题的共性研究路径,并评述其中的关键要素。根据表2列出的研究路径中的各组成要素,本文系统梳理了38篇关键文献的研究路径,如表5所示。为阐述清楚研究路径中各种符合编码的含义,以文献[7]为例详细说明。文献[7]的研究路径编码为“A4,8-B2~3-C6,8~10-D1e,2aⅲ,2h-E2-F1b-G3”,结合表2,该篇文献采用的数据源为运输企业车联网数据、文本和电子记录(A4,8),变量选取方法为已有研究推荐和经验选取的组合方法(B2~3);结合变量选取方法,从数据源中分别提炼出车辆运行特征变量、空间变量、时间变量和天气变量(C6,8~10),并选用密度聚类算法、主成分分析和分层模型(D1e,2aⅲ,2h)进行建模分析;具体的研究地点选在日本的Chugoku区域(E2),道路类型为高速公路;最终,模型的输出结果为货车驾驶人的驾驶行为识别结果(F1b),且该识别结果不支持实时性输出(G3)。需要说明的是,如果研究路径中涉及组成要素的多个选项,例如,对于变量类型(C),车辆运行特征变量(6)、空间变量(8)、时间变量(9)和天气变量(10)需要同时考虑,则在相应要素的字母下标处用逗号和波浪线连接表示,即“C6,8~10”。
表5 4个研究主题的研究路径生成结果Table 5 Results of study pathway generation with four topics
接下来,本文将进一步详细分析研究路径中的数据源、变量选择和建模方法等关键要素。在分析之前,采用一个通用表达式描述一类具有相同特点的关键文献,即(X∶Y1,…,Yi),X为相应类别的关键文献数量;Yi为相应类别的关键文献编号。
2.2.1 数据源和变量选择
(1)数据源
数据源的质量将很大程度地决定数据的有效性,从数据中筛选出合理的输入变量是模型构建的基础。表2总结了关键文献中具体采用的8种数据源,结合表5,可以发现:约39%的研究采用了文本和电子记录数据源(15: 10,12~16,22,25,28~29,33,40,43,47~48,44~48),这类研究主要使用历年的交通事故数据,探讨“人-车-路”等潜在风险因素和货车碰撞事故率/严重度之间的关联性,例如,主题3关于货车事故致因分析的研究;近21%的研究使用了基于卫星定位技术的车辆轨迹数据(8: 30,32,36,38,9,47~48,16),这类研究的数据主要来源于运输公司的车辆监控平台,并聚焦于货车驾驶人驾驶行为的辨识(主题1);此外,仅有26%的研究采用两种及以上的数据源(10:26,28,47~48,10,15~16,12~14),这类研究主要分布在主题1、主题3 和主题4中。
综合来看,现有大部分研究多基于文本电子类数据展开,特别是利用以美国的Large Truck Crash Causation Study (LTCCS)项目为代表的数据进行了一系列的研究,并取得了丰硕的成果[27,62-63]。LTCCS 项目[64]由美国的联邦机动车运输安全管理局(Federal Motor Carrier Safety Administration,FMCSA)和国家公路交通安全管理局(National Highway Traffic Safety Administration,NHTSA)联合发起,开始于2001年4月,结束于2003年12月。其主要目的是通过事故现场调查,医院救治报告以及相关运输公司、驾驶人、乘客和事故目击者的采访等途径,在美国17 个州的24 个地点共收集了近千起货车事故数据,供研究者系统分析货车事故的产生机理和关键影响因素。在LTCCS 项目之后,美国FMCSA又发起了一项大规模的货车自然驾驶研 究(Naturalistic Truck Driving Study,NTDS)项目。NTDS 项目[65]从时间上分为两个阶段:第1 个阶段为2004年5月—2005年5月,采集95位货车驾驶人近50000h 和370 万km 的驾驶数据,侧重于调查分析货车驾驶人的危险驾驶行为及其可能诱发的危险事件(Safety-critical Events);第2 个阶段为2005年11月—2007年3月,采集96 位货车驾驶人近65000 h和118万km的驾驶数据,聚焦于评估各类危险事件所带来的潜在碰撞风险,并提出相对应的主动安全防护措施。然而,国内尚未针对货车驾驶人的驾驶行为展开大型的自然驾驶实验,因此,高质量的和面向不同道路行驶环境的大规模货车驾驶数据集尚不具备。但值得一提的是,国内的营运货车一般被要求强制安装具有行驶记录功能的卫星定位装置,其运行轨迹需实时上报到全国道路货运车辆公共监管与服务平台,为利用大规模的轨迹数据研究货车驾驶人的驾驶行为模式成为可能。
(2)变量选择
通过各类传感器或设备获取原始数据之后,通常需要结合研究目标进行二次分析,选择合适的输入变量构建相关模型。关键文献中,一部分研究未具体指明变量选择方法,而是直接给出所采用的变量或变量列表(12:24~25,29,33,40,41,43,46,16,12~14),但在统计回归建模过程中,上述操作容易导致多重共线性问题的产生,并可能得到违反直觉的结果,模型的性能也有待进一步验证;另有一部分研究根据已有研究成果(5:34,36~37,39,42),或者利用自身的工程经验(7: 22,27,28,31,38,8,47),筛选出合适的输入变量;也有部分研究是基于上述两种方法的结合(8:26,6,35,7~8,47,11,15),综合选取满足建模条件的输入变量;最后,还有一小部分研究特别指明了具体的变量选择方法(3:30,32,48),例如,Pearson 相关性检验、因子分析及特征权重ReliefF 算法。上述方法主要分为两类:基于数理统计的方法和基于数据驱动的方法。前者主要依赖于模型的内部机制剔除不显著或关联性弱的输入变量,t 检验[66]、Spearman 相关性检验[67]及Logistic回归[68]等均属于这一类方法。相较于前者,基于数据驱动的方法更擅长挖掘隐性特征关系,具有特征筛选精度更高的优势,例如,分类树[69]和随机森林[70]等。特别地,通过评估和排序变量重要性,随机森林被认为是筛选重要性变量最有效的方法之一[71]。
综上所述,受限于研究的客观条件(例如,实验设备、实验场所、人员和资金的投入能力等),多数研究常使用单一数据源,通过变量选取方法提炼得到的特征变量在描述货车驾驶人驾驶行为时空过程中存在一定的局部性和粗糙度,无法从“人-车-路”等多维视角建立驾驶事件及其过程的整体视图。因此,未来研究可融合多类数据源,为后续模型构建提供多层次和多维度的特征变量,更有利于实现不同道路环境和多因素影响下的货车驾驶人驾驶行为及驾驶安全风险的准确描述和精确量化。4类研究主题中常用数据源的优缺点及从数据源中可提取的变量类型如表6所示。
2.2.2 研究地点和建模方法
(1)研究地点
关键文献涉及的研究地点主要分布于中国、韩国、美国和英国等地区,近24%的研究在中国开展(9:26,30,32,41,8~9,47~48,16),约37%的研究发生在美国(14: 22~25,27,29,6,37,39,44,10,15,12~14)。在所有关键文献中,有20 篇研究(20:22~24,27~28,6,31,33~34,36~43,7,47,14)将高速公路作为具体的研究地点开展相关主题分析。从论文发表时间上看,欧美等国在货车驾驶人相关研究领域起步早,并较早地发起了NTDS 项目;与国外研究相比,中国在NTDS 领域内尚未充分开发利用。但在近年内,中国研究人员利用车辆轨迹数据评估分析货车驾驶人驾驶行为及其风险方面的研究贡献了较多的研究成果(5:30,32,7,47,16)。尽管如此,研究地点仍仅局限于高速公路或城市快速路。
(2)建模方法
关于建模方法,目前研究方法分为两种:一种是基于数理统计的方法,即在确定了研究地点、数据采集方式和变量提取方法之后,采用Logistic 回归、泊松回归及负二项回归等统计学模型方法,探索影响货车事故风险的关键因素,研究货车驾驶人危险驾驶行为与事故风险关系,研究主题2 和主题3均采用此类方法;另一种是基于机器学习的方法,主要以货车驾驶人的驾驶行为为研究对象,基于货车轨迹数据和驾驶人的驾驶行为数据,采用随机森林、集成分类器及深度学习等机器学习方法,识别货车驾驶人的驾驶行为和驾驶风格,研究主题1 偏向于使用该类方法,而研究主题4 从文献数量上看,基于机器学习的此类研究仍较为受限。
在各种统计学模型方法中,较多的关键文献采用了固定参数统计模型(6:22,25,28,6,31,33),例如,多项Logistic 分布、负二项分布及泊松分布等。但事故数据通常是不均匀的,一般具有过度离散、零频次过高、时空关联、多层结构和异质性等特征[72-73],传统的固定参数统计模型很难捕捉到多种数据特征。因此,为克服传统模型在事故数据特征解释层面的局限性,先后提出了一系列改进模型,主要分为3类:一是随机参数统计模型,例如,随机参数Logit模型[29,37]和偏比例优势模型[43]等;二是有限混合模型,包括泊松有限混合模型[74]和负二项有限混合模型[75]等;三是分层模型,主要有分层正态分布模型[7]和分层贝叶斯模型[76]等。上述改进模型在很大程度上提高了研究人员对事故致因的理解。
近年来,随着机器学习研究的深入,不同类型的学习算法被广泛地应用于驾驶行为领域。鉴于驾驶行为特征包含连续序列、离散序列及视频图像等多种数据类型,国内外研究常使用k均值聚类[38]、LDA 模型[54]、隐马尔可夫模型[77]、随机森林[48]和深度学习[41]等算法进行驾驶行为学习。根据机器学习的原理,目前,针对研究主题1和研究主题4的算法主要分为两类:有监督学习算法和无监督学习算法。有监督学习算法是需要已知标注的驾驶行为数据,进而通过学习建立样本特征与类别标签的数学模型,关键文献[36,38,41]所采用的算法均属于此类别。无监督学习算法则是从无标注的驾驶行为数据中建立算法学习模型,挖掘数据中的统计规律或潜在结构,关键文献[30,32,8~9,48,16]所采用的算法属于此类别。最近,有学者尝试将统计模型和机器学习算法进行结合,例如,关键文献[6]和[7],在模型精度和可解释性层面取得了很好的效果,这类尝试也出现在交通行为[78]和共享交通[79]领域。融合统计模型和机器学习算法可以弥补各自的不足,提高整体模型的性能,并增强模型对因变量的解释能力。未来研究可进一步丰富此方面的研究成果。4类研究主题中的常用模型及其适用性说明如表7所示。
表7 常用模型说明表Table 7 Outlines for variable models for study of driving behavior and driving safety
货车驾驶人的驾驶行为特性是影响行车安全的重要因素。如何描述和甄别货车驾驶人驾驶行为特性并对其进行关联分析和行车风险评估,提出针对性的风险调控策略,是解决货车驾驶人驾驶行为与道路行车安全交互作用机理问题的关键。其中,挖掘道路交通环境和驾驶行为与车辆状态的隐性关联是问题的核心。本文从货车驾驶人的角度,系统综述了驾驶行为辨识、危险驾驶行为与行车安全分析、货车事故致因分析及驾驶安全风险评估等研究主题目前取得的研究进展;从数据源、变量选择方法、研究地点及建模方法等方面分析了各类研究主题的研究路径。基于上述相关研究工作的分析,总结当前研究局限性和未来研究方向。
通过系统梳理4 个主题的研究进展情况及其研究路径生成结果,可以发现,国内外学者主要聚焦于货车的驾驶人驾驶行为分类、危险驾驶行为识别和碰撞事故致因分析,研究场景更多集中于城市快速路和高速公路,针对山区公路环境下的货车驾驶安全风险评估与防控研究仍缺乏足够的关注。总的来说,尽管上述研究提供了具有理论或应用价值的成果,但仍需客观地认识到,现有研究在数据获取和研究地点、特征变量提取及建模方法层面仍存在一些不足,总结如下。
(1)数据获取和研究地点评述
首先,货车驾驶人驾驶行为与行车安全数据的获取途径较为单一,采集数据一般为文本电子类数据,使得结果的参考价值受到一定局限,也变相地导致目前针对驾驶风险动态评估的研究较少;其次,研究地点主要集中在正常天气条件下的高速公路和城市道路等有利于数据收集的常规地点,在特殊天气条件下或山区公路环境下的相关研究还不够丰富;最后,现有研究正在尝试使用车辆监控轨迹数据,开展货车驾驶人驾驶行为辨识和运行安全相关研究。然而,这类数据的样本量在空间和时间层面较为有限,以宏观或集计分析为主,缺少对货车运行的精细化描述和货车个体异质性的科学表征,以及针对货车危险驾驶行为的产生机制及演变机理的实测数据分析。
(2)特征变量评述
4 类主题的已有研究偏向使用较多的指标数量,但动态且高频指标较少,主要表现为货车驾驶人操作特征、车辆运行特征和道路交通状况等指标数量运用得偏少。此外,指标选取呈现两极化特征,一方面是指标选取的合理性分析较少,具体表现为经验选取或已有研究推荐的方式确定指标的类型和数量,这类选取方式可能会根据当前的客观条件所限而选择与研究主题不匹配的指标,容易导致变量与研究目标之间的关联性不强,使模型精准度有限。另一方面是指标选取方法的有效性有待验证,尽管部分研究给出了基于数据驱动或数理统计的指标筛选方法,仍然会不同程度地缺失针对所选指标的适应性评估方法,难以保证指标选取的规范性和选取效果最佳的指标。随着研究的深入和技术水平的发展,未来会出现新的采集设备和指标,需要建立通用的适应性指标选取方法和原则。
(3)建模方法评述
4类主题的相关研究所采用的方法主要分为数理统计建模和数据驱动建模。可以发现,主题2和主题3的相关研究多采用统计学模型,基本实现了危险驾驶行为与行车安全交互作用和货车碰撞事故影响等机制的解析,但是对于探索货车驾驶人危险驾驶行为和交通事故、车辆状况、道路类型、交通拥堵程度及交通管理措施等因素之间复杂的交互关系有待进一步细化,特别是对实时道路信息接收、驾驶监控系统、驾驶辅助系统及网联自动驾驶等应用环境对降低事故风险的潜在效能仍没有充分地进行论证和分析。主题1和主题4的相关研究主要采用基于机器学习的数据驱动方法,开展更为细致地驾驶行为分析与风险评估方面的研究,但是此类方法仅仅对驾驶行为进行分类或者静态风险评估,所采用方法的优劣对比不具有对等性,且不能够解释自变量估计系数是否在统计上有意义。此外,针对货车在途实时风险预测的相关研究仍较为缺乏。
结合现有研究在数据获取、研究地点、指标提取和建模方法的局限性,本文尝试讨论未来可能的关于货车驾驶人驾驶行为与行车安全的4 个研究方向。首先,针对货车驾驶人驾驶行为研究,讨论了利用大数据和人工智能描述货车驾驶人时空驾驶行为模式的发展方向(描述);其次,针对货车碰撞事故致因分析,讨论了“人-车-路”时空因素建模的可能性(解释);然后,面向高新智能自动化环境,讨论了货车危险驾驶行为与行车安全关系的研究重点(关联);最后,面向道路运输安全的重大现实需求,讨论了货车在途动态风险预测的必要性(应用)。总的来说,本文将货车驾驶行为模式、货车碰撞事故致因分析、货车危险驾驶行为和行车安全关联性及货车在途动态风险预测作为一个整体系统考虑,四者(描述-解释-关联-应用)之间的关系如图3所示。
图3 不同研究方向之间关系图解Fig.3 An illustrative diagram for describing relations between studies in different directions
随着数据的实时更新与未来其他类型数据的接入,整个系统将通过基于统计和人工智能算法的数据驱动模式,改善和提升4部分输出结果的准确性。同时,货车驾驶行为和货车碰撞事故致因的分析结果,将有助于进一步解析和理解驾驶行为和行车安全之间的关联性,前三者(描述-解释-关联)的研究成果能够帮助提升货车动态风险预测的精度,推动货车驾驶人危险驾驶在线监测技术和货车主动安全设备研制的实用化进程。
(1)大数据和人工智能双驱动的货车驾驶行为研究
现有针对货车驾驶行为的研究,主要以问卷调查、模拟驾驶和自然驾驶试验为数据采集基础,开展驾驶行为的辨识工作,缺乏针对大规模路网范围的货车驾驶行为实测数据定量分析及实证研究。随着交通大数据时代的到来,以智能网联、网络通信、卫星定位及云计算等关键技术为载体实现了广域动态轨迹数据和驾驶行为实时监控数据的汇聚及整合,货车驾驶行为动态信息精准获取与智能分析能力得到极大提高。未来也越来越趋向于使用多种数据源融合的分析方法,重点在于如何广泛地采集和准确地提取能客观动态表征货车驾驶行为的多维时空特征。例如,在未来的研究中,考虑将货车轨迹数据和其他多源数据(例如,全国道路货运车辆公共监管与服务平台提供的货车驾驶行为监控数据)进行结合,深入探索不同于小汽车驾驶人的货车驾驶行为的独特特征;开展货车驾驶人的驾驶行为动态决策、危险驾驶行为的识别及从产生到结束的全过程演化解析等方面的理论建模和实证研究;从个体行为和群体行为出发,探索货车驾驶人的个体驾驶行为特征和群体驾驶行为模式的演变规律,分析两者的时空关联性和时空异质性,助力货车驾驶行为的精准管控。
(2)基于“人-车-路”时空因素建模的货车碰撞事故致因分析
国内外学者一直关注货车碰撞事故成因及对策,但大部分研究集中于高速公路、城市道路、隧道及长大下坡等特定路段,并基于历史交通事故统计数据,对货车事故进行宏观和中观致因分析。然而,由于实时车辆运行状态和驾驶环境数据通常难以获得,基于历史事故数据的研究在本质上是一种静态的“事后”致因推测,难以解释事故发生前后系统某些参数的连续变化或者系统状态的突然变化的问题。因此,有必要结合无人机航拍、模拟驾驶及自然驾驶等技术,开展人、车、路等因素对货车碰撞事故的微观致因影响,特别是在山区公路环境下,进一步探索货车与其他类型车辆之间的交互作用机制[82]。在未来研究中,可以结合车辆轨迹数据、车载诊断系统和视频监控数据、固定点检测数据、气象数据及事故数据等多个数据源的优势,进行多源信息的交互和融合,提炼出包括驾驶人驾驶操作特性、驾驶状态特性、车辆运行状态、道路交通状况、道路几何线形及交通事故等多维特征变量,采用时空交互统计模型[83]或可解释性的机器学习算法[12],深入研究影响货车碰撞事故的微观因素。此外,考虑到货车事故是小概率事件,有必要采用危险事件替代事故相关指标,并利用不均衡数据采样算法[84]或深度学习[85]消除样本的不均衡性影响,构建货车交通事故严重程度影响因素模型,进一步探索各类因素对货车事故严重程度的影响机制[67],拓展交通安全的研究内涵。
(3)面向高新智能自动化环境的货车危险驾驶行为与行车安全关系研究
现阶段的货车危险驾驶行为与行车安全关系研究主要偏向于讨论分心驾驶、疲劳驾驶和行车安全的关联性,较少涉及超速驾驶和行车安全的关联性分析,特别是与近年快速发展的网联自动驾驶和车路协同等高新智能自动化技术结合不足,缺乏自动无人驾驶或人机共驾场景下的危险驾驶行为甄别及其与行车安全研究。相对于城市内部的行驶车辆,货车在高速公路环境下具有更强的自由度,更易实现自动驾驶[86]。在未来的研究中,可开展网联自动驾驶环境下的大规模货车驾驶人危险驾驶行为模式时空分布和演变规律研究。此外,未来还可考虑在多种典型路况下,以人工驾驶和半自动驾驶相结合的方式,对货车驾驶人的危险驾驶行为与行车安全进行深入研究,例如,网联自动驾驶场景下的危险驾驶行为定义和类别,人机共驾时的危险驾驶行为谱研究,道路中不同等级自动驾驶车辆不同混行比例的货车与其他类型车辆之间的交互作用机制研究,危险驾驶行为从形成到消散过程的演化与事故风险的关联等,进一步推动高性能危险驾驶行为监测产品和主动安全干预系统的发展。
(4)面向驾驶安全的货车在途动态风险预测研究
目前,驾驶安全风险评估主要采用Logistic 和神经网络等回归模型刻画风险因素与危险事件之间的关系,且多集中于货车驾驶人驾驶风险和交通流风险的评估,普遍采用基于速度的衍生参量(例如,平均速度、速度变异系数及超速比例等)作为风险评估的主要指标之一。虽然速度参量指标能够揭示驾驶安全问题的部分特征,但是这类研究均包含一个隐性假设,即风险评估的系统环境在一定时间内是稳定不变的,这将使得所有的参量偏向于中观和宏观的指标,很难适用于复杂行车环境下的货车在途动态风险预测。因此,针对特定的安全隐患路段场景,例如,长下坡、急弯、互通立交分合流区及公路平交口等复杂路段,结合交通流量、道路环境及天气等因素,融合交通监控视频和车载传感器数据等多源数据,借助机器学习方法在挖掘隐性特征的优势,亟须探究货车与交通流和道路线形的耦合作用机制及其对小客车运行风险的影响。在道路运行风险层面,可利用行车风险场理论[56],从微观驾驶行为和道路交通流的研究视角,构建驾驶行为与交通流运行状态集成在连续空间和连续时间的动态过程表达,量化风险评价指标,建立“人-车-路”的风险评估体系,把握货车驾驶人危险驾驶行为的风险演变趋势。在车辆运输安全方面,应深入分析影响驾驶行为和交通流在时空层面变化的关键因素,研究具有科学性、前沿性及适用性的货车在途动态风险预测方法,完成交通运行风险的实时评估与动态更新预测,控制运输风险。