周扬,付锐,刘卓凡
(1.西安航空学院,车辆工程学院,西安 710077;2.长安大学,汽车学院,西安 710064;3.西安邮电大学,现代邮政学院,西安 710061)
驾驶分心是导致交通事故的主要原因之一,根据美国国家公路交通安全管理局(National Highway Traffic Safety Administration,NHTSA)的统计,2019年美国有9%的致死事故和15%的致伤事故是由驾驶分心所引发[1]。在自动驾驶技术完全成熟前所必须经历的人机共驾阶段,驾驶分心是影响人机控制权切换的重要因素,对接管中的车辆安全产生威胁。吴超仲等[2]认为在人机共驾过程中,驾驶人进行次任务会使其认知能力减弱,从而降低接管绩效。由此可见,在现阶段以及在未来相当长的一段时间中,驾驶分心都将是影响交通安全的重要因素,研究对驾驶人分心状态进行识别具有重要的意义。
驾驶分心可分为3 种主要类型,即认知分心、视觉分心及操作分心[3]。当前,已有不同研究针对3 种分心类型分别建立了相应的识别模型。其中,张辉等[4]采用驾驶绩效数据构建了支持向量机(Support Vector Machine,SVM)模型,针对以认知分心为主的驾驶分心行为(包括免提通话及语音短信)进行识别,模型在自由流和拥挤流下的判别精度分别达到94.5%和96.3%。马艳丽等[5]利用车速、加速度及车辆横向位移等驾驶绩效特征训练SVM 模型,对驾驶人操作车载信息系统所产生的视觉分心进行识别,模型对包括正常驾驶、一般分心与严重分心这3 类状态的平均识别准确率达到89.86%。白中浩等[6]基于图卷积神经网络设计了针对驾驶人操作分心的识别模型,模型能够对驾驶人骨架信息和手机等关键物体信息进行提取,对驾驶人打电话、喝水和取东西等多种分心行为的识别准确率达到90%以上。
尽管上述研究已能够较为准确地识别驾驶人的某一种分心类型,然而,其尚不能对驾驶人不同的分心类型进行区分。根据Wickens等[7]提出的多资源理论模型,由于视觉分心与驾驶人感知道路环境信息所主要依赖的视觉通道形成竞争,因此视觉分心会对驾驶人完成驾驶任务产生较大影响,相比之下,认知分心较少占用驾驶人的感知维度,对驾驶任务所造成的影响也较小。近年来的相关研究也证实视觉分心会对行车安全产生更大影响,Simmons等[8]通过文献分析发现,拨号、取手机和发短信等以视觉分心为主的分心行为会较大幅度地提高事故风险,但以认知分心为主的分心行为如手持通话并未造成事故风险的显著变化。Dingus等[9]分析了包含3454 名驾驶人的SHRP 2(The Second Strategic Highway Research Program)数据集发现,手持电话和免提通话等以认知分心为主的分心行为未造成事故风险提高,事故风险反而相比正常驾驶时显著下降。这些研究共同表明,视觉分心会对行车安全产生较大威胁,但认知分心对行车安全的影响相对较小。因此,构建能准确区分不同分心类型的识别模型具有重要意义,可为分心预警系统根据分心类型判断风险大小提供基础,当前研究中仍缺乏针对不同驾驶分心类型的识别研究。
本文针对驾驶人视觉分心及认知分心两种分心类型的识别展开研究,采用驾驶模拟试验采集驾驶人两种分心类型及正常驾驶下的车辆操控、眼动及头动数据,挖掘提取驾驶人的驾驶绩效、眼动及头动特征,运用随机森林模型构建针对驾驶人不同分心类型的识别模型,通过实现对驾驶人不同分心类型的准确判别以期为设计更加智能化的分心预警系统提供基础。
本次试验所采用的试验设备如图1所示,利用基于驾驶模拟器硬件和交通场景仿真软件SILAB所开发的驾驶模拟系统开展模拟驾驶试验,试验中通过Smart Eye Pro 8.0非接触式眼动追踪系统采集被试的眼动及头动数据,该眼动仪可具体记录被试头部及视线的转动,以及不同眼动类型的数据。
图1 试验设备Fig.1 Experimental equipment
共招募45名被试参与本次试验,其中,男性34名,女性11 名,所有被试均持有C1 类型驾驶证,年龄分布范围为21~38 岁,驾龄分布范围为2~10年。所有被试均在试验前被告知应充分休息,避免饮酒,以确保试验结果不会受到疲劳、饮酒等因素影响,所有被试的两眼正常视力或矫正视力均达到1.0以上。
本次试验所设计的模拟场景为常见的城市道路交通场景。道路采用双向4 车道布置,如图2所示,车道宽度为3.75 m,相邻车道间有白色虚线,道路中央设有白色实线,道路两侧为人行道路,在路侧设有限速标识牌,限速为70 km·h-1。场景道路中设有随机车流,交通流量设为500 veh·h-1,整个场景道路全长为10 km,主要为直线道路,同时设有几个弯道及交叉口,使模拟场景更符合现实情况。
图2 模拟场景Fig.2 Simulation scene
为获取更加多样化的驾驶人行车数据,将整个模拟场景分为自由行驶与跟车行驶两部分,两者的长度分别为3 km 与7 km。在自由行驶路段,被试可在保证安全的前提下自由加减速、换道;在自由行驶路段结束后,被试须跟随一辆预设的黑色交通车行驶,该辆交通车的车速被预设有一定的波动变化,以模仿城市中较为拥堵的交通情况。
本次试验采用两种分心次任务分别诱导被试产生认知分心和视觉分心,其中认知分心次任务采用1-back任务,视觉分心次任务为看手机任务。
工作记忆任务n-back 是心理学中所采用的一种认知负荷施加方法,由于n-back 任务操作简单,易于对认知分心程度进行控制,近年来在驾驶分心相关研究中已被广泛采用。本次试验选择代表中等程度认知分心的1-back 任务作为认知分心次任务,其具体操作方式是随机播放0~9 范围内的数字,播放间隔为2.25 s,被试须在播放新的数字时对前一个已播放数字进行口头重述。
驾驶中看手机是较为常见的视觉分心行为,本文采用看手机任务诱导被试产生视觉分心。为了尽可能模拟现实情况,在试验中让被试根据自己的日常手机使用习惯来使用手机,被试可选择将手机放置于方向盘一侧的手机支架上,也可手持手机,被试看手机的方式如图3所示。为了尽可能保证视觉分心任务的难度一致,事先选定了看手机任务的文字内容,在试验开始前,将提前制作好的文字内容发送至被试的手机上。
图3 视觉分心次任务Fig.3 Visual secondary tasks
在试验中,由实验员发出口头指令让被试开始或终止分心次任务。
(1)待被试抵达后,对试验内容及要求进行介绍。
(2)让被试进行适应性训练,熟悉驾驶模拟器和两种分心次任务。
(3)对眼动仪进行校准。
(4)正式试验。试验过程中,在自由行驶和跟车行驶两路段均由一侧的实验员以同样的方式提示被试进行正常驾驶、认知分心和视觉分心驾驶,实验员控制被试每种状态下的驾驶持续时间在30~60 s,被试完成一种状态驾驶后,实验员会间隔10 s再发出指令让被试进行下一种驾驶,实验员同时控制被试3种状态驾驶的先后顺序,使不同状态的触发时间和触发时所处的空间位置随机化,以避免被试产生学习效应。在两个路段中,实验员会尽量使被试在两个路段中完成3 种不同驾驶的次数保持均衡。每位被试共需完成整个模拟场景驾驶两次,每次驾驶大约需要10 min,在完成一次驾驶后,休息5 min,再进行下一次驾驶。试验中每位被试触发每种状态约各8次。
(5)收集整理驾驶模拟器数据、眼动仪数据和试验录音,让被试填写调查问卷以记录被试的个人信息。
对所采集的试验数据进行处理,利用试验录音中录制的实验员口头指令来确定每位被试完成3类驾驶的开始及结束时刻,进而从数据中截取对应的数据片段。从所截取的数据片段中提取备选特征和训练样本,为构建驾驶人分心类型识别模型提供数据基础。
驾驶绩效指驾驶人完成驾驶任务的表现,车速、跟车距离及车道位置等指标的统计值是相关研究中常采用的分心识别指标。参考国内外已有研究成果[4-5],分别计算驾驶模拟器输出数据,如车速、跟车距离等在一定时间窗口内的均值、中位数和标准差,作为建立驾驶人分心类型识别模型的备选驾驶绩效特征。
根据文献[10-11],驾驶人在分心下的方向盘回转率会产生显著变化,相比正常驾驶,驾驶人视觉分心下的2.5°方向盘回转率显著提高,而认知分心下的0.5°方向盘回转率显著增大,因此,方向盘回转率可用来进行分心识别。本文计算了表征驾驶人对方向小幅度修正频率的0.5°方向盘回转率和表征驾驶人对方向较大幅度修正频率的2.5°方向盘回转率,并将两者作为驾驶绩效备选特征。
最终用作特征提取的数据指标以及驾驶绩效特征的统计如表1所示。
表1 驾驶绩效备选特征Table 1 Candidate features of driving performance
由于驾驶人在分心时的视线分布会产生变化,相比正常驾驶,驾驶人视觉分心下的视线分布更加发散,而认知分心下的视线分布更为集中。另外,当驾驶人视线转移时也会伴随有一定的头部运动,因此,对于表征驾驶人视线和头部运动的视线转角和头部转角指标,分别统计其均值、中位数和标准差,将其作为建立驾驶人分心类型识别模型的备选特征。
注视、扫视及眨眼是驾驶人主要的3种眼动类型,驾驶人不同眼动类型的统计值也被相关研究用来进行分心识别[12],因此,本文参考已有研究,对驾驶人3种眼动类型在一定时间窗口中的频次、平均持续时间、持续时间的中位数及总的持续时间进行统计,将其作为备选的驾驶人眼动及头动特征。
最终用作特征提取的指标以及驾驶人眼动及头动备选特征的统计如表2所示。
表2 驾驶人眼动及头动备选特征Table 2 Candidate features of drivers'eye movements and head movements
根据上述介绍,得到用于建立驾驶人分心类型识别模型的备选特征共计47 种。采用长度为3 s,重叠度为50%的滑动时间窗口进行样本计算,共获得驾驶人正常驾驶、认知分心和视觉分心状态对应的样本数量分别为11720,13108,12031 组,总计时长分别为293,327,301 min。
对备选特征进行特征优选,确定最优的特征子集,是建立分类模型的必要步骤。特征优选有助于去掉冗余特征,防止模型出现过拟合现象。
本文采用序列后向选择算法(Sequential Backward Selection,SBS)实现特征优选,其基本原理是采用贪婪搜索算法,通过反复迭代将维度为N的原特征组合降至K维。在每次迭代中,SBS算法会计算每个特征移除前后模型性能的变化,选择使模型性能衰减最小所对应的特征进行移除,得到新的特征子集。SBS 算法通过迭代使模型的性能表现不断优化,最终以模型性能达到最优时的特征组合作为搜索结果。
SBS 算法作为一种包裹式(Wrapper)特征选择方法,需要与机器学习模型相配合来实现特征优选,本文选择随机森林模型与SBS 算法进行结合。随机森林是一种集成式机器学习方法,通过构造多个决策树模型形成“森林”,在分类时会统计每个决策树的预测结果进行投票打分,从而确定最终结果。随机森林具有准确率高、鲁棒性强的特点,且可以给出模型训练所采用特征的重要性评分,有利于模型解释。
由于特征优选过程中需要进行模型训练及评估,因此首先将本文的数据集划分为训练集和测试集,划分比例为8∶2。在数据集划分时考虑各类别在原始数据集中所占的比例,确保划分后的训练集和测试集中各类样本的比例与原始数据集保持一致。经过划分后,训练集中驾驶人正常驾驶、认知分心和视觉分心这3 种状态对应的样本数量分别为9376,10487,9625 组,测试集中驾驶人3 类状态对应的样本数量分别为2344,2621,2406组。
采用训练集进行特征优选和后续其他参数确定,训练时采用五折交叉验证法,即将训练集划分为5 个等份,依次将其中1 份用作模型验证,其余4份用作模型训练,五折交叉验证法可消除因数据集划分方式对模型性能评估所带来的影响。经过特征优选及其他相关参数确定后,采用模型在测试集上的表现来评估其泛化能力,具体方式如图4所示。
图4 数据集划分方式Fig.4 Dataset division method
采用宏精准率(Pmacro)、宏召回率(Rmacro)和宏F1值(Fmacro)作为模型的性能评价指标,计算方式分别为
式中:Ti为对于第i类样本,模型分类结果也为i的数量;Ni为对于第i类样本,模型分类结果为其他类别的数量;Pi为模型将其他类别样本误分类为第i类的数量;n为样本的类别总数。
由于不同类型特征间的量纲存在差异,在进行模型训练前,采用“Z-score”标准化对数据进行标准化处理,处理后的特征序列均值为0,标准差为1。
式中:yi为经过标准化处理后的特征值;xi为初始特征值;xˉ为特征的均值;xstd为特征的标准差。
采用SBS方法进行特征优选,设置特征的最少数量为6。图5为特征优选过程中模型在五折交叉验证中验证集上Pmacro的变化,图中浅色区域代表了Pmacro在五折交叉验证中的波动范围。可以发现:当特征数量为19 时,模型的Pmacro达到最大值;当特征数量多于或少于该数量时,Pmacro均会出现下降。显然,建立分类模型所采用的特征数量并非越多越好,当特征数量超过某个临界值时,模型的分类表现反而会下降。
图5 特征优选过程Fig.5 Feature selection process
随机森林模型可以根据袋外数据的分类误差来计算特征的重要性,其度量值反映了特征对于模型分类的重要程度。对于所得到的包含19种特征的最优特征子集,由随机森林模型输出各特征重要性度量值排序如图6所示。可以发现,在得到的最优特征子集中,有12 种特征属于驾驶人眼动及头动特征,仅有7 种特征属于驾驶绩效特征。另外,驾驶人眼动及头动特征的特征重要性相比驾驶绩效特征更高,特征重要性度量值前7的特征均为驾驶人眼动及头动相关特征,这说明驾驶人眼动及头动特征对于本文中驾驶人不同分心类型的识别更为重要。
从图6发现,全部19种最优特征中,2.5°方向盘回转率的特征重要性度量值最低,而0.5°方向盘回转率并未入选最优特征组合,该结果表明,方向盘回转率对于建立驾驶人分心识别模型并不重要,这与文献[10-11]中所得到的有关方向盘回转率的结论存在一定的区别。本文认为可从以下两方面对该区别进行解释:
图6 特征重要性对比Fig.6 Comparison of feature importance
(1)文献[10-11]是从统计学角度研究认知分心和视觉分心对方向盘回转率的影响,采用如重复度量方差分析等方法检验被试不同状态下的方向盘回转率数值是否存在显著性差异。本文也采用了类似方法对驾驶人在3种状态下的0.5°和2.5°方向盘回转率进行显著性检验,得到了与上述两篇文献相似的结果。
(2)根据方向盘回转率的定义,在时间窗口较短时,驾驶人在较短时间内可能不会有明显的方向盘操作,导致计算出的方向盘回转率无法反映驾驶人在不同状态下的横向控制差异,这可能影响了方向盘回转率在用于构建分心识别模型时的有效性。
计算数据样本所采用的滑动时间窗口可能会对模型分类产生重要影响。另外,分类模型的参数选择也会对模型性能产生一定影响。为了使驾驶人分心类型识别模型的性能达到最优,本文采用网格搜索分别对时间窗口及随机森林模型的参数进行确定,其中,时间窗口参数主要包括窗口长度和相邻窗口重叠度两个参数,而对于本文所采用的随机森林模型,决策树数量与最大特征数是其较为重要的两个参数。在网格搜索过程中,采用模型在五折交叉验证中验证集上的分类结果对模型进行评价。
图7为时间窗口参数的网格搜索结果,可以发现,当采用长度为1 s,重叠度为90%的滑动时间窗口计算样本时,模型在验证集上的Fmacro最高,表示模型的综合分类表现最好。图8 为随机森林模型参数的网格搜索结果,从图中可以发现,当决策树数量为300,最大特征数设定方式为“sqrt”时,模型的Pmacro最高。“sqrt”为随机森林模型常用的最大特征设定方式,其表示单个决策树的最大特征数不超过总特征数量的开方值。
图7 时间窗口参数的网格搜索Fig.7 Grid search of time window parameters
图8 随机森林模型参数的网格搜索Fig.8 Grid search of random forest parameters
在分类任务中,SVM 和神经网络模型(Neural Networks,NN)是较为常用的两类方法。为了研究不同分类方法在驾驶人分心类型识别中的效用,本文将SVM和NN作为比较方法。
SVM 模型用于分类时,如果样本数据是非线性可分的,可通过核函数将样本特征映射至高维空间,使其在新的空间中变为线性可分,在新的空间中寻找分类平面来实现分类。本文在训练SVM模型时采用高斯核函数,通过网格搜索来确定SVM模型的两个主要参数:最大惩罚项“C”与“gamma”。经过网格搜索,最终确定SVM 模型的参数“C”取值100,“gamma”取值0.01。
采用全连接神经网络结构来实现驾驶人不同分心类型的识别,模型由输入层、隐藏层与输出层构成。经过测试,本文确定神经网络模型的最佳结构如图9所示,模型包含3个隐藏层,每层神经元数量为60,模型的输入层包含19个神经元,对应19个最优特征,最后一层采用softmax层,神经元数量为3,输入层与隐藏层之间采用ReLU 作为激活函数。采用分类任务常用的交叉熵损失作为目标函数,运用Adam 梯度更新算法训练神经网络模型,在训练过程中将学习率设为0.01,每批样本数量为256。
图9 NN模型结构Fig.9 Structure of neural networks
经过训练,可得到SVM、NN 及RF 这3 种模型在训练集和测试集上的分类表现,具体如表3所示。可以发现,RF 在训练集和测试集上均取得了最高的宏精准率、宏召回率和宏F1 值,表明RF 模型的分类表现优于另外两种模型。RF在训练集和测试集中的宏F1 值分别达到94.30%和93.98%,表明本文构建的驾驶人分心类型识别模型能够较为准确地对驾驶人的3类状态进行分类,模型的泛化性能良好。
表3 不同模型在训练集和测试集上的分类表现Table 3 Performance of different models on training set and test set
本文采用驾驶绩效、驾驶人眼动及头动两类特征构建驾驶人分心类型识别模型,为了比较不同类型特征对驾驶人分心类型识别的作用,分别利用驾驶绩效特征、驾驶人眼动及头动特征建立识别模型,对模型的分类结果进行比较。
表4 为采用不同类型特征训练随机森林模型后,模型在测试集上的分类结果。可以看出,将驾驶绩效与驾驶人眼动及头动特征进行融合,可以有效提高模型的分类表现。这主要是由于采用不同类型特征可利用更为丰富的多源信息,从中可以提取更加完整的对驾驶人不同状态的特征描述,因此可取得更好的分类表现。
表4 不同类型特征输入下模型在测试集上的分类表现Table 4 Performance of models on test sets with different types of features as inputs
单独采用驾驶人眼动及头动特征所训练模型的分类表现优于单独采用驾驶绩效特征,模型针对驾驶人3 种状态判别的各个分类评价指标均有一定的提升,该结果也进一步支持本文3.2 节中所得出的结论,即驾驶人眼动及头动特征对于驾驶人分心类型识别更加重要。
本文得到主要结论如下:
(1)采用序列后向选择方法进行特征优选,确定了驾驶人分心类型识别的最优特征子集,通过特征优选使得模型的分类表现提升。
(2)所构建的基于随机森林的驾驶人分心类型识别模型在测试集取得了93.98%的宏F1 值,优于比较方法支持向量机(81.01%)和神经网络模型(86.14%)。
(3)驾驶人眼动及头动特征对于包含认知分心和视觉分心的驾驶人不同分心类型识别更为重要。
本文研究存在一定的局限性,所针对的分心类型未包含驾驶人的操作分心类型,本文也未考虑是否有前车以及前车不同状态条件下分心对驾驶人的影响差异,另外本文模型还需在实车条件下进行进一步验证。后续研究将从这些方面进行展开。