多源数据融合下网约车司机严重违法风险预警研究

2022-01-21 02:02付凤杰阮琳琦
关键词:网约违法概率

付凤杰,阮琳琦,王 泽

(1.浙江警察学院交通管理工程系,浙江杭州 310053;2.浙江警察学院计算机与信息安全系,浙江杭州 310053)

0 引言

近年来,网约车在中国迅速普及。第47次《中国互联网络发展状况统计报告》指出,截至2020年12月,中国网约车用户已达3.65亿,占网民整体的36.9%[1]。但是,法律空白和监管困难给乘客带来了严重的风险,网约车司机杀人、强奸等暴力刑事案件时有发生,2018年5月6日和2018年8月24日,两名网约车乘客在出行途中,被司机强奸并杀害。保障网约车乘客的安全成为了网约车运营和监管的基础和重中之重,网约车司机严重违法风险预警技术的探索和发展迫在眉睫。

关于网约车安全的研究,国内学者们主要集中于探讨政府部门、立法与司法机关等主体在管理上的改进[2-3],乘客安全监测和司机严重违法风险预警研究较少。随着移动互联时代的到来,基于车辆移动轨迹数据时空挖掘方面的研究逐渐增多,但是大多学者仅聚焦于异常轨迹/行为检测算法。例如,传统的异常轨迹检测算法基本思路为:将同一OD之间的轨迹进行聚类,旨在将常见的、相似度较大的轨迹归为正常轨迹类,将罕见的、与众不同的轨迹归为异常轨迹类[4-5]。该类算法主要对已完成的历史轨迹进行判别,并不适用于对未完成的轨迹进行实时判别,难以应用于风险预警。一些学者提出了移动轨迹监测/判别方法,例如Xpa等利用轨迹的位置、速度、方向数据,通过计算轨迹的多因素不一致性系数,实现异常轨迹的判别[6]。这类算法计算复杂度随时间的推移而显著增加,更重要的是网约车安全监测是一个综合性的复杂研究,不仅需要考虑人文地理学、心理学、交通运输学,更需要结合犯罪地理学和概率统计理论等对车辆行驶轨迹和司机驾驶行为及犯罪行为进行分析和预判。

违法犯罪行为与时空因素高度相关,往往会集中在一个高发时期及某些热点空间区域,且该类区域的人口密度、经济情况以及区域类别等有着显著的特征[7-8]。如钱汉伟等人[9]建立违法犯罪数据模型,挖掘社交网络数据具有潜在价值和线索,识别异常特征的可疑人群。颜峻[10]以社区盗窃案件发案率为例,建立了盗窃违法犯罪率与社区人口密度、路网密度、社区距派出所距离等因素之间的局部分析模型,并发现违法犯罪空间分布与人口、环境等因素的关系随空间位置而改变。因此,基于时空规律的违法犯罪位置预测和违法犯罪率预测成为了研究热点。违法犯罪位置预测主要包括违法犯罪热点识别[11-12]和基于违法犯罪热点分析的违法犯罪位置预测,如肖汉等人[13]考虑时间距离因素、违法犯罪率因素、人口数量因素、警察因素、地理环境因素和被害人职业因素等影响因子,建立研究区域的违法犯罪概率评价函数,得到违法犯罪分子下一步最有可能违法犯罪的预测区域。Tayebi等人[14]提出了基于违法犯罪热点和嫌疑人活动空间的违法犯罪位置概率模型。违法犯罪率预测是指利用回归分析等方法对某一区域内的违法犯罪率进行建模和预测[15],例如Wang H等人[16]利用Poi数据和出租车流量数据,建立了基于负二项模型的地理加权回归模型,用以预测某街区的违法犯罪率[16]。但是,这些研究都基于大量的历史违法犯罪数据。当特定种类的违法犯罪数据过少,并且需要在个体层面对研究对象的违法犯罪风险进行监测时,往往需要采用模糊综合评价模型。例如,钱振等、周侗等[17-18]提出了一种安全状态监测模型,从地理时空角度,分析案件发生的区域和时间特征,提取城市“潜在危险区域”,构建车辆OD距离、异常速度、行驶时间等因子,实时综合分析乘客安全状态。但是一方面,该研究直接给出了危险因子的权重值,忽略了专家经验及比较判断矩阵;另一方面,评价模型未考虑乘客因素。网约车司机严重违法风险评价指标包括司机/乘客特征、地理环境(违法犯罪场所分布)、社会环境(人口聚集情况)、出行路线、驾驶行为等,不同指标对不同司机的影响程度不同。因此,应相应地结合公安专家处理相关违法犯罪案件的经验,提高各个指标权重的科学合理性;利用贝叶斯定理,融入乘客因素,提高评价结果的合理性。

综上,本项目以网约车为研究对象,期望通过融合多维时空数据,搭建网约车司机严重违法风险评价指标体系、挖掘和提取严重违法风险评价指标、建立基于层次分析法的严重违法风险评价模型、构建面向不同对象的严重违法风险多级预警机制,实现网约车司机严重违法风险监测和预警,为网约车乘客的出行安全提供保障。

1 严重违法风险预警系统设计思路

本文的严重违法行为主要指网约车司机在出行过程中可能构成抢劫、杀人、强奸等暴力犯罪的严重违法行为。犯罪行为是否发生与自身主观条件、客观环境和犯罪条件有关。自身主观条件包括性别、年龄、性格等因素,客观环境主要是社会和地理环境,犯罪条件主要包括时空条件、工具条件和侵害对象。因此,本文考虑司机特征(司机性别、年龄、接单数、综合评分、差评比例)、客观环境因素(整体风险、出行实时风险)、时空条件(出行特征、车辆实时行驶状态)及乘客特征(性别、年龄、人数)等,建立网约车司机严重违法风险预警系统,设计思路如图1所示。

图1 风险预警系统设计思路

2 影响因素定量化处理

2.1 基于K-means算法的司机特征聚类

相同的客观环境因素和时空条件对不同特征的司机的影响、约束作用不同。为提高专家对各因素重要性打分的准确度和合理性,继而提高严重违法概率预测精度,需对司机进行聚类分析。获取了某一城区300名网约车司机的基础数据,包括每个司机的性别、年龄、接单数、综合评分、差评比例、投诉比例等。样本比例达到1.64%,能够保证统计结果达到10%的置信水平、5%的误差水平。由于不同量纲的特征处于不同数值量级,对数据进行处理,得到任意司机i的6维属性xi={xi1,xi2,xi3,xi4,xi5,xi6},具体方法如下:

(1)虚拟变量:性别男xi1=0,性别女xi1=1;

(2)标准化处理:年龄、接单数、综合评分,即xij=(x′ij-μij)/σij。

式中,x′ij是司机i第j个属性的原始值,xij是x′ij的标准化结果,μij和σij分别是司机i第j个属性原始值的平均值和方差。

利用K-means算法对样本集合R6进行聚类分析,R6={x1,…,xM}。由于分类过多会造成专家打分困难,准确度降低,因此,根据实际经验将K值取为3,并将类别名称定义为稳重资深型、稳步上升型、冲动兼职型。

算法主要步骤有两个:

步骤一:随机选取3个聚类质心点为μ1,μ2,μ3∈R6;

步骤二:分别利用公式(1)和公式(2)重复迭代类别划分和质心计算,直至质心不变或者变化很小。

(1)

(2)

式中,ci表示第i个司机与3个聚类质心点中距离最近的类,xi表示第i个司机的6维属性,μk表示第k个聚类质心点,μkj表示第k个聚类质心点的第j个特征值,M表示司机的样本数。

2.2 基于核密度分析法的客观环境风险计算

与网约车出行安全相关的客观环境主要是指偏僻无人空旷区域的分布,用人口聚集情况和偏僻场所的分布来表征。人口聚集情况用活动场所(生活服务、美食、购物)来描述。选用这3类数据的原因有4点:一是生活服务、美食、购物分布稀疏的区域一定程度上能够代表城市偏僻无人空旷区域;二是生活服务、美食、购物场所相对较小,较为安全;三是这些数据为开放性数据,任何城市都可以获取,能够保证模型和预警系统的实时性和有效性;四是生活服务、美食、购物的营业与否能够一定程度上反映人口聚集情况的动态变化。偏僻场所用以表征网约车司机严重违法行为实施场所,主要包括山林、公园。客观环境对严重违法风险的影响体现在两方面:一是整体风险,即出行路线沿线的平均风险;二是实时风险,即当前定位处的实时风险。整体风险主要影响司机出行初始时刻的心理定位,而实时风险则影响司机的随机行为。

利用百度地图API获取了同一城区表征客观环境的基础数据点,并将生活服务、美食、购物数据点的权重p赋值为1,将树林和工地的权重p分别赋值为-5和-2。利用ArcMap和Python对所有数据点进行核密度分析,得到固定客观环境热力图及核密度计算结果,如图2所示。任意位置(x,y)处的核密度f(x,y)的计算公式如下,

(3)

(4)

(5)

图2 客观环境热力图

每间隔100 m选取一个采集点,根据区域核密度分析计算结果,可以确定出行路线上任意一采集点的核密度值。本文依据所有采集点的核密度平均值计算整体风险,依据实时定位处的核密度值计算实时风险,利用Min-Max标准化方法对二者进行归一化处理。

(6)

(7)

式中,Rf表示整体风险,即路线沿线J个采集点核密度平均值的归一化结果,f(xj,yj)为第j个采集点处的核密度值,f(xt,yt)为实时定位(xt,yt)处的核密度值,Rr表示实时风险,即实时定位(xt,yt)处核密度值的归一化结果,fmin表示当前区域核密度最小值,fmax表示当前区域核密度最大值。

2.3 时空条件的提取及建模

时空条件中出行特征主要指出发时刻t0、出行距离s等信息,可以直接通过网约车平台获取。由于网约车司机作案一般多发于夜晚,因此,本文以22:00作为最大值,以10:00作为最小值,对出发时刻进行归一化处理。由于大部分网约车出行为城市内部出行,因此,本文将100 km作为出行距离最大值,对出行距离进行归一化处理,大于100 km的取值为1。

车辆实时行驶状态主要指是否发生异常偏航和异常停车。出行过程中,偏航的原因有很多,包括道路复杂、司机不熟悉路线、前方发生重大拥堵需要绕行或切换路线等等。同样,拥堵、拼车、信号控制等原因都会造成车辆静止。因此,仅仅依据偏航距离(与目的地的距离差)或停车时间(静止或低速行驶时间),提高严重违法风险计算结果,甚至直接进行预警,会大大提高误判率,不仅增加平台及公安部门的工作量,也会降低系统可信度。本文提出了基于常用行驶路线的异常偏航距离比和基于实时路况的异常停车时间比计算方法。

当司机偏航且并非切换至常用路线时,被认为是异常偏航。根据出行OD,利用百度地图API获取历史最优出行路线,包括不同工作日、非工作日下不同时段(早高峰、平峰、晚高峰、低峰)内时间最短、距离最短、躲避拥堵等常用路线,得到常用路线集合L={L1,L2,…,LN}。设置异常偏航距离初始值为0(ds=0),可能切换路线集合L′={L1,L2,…,LE},可能切换路线数的初始值为E(E=N-1),则异常偏航距离比的计算方法和步骤如下:

步骤一:依据公式(8)计算当前定位(xt,yt)与D点(xD,yD)之间的距离dDt、上一定位(xt′,yt′)与(xD,yD)之间的距离dDt′及二者之差ΔdDt。

(8)

步骤二:当ΔdDt>0时,跳至步骤三;否则返回结果为正常行驶,βd=0,跳至步骤一。

步骤三:依据公式(9),依次计算当前定位(xt,yt)与各个常用路线的最短距离及其变化Δdpt。

Δdpt=d((xt,yt),Lp)-d((xt′,yt′),Lp),p=1,2,…,E

(9)

步骤四:p=1,2,…,E,依次判别Δdpt;当Δdpt≥0时,E=E-1,在L′中剔除Lp。

步骤五:若E>0,则返回至步骤一;否则跳至步骤六。

步骤六:令异常偏航距离ds=ΔdDt,异常偏航距离比(归一化值)βd=ΔdDt/s,t=t+10,返回步骤一。

当实时路况为畅通,而车辆速度过低(小于5 km/h)时,被认为是异常停车。若行驶时间大于预计行程时间,则利用危险系数对异常停车时间进行扩大。利用百度地图API和GPS终端(如手机),可以获取车辆的实时信息,包括速度vt,行驶时间T,预计行程时间T0,车辆所处路段的实时路况Slt:拥堵(0)、缓慢(1)、畅通(2)。设置异常停车时间初始值为0(ts=0)具体步骤如下:

步骤一:计算异常停车危险系数η,公式如下,

η=max (Tt/T0,1)

(10)

步骤二:实时判别路况和车速,当Slt=2且vt<5 km/h时,ts=ts+10,令异常停车时间ts′=ηts,异常停车时间比(归一化值)βt=ts′/T0。

步骤三:t=t+10,返回步骤一。

3 严重违法概率模型构建

3.1 基于层次分析的严重违法先验概率计算

本文定量化司机特征聚类、客观环境因素、时空条件等因素后,利用层次分析法,构建严重违法先验的概率计算模型。邀请32位公安部门的专家,凭借处理相关违法犯罪案件的经验,对不同类别司机的整体风险Rf、实时风险Rr、出发时刻t0、出行距离s、异常偏航距离比βd、异常停车时间比βt等6个因素进行重要性打分。以稳步上升型司机为例,打分表格结构、汇总表及最终平均分如表1所示。

表1 稳步上升型司机严重违法因素相对重要性分值汇总表

根据表1可以得到第i个因素与第j个因素的相对重要性分值aij,令aji=1/aij,补充其他元素值,构造判断矩阵A,如表2所示。

表2 网约车司机严重违法概率预测判断矩阵

确定判断矩阵的最大特征值,并根据公式(11)计算一致性指标CI,查表确定平均随机一致性指标RI,最后根据公式(12)计算一致性比例CR,具体结果如表3所示。

(11)

(12)

表3 一致性验证结果

由表3可知,判断矩阵通过一致性检验。利用算数平均法、几何平均法和特征值法求出6个因素的权重,并计算其平均值。Rf、Rr、t0、s、βd、βt6个因素的权重分别为:0.06、0.14、0.07、0.09、0.31、0.33。同理,可以得到6个因素对其他两种类型司机的权重。因此,不考虑其他情况和条件时,网约车司机严重违法的先验值概率p(C)的计算公式如下,

(13)

3.2 基于贝叶斯理论的严重违法后验概率计算

2017年10月至2020年10月网约车司机实施犯罪案例50起,同时随机选取500个正常出行案例。按照年龄、性别和人数将乘客分为5类,统计每类乘客在正常出行中和司机刑事犯罪出行中的比例如表4所示,分别对应已知出行正常时每类乘客的条件概率p(P|N)和已知司机刑事犯罪时每类乘客的条件概率p(P|C)。

表4 正常出行和司机刑事犯罪出行中不同类别乘客的比例

提取乘客信息,主要包括性别、年龄和人数,对乘客类别进行判断。根据网约车司机严重违法概率先验值和该类别乘客的条件概率,利用贝叶斯定理,计算网约车司机严重违法概率的后验值。

(14)

式中,P表示乘客类别,P=1、2、3、4、5;p(C|P)表示已知乘客为类别P时,网约车司机严重违法概率值,p(N)表示司机未严重违法的概率。

4 风险预警机制及实验

4.1 四级风险预警机制定义

依据严重违法概率大小和风险预警对象(乘客、乘客紧急联系人、网约车平台和公安机关),相应地建立四级预警机制,各级预警的条件和措施如表5所示。

(1)当p(C|P)>p3时,启动四级预警:自动向乘客发出预警提醒和确认消息,提醒乘客注意司机驾驶行为,并确认司机是否有可疑行为,正常反馈ξ2=1,无反馈或有问题时ξ2=0。一般p3取值为0.4。

(2)当p3≤p(C|P)

(3)当p2≤p(C|P)

(4)当p(C|P)≥p1&ξ3ξ2ξ1=0时,启动一级预警:自动向公安机关发送车辆及司机信息,公安机关利用卡口数据确认司机和乘客当前状态。

表5 各级预警的条件和措施

4.2 结果分析

以滴滴乐清案件为例,司机类别为Ⅲ,乘客类别为Ⅳ,各个关键节点对应的时刻、定位、6个因素取值、严重违法概率预测值及预警情况如表6所示。根据表6,对几点重要内容解释如下:

(1)路线的整体风险较高,在进入盘山公路之后,实时风险显著提高,这是因为网约车司机选择了人迹罕至的山路,并逐渐远离出发地点。

(2)异常偏航距离比都较低,这是因为该路线虽是山路,但同时属于最短距离路线,另外网约车司机一直在路线沿线往返作案,无法将其判别为偏航或者异常偏航。

(3)13:50进入杨岭公路后,实时风险显著增加,严重违法概率值达到阈值p3,向乘客发出四级预警,并得到乘客反馈。

(3)14:09进入石角龙村后,实时风险增加,严重违法概率值达到阈值p2,向紧急联系人发出三级预警,并得到紧急联系人反馈。

(4)14:14进入江岙村后,严重违法概率值虽未达到阈值p1,但是乘客、紧急联系人反馈均为0,向平台发出二级预警。

(5)14:32异常停车时长比显著增加,严重违法概率值达到阈值p1,同时乘客、紧急联系人反馈均为0,向公安部门发出一级预警。

(6)系统发出一级预警到网约车司机杀害乘客,有18分钟的救援时间。虽然时间较短,但是一方面,紧急联系人和公安部门已获取车辆相关信息;另一方面,距离上江岙3 km的位置设有巡防队。这些均能为乘客提供救援机会。

表6 各个关键节点严重违法概率预测结果

5 结束语

本文首先采用K-means算法对网约车司机进行聚类分析,得到3个类别的司机;利用核密度分析法将定性的客观环境因素转换定量的严重违法风险;利用异常偏航距离比和异常时间比计算算法,将时空条件转化为异常偏航距离比和异常停车距离比。其次,通过调查问卷和层次分析法,得到各个因素的权重,建立网约车司机严重违法先验概率模型;根据不同类别乘客的比例,利用贝叶斯定理,计算网约车司机严重违法后验概率值。最后,建立网约车司机严重违法四级预警系统,并利用滴滴乐清案件,对预警系统进行验证。实验结果表明,本文提出的严重违法风险预警系统能够较为准确地预测网约车司机严重违法概率,为及时防范、发现并制止严重违法行为提供可能。

本研究主要创新点如下:

(1)与现有研究相比,增加了网约车司机特征和乘客特征因素,改进了异常偏航距离和异常停车时间计算方法,并利用不同数据分析方法实现多维时空数据融合,提高司机严重违法概率预测结果的合理性和精度;

(2)与现有研究相比,通过考虑不同对象,增加了预警级别,建立了四级预警机制,充分利用不同面向对象的实时反馈,提高预警结果的可靠性和有效性,同时保证救援的及时性。

后续研究工作将从以下几方面进行:

(1)通过数据分析,自动确定严重违法概率阈值,而非经验设置;

(2)考虑多种异常情况,例如网约车司机在出行沿线作案,改进异常偏航距离比计算算法,在保证算法准确度的基础上提高算法灵敏度;

(3)挖掘并还原更多的犯罪案件细节,增加实验分析。

猜你喜欢
网约违法概率
网约车平台责任条款的识别方法——基于解释进路的正当规制
概率统计中的决策问题
概率统计解答题易错点透视
这些行为,你以为 没违法其实违法了
“代客操盘”系违法 盲目相信会受骗
概率与统计(1)
概率与统计(2)
网约车:B2C与C2C的模式之争
拷问 涂改号牌扣12分,重吗? 它可能是违章、违法的前提!
“网约工”身份困扰