李宗华 翟钧 刁冠通 李晓光 吴炬
重庆长安新能源汽车科技有限公司 重庆 401133
近年来,新能源汽车行业的发展得到了进一步的加快,汽车智能化成为当下汽车行业发展的趋势。通过对新能源汽车运行过程中产生的数据进行收集以进行分析和挖掘,进而得到驾驶人员的用车画像。分析用车画像能够得到驾驶过程中包括速度偏好、驾驶风格、用车时间偏好、驾驶熟练度等用户特征。利用用户特征,业务人员快速获取用户的信息认知,发现显著用车特征,获取业务研发灵感。用户画像还可以用来精细化运营,针对不同特征的用户实现细粒度的推荐等服务。
在构建用户用车时的画像研究中,一般有挖掘驾驶指标和利用用户画像评判驾驶行为两种研究[1]。利用车联网采集得到的数据,郑恒杰等[2]通过对提取的特征值进行聚类分析,并采用BP神经网络对驾驶员行为进行分类和评价。孙川等[3]利用因子分析构建驾驶行为综合变量,并利用聚类分析得到用户的驾驶行为。王潇等[4]利用数据挖掘方法,研究车辆速度、加速度等行驶数据,以对驾驶员驾驶行为进行规范。Christian G[5]等通过对驾驶过程中方向盘数据的收集,利用人工神经网络模型分析其波动变化情况,以此判断驾驶员注意力是否集中以及做出综合故障检测。此外,一些研究针对驾驶员外部特征、认知行为、驾驶员心理等进行研究,有助于帮助规避包括疲惫驾驶等驾驶风险[6-7]。万蔚等[8-9]利用模拟驾驶器实验,对获取的速度、方向盘转角等数据进行分析,表征驾驶员疲劳和正常驾驶的行为特征,以有效判别驾驶员的疲劳驾驶状态。
从以上的研究可以看出,利用车联网大数据对驾驶行为进行研究,有助于了解驾驶用户的驾驶特征,以对驾驶行为提出改进意见。本文首先从用户驾驶行程中的速度偏好、驾驶风格、时间偏好、熟练度四个方面来描述用户的用车画像,然后提出一种基于K-means算法的聚类模型来生成用户画像,最后将该模型部署到大数据云平台,通过实际线上用户的驾驶行程数据,得到每个用户的速度偏好标签、驾驶风格标签、用车时间偏好标签、熟练度标签。
用户画像[10],是根据用户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。构建用户画像的核心工作是给用户贴“标签”,利用这些标签集合,能够抽象出一个用户的信息全貌,以准确把握用户的喜好,给用户提供个性化服务[11]。其中,每个标签分别描述了用户的一个维度,各个维度之间相互联系,从而共同构成对用户的一个整体描述。汽车用户驾驶行为画像有不同的维度表征,本研究采用速度偏好、驾驶风格、时间偏好、熟练度这四个常用的维度。基于车辆用户大数据平台,从中提取包括5种车型共计12万多辆(12,499,255)乘用车的驾驶行程数据,其中涉及的车辆数为154辆。
用户驾驶行程中的速度偏好鲜明地表明了驾驶员的个人差异和驾驶技能差异,分析速度偏好的数据可以从车辆监控的原始信号构造的相关数据指标反映出来。例如,通过平均车速,能统计并分析出驾驶行程中低速、中速、高速的分布情况,进而可得出此用户的速度偏好情况。此外,还可以通过加速踏板以及制动踏板信号数据,通过计算它们的平均值,作为表征行程中驾驶激烈程度情况的一种维度。
用户的驾驶风格可分为平缓驾驶和激烈驾驶两类,驾驶风格与行车安全、燃油经济性、汽车磨损等息息相关,每个用户都拥有不同的驾驶风格。一般来说,激进的驾驶风格往往更容易引发交通事故,同时也加快了汽车磨损以及增加油耗及排放。因此,对驾驶风格进行分析对于提高燃油经济性和改进能量管理策略至关重要。
在实际的驾驶风格分析中,利用驾驶行程中的具体数据,从不同角度计算并构建出可以表达安全性的特征变量,然后利用这些变量对驾驶风格进行分析,常用的一些指标有速度标准差和加速踏板标准差等。
时间偏好主要反映出不同驾驶人员在一天中各个时间段的驾驶情况,一般将时间分为早晨、上午、下午和夜间四个时段。在不同时段的驾驶人员特征能够反映出驾驶人员的职业,例如,对于普通上班族,他们更有可能是在早上和下午驾驶车辆,即他们的时间偏好为早晨偏好和下午偏好。
熟练度主要反映了用户驾驶车辆的熟练程度,表明了用户对驾驶技能掌握的差异。根据我们以往的经验将驾驶熟练度分为新手驾驶、熟练驾驶、进阶驾驶、精英驾驶。通过对用户驾驶熟练度的分析,可以看出用户的驾龄以及驾驶技巧娴熟度,刻画出不同用户的画像标签。
通过以上驾驶行程中的速度偏好、驾驶风格、时间偏好、熟练度这4个维度的分析,提出了一种基于K-means聚类算法的用户画像刻画方法。首先确定不同维度聚类的个数,本文将速度偏好聚类成慢速、中速、高速三类;驾驶风格聚类成平缓驾驶、激烈驾驶两类;熟练度聚类成新手驾驶、熟练驾驶、进阶驾驶、精英驾驶四类;时间偏好聚类成夜间偏好、早晨偏好、上午偏好、下午偏好四类。首先,对提取的数据进行预处理;其次,采用z-score对数据进行标准化;再次,根据每个维度提取出不同的特征;最后,使用K-means聚类算法得到用户驾驶行程中每个维度的不同标签。
2.1.1 速度偏好特征
根据用户驾驶行程中产生的数据,我们提取了部分关于速度偏好的特征,变量名称以及对变量的描述如表1所示:
表1 速度偏好特征
在表1中,利用在单位行程中速度的平均值表示驾驶过程中的速度,以及使用加速踏板和制动踏板平均值来分别表示行程中的加速和减速特征。为了使模型达到更好的聚类效果,在特征工程环节,我们分析了部分特征对聚类类别的影响,根据速度平均值和加速踏板的均值来对速度偏好进行区分,一般而言,速度平均值和加速踏板值越高,则速度偏好更倾向于高速偏好。
2.1.2 驾驶风格偏好特征
驾驶风格偏好可以通过加速踏板标准差、速度标准差等数据进行反映,部分驾驶风格偏好特征如表2所示。
表2 驾驶风格偏好特征
根据速度和加速踏板的标准差来对行程中的驾驶风格进行划分,有激烈驾驶和平缓驾驶两种风格。通过在单位行程中速度的标准差和加速踏板的标准差来判断驾驶风格,标准差较大,表示该驾驶员更倾向于激烈驾驶的风格。
2.1.3 时间偏好特征
时间偏好主要通过驾驶时段进行反映,通过将一天中的24个小时划分为四个时段,每个时段表示不同的时间偏好特征,其中早晨的时间段为凌晨4点到早上9点,上午偏好为上午9点到中午12点,下午偏好为中午12点到下午18点,夜间偏好则为下午18点到凌晨4点。
2.1.4 熟练度特征
熟练度特征主要反映驾驶人员的驾驶娴熟度,在本研究中,采用单位行程时间、行驶总里程、行驶总时长进行表征,在本研究中,分为进阶驾驶、精英驾驶和新手驾驶。一般来说,行驶总里程越长、单位行程时间越短,则越更倾向于精英驾驶。
由于以上特征表示的是不同的量纲,数据标准化的目的是消除不同量纲的影响,以解决不同指标之间可比性的问题,从而将不同量级的数据统一转化成同一个量级。这里用到的标准化算法是z-score[12]算法,计算公式如下:
其中μ代表总体数据的均值,σ代表总体数据的标准差,x代表个体的观测值。
基于用户行程数据,对这些数据进行预处理及标准化处理。接下来,根据前面对每个维度的划分,采用K-means[13]算法对速度偏好、驾驶风格偏好、熟练度三个维度进行聚类分析,将每个维度聚类得到不同的类别。利用K-means算法对每个维度进行划分,主要包括以下几个步骤:
(1)选择初始中心点,假定我们要对N个样本观测做聚类,要求聚为K类,随机选择K个点作为初始中心点。
(2)计算样本中每个点到中心点的距离,按照距离初始中心点最小的原则,把所有观测分到各中心点所在的类中。
(3)计算K个类中所有样本点的均值,然后重新计算K个类中的中心点。
(4)重复第2、3步,直到满足收敛条件(中心点不再改变或达到指定的迭代次数),聚类过程结束。
数据预处理主要是为了清理在实验过程中可能对实验造成很大误差的一些脏数据。数据预处理过程中,一般首先需要一些不符合预设条件的数据。然后就是对缺失值进行处理,分为缺失值填充和缺失值剔除。缺失值填充包括均值填充和中位数填充,缺失值剔除主要是对数据集中NAN值进行剔除。此外,还要对一些一场数据进行处理,一般采用的方法是直接删除,例如,剔除了行程时长小于7分钟和时长大于4小时的驾驶行程。此外,行驶里程小于2千米或者大于300千米的行程,平均速度小于0或者大于150的行程数据也视为异常数据,对这些数据进行删除处理。
以速度偏好为例,首先按照划分的类别慢速、中速、高速随机选择三个初始中心点,然后分别计算每个数据点到初始中心点的距离,这个距离我们采用欧拉距离[14]进行计算,将距离中心点更近的数据点标记为中心点的类别。接下来在划分好的三个类别中重新计算中心点,得到第二次迭代的中心点,然后根据重新划分的中心点对其他点进行类别划分,得到第二次聚类的结果,重复以上操作直到满足收敛条件,聚类结束,最终得到提前设定的三个类别。同样,我们对驾驶风格、熟练度进行了聚类分析。
速度偏好聚类结果如图1所示,从图1可以看出,数据被分成三类,数据之间间隔较大,说明K-means聚类算法对于驾驶行程数据的速度偏好划分比较理想。
图1 速度偏好聚类结果
驾驶风格聚类结果如图2所示,驾驶风格数据被分为两类,数据之间间隔较大,说明算法对驾驶风格数据的聚类比较理想。
图2 驾驶风格聚类结果
熟练度聚类结果如图3所示,从图中可以看出,驾驶熟练度被很好地聚类成四类。
图3 熟练度聚类结果
可以看出,采用K-means对车联网数据进行聚类分析,能够有效地将用户的速度偏好、驾驶风格、熟练度等驾驶行为特征进行有效的划分,可以准确识别出不同特征用户的画像。
通过对用户画像进行构建,可以看出用户的驾驶行为,通过将模型部署至大数据云平台,利用实际线上用户的驾驶行程数据,该模型能够针对每个车主可输出每个用户的用户画像,包括速度偏好、驾驶风格,驾驶时间偏好、熟练度的方式可视化给用户,帮助用户了解自己驾驶行程中的情况。另外,驾驶用户画像可以进一步帮助业务人员深入了解用户需求,提高精细化运营水平,同时也为研发提供支撑。
本文使用新能源车辆用户的行程数据,利用大数据分析和无监督的机器学习算法,提出了一种刻画用户驾驶行程中的画像的方法。首先,分析了用户在速度偏好、驾驶风格,驾驶时间偏好四个维度的一些特征;其次,使用K-means聚类算法归类出用户在上述四个维度的不同标签;最后,模型通过上述四个维度的标签直观地刻画出不同用户驾驶行程的不同画像。
用户用车行为画像可以构建不同应用场景,一方面可以帮助业务人员获取更多用户信息,深度了解用户需求;另一方面也可以提高精细化运营水平,针对不同用户提供个性化服务。这对新能源汽车服务、用户的用车和出行体验、新能源汽车配套设施建设等的提升和优化,有着重要的参考思路和意义。