倪思宇 黄凌峰 夏欢
吉利汽车研究院 浙江 慈溪 315336
随着国内汽车“新四化”的提出,传统的汽车制造企业将向出行服务方向进行转型,以满足客户对可靠、安全、优质的出行服务的需求。因此,一些企业开始瞄准汽车互联网机遇,探索电动化、智能化所驱动的汽车革命。
在车联网技术高速发展的背景下,车联网数据同时在爆炸性增加。RVS(Remote Vehicle Service)数据是车联网产生的远程汽车服务数据。通过对极大数据量的RVS数据进行高质量的数据分析与治理,一方面将为广大车主提供更加智能,更加优质的出行服务,一方面可以为车企提供真实可靠的RVS数据进行分析与研发,做出更精准的决策和产品设计。因此,RVS数据治理问题是车联网发展的关键性问题之一。
在车联网系统中,汽车终端采集的传感器RVS数据通过车辆的CAN总线,汇集到车载ECU进行控制管理,再利用车载终端T-box将RVS数据收集并打包上传:包括车辆的静态数据,动态数据[1]。收集到车辆状态数据后,通过通信模块将采集到的信息按约定的传输协议打包发送给云端服务器进行数据分析。采集的信息包含车辆状态,行驶里程,能耗状态,车辆位置,诊断信息等数据。
然而,各ECU的传感器单元会不可避免地受到外界环境、信号干扰等因素的影响,时常导致采集到RVS数据不准确或存在较大偏差,甚至数据缺失等情况。因此在对RVS数据的分析治理过程中,产生了数据精确性、一致性、时效性等数据质量问题。
以RVS数据中的车辆位置、速度、加速度等参数的测量为例,由于车辆颠簸,行驶环境高温、潮湿等问题将导致部分数据测量误差增大[2]。另外,车联网系统中的数据可能因为数据采集设备故障、数据网络传输中断等其他原因使车辆运行过程中的某些参数可能无法完整记录或传输,导致原始真实数据缺失或损坏。例如,在以下典型场景下:车辆行驶过程中,通过某一隧道路段,此期间GPS无信号,导致行程中该隧道部分的定位信息缺失,将对整个路段的车联网数据分析造成影响。
在车联网系统内部进行整体数据分析操作时,不同关联模块之间的RVS数据没有保持操作上的一致性,或者存在逻辑上的矛盾。例如,在计算车辆剩余电量时,根据车端测得的电流和电压计算得到的剩余电量和实际剩余电量不一致。
车联网系统中的数据可能因为更新速度慢或其他时间延迟的因素而存在时效性问题。例如发送出错、网络抖动、数据高峰等原因,均可造成数据延迟上报、延时处理,带来业务判断延迟的影响。
由于车辆的行驶状态、行驶环境受到路面状况和周围环境状况的影响难以避免,且RVS数据的精确性作为车联网数据分析的基础问题,如果能被妥善解决,也将对其他数据问题的改善起到很大的作用[3]。因此,如何针对在复杂多变的环境路况下采集的RVS数据进行数据治理,使其最大限度地弱化特殊驾驶环境下带来的对数据精确性的影响,是本文要分析的重点问题。
由于传感器测量误差的不可避免,所以本研究中只能将测量误差降低到可接受范围内,超出该范围时可以将其视为异常值。而针对传感器测量的异常值数据,数据使用方一般采用滤波的形式先对原始的采集数据进行预处理以消除异常值。而传统的滤波方法是直接将所有的输入进行滤波处理后直接作为输出,但这样会损失真实数据的大部分细节[4]。例如均值滤波、中值滤波方法分别将输入数据的平均值和中位数作为滤波后的输出,但异常值将大幅度拉高或者拉低平均值,集中分布的异常值也将影响中位数的分布。由此可见,如果在进行滤波预处理时将异常值和正常值一并而论,会造成大部分真实数据的输出上下浮动,损失了真实数据的细节。在另一方面,车联网数据的实时性要求较高,而对于传统的均值滤波和中值滤波,需要选取一组数据进行处理后输出一个有效数据,这将导致获取一个有效数据的时间大大加长。针对以上两个方面的问题,笔者提出了针对超出了正常范围的异常值的滑动窗口中值滤波方法。
笔者首先根据专家经验和先验知识为原始数据的正常范围设定一个合理的上下阈值,并设置滑动窗口的长度,即同时进行滤波操作的数据长度。每采样一个新数据,就将最早采集的那个数据丢掉,因此每进行一次采样,就可计算出一个新的中位值,从而加快了数据处理的速度,提高了实时性[5-6]。当获取到ECU收集到的原始数据后,将设置好长度的滑动窗口在输入序列数据上滑动,如果识别到有不在正常范围的异常数据,则选择该异常数据之前的滑动窗口长度的数据,填充进滑动窗口进行中值滤波操作,输出的值替换此异常数据,并以此类推,进行后续数据的滑动中值滤波操作[7]。这种做法不仅能保持正常原始数据的真实性,又能修复异常值数据,而且能适应车联网数据实时分析的需求。
为了验证所提方法的有效性,笔者选取了RVS数据中小电池的电量数据作为原始数据集。由于复杂恶劣的环境等客观因素,该RVS原始数据集一般都存在数据缺失、数据异常等问题,这些问题将在进行小电池数据分析时造成数据精确性方面的影响[8]。因此,笔者选取了数据缺失异常较严重的某一时段的242组数据,其具体情况如图1所示。利用针对异常值的滑动中值滤波方法对原始数据进行预处理,得到的结果如图2所示。
图1 原始数据分布
图2 处理后数据分布
随着车联网技术的高速发展,各汽车主机厂获取车联网数据的全面性大大提高,车联网数据的体量正在爆炸式地增长,数据质量也不可避免地出现了参差不齐的问题。因此,本文对RVS数据中精确性、一致性、时效性等常见的质量问题进行了分析,并针对其中关键性的精确性问题提出了新的解决方案与治理模型,该模型对RVS数据治理的精确性和实时性做了优化,将为RVS数据分析治理提供更好的性能表现。