(重庆交通大学 重庆 400074)
数据清洗是整个数据分析与挖掘过程中必不可少的一个环节,其结果会直接影响到模型效果和最终的结论,据大数据分析与挖掘项目统计,数据清洗通常会占据分析与挖掘过程的50%~80%的时间。
本文针对RFID冗余数据,提出了一种处理冗余数据的方法,提高RFID数据的时序性和精确性。RFID冗余数据通常包括两类:重复数据和相似数据。重复数据是指采集到的信息完全相同的数据。相似数据是指虽然数据有部分信息不同,但所指向的内容是相同信息的数据。这两种数据存在不仅仅占用存储空间,造成数据库负载越来越庞大,而且还会导致后期在处理数据挖掘方面,出现大幅度的偏差。因此,有必要对RFID冗余数据进行判别与删除,提高数据的质量。
判断RFID数据是否存在冗余,根据冗余RFID数据存在的特征,关键是判断被检测到车牌号码、过车时间和RFID检测基站。当在采集到的RFID的数据中,车牌号码、过车时间和RFID检测基站完全相同,即可认为这些数据为重复数据,有必要对这些数据进行删除。而当采集到RFID数据中车牌号码和检测基站相同,过车时间虽不相同,但过车时间相差较短。因为通常同一辆车不可能在很短的时间内(五分钟内)两次或者多次通过同一个检测基站,而且RFID检测基站在读取数据时也需要花费一定的时间,采集的数据必定会产生一定的时间差,则认为这些数据为相似数据。因此相似数据也为冗余数据,也有必要对其删除。
本文在处理冗余数据时,采用逐条记录对比的方法,对RFID数据进行逐条对比车牌号码、过车时间和RFID检测基站。采用Java程序编写的代码实现冗余数据的判别。主要是对数据记录进行按照以下步骤进行逻辑判别:
(1)通过jdbc连接数据库,将数据库中的数据按照车牌号码、RFID检测站和过车时间字段顺序进行数据排序;
(2)读取第一条数据,获取数据记录中车牌号码(VehicleID1)、RFID检测站名称(C_P_Name1)和(Time1);
(3)循环读取下一条数据,获取数据记录中的车牌号码(VehicleID2)、RFID检测站名称(C_P_Name2)和(Time2);
(4)判断车牌号码VehicleID1是否等于VehicleID2、RFID检测站名称C_P_Name1是否等于C_P_Name2和过车时间Time1是否等于Time2,若三者全部相等,即为相同数据。若前两者相等,对时间Time2与Time1时间作差,判断两者的时间差是否在5min时间内,若在5min时间内,可以认为这两条数据为相似数据。将相同数据和相似数据进行输出到两个不同的表中。
(5)将车牌号码、RFID检测基站名称和过车时间进行替换,进入(3)进行循环。
通过以上逻辑过程对RFID交通数据进行冗余判断,可以获取出数据记录中的冗余数据。通过获取每天的冗余数据,统计每天的冗余数据量记为,采用下列公式计算每天检测数据的冗余率:
(1)
ωi——冗余数据占有率;
ERundei——第i天的冗余数据记录总条数。
Ni——第i天的记录删除错误数据后的总条数;
在把错误数据删除之后,再获取数据记录中的重复数据,通过联合车牌号码、检测点名称和检测时间判断记录中的数据是否存在重复。根据RFID检测器的数据规律特性,相同车辆在同一地点相似时间(5min)段内只会出现一条数据。本文首先对HDFS上每天的数据记录按照车牌号码、检测点名称和检测到的时间进行排序。在得到的排序结果后,判断每一条数据中的车牌与下一条数据中的车牌是否相同。在相同的车牌号码的情况下,再去判断检测点名称是否相同。在检测点名称相同的情况下,判断两条记录的时间差是否大于5min。在Hadoop平台中通过Java编写代码一步步循环判断,可以获取每天记录中冗余的数据。其实验过程通过编写代码实现。
通过判断每天数据中的冗余数据,计算出每天RFID检测数据的冗余率,可以作出冗余数据占每天正确数据的比率变化趋势图,如图1所示。
图1 冗余数据占有率变化趋势
通过对一个月冗余数据的占有率对比分析,可以看出冗余的数据在所占正确数据的比例比较小,约占1.40%。故在挖掘交通特性时,为了提高数据的总体精确性,对冗余数据可以保留第一条后,将其他的记录直接删除。
经过本文逐条数据筛选的方法对冗余数据进行处理判断,可以提高数据的精确性,本文在对RFID数据冗余判断,可以提高1.4%的精度,同时对后期的数据挖掘精度也有了较大的提高。
【参考文献】
[1]谷峪,李晓静,吕雁飞.基于RFID应用的综合性数据清洗策略[J].东北大学学报(自然科学版).2009,30(1):34-37.
[2]王妍,石鑫,宋宝燕.基于伪事件的RFID数据清洗方法.计算机研究与发展[J].2009,46(suppl):270-274.
[3]周奕辛.数据清洗算法的研究与应用[D].山东:青岛大学,2005.
[4]僧理.Hadoop的重复数据清理模型研究与实现[D].湖南:南华大学,2010.