面向智能交通的数据质量评估框架研究与实践

2023-02-23 04:55郄中洋陈利刚马晓真陈政
警察技术 2023年1期
关键词:数据量子集计算公式

郄中洋 陈利刚 马晓真 陈政

1. 江苏省苏州市公安局 2. 苏州工业园区测绘地理信息有限公司

引言

近年来,我国大力推进智能交通建设,数据作为智能交通的重要资产,其质量水平直接决定了数据二次应用的效能上限。以往交通领域的数据质量评估方法常局限于单一的数据采集方式,模型的普适性较低。此外,传统方法常忽略数据的真实应用场景,而事实上,不同应用场景对同一数据集的质量要求往往不同。因此,本文围绕客观评价智能交通数据质量主题,提出了一套基于应用场景的多层级数据质量评估框架并开展了应用实践。

一、数据质量评估框架

面向智能交通的数据质量评估框架包括需求准备、特征提取、质量评估、质量改进四个阶段[1],如图1所示。需求准备阶段需确定被评估的数据集和评估维度,依据实际应用场景定义数据质量需求;特征提取阶段包括数据集分解、最小数据子集质量特征提取、上层数据集质量特征计算;质量评估阶段根据数据集质量特征和评估标准进行数据质量评估;质量改进阶段分析数据质量问题并进行干预。

(一)需求准备阶段

1. 数据质量评估维度

框架主要从数据完整性、有效性、准确性、及时性、稳定性5个维度[2~5]开展质量评估:数据完整性主要考察数据对实体对象集的覆盖度;数据有效性主要考察数据与有效性校验规则的符合程度;数据准确性主要考察数据与实际值之间的差距;数据及时性主要考察数据获取的快慢程度;数据稳定性主要考察数据获取的稳定度。

2. 定义数据质量需求

?

在开展数据质量评估前,需要根据数据的实际应用场景,定义数据质量需求,产出物为《数据质量需求定义文档》,见表1。文档应明确被考察的数据资源、应用场景、时空范围、数据集分解规则以及5个维度的数据质量需求。

(二)特征提取阶段

质量特征是数据的固有属性[6],特征提取阶段的目的是获得数据集在5个维度上的质量特征。具体过程如下:

1. 数据集分解

可将数据集按照时空特性、组织架构等规则自上而下逐层分解,上层数据集被分解成至少一个数据子集,直到满足终结条件。如图2所示,Ci,j表 示数据集所属实体对象,φi,j表示数据集的权重系数,图中第n-1层中的子集无法被再次分解,则定义该层的子集为最小数据子集,第n层为裸数据层,是最小数据子集所辖的实际观测数据。

2. 质量特征提取

(1)最小数据子集质量特征提取

可知n-1层的数据集为最小数据子集,抽取其下第n层的裸数据,可提取最小数据子集在5个维度上的质量特征。

① 完整性

最小数据子集数据量如满足数据量校验,则完整性为1,否则为0。计算公式如(1)。

② 有效性

根据校验规则,计算最小数据子集中有效数据量与数据总量的比值,计算公式如(2)。

N为最小数据子集Mn-1,m的总数据量。

③ 准确性

a. 连续型字段准确性

连续型数据的准确性计算公式如(3)。

为最小数据子集Mn-1,m中字段f记录值与实际值差异的平均值,N为Mn-1,m的 有效数据量,为第n条记录中字段f的记录值,为相应的实际值。

b. 离散型字段准确性

离散型数据准确性为校验通过的数据量与有效数据量的比值,计算公式如(4)。

为最小数据子集Mn-1,m中 字段f的准确性,N为Mn-1,m的 有效数据量。为 第n条记录中字段f的记录值,为相应的实际值。

④ 及时性

计算数据产生到获取的时间差,计算公式如(5)。

Delayn-1,m表 示最小数据子集Mn-1,m的 及时性,tn,hap为第n条数据的产生时间,tn,use为 第n条数据获取的时间,N为Mn-1,m的 有效数据量。

⑤ 稳定性

稳定性计算步骤如下:

a. 将数据时间范围划分成等长的时间切片,根据数据生产特性将时间片分为N类,N可以为1;

b. 统计第i类时间片Ci,中 第j个时间片内新增数据量xi,j;

c. 计算第i类时间片中各时间片内新增数据量的均值μi和标准差σi;

d. 计算第i类时间片中各时间片内新增数据量变异系数C·Vi,计算公式如(6);

e. 计算最小数据子集的稳定性Stan-1,m,Stan-1,m越 小说明数据集越稳定,计算公式如(7)

(2)上层数据集质量特征提取

以n-1层中最小数据子集的质量特征为基础,自下而上递归计算上层数据集的质量特征,步骤如下:

① 从n-2层开始自下而上依次选择需要计算质量特征的数据集Mn-i-1,m;

② 找出所选数据集的所有元素,元素为该数据集下层的数据子集;

③ 根据元素数或元素所含数据量确定各元素的权重系数φn-i,k。

计算完整性权重时,根据Mn-i-1,m包含的元素数计算各元素权重系数,计算公式如(8),φn-i,k表 示元素Mn-1,k的权重系数,其中N表示Mn-i-1,m包含的元素数。

计算其它4个维度的权重时,根据各元素的数据量计算权重系数,计算公式如(9),其中φn-i,k表 示元素Mn-1,k的权重系数,Nn-1,k表 示元素Mn-1,k的 数据量,Nn-i-1,m表 示Mn-i-1,m的数据量。

④ 所选数据集的质量特征为各元素质量特征的加权平均值,计算公式如(10)

其中,a(n-i-1,m),a(n-i,k)分 别表示Mn-i-1,m及 其元素Mn-1,k某一维度的质量特征,φ(n-i,k)为权重系数。

(三)质量评估阶段

1. 各维度质量特征评估标准

质量评估阶段利用特征提取阶段输出的数据集的质量特征,根据质量评估标准进行数据质量评估,可得到数据集在任一层级上的数据质量得分,得分可直观反映数据质量在实际应用场景下的满足程度。各维度评估方法如下:

(1)完整性评估

数据的完整性采用线性函数评估,计算公式如(11)。其中,Com为完整性特征,S为完整性得分。

(2)有效性评估

数据的有效性采用线性函数评估,计算公式如(12)。其中,Eff为有效性特征,S为有效性得分。

(3)准确性评估

① 连续型字段

连续型字段的准确性采用分段线性函数进行评估,计算公式如(13)。其中,Acc为字段i准确性特征,THR为阈值,Si为字段i的准确性得分。

② 离散型字段

离散型字段的准确性采用线性函数进行评估,计算公式如(14)。其中,Acc为字段i准确性特征,Si为字段i准确性得分。

(4)及时性评估

数据的及时性采用分段线性函数进行评估,计算公式如(15)。其中,Delay表示数据平均延时,THR为阈值,S为及时性得分。

(5)稳定性评估

数据的稳定性采用分段线性函数进行评估,计算公式如(16)。其中,Sta表示数据稳定性特征,S为及时性得分。

2. 数据质量评估报告

质量评估阶段的产出物为《数据质量评估报告》,见表2。报告应详细记录数据集在各层级、各质量维度上的得分,便于自上而下快速定位存在问题的数据子集,有针对性地开展质量改进工作。

?

(四)质量改进阶段

当数据集在某一维度的质量得分低于期望值时,认为数据在该维度上不满足应用场景需求,需要进行质量改进。实际操作可从感知设备、网络传输、数据治理三个方面进行问题定位和质量改进。

1. 感知设备层改进

检测器设备受环境干扰、断电或长期缺乏维护等因素影响,可能导致数据不稳定、缺失或错误。定期巡检并及时维护设备,能有效防止设备故障,从而提高数据质量。

2. 网络传输层改进

网络传输设备受到干扰、破坏会导致数据缺失、错误或重复传输。加强网络检修,能有效防止网络传输异常。

3. 数据治理层改进

数据治理层面上,可以采取数据清洗方法清除冗余数据,利用多源数据融合技术填补缺失数据,采用异常值处理方法修正异常值,从而解决数据冗余、缺失、异常等问题。

二、应用实践

某市(SZ)与SH、ZJ、WX、NT四个省/市接壤,环市域四个方向共有12个高速卡口点位,24个出入口。某市需要对高速公路流量OD进行实时分析,为更好支撑此项工作开展,某市前期开展了环市域卡口过车数据的质量评估工作。

(一)需求准备阶段

经过需求调研,形成《数据质量需求定义文档》,见表3,以指导后续评估工作的开展。

(二)特征提取阶段

1. 数据集分解

某市高速公路环市域卡口过车数据总集记为M1,1,首先根据相邻省/市将M1,1划 分为四个子集M2,1, M2,2, M2,3, M2,4,然后依次根据卡口点位,进出方向将数据集进一步细分,在第四层得到24个最小数据子集,每个最小数据子集对应一个出口或入口的卡口,由于部分点位的设备故障,个别子集为空。

2. 质量特征提取

(1)最小数据子集质量特征提取

根据相关公式计算出每个出入口卡口在5个维度上的质量特征,结果如图3所示,按过车数对出入口进行排序,过车量越大序号越小。除三个出入口缺少过车数据外,另外21个出入口的完整性都为1。对比21个出入口的数据质量,发现随着数据量降低,数据的有效性先降后升,数据不稳定性和延时时长先升后降。对比5个维度的质量特征,发现数据的完整性高于其它特征值,“号牌颜色”的准确性高于“号牌号码”,数据有效性在95%左右,稳定性在0.45左右,延时时长集中在0.8~3.3分钟之间。

稳定性评估的时间切片为1小时,将每个出入口卡口的稳定性特征进行可视化,结果如图4所示。进一步表明数据量处于中间水平时,数据集的不稳定性增加,并且夜间的数据集不稳定性大于白天。

(2)上层数据集质量特征提取

上层数据集质量特征提取是一个递归计算过程,如图5所示。

首先根据24个出入口的数据量计算上层数据子集(12个点位)的数据量和各出入口的权重系数,然后根据24个出入口的质量特征和权重系数,采用加权平均法计算12个点位的质量特征。以此类推,计算每个数据集的数据质量特征,最终结果如表4。

(三)质量评估阶段

根据5个维度数据质量需求和实际质量特征,对某市高速公路环市域卡口过车数据进行数据质量评估,得到《数据质量评估报告》,见表5。从该报告中可看出各层级的数据质量情况,第一、二、三、四层依次展示了卡口在整体、各省/市边界、各点位、各出入口的数据质量,管理者可对问题进行快速靶向定位。

(四)质量改进阶段

由表5可知,环市域卡口过车数据稳定性得分为70.6,远低于预期,需要改进数据质量。问题排查后发现主要是因为网络传输异常导致的,后续综合采取了增加巡检频率,优化网络传输和数据存储机制等措施。在上述措施持续实施一段时间后,再选取2020年8月3号至2020年8月7号的数据再次进行质量评估。新一轮的数据集质量得分如表6所示,可以看到,数据的稳定性得到了显著提升。

三、结语

本文基于智能交通应用场景,选取数据完整性、有效性、准确性、及时性、稳定性作为质量评估维度,自上而下逐层分解数据集,并自下而上递归计算数据集的质量特征,最后根据评估标准进行质量评估,得到数据集的质量得分,实现了基于应用场景的多层级数据质量评估。

猜你喜欢
数据量子集计算公式
电机温升计算公式的推导和应用
拓扑空间中紧致子集的性质研究
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
连通子集性质的推广与等价刻画
关于奇数阶二元子集的分离序列
宽带信号采集与大数据量传输系统设计与研究
2019离职补偿金计算公式一览表
每一次爱情都只是爱情的子集