车联网数据质量评价方法及系统设计

2020-07-23 16:23关利海董俊龙
关键词:车联网数据质量系统设计

关利海 董俊龙

摘 要:监控和提高车联网数据质量,是实现车联网大数据分析的基础。本文首先解读和总结目前国家对数据质量治理的相关标准,并结合车联网数据实时性、多维度等特点,对数据质量评价指标、约束规则以及计算方法进行归纳。最后对车联网数据评价系统进行了概要设计。

关键词:数据质量;车联网;系统设计

1 前言

目前车联网领域随着行业发展和运营,积累大量的车辆数据、驾驶数据,这些数据对于后续分析来说是至关重要的。然而, 数据库中往往存在很多数据是脏的、不完整的、不一致的、不准确的,这些数据可能导致操作代价、存储代价昂贵、数据分析失败甚至错误。可以说保证数据质量是一切车联网数据增值服务的前提。本文旨在面向车联网领域,对数据质量评价方法、流程进行解释说明,并对车联网数据质量评价系统进行整体概要设计。

2 数据质量治理法规要求

GB/T 36073中定义了数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准和数据生存周期等8个能力域,其中,对数据质量提出如下四大过程能力要求[1]:1)明确数据质量目标、范围,设计数据质量指标、规则。2)实时监控数据质量,发现数据问题。3)分析影响数据质量的原因。4)制定数据质量改进方案,纠正数据问题。

GB/T 36344定义的数据质量评价流程[2]包括构建质量管理组织、建立数据规范、确定评价指标、实时评价、数据质量提升、数据交付使用。法规中对如何确定评价指标和实施评价给出了对应参考准则。其核心目的是通过数据评价指标统计并发发现数据问题,从而针对性的提升数据质量,达到数据应用的标准。

3 车联网数据质量评价方法

车联网作为物联网的重要分支,除了具备大数据一般特点以外,也具备自身的一些特征。车联网数据源丰富,从采集设备上划分,包括T-BOX、ADAS、行车记录仪、车载信息娱乐系统以及其他车身传感器等;从数据分类上划分,包括操作数据、环境数据、道路交通数据等,从数据属性上划分,包括非结构数据、结构化数据以及半结构化数据;从分析方法上划分,数据分析处理既要求离线批量处理,也要求实时流处理。

3.1 数据质量评价指标

本文在GB/T 36344 数据质量评价指标的基础上,结合车联网数据领域,总结如下评价指标:

3.2 数据质量评价约束规则

结合车联网采集数据特点,举例说明如下约束规则:

3.3 数据质量评价算法

根据业务需求,对数据集制定数据质量评价指标以及约束规则,根据表3计算方法分别计算评价指标得分,最终评价结果可以通过各个指标得分的加权平均来计算。

4 数据质量评价系统设计

4.1 功能模块设计

数据质量评价系统功能设计如图1所示:

4.2 数据流设计

如图2所示,定义功能之间数据流图:

5 小结

本文针对目前国家法规在数据质量治理领域提出的标准做了解读和总结,并在此基础上结合车联网数据特点,总结了数据质量评价的通用指标和约束规则,并对车联网数据质量评价系统进行概要设计,旨在对汽车生产及运营企业在实现企业数据治理以及车联网大数据分析系统时起到一定借鉴作用。

参考文件:

[1]GBT 36073-2018,数据管理能力成熟度評估模型[S].北京:中国国家标准化管理委员会,2018.

[2]GB/T 36344-2018,信息技术 数据质量评价指标[S].北京:中国国家标准化管理委员会,2018.

[3]袁满,张雪.一种基于规则的数据质量评价模型[J].计算机技术与发展,2013.

[4]杨青云,赵培英,杨冬青等.数据质量评估方法研究[J].计算机工程与应用,2004.

作者简介:关利海(1985-),男,锡伯族,辽宁沈阳人,硕士,中级工程师,研究方向:ADAS及智能网联。

猜你喜欢
车联网数据质量系统设计
整合广播资源,凝聚声音优势
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
汽车生产企业发展车联网的优势与劣势
一种基于SATA硬盘阵列的数据存储与控制系统设计研究
目标特性测量雷达平台建设构想
中国车联网产业链与商业模式研究