基于层次分析法的公共安全大数据质量评估研究

2019-09-10 07:22漆源王非函高洪美李令鑫
现代信息科技 2019年3期
关键词:数据质量评价指标体系层次分析法

漆源 王非函 高洪美 李令鑫

摘 要:公共安全是大数据重要的应用场景之一,建立有效的数据质量评估方法体系是提高数据化建设成效、规范数据质量的必然要求。在数据质量评估的过程中,不仅要关注原始质量,还需要注重表达质量和使用质量。为实现数据质量定量评价,本文提出一种基于层次分析法的公共安全大数据质量评价方法,通过建立数据质量评价指标体系,利用层次分析法计算各评价指标的相对权重值,经综合评价函数得出数据质量综合得分。实例分析表明,该方法能够准确地定量评估公共安全大数据的质量水平。

关键词:公共安全大数据;数据质量;评价指标体系;层次分析法

中图分类号:TP309 文献标识码:A 文章编号:2096-4706(2019)03-0139-04

Research on Data Quality Assessment for Big Data in Public Safety Based on

Analytic Hierarchy Process

QI Yuan1,WANG Feihan1,GAO Hongmei2,LI Lingxin2

(1.Science and Technology Management Section of Science and Technology Division,Shanghai Public Security Bureau,Shanghai 200040,China;2. Shanghai Computer Software Technology Development Center,Shanghai 201112,China)

Abstract:Public safety is one of the important application scenarios of big data. It is necessary to establish effective data quality assessment methods for improving data construction effectiveness and standardizing data quality. In the process of data quality assessment,attention should be paid not only to the original quality,but also the expression quality and using quality. For quantitatively evaluating data quality,proposes a method of evaluating data quality for big data in public safety based on analytic hierarchy process (AHP). Establishing evaluation index system of data quality,calculating the relative weight of each evaluation index by analytic hierarchy process (AHP),and the comprehensive score of data quality is calculated by comprehensive evaluation function. The example shows that this method can quantitatively and accurately evaluate the quality of big data in public safety.

Keywords:big data on public safety;data quality;evaluation index system;AHP

0 引 言

自2015年起,我国陆续出台《促进大数据发展行动纲要》《关于积极推进“互联网+”行动的指导意见》《关于加快推进“互联网+政务服务”工作的指导意见》等政策文件,逐步引领我国走向数字化强国。公共安全是大数据重要的应用场景之一,其数据化转型的不断推进及业务的快速发展积累了海量的信息和数据(如案件笔录、痕迹物证、社会采集等)[1-4]。公共安全领域对数据的管理与应用已经超越了传统的备份需求,面临缺乏共享性、处理能力差、需求不断增强等问题的挑战,提高数据化建设成效,规范数据质量迫在眉睫,建立有效的数据质量评估方法体系成为必然趋势。

数据质量评估是一项系统工作,涉及诸多方面。目前大数据质量评估工作多依托于具体行业及岗位,缺乏统一的评估体系[5-7]。本文采用层次分析法对公共安全大数据质量进行评价,通过建立一套完善的数据评价指标体系,确定指标相对权重值,经过综合评价函数得出数据质量综合得分,最后通过实例分析说明该方法用于公共安全大数据质量评价的可行性。

1 公共安全大数据质量评价指标体系

1.1 评价维度

大数据生命周期涵盖范围定义、采集、存储、整合、呈现、分析、归档与销毁的完整过程,数据质量受多方面、多层次因素影响,数据质量评估既需考虑其准确性、完整性和时效性等基本要素,也需要综合考量使用效果和表达质量。影响因素并非越多越好,为了能够简洁高效地评估数据质量,需筛选出具有代表性的核心要素作为主要维度,同时尽可能减少不同要素之间的相关性。本文从数据生命周期出发,综合考虑多方面因素,将原始质量、使用质量和表达质量作为数据质量的主要维度[5,6,8]。

(1)原始质量。原始质量是指数据本身应当具有的属性,包含准确性、完整性和时效性等基本要素。准确性是指数据正确,符合标准,真实反映原始世界,这是数据的根本使命;完整性指的是数据信息不存在缺失的状况,数据缺失的情况可能是结构缺失、记录缺失,也可能是数据中某个字段信息的缺失,不完整数据的借鉴意义就会大大降低;时效性是指数据从产生到能够查看的时间间隔以及涵盖的时间跨度。如果数据更新较慢,建立时间过久,其分析結论的价值将大打折扣。

(2)使用质量。大数据时代,数据管理与应用远不止备份,高质量数据应当能够便捷共享且安全存储[9,10]。共享性是指数据获取、编辑、查看的难易程度,高度共享的数据应当具有明确的权限、数据本身相对稳定,且能够兼容各类设备;安全性是指数据被分类存储、不受外界扰动的能力,包含软件安全和硬件安全两个层面。

(3)表达质量。公共安全领域的数据具有鲜明的文本特色,表达质量显著影响其价值和应用程度。表达质量包含易懂性和一致性两个层面。易懂性是指数据所包含的信息逻辑清晰、简明扼要。数据质量的一致性首先体现在数据记载的规范性和数据的逻辑性。规范性是指数据存在于特定格局中。逻辑性指的是数据间存在着固定的逻辑关系。此外,数据变更应具有同步性。

1.2 评价指标体系

以三个主要评价维度为框架,本文基于完整性、准确性、时效性、共享性、安全性、易懂性、一致性等原则,将原始质量、使用质量和表达质量三个维度进行了进一步细分,得到公共安全大数据质量评价指标体系,如图1所示。

该指标体系适用范围广,各行业或组织机构可根据自身需求及特点,对其进行适当地扩展或调整。

2 层次分析法

层次分析法[11,12](Analytic Hierarchy Process,AHP)是一种将定量分析与定性分析有机结合的多维分析决策法,也称层级分析法,由美国匹茨堡大学运筹学家T.L.Saaty教授于20世纪70年代初提出。该法将复杂问题分解成若干个小系统,并按隶属关系分组,形成包含准则层、中间要素层及备选方案的阶梯型架构,根据决策者的经验来判断各因素之间的相对重要性,最终确定方案的排序。

层次分析法已广泛应用于决策、预测、评估等方面,成为系统工程中的常用方法之一。高起蛟等[13]应用层次分析法对原始数据报表进行筛选,并将其按数据质量进行排序。徐清等[14]将层次分析法运用于地方性银行业金融机构企业征信系统数据质量的分析和评价,以期为人民银行分支机构征信管理部门数据质量核查、管控提供参考。孙宏艳等[15]利用层次分析法的基本原理构建齐齐哈尔市统计数据质量评估体系和模型,以某数控装备公司近三年上报统计数据为例,验证其正确性。张彦等[16]使用层次分析法确定空间数据质量评价元素,有效提高了空间数据质量评价的量化程度。胡意新等[17]基于层次分析法建立了水电工程重大件设备运输方案的数学模型,以敦化抽水蓄能电站重大件运输线路的选择为例进行分析,得到运输路线的最佳方案。

由此可见,层次分析法操作性强、适用范围广,能够作为评估公共安全大数据质量的有效方法。层次分析法的基本步骤如下:

(1)建立评价指标体系:影响因素分层,构建层次结构模型;

(2)构建判断矩阵:对层次结构模型中每一层指标之间的相对重要性进行判断和比较,1-9标度方法如表1所示,按照规则进行量化,形成判断矩阵。

假设A层的指标Am与下层指标构成元素B1,B2,…,Bn有关联,各元素的重要性判断矩阵:

其中bij*bji=1。

(3)计算特征向量和最大特征值:采用方根法求解判断矩阵B的特征向量近似解和最大特征值,具体求解过程如下:

1)计算每一行元素的乘积,再对乘积求n次方根,其中n为矩阵阶数:

2)计算每行乘积n次方根与方根和的商,构成特征向量Wi=(w1,w2,…,wn)T:

3)计算判断矩阵B的最大特征值λmax。

(4)一致性检验:求出特征向量后,进行一致性检验:

其中,RI为同阶平均随机一致性指标。若CR<0.1,则B通过一致性检验;否则,需对B进行调整,直至通过,此时特征向量近似解即为各个元素的权重系数。

3 基于层次分析法的公共安全大数据质量评价

3.1 评价模型

基于层次分析法和公共安全大数据质量评价指标体系构建公共安全大数据质量评价模型,如图2所示。

3.2 确定指标权重

基于层次分析法计算公共安全大数据质量评价指标的相对权重分两个步骤:第一,构建一个四层的层次结构模型,其中,第一层是目标层,是数据质量评估的总体目标;第二层和第三层是中间层,代表数据质量评估的准则,是对总目标的分解;第四层是每个准则的具体指标层,代表影响目标实现的具体因素;第二,采用上述公式计算得出各层指标的权重值。

3.3 综合评价函数

如图1所示的层次结构模型的基础上建立一个三级四层评价模型,设第四层对第三层为一级评价,第三层对第二层为二级评价,第二层对第一层为三级评价,且三级评价得分为:

其中,L表示三级评价得分,即最终得分,ri表示第二层各指标得分,wi表示第二层各指标的权重值,且,。

由于上級评价得分均由下级计算得出,故只需确定第四层各指标得分,自下而上逐层计算便可得到公共安全大数据质量的综合评价得分。实际应用中多采用专家打分法获取第四层指标得分。

4 实例分析

本文以某公安局的公共安全数据系统为例,基于上述方法计算指标权重和综合评价得分,分析该系统质量现状。

4.1 指标权重计算

由专家对第二层中各指标的重要性进行比较,形成判断矩阵B,如表2所示。

采用方根法计算判断矩阵B的特征向量近似解W=(0.630,0.218,0.151)T,最大特征值λmax=3.11。计算得到CR=0.095<0.1,满足一致性检验。因此,第二层的原始质量、使用质量、表达质量的权重值分别为0.63、0.22、0.15。

同理可得第三层和第四层指标的权重值,如表3和表4所示,这里不再赘述。

4.2 综合评价得分

采用百分制对各类指标进行评分,评分结果分五等,分别是不及格[0~60]、一般[60~70]、中等[70~80]、良好[80~90]、优秀[90~100]。由专家打分法确定最底层指标得分,然后根据上述公式逐层计算,得到数据质量综合评价得分:

L=81.55×0.63+84.52×0.22+85.84×0.15=82.85

结果表明,该公安局的系统数据质量良好,其数据化建设取得了一定成果,但仍有较大提升空间。由于权重大小反映了该指标在数据质量评估中的重要程度,可以权重较大的指标为切入点,通过完善该项指标来提升数据质量,如注重提升数据更新频率、优化数据访问权限管理流程等。

5 结 论

数据质量评价是提高数据化建设成效、规范数据质量的基础性工作。本文提出了一种基于层次分析法的数据质量评估方法,通过构建数据质量评价指标体系、计算权重和综合评价得分,将受复杂因素影响的数据质量进行量化,最后通过实例说明该方法的可行性和有效性。该方法仍存在一些难点,如判断矩阵及底层指标得分的客观程度。总之,本文为公共安全行业提供了一种可行的数据质量评估方法,有助于定量评估数据化建设的现状和不足,寻找改进方向。

参考文献:

[1] 宁家骏.新形势下推进大数据应用的若干思考 [J].电子政务,2016(8):76-83.

[2] 杜龙飞,田兆君,鲁义,等.大数据时代下智慧城市公共安全应急管理现状分析及对策 [J].安全,2018(11):50-52.

[3] 陈扬扬.大数据对公共安全治理的价值与挑战 [J].华北水利水电大学学报(社会科学版),2018(8):28-30.

[4] 翟军,陶晨阳,李晓彤.开放政府数据质量评估研究进展及启示 [J].图书馆,2018(12):74-79.

[5] 宋俊典,刘丰源.一种支持数据质量评价的方法与应用研究 [J].计算机应用与软件,2018(5):328-333.

[6] 严浩,裘杭萍,刁兴春等.基于改进层次分析的数据质量综合评估 [J].计算机应用,2014,34(S1):287-290+297.

[7] 杨栋枢,杨德胜.基于熵权和层次分析法的数据质量评估研究 [J].现代电子技术,2013,36(22):39-42.

[8] 孙宏艳.齐齐哈尔市统计数据质量评估研究 [D].哈尔滨:哈尔滨工程大学,2017.

[9] 黄永鑫,郭彦辰.大数据的数据使用质量评价研究 [J].电子技术与软件工程,2018(23):173-174.

[10] 王洁.加强刑事司法数据共享性初探——以美国经验为参考 [J].中国刑事法杂志,2013(5):94-102.

[11] 俞乾,李卫国,罗日成.基于层次分析法的大型变压器状态评价量化方法研究 [J].湖南大学学报(自然科学版),2011,38(10):56-60.

[12] 邱奇志,周洁,张金保.基于形式概念分析和层次分析法的应急管理能力模糊综合评价法 [J].计算机应用,2014,34(6):19-24.

[13] 高起蛟,严凤斌,池斌. 层次分析法(AHP)在数据质量评估中的应用 [J].信息技术,2011(3):168-169+173.

[14] 徐清.基于模糊层次分析法的地方性金融機构企业征信系统数据质量评估 [J].征信,2014(3):29-32.

[15] 孙宏艳,马汇川,赵学武,等.齐齐哈尔市“大统计”下统计数据质量评估研究[J].统计与咨询,2018(2):24-28.

[16] 张彦,于丽君.层次分析法辅助空间数据质量评价 [J].城市勘测,2012(5):50-52+56.

[17] 胡意新,余卓轩.基于层次分析法的水电站重大件运输方案研究 [J].水力发电,2018(12):67-70.

作者简介:漆源(1983-),女,汉族,江西南昌人,硕士研究生,副主任科员,研究方向:科技管理及大数据治理。

猜你喜欢
数据质量评价指标体系层次分析法
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
民办高职院校评价指标体系研究
工程咨询企业可持续竞争力评价指标体系研究
新常态下大型煤炭企业生态竞争力实证分析
基于模糊综合评价模型对道路拥堵的研究