巫思敏?孙鉴?刘凇佐?武晓晓
摘 要:为了改善政府大数据质量,提高政府公共服务能力,文章从数据生命周期模型出发,分析了数据结构质量、数据规模质量、数据时效质量、数据源质量和数据价值密度质量五个维度及十七个评价指标,构建一种基于数据生命周期的政府大数据质量评价体系,然后使用熵权法实证分析用户对体系的满意度,最后结合大数据真实性、复杂性、时效性、数量级、增值性等特征,提出了改善政府大数据质量的策略。
关键词:政府大数据;大数据质量;评价体系
中图分类号:TP391 文献标识码:A文章编号:2096-4706(2022)06-0136-05
Construction and Research of Government Big Data Quality Evaluation System
WU Simin1,2, SUN Jian1, LIU Songzuo1, WU Xiaoxiao1
(1.School of Computer Science and Engineering, North Minzu University, Yinchuan 750021, China; 2.Guangzhou Huali College, Guangzhou 510006, China)
Abstract: In order to improve the quality of government big data and improve the government public service ability, this paper starts from the data life cycle model, analyzes five dimensions such as data structure quality, data scale quality, data timeliness quality, data source quality and data value density quality, and seventeen evaluation indexes. It constructs a government big data quality evaluation system based on data life cycle, then the entropy weight method is used to empirically analyze users degree of satisfaction with the system. Finally, combined with the authenticity, complexity, timeliness, order of magnitude, value-added and other characteristics of big data, the strategies to improve the quality of government big data are put forward.
Keywords: government big data; big data quality; evaluation system
0 引 言
政府大数据涉及各个领域,国内外都从各个方面对其进行研究。目前在大数据治理[1]中,大数据质量评价体系从大数据质量的属性和大数据五个特征两个方面进行研究,结合实际应用目标和合适的情境,建立一种与常规数据质量在理论性、复杂性、多维度上存在差异的理论体系。政府大数据构建质量评价体系[2]的构建能够推动大数据产业的快速发展,会直接影响经济发展和社会发展,尤其是高质量的政府大数据发挥着极其重要的作用。目前,随着大数据技术的应用,很多政府都开设了政府数据开放平台对数据进行管理[3],但是缺乏相对完善的评价体系对大数据质量进行评价,造成了很多巨大的损失。因此,构建一种完善的政府大数据质量评价体系迫在眉睫。
1 政府大数据质量评价体系建立
1.1 评价指标的确定
本文参考蔡莉[4]等人提出了大数据质量标准,对如何建立相对完善的政府大质量评价系进行研究,参考马一鸣提出的政府大数据质量评价体系,将融合性归纳到数据结构质量指标中。本文结合数据生命周期模型[5],分析影响大数据质量的因素[6],从以下多级的政府大数据质量评价指标表1进行研究。
1.2实证研究
本文实证研究过程是先构建政府大数据质量评价体系,然后设计一份共58题的调查问卷,合理发放问卷并收集调查数据,进行描述性统计分析和信度分析,使用熵权法进行计算评价指标的权重,为了综合全面地分析各个指标对政府大数据质量的影响,并未剔除指标,最后并计算所有指标的满意度。
1.2.1 问卷描述性分析
經过计算,本文共发了130份问卷,其中有效问卷为123份,问卷的有效回收率较高,参数值为94.6%。被调查者情况如表2所示。
从回收数据可知,问卷的发放对象学历分为硕士学历、博士学历和其他,比例分布是81.03%,8.94%,9.76%,这是因为本文的研究主题大数据是新兴技术,硕士学历以上的被调查者能够提供更加准确的数据。而职称比例中教授的比例最小,为1.63%,说明研究此政府大数据质量的高学历资深人事较少。其次,从受访用户的年龄来看,21~30岁共占了76.42%,这也符合了问卷的调查对象,这个群体的用户是政府大数据使用频率较高的人群。从学科分布来看,理工科占比较大,共79.57%,占63.41%,而文科占比不大。6F3FB6A2-CC88-490B-9492-C65D053B8738
1.2.2 信度分析
信度分析是指分析设计问卷所用的指标,然后判断测验结果的可靠程度。本文采用“克朗巴哈系数”来测量问卷的可靠性。计算公式为:
(1)
公式中,k为问卷中项目的总数:为第i个指标满意度得分的内房差,为测评指标总得分的方差,一般认为α为测评指标总得分的方差,一般认为α在0.7以上,问卷值得信赖。本文用SPSS统计分析软件对调查收集到的123份问卷数据进行信度分析处理,结果显示如表4所示。从表4可见,本问卷的α都超过0.7,这就表示本文中问卷的指标均是政府大数据质量评价的重要因素。本文的17个指标根据题目计算过程,如图1所示。
1.2.3正负指标处理
在进行熵权法之前,需要对评价指标进行正负指标处理[7],如政府部门操作造成数据误差对政府大数据质量的影响,应该是越小越好,因此该指标处理为负指标,以此类推,对所有指标进行分析处理,最终得到结果如图2所示。质量评价体系指标及属性如表5所示。
1.2.4 熵权法计算各级指标权重
熵权法的思路是根据指标提供的信息量来给指标赋权[8]。指标的熵值与离散程度成反比,也就是说这个评价指标能够造成更大的影响和提供更多的信息,反之亦然。若指标之间的值一样那就说明这两个指标不会造成影响。本文使用SPSS软件过程如图3所示。
本文使用熵权法的计算过程,得到每一个评价指标的具体权重值,得到三级指标的权重,通过计算得到的一级二级权重情况如表6所示。
1.2.5 政府大数据质量评价结果分析
使用公式计算综合得分。式中:F为所测量对象的综合得分,Wj为第j个变量的权重,Yj为第j个变量的测度值总和的算术平均数。得出该数据的综合得分为3.296,因此本体系总体满意度属于一般,还需要对问卷进行调整和收集更多的问卷数据进行分析。
2 提出大数据技术改善政府大数据质量策略
2.1基于大数据特性-真实性评价指标的策略
根据前文实证研究结果可知,数据准确性即真实性权重达到40.857%的数据源质量维度,是政府大数据质量的重中之重,可见数据源质量是一切的开端,影响后面每一个阶段。与其他领域大数据相比,政府大数据是权威性数据,极其容易受制度因素干扰,因此建立数据管理部门,引进大数据技术高学历人才,不断制定和完善垂直管理体系和数据核算信用体系,将用户提供数据的真实性与个人征信记录挂钩,并促进数据质量监测预警平台智能化,一旦发现异常虚假数据及时反馈和预警,可以第一时间从源头上减少一切低劣的数据源发生[9]。
从政府部门、数据用户和第三方服务商三个主体考虑,政府部门是国家政府职能部门,所有政府业务都有其固定的流程规范,因而政府应制定全面、完善的补充文件解说数据源,指导用户生成和使用数据,使得数据源的管理规范化[10]。在处理虚假数据时,常规操作都是最简单的方法就是直接删除,而这些虚假数据也存在着其价值,可以对其进行分析,挖掘虚假数据出现的原因,从而提高数据质量。政府部门需要制定一份相对完善的数据采集标准,从数据生成初期进行管理,提高政府开放数据质量。这需要政府注重数据的采集方式,尤其是手工录入数据,才能从源头管控数据的质量。而第三方服务商在完成数据任务时,切勿为了利益而伪造数据,造成不可估量的损失[11]。
2.2 基于大数据特性-时效性评价指标的策略
从表6中的时效性权重4.4%,可知当前用户对于政府大数据时效性质量较为满意。政府部门需要与时俱进,不断地完善管理规则从而完成数据管理工作[12]。政府部门应该对高校、企业及数据用户的数据工程项目给予支持和立项,加大数据项目的资金投入和政策支持。各个政府部门应该利用云服务器和云计算的技术搭建大数据平台实现数据共享,实现分布式计算,如Spark、FLink,在分布式存储支持的条件下,能够实现对数据的实时处理,而不是离线下载数据后处理,实现了计算移动而不是往常的数据移动。而政府部门简政政策为政府大数据时效性提供了基础,删除了很多不必要的流程,极大地提高了时效性。
第三方服务商应该致力于研发更多适用于云计算、物联网技术的设备和软件,使得政府数据更加智能化,从而提高政府服务质量。而数据仓库(Hive)的出现提高了数据查询的速度和实时处理能力。政府部门制定权威性的政府大数据存储策略,选择合适的存储介质,从根本提高数据的时效性。一般存储策略是长久不使用的政府历史数据属于冷冻数据,应该存储在性能较低的服务器或者价格便宜的机械硬盘,间断性使用的政府数据属于暖数据应该存储在数据库中,而频繁访问的数据即热数据应该存储在实时处理能力较强的HBase。除了存储策略,政府部分应该鼓励存储研发企业和半导体企业大力研发更优质的存储介质,比如紫晶存储指出的光存储也有着得天独厚的优势,一次写入之后就可以保证数据不可篡改。
2.3 基于大数据特性-数量级评价指标的策略
数量级指标占重5.8%,在所有指标中排名较前,可见用户对于政府大數据的数据有较大的需求,因此政府部门提高政府大数据质量的方法可以是对大数据生态系统分布式文件系统的副本机制统一化,让各个数据都设置合适的副本数目,一般而言副本机制一般设置为3(包括它本身)。假如副本数目越大,那么其带来的数量也进行了翻倍,这不是政府部门想要看到的。副本机制是指在一个从节点中的政府数据使用过程中无法访问,分布式文件系统会通过主节点得到副本存储在那个从节点上,能够及时从另外一个从节点拷贝数据。政府部门可以通过搭建各自的政府数据开放平台,为用户提供更高质量更多数据时,也在一定的程度上增加了政府大数据质量的管理运作成本,但是能为大数据质量提供大容量存储保障。
2.4 基于大数据特性-复杂性评价指标的策略6F3FB6A2-CC88-490B-9492-C65D053B8738
数据复杂性即多样性,占重5.6%,反映着目前政府大数据的结构较为复杂,需要注重数据融合过程。政府必须认真理解指导要求,使得多种结构数据规范化处理,形成明文规定并将其传送到每一个政府部门,允许相关政府单位因地制宜地执行规定。而在大数据生态系中应该加强各个算法的研究,便于提高数据转换ETL的性能。数据融合的另一个难题是采集的数据类型较复杂,包括图片、音频、视频、数字,在短时间内融合这几个数据类型的数据存在一定的难度。政府应该明确数据融合的需要和要求,通过软硬件提出具体的目标和实现途径,如无人驾驶应用中,多个传感器和摄像头、雷达、GPS等同时传回数据,必须快速识别并提供决策方案[13]。
2.5 基于大数据特性-增值性评价指标的策略
数据增值性主要涉及数据挖掘、数据可视化和数据使用。增值性无论对于政府部门、数据用户还是第三方服务商来说,都是最清晰的概念,即数据价值。关于数据增值性的制度因素是评价满意度得分较低的指标0.046为,充分证明越来越多的人重视了数据的价值,而不是数据的容量和读写速度,因此数据增值性也会影响大数据质量。但是单个政府数据的价值是很小的并且难以直接获得,需要通过数据挖掘算法计算相似度将其聚类、分类或者其他操作,從而能够将隐藏的价值挖掘出来,比如啤酒和面包经典案例。政府部门应该建立规则,将多个地方政府数据进行整合成全国政府大数据,确保数据质量高质量,进行数据挖掘,应与企业加强产学研合作,通过产业的方式实现其价值,促进政府数据的价值最大化[14]。政府部门对于数据的分析与发布操作,能够让更多的市民了解政府大数据,使用政府大数据,发挥政府大数据的价值。其次政府部门应该全面综合考虑各地的情况,建立适合本地的大数据质量管理平台[15],使得当地经济可持续发展。
3 结 论
政府部门不仅掌握着人力、物力、财力等资源,还是为人民服务的主体。随着物联网技术的加入,对数据的每一个生命周期过程提出了更高的要求,可视化技术如知识图谱也使得数据与数据之间的关系更加明确,发现了更多的新知识。部分高校开设了大数据专业,主要开设的课程有大数据技术、大数据分析、数据挖掘,没有专门开设大数据质量相关课程,注重了大数据环境的搭建而忽略了大数据质量的作用,因此应该在培养相关专业技术人才时,应该以大数据质量为根本,学习相应的大数据技术、进而系统地培养更多优质的大数据专业人才。
参考文献:
[1] 王蕾.国内外政府大数据治理的对比研究 [D].哈尔滨:黑龙江大学,2020.
[2] 赛迪顾问大数据产业研究中心.“十四五”时期我国大数据产业发展特征 [J].软件和集成电路,2021(4):16-17.
[3] 侯征.我国政府开放数据质量评价模型构建研究 [D].郑州:郑州航空工业管理学院,2021.
[4] 蔡莉,朱杨勇.大数据质量 [M].上海:上海科学技术出版社,2017.
[5] 张楠.基于生命周期的政府开放数据质量管理研究 [D].郑州:郑州航空工业管理学院,2020.
[6] 莫祖英,侯征,贺雅文.管理者视角下政府开放数据质量影响因素扎根研究 [J].图书馆学研究,2021(13):18-26.
[7] 马一鸣.政府大数据质量评价体系构建研究 [D].长春:吉林大学,2016.
[8] 胡千代,王芳.政府数据质量评价指标体系构建研究 [J].科技情报研究,2021,3(03):17-34.
[9] 阮霁阳.地方政府数据开放平台服务质量评价研究——基于群AHP-熵权法组合权重的TOPSIS实证分析 [J].云南行政学院学报,2021,23(6):43-52.
[10] 莫祖英,邝苗苗.基于用户视角的政府开放数据质量评价模型及实证研究 [J].大学图书情报学刊,2020,38(4):84-89.
[11] 陈灏.提高政府统计数据质量路径研究 [D].太原:太原理工大学,2021.
[12] 王娟.国内外政府开放数据质量研究述评 [J].图书馆理论与实践,2019(12):27-31.
[13] 李卓雅.大数据使用影响政府决策质量的实证研究 [D].成都:电子科技大学,2022.
[14] 朱涵钰.探析政府大数据治理有效性提升策略 [J].中国管理信息化,2022,25(1):194-198.
[15] 陈丽金.广东省地级市政府数据开放平台的数据质量管理研究 [D].贵阳:贵州财经大学,2022.
作者简介:巫思敏(1993—),女,汉族,广东信宜人,助教,高级工程师,硕士研究生在读,研究方向:数据挖掘与知识发现;通讯作者:孙鉴(1982—),男,汉族,山东烟台人,讲师,工学博士,研究方向:大数据存储与管理;刘凇佐(1994—),男,回族,黑龙江双鸭山人,硕士研究生在读,研究方向:高性能存储系统与信息存储技术;武晓晓(1996—),女,汉族,山西汾阳人,硕士,研究方向:数据挖掘与知识发现。
收稿日期:2022-01-02
基金项目:国家自然科学基金资助项目(62062002);宁夏自然科学基金项目(2020AAC03221,2021A0966);北方民族大学中央高校基本科研业务费专项资金(FWNX09);北方民族大学校级一般项目(2018JY1202,2021XYZJK01)。6F3FB6A2-CC88-490B-9492-C65D053B8738