基于大数据的数据质量评估方法研究

2020-08-14 09:48周艳红
现代信息科技 2020年8期
关键词:质量评估数据质量综合评价

摘  要:大数据质量评估是大数据产业化道路上较为突出的挑战之一,故文章基于重庆工商大学2019年研究生创新型科研项目和数理统计团队培养项目,对大数据质量评估方法进行深入研究。首先,通过对大数据质量评估的现有方法进行简要综述,选取数据生命周期分析研究视角;其次,分析大数据质量的影响因素,从原始质量、过程质量和结果质量3个维度确定了15个大数据质量度量指标;最后,运用层次分析法和专家打分法建立大数据质量评估模型。

关键词:大数据;数据质量;质量评估;综合评价

Abstract:Big data quality assessment is one of the more prominent challenges on the road to big data industrialization. Therefore,based on the 2019 graduate innovative scientific research project and mathematical statistics team training project of Chongqing Technology and Business University,in-depth research on big data quality assessment methods is carried out. First,through a brief review of the existing methods of big data quality assessment and selecting a data life-cycle analysis research perspective;secondly,the influencing factors of big data quality are analyzed,and 15 big data quality measurement indexes are determined from three dimensions of original quality,process quality and result quality. Finally,a big data quality evaluation model is established by using AHP and expert scoring method.

Keywords:big data;data quality;quality assessment;comprehensive evaluation

0  引  言

当前,我国大数据产业蓬勃发展,但也面临着诸多挑战。例如,宗威和吴锋[1]指出,定义的统一性、数据质量问题、数据存储技术、数据分析方法是大数据为中国甚至全世界企业提出的挑战。李学龙[2]表示,目前大数据系统面临着冗余缩减和数据压缩、数据生存周期管理等挑战,亟需评估大数据的数据质量。王宏志[3]指出,由于大数据具有“4V”特征,其更易产生数据质量问题。

数据质量的好坏,将决定数据分析结果的有效性,并引导管理者作出相应决策。一旦数据质量恶劣,必将对决策产生误导,对企业甚至社会造成不利影响。因此,亟需学界和业界加强对大数据质量管理的研究,提出有效的评估方法和管理系统等。目前,不少学者围绕大数据质量评估展开了研究,取得了一系列的研究成果,然而,大数据正处于发展上升期,其发展的同时也产生了新的问题,给数据质量评估带了新的研究机遇。

为此,笔者基于重庆工商大学2019年研究生创新型科研项目和数理统计团队培养项目,对大数据质量评估方法进行深入研究。现对大数据质量评估的现有方法进行简要综述,分析大数据质量的影响因素,并采取适当的手段建立基于大数据的数据质量评估方法,以便用户对数据进行判断和抉择,进而提高大数据的使用价值。

1  大数据质量评估方法研究现状

1.1  大数据及其质量的内涵

近年来,研究人员对大数据的研究愈发深入,大数据的定义与特征呈现多元化。例如,研究机构Gartner[4]给出的定义是:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。彭宇[5]等认为,大数据是一种对数据管理和处理技术要求更高,且能反映“大决策”“大知识”“大问题”的数据集。刘洋[6]指出,大数据是常规软件及工作难以在规定时间内对海量数据进行收集、处理和整理时,需要依托全新的处理方法才能实现更强的决策力、洞察力、高增长率以及多样化的信息资产。目前,在大数据定义问题上,学界与业界仍难以形成统一共识,但有一点是颇受其广泛认可的,即利用大数据的特征,将其归纳总结,形成大数据的定义。

关于大数据的特征,主要有“3V”“4V”“5V”之说。“3V”是指大数据具有规模性(Volume)、多样性(Variety)、高速性(Velocity)。李敬华[7]认为大数据具有“4个V”的基本特征,即体量浩大(Volume)、模态繁多(Variety)、生成快速(Velocity)和价值巨大但密度很低(Value),且具有来源多样、实时、多元的信息化特点。IBM[8]提出了大数据的“5V”特征,即数据量大(Volume)、种类多样(Variety)、价值密度低(Value)、数据增长快(Velocity)、具有真实性(Veracity)。

本文以大数据“4V”特征为基础进行相关研究,即一是数据规模大,数据量通常超过10 TB;二是数据种类多,包含有结构化数据、半結构化数据和非结构化数据等,且半结构化数据和非结构化数据约占大数据的80%;三是数据价值密度低,亟需借助强大的机器算法来进行数据挖掘;四是数据具有高速性,主要体现在其增长速度、处理速度和时效性方面。鉴于此,大数据的本质是一个相对概念,是指随着物联网等新兴技术的发展,经济社会领域的数据发生巨变,其规模、种类和处理要求难以适应传统技术以进行数据分析解决的数据集。

根据上述所言的大数据的定义和特征,并结合传统统计数据质量的内涵,对大数据质量内涵进行研究。首先,大数据的质量是一个多维概念,这决定了其评价维度与评价指标的多样性和复杂性;其次,根据质量的概念,大数据的质量亦要考虑主体和客体,即不仅要考量数据自身属性,也要考量其能否满足用户的应用需求;最后,大数据的质量不同于传统统计数据,其更加关注数据在数据生命周期中产生的质量问题,这为深入研究大数据质量评估方法提供了重要视角。

1.2  大数据质量的评价方法及模型

大数据的质量是多维度的。部分学者基于不同应用环境或不同视界,建立了大数据质量评价体系和评价模型。

基于表征数据质量特征,美国普查局[9]将数据质量归纳为如下几个方面:准确性、一致性、透明度、代表性、完整性、安全性、持续性。王力和周晓剑[10]认为,数据质量是由可得性、可用性、可靠性、相关性、外观质量5个维度构成的。刘金晶和曹文洁[11]则提出从完整性、一致性、准确性和及时性4个方面进行度量。丁小欧[12]等对不同数据质量性质进行归纳总结,将数据质量维度分为核心与外围,并对核心指标进行细化,同时对所有核心指标做相关分析,进而建立数据质量综合评价框架。基于数据生命周期,莫祖英[13]则将大数据质量划分为原始质量、过程质量和结果质量,并提出不同的测度指标,利用专家打分和问卷调查确定权重,进而建立大数据质量综合评价模型。黄永鑫[14]提出了“3As”模型,该模型利用上下文充分性、操作充分性和时间充足性这3个数据质量特征来评估大数据的使用质量水平。基于数据使用问题,李建中[15]等人从大数据众多的质量评价指标中抽象出一致性、精确性、完整性、时效性、实体同一性这5个指标,认为其具有实际可行性。黄莺[16]以美国学者Bruce 和Hillman提出的模型为基础,提出以完整性、准确性、一致性和期望满足度为核心的两层结构模型。

因半结构化数据和非结构化数据在大数据中占比较大,不少研究人员针对此类数据进行研究。韩京宇和陈可佳[17]基于事实抽取评估数据的准确性和完整性,在Web上构建目标文档上下文。汤莉和何丽[18]提出基于PAC-Bayes理论的Web文档数据质量评估方法。余芳东[19]将数据质量保证框架分为数据源条件、元数据和数据3个维度,每个维度包括若干个质量要素。赵星[20]等提出基于质量标准度量的全数据质量评估方法,从而评估互联网平台中的大数据质量。

此外,唐继仲[21]运用分类和聚类等方法对数据质量进行评估。Lin[22]等提出用以评估多元异构数据源质量的数据源概率覆盖模型。李红[23]基于对数线性与双系统估计方法建立数据融合质量评价模型。

可见,现有大数据质量评估方法通常利用综合评价和聚类思想,其评估视角绝大多数基于数据质量表征和数据生命周期,重点研究社会各界极为关切的大数据使用质量。部分学者探索如何解决多数据源融合、覆盖时产生的大数据质量问题。为能全方面评估大数据的数据质量,本文将基于数据生命周期提出大数据质量评估方法,并构建相应模型。

2  大数据质量评估方法及模型建立

2.1  大数据质量度量指标分析

首先,ISO20000将大数据生命周期划分为6个阶段:数据采集、数据存储、数据处理、数据传输、数据交换和数据销毁,其数据质量评估主要聚焦前5个阶段。其次,对应大数据生命周期,莫祖英提出从原始质量、过程质量和结果质量来评估大数据质量较为科学全面,故本文将基于此进一步改进评估方法。最后,现从原始质量、过程质量和结果质量3个方面分析,明确大数据质量度量指标。

2.1.1  原始质量

大数据的原始质量指数据采集阶段获得的数据的初始状态。此时,大数据与传统数据无异,故运用以下5个传统数据质量度量指标进行测度:

(1)一致性。一致性包括数据定义的一致性、时间的一致性和数据间逻辑关系合理。首先,大数据种类繁多,在数据采集时需进行统一的数据定义,便于多种数据集成处理。其次,无论采集的数据是截面数据还是面板数据,均要确保时间的一致性。最后,采集的数据间应满足存在的逻辑关系,侧面反映数据的实体同一性。

(2)完整性。一方面指数据内容完整,无缺失数据;另一方面指数据属性完整,能够满足数据分析要求和用户使用需求。其中,数据缺失率低于10%,属于可接受范围,后续可剔除该数据,或利用样本统计量的值、统计模型计算出来的值来替代。

(3)时效性。时效性指数据采集速率和数据采集时间的有效性。大数据的“4V”特征包含规模性(Volume)和高速性(Velocity)。时间就是金钱,而且采集数据的目的是挖掘当前数据潜在的价值,为未来发展提供决策依据,这就要求在采集大数据时须快速便捷,尽可能跑赢其增长速率,进而采集到最新数据。

(4)规范性。即指数据源的规范性。数据源的规范性是保证获取有效大数据的重要因素。然而,在万物互联的时代,数据源种类愈发丰富,但也面临良莠不齐的情况。因此,需对数据源的规范性进行评估。

(5)安全稳定性。一方面是指数据源的安全稳定,确保其能源源不断地提供所需数据;另一方面则指数据采集过程的安全稳定,通过改变采集方式和专业软件,能够提高此过程的安全稳定性。

2.1.2  过程质量

大数据的过程质量是指初始数据通过数据存储、数据处理和数据传输等阶段发生变化的数据质量。在此过程中,影响大数据质量的因素主要是技术方面问题,具体体现为如下质量度量指标:

(1)一致性。過程质量的一致性不同于原始质量,其指的是在存储、处理和传输等过程中,同一实体的数据是否保持一致,避免数据错位的现象出现。

(2)完整性。缺失值产生的主要原因之一是由于数据保存失败造成的,比如数据存储失败、存储器损坏、机械故障导致某段时间数据传输失败等。因此,在数据存储、数据处理和数据传输等环节,务必要检验数据的完整性。

(3)时效性。时效性是指数据的存储速率、读取速率和传输速率等。面对海量数据,存储器能否在较短时间内完成存储或调用,为下一步的数据分析或挖掘提供有力基础。

(4)适用性。大数据与传统数据的差异之一是大数据的数据种类繁多,且多为半结构化数据和非结构化数据。针对大数据这一特性,存储器能否适用于半结构化数据和非结构化数据至关重要。存储器的适用性越好,将越能使数据保持原始质量,避免质量损耗。

(5)安全稳定性。面对海量数据,业界运用云存储、云计算等新兴技术进行相关研究。然而,大数据作为数字产品含有巨大价值,并涉及社会公众群体的隐私。出于商业利益和法律要求,安全稳定性是衡量大数据质量的必备要素。过程质量维度下,安全稳定性主要体现为存储和传输安全稳定。

(6)预处理效果。在数据存储、数据处理和数据传输等环节,数据存储或将降低原始数据质量,而数据处理可改善原始数据质量,其改善效果取决于数据预处理效果。

(7)经济可行性。随着我国大数据的蓬勃发展,数据存储和传输方面的技术问题已取得重大突破,但相关技术的经济可行性决定了大数据产品质量的下限。

2.1.3  结果质量

大数据的结果质量则指数据交换时的数据质量。此时,相关人员运用机器学习等算法对预处理后的数据进行数据分析或数据挖掘,得到分析结果,以供用户购买交换。在结果质量维度中,大数据作为产品,应高度重视用户需求,故提出如下数据质量度量指标:

(1)分析方法优劣性。从多源异构且价值密度低的海量数据中挖掘有效信息,为决策者提供数据支撑,是大数据的产品定位。然而,面对大数据,传统的数据分析方法正在逐渐失效,为此,业界积极探索机器学习等新兴算法或不断创新改进传统的数据分析方法。数据分析方法的优劣性,将影响分析结果的精确性。

(2)可读性。通常为增强可读性,将分析结果进行可视化展现。因为使用图表可以化冗长为简洁,化抽象为具体,化深奥为形象,使用户更易理解主题和观点。同时,通过对图表中数据的颜色和字体等信息的特别设置,可突出分析结果中的重点。

(3)用户需求契合度。大数据应用领域十分广泛,例如经济、交通、网络舆情等。这意味着其用户群体的多样性,而不同用户群体对大数据的需求各异。为此,在评估结果质量时,需考虑数据是否满足用户的特殊需求。

2.2  大数据质量评估模型建立

经上述分析,共确定15个大数据质量度量指标。现基于此,利用层次分析方法建立了大数据质量评估模型。通过专家打分法确定原始质量等3个维度和15个数据质量度量指标的权重,结果如图1所示。其中,各大数据质量度量指标计算方式如下。

(1)一致性。设Xij为第i个样本的第j个属性值,其中i=1,…,n,j=1,…,m。则数据的一致性表示为:

其中IA为隶属函数,Aj为第j个属性值的指定编码方式,fj(Xij)为第j个属性与第1个属性间的转换函数。

(2)完整性。数据的完整性=0.5×缺失值率+0.5×上下文关联性。

另外,余下的数据质量度量指标中,原始质量和过程质量维度由第三方评估机构打分确定,结果质量维度则由用户打分来确定,满分为100分,折算比例为100:1。

3  結  论

本文对大数据质量内涵和质量评估方法进行简要综述,分析认为大数据实质是一个相对概念,是指数据集规模、种类和数据处理要求等发生巨变,难以用传统技术进行数据分析解决的数据集,其质量内核主要有如下3点:大数据的质量是多维的;大数据的质量不仅要考量数据自身属性,也要考量其能否满足应用需求;大数据更注重数据在数据生命周期中产生的质量问题。因此,本文基于数据生命周期分析,分析大数据质量的影响因素,从原始质量、过程质量和结果质量3个维度确定了15个大数据质量度量指标,并运用层次分析法和专家打分法建立大数据质量评估模型。此评估模型完善了大数据评估框架,但二级指标度量多运用专家打分和用户调研,主观性较强,有待学界进一步改进。

参考文献:

[1] 宗威,吴锋.大数据时代下数据质量的挑战 [J].西安交通大学学报:社会科学版,2013,33(5):38-43.

[2] 李学龙,龚海刚.大数据系统综述 [J].中国科学:信息科学,2015,45(1):1-44.

[3] 王宏志.大数据质量管理:问题与研究进展 [J].科技导报,2014,32(34):78-84.

[4] Gartner. Information Technology-Gartner Glossary-Big Data[EB/OL].[2020-04-12].http://www.gartner.com/en/information-technology/glossary/big-data.

[5] 彭宇,庞景月,刘大同,等.大数据:内涵、技术体系与展望 [J].电子测量与仪器学报,2015,29(4):469-482.

[6] 刘洋.基于计算机的大数据和云计算技术分析 [J].无线互联科技,2020,17(7):75-77.

[7] 李敬华,贾蓓,李倩茹.传统统计数据和大数据内涵辨析 [J].电信快报,2016(9):40-43.

[8] IBM.什么是大数据[EB/OL].(2013-02-26).https://www.ibm.com/products/software.

[9] CAPPS C,WRIGHT T. Toward a Vision:Official Statistics and Big Data [J]. AMSTAT news,2013(434):9-13.

[10] 王力,周晓剑.大数据质量评估的标准及过程研究 [J].经营与管理,2018(4):84-88.

[11] 刘金晶,曹文洁.大数据环境下的数据质量管理策略 [J].软件导刊,2017,16(3):176-179.

[12] 丁小欧,王宏志,张笑影,等.数据质量多种性质的关联关系研究 [J].软件学报,2016,27(7):1626-1644.

[13] 莫祖英.大数据质量测度模型构建 [J].情报理论与实践,2018,41(3):11-15.

[14] 黄永鑫,郭彦辰.大数据的数据使用质量评价研究 [J].电子技术与软件工程,2018(23):173-174.

[15] 李建中,王宏志,高宏.大数据可用性的研究进展 [J].软件学报,2016,27(7):1605-1625.

[16] 黄莺,李建阳.元数据质量评估方法及模型研究 [J].图书馆学研究,2013(12):52-56+51.

[17] 韩京宇,陈可佳.基于事实抽取的Web文档内容数据质量评估 [J].计算机科学,2014,41(11):247-251+255.

[18] 汤莉,何丽.基于PAC-Bayes理论的Web文档数据质量评估方法 [J].计算机工程与科学,2017,39(3):572-579.

[19] 余芳東.非传统数据质量评估的国际经验及借鉴 [J].统计研究,2017,34(12):15-23.

[20] 赵星,李石君,余伟,等.大数据环境下Web数据源质量评估方法研究 [J].计算机工程,2017,43(2):48-56.

[21] 唐继仲.数据质量评估与提升方法及应用研究 [D].上海:上海交通大学,2015.

[22] LIN Y,WANG H,LI J,et al.Data Source Selection for Information Integration in Big Data Era [J].Information Sciences,2018,479:197-213.

[23] 李红,牛成英,孙秋碧,等.大数据时代数据融合质量的评价模型 [J].统计与决策,2018,34(21):10-14.

作者简介:周艳红(1996—),女,汉族,浙江台州人,硕士研究生在读,研究方向:统计理论与方法。

猜你喜欢
质量评估数据质量综合评价
基于组合分类算法的源代码注释质量评估方法
10kV配电线路带电作业安全综合评价应用探究
基于熵权TOPSIS法对海口市医疗卫生服务质量的综合评价
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
主成分分析法在大学英语写作评价中的应用
郑州市各县(市)创新能力综合评价
中国上市公司会计信息质量研究
澳大利亚研究生课程的外部质量评估