浅析大数据条件下质量管理中病态数据的管理研究

2016-12-23 16:06黄海敏刘琦李旭朱海林
科技创新导报 2016年23期
关键词:质量管理大数据

黄海敏+刘琦+李旭+朱海林

摘 要:大数据条件下,正确完成数据的判别,明确病态性数据,是大数据质量管理的基础和前提。首先,对大数据条件下质量管理中病态数据的定义与来源进行了阐述;然后,结合病态数据的产生过程,归纳总结了病态数据的主要特点;再次,结合质量管理的需求,分析了病态数据的管理需求;最后,基于统计方法,对病态数据的判别提出了对策建议。

关键词:质量管理 病态数据 大数据 主流数据 判别

中图分类号:Q213.9 文献标识码:A 文章编号:1674-098X(2016)08(b)-0091-04

1 引言

随着计算机技术、信息技术、网络技术、云技术等的发展,在质量管理领域,数据收集的类型和数量呈现出爆炸性的发展趋势,大数据的特点愈发明显。如购物网站的产品质量评价数据、体检中心的健康检测数据、4S店的车辆维护数据等。这些数据不仅数量大,而且体现出了总体性、寿命周期性、复杂性等大数据的特点[1]。但由于数据收集技术、数据提供者本身的问题等原因,使得收集到的一部分数据呈现出病态性的特点,如评价数据中非常类似的差评、好评数据的大量出现,健康监测、4S店产品维护数据中数值长期保持不变的数据、学生成绩中非常低的成绩数值大量出现等。病态数据的出现,使得对质量的评价会出现评价不准确、问题定位不精确等误导性结果。为实现对质量的精确分析,有必要对质量管理中病态数据的概念进行阐述,分析其特点、产生的源头,并研究病态数据的分析方法,从而实现对质量数据的精细化管理。

质量管理作为一个重要研究方向,国内外已经进行了长期的研究,出版了大量的专著,典型的如《Quality Control Handbook》、《The Management And Control of Quality》等。而作为当前研究的热门领域,国内外对大数据也进行了大量的研究,出版了大量的论著,如《Big Data: A Revolution That Will Transform How We Live, Work and Think》、《Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data》、《医疗大数据》等。而对于大数据条件下质量管理中病态数据的管理研究,该方面的论述还比较少,现有的研究主要集中于论述数据质量研究的必要性、研究方法等。如Rao等[2]指出在大数据分析中,基于低质量数据进行分析,隐藏的后果可能是灾难性和蔓延性的,并提出了从大数据背景分析数据质量的方法。Becker等[3]指出大数据分析中,数据质量是所有数据分析问题中极其重要的方面,并从数据的收集、描述、存储等方面分析了不同因素对大数据质量的影响。Immonen等[4]则针对大数据框架下的社会媒体数据质量评估构建了评估的架构。国内,宗威等[5]梳理了大数据的基本特征,并从流程、技术和管理视角讨论了大数据时代下企业保证数据质量的挑战、重要性及应对措施。程平等[6]对数据的质量提出了完整性、及时性、可靠性等关键数据质量特征。黄冬梅等[7]对基于块嵌套循环的大数据的数据质量检验方案进行了研究。在基于大数据的质量管理分析方面,Huang等[8]在对暂态电能的质量评价方法中,基于大数据的处理结构完成了朴素Bayes分类,在该结构中,将数据源扩展为电网监控数据、用户数据和公共数据三种类型。具体到对病态数据的分析,当前的研究比较偏向于具体技术的分析,如Liu等[9]在对生物医学图像和疾病预测的多维数据分析中,设计了可对病态数据对象探测的信息处理算法。Joon-Hong等[10]则对短期供水需求分析与预测中,病态数据细化的置信区间方法和误差百分比校正方法进行了论述。国内对于病态数据的研究主要集中在对病态数据处理的具体算法分析上,如王晶[11]对电力系统中异常数据的影响进行了阐述,并对多种电力系统异常数据检测辨识方法的优缺点进行了对比分析。费欢等[12]采用K-Means算法思想,基于欧式距离进行数据的相似性分析,并实现异常数据的检测。

从现有的研究情况以及大数据和质量管理的需求情况看,对大数据条件下的质量管理进行研究,已是质量管理的一个重要研究方向,但对于大数据中病态数据的研究,目前还处于初始的研究探索阶段。因此,需要加强这方面的研究,对病态数据的定义、特点、来源、管理需求、判别技术等进行分析,为大数据条件下的质量管理提供准确的数据支撑。

2 病态数据的定义与主要来源

病态数据也称为“不良数据”、“异常数据”,翻译为Abnormal Data,是相对于总体的主导性数据或者正常数据而言的。在大数据管理中,质量管理中的病态数据是指:由于数据收集记录错误、不良信息传播、恶意评价、重复引用等原因,使得收集到的部分难以反映产品总体的实际质量状况的数据。病态数据在统计分布上表现为:与主导性或真实性质量数据(称为主流数据)的分布存在差异,总体的分布存在不连续、多峰、锯齿等特点。

病态数据的来源主要包括如下类型:

(1)误导性质量评价数据。指在质量分析与评价中,通过物质、精神等方面的手段误导调查者,使得质量评价数据偏离实际质量的情况。该类数据包括购物网站对产品质量评价、服务窗口对服务质量评价方面。如某宝的部分产品在其包装中附带好评卡,该类卡片的出现,容易误导消费者,使得收集到的部分质量数据难以反映质量评价的客观性。而服务窗口的误导性则体现在其评价标准的不全面,如某些服务窗口,其评价标准仅包括非常满意、满意、不满意三个方面。

(2)恶意评价数据。指由于调查者本身的偏激、认识不全面等原因,在对质量评价中不能做出客观评价的数据。该方面的数据不仅在购物网站上有相关表现,而且在日常生活中的表现也较为突出,如对服务窗口的评价,由于被服务者的一时激愤,对相关管理机构的不满等,就可能在某些场合发布较为偏激的评价,甚至会进行一定程度的造谣、传谣等。

(3)重复性收集数据。指由于数据记录、抄袭等原因,造成的收集到的数据出现大量重复或者高度相似数据。该类数据如问卷调查中由于被调查者、调查者有意造假等在调查中抄袭已有数据,考试中题目泄露、抄袭等形成的数据,数据记录设备间歇性故障造成数据重复记录等。

(4)不作为数据。指在生产、服务、研究中由于相关人员的不努力、不作为等原因,从而使得在质量分析与评价中,收集到的难以表现真实质量状况的数据。这方面,比较容易说明问题的是农产品的质量数据、医疗美容产品质量数据等。作为影响国计民生的日用产品,市场上缺乏监管或者监管不力,使得部分具有毒副作用以及功能缺失的产品进入人们的日常生活,这方面只要关注CCTV-13的《每周质量报告》,就能从一个侧面看出产品的质量在某种程度上并不像广告宣传的那样优质。造成这种问题在很大程度上是因为某些监管部门的不作为,从而导致质量检验方法与内容的缺失。

(5)片面宣传数据。指生产方、销售方在产品的宣传中利用名人效应、专家效应等片面的扩大产品或服务的部分功能或质量效应,而有意屏蔽部分不良特性或短板质量问题,这类对产品或服务的片面宣传或理解就称为片面宣传数据。

3 病态数据的主要特点

相对于大数据条件下正常的质量数据,病态数据主要表现有如下特点:

(1)非主流性。相对于产品正常的质量数据,病态数据是非主流的数据,无论其表现如何,病态数据都不能代表产品质量的真实水平,在生产、服务过程透明,监管部门质量报告数据透明的条件下,这类数据将会从数量上、表现上呈现出其非主流性,较为容易判断分析。

(2)异总体性。从病态数据的定义与来源看,病态数据与主流质量数据反映的质量主题是有一定的差异的,这就使得两方面的数据在总体分布形态会出现一定的差异,在统计分布形式上,若将所有的数据在同一坐标轴上表现,则质量数据会体现出多峰分布的特点。这种异总体性主要是由病态数据的非主流性造成的。

(3)易扩散性。由于名人效应、广告效应、消费者的猎奇心理等,使得在某种程度上非主流的质量数据比一般的质量数据更容易扩散。易扩散性在某种程度上还可造成病态数据重复性和关键性的特点。

(4)关键性。指病态数据在某种程度上会误导消费者、扰乱市场秩序、降低质量评价的准确性等,使得病态数据必须重点处理,以消除其不利影响。

(5)少量性。相对于产品正常的质量数据,尤其是大数据条件下的质量监控,病态数据在产品寿命周期中,仅是少数的一部分。相比生产过程的监测数据、大量消费者的评价数据等而言,病态数据是少量的。

(6)重复性。与主流质量数据不同,主流数据由于调查单位的独立性和调查者的责任感,使得收集到的数据通常体现出随机性的特点。而病态数据由于收集者或提供者的不作为,就可能使得部分质量数据出现重复性的特点。

上述仅对病态数据的一些显性的特点进行分析。这些显性特点的分析,有利于科技工作者归纳总结病态数据的判别方法,完成对病态数据的归类与统计分析。

4 病态数据的管理需求

质量管理中病态数据的出现,会在很大程度上影响消费者对产品质量的评价,并在一定程度上造成民众对某些产品质量信心的缺失,从而可能造成不可估量的影响,如消费对象的转移、企业的倒闭,甚至是类似产业的崩溃(如典型的三鹿奶粉现象)等。因此,在大数据条件下,有必要加强质量数据的管理,减少甚至避免病态数据的出现。其管理需求主要包括:

(1)明确质量管理机构的主体地位。政府各级的质量技术监督局是产品质量的监督与管理机构,其工作态度和工作方法决定了产品质量的好坏。在质量管理中,明确质量管理机构的主体地位,赋予其质量管理方面的相关权力,有利于相关质量管理工作的开展。

(2)实施质量准入制度。是在明确质量管理机构主体地位的基础上,严格要求进入市场的产品具备相关的具有权威性的质量标准和质量标志。该制度的执行可在较大程度上保证产品质量,而且准入制度和责任制的配合,可以抑制病态数据的产生和扩散。

(3)实施质量数据责任制。有责任才会有质量。责任制是对于数据的发布方、名人效应的代言方、广告的发布者、质量标志的发布者等,在发布其数据的同时,必须承担相应的责任,而且应出台相关的法律,从而保证所发布的质量数据的真实性。

(4)加强质量管理的法制建设。“有法可依、有法必依”,强有力的法制是确保产品质量的有利保障。法制建设不仅包括质量管理相关法律条文的建设,而且包括相关法律落实执行的机构、设施建设,只有真正得到贯彻执行的法律才是有效的法律。

(5)加强质量教育。在此,质量教育是指针对全民进行相关的质量意识和质量判别教育,让广大消费者明确质量的重要性和产品质量的简单判别方法。质量只有得到社会的广泛关注,才能减少质量问题的产生,才能抑制病态数据的出现。

(6)加强质量的信息化。是在质量管理方面引入信息的回溯机制,通过信息技术(包括数据库技术、二维码技术等)将产品质量信息植入产品的关键醒目标志中,使得消费者可以快速、便捷地获得产品质量的相关信息、责任者。质量信息化是大数据条件下质量数据管理的一个重要方向,也是保证产品质量的关键技术环节。

5 病态数据的判别技术

在大数据条件下,结合病态数据的来源和特点,可从如下方面完成病态数据的判别:

(1)基于统计分布的病态数据判别。与主流数据相比,病态数据在一定程度上表现出与主流数据之间的异总体性,因此,可通过对总体分布的简单分析完成病态数据的判别。如若总体分布出现多峰的情况,则可在一定程度上说明数据中存在病态数据,而峰值之间的距离越远说明病态数据的病态性越严重。一维数据基于统计分布的病态数据判别示意如图1所示。

(2)基于相似性检验的病态数据判别。当数据中出现重复数据或者相似性非常强的评价数据时,需要通过相似性分析方法验证数据之间的一致性。这方面,国内外对于研究论文的查重已有详细标准与方法,可将其借鉴到这方面。

(3)基于聚类分析的病态数据判别。聚类分析是统计学的一个重要分支,该方法基于样品之间的统计距离描述样品之间的相似性。而对于病态数据分析而言,可知主流数据之间相似性强,而病态数据与主流数据之间相似性较弱,相反,病态数据之间有较强的相似性。通过聚类分析可将数据依据相似性分为不同的类型,从而较为容易的区分出病态数据。对于二维数据,在平面直角坐标轴上,可以较为容易的描述其散布特点,从而可以较为容易的区分数据的类型,其聚类分析的示意图如图2所示。

(4)基于判别分析的病态数据归类。判别分析是统计学的一个重要研究领域,该方法基于已有的分类,然后基于统计距离完成样品的归类判别。在质量分析中,当质量数据难以进行病态性判别时,可事先结合国内外类似产品的质量信息完成数据的分类分析,然后基于判别分析方法对需要归类的质量数据进行判别,完成病态数据的归类。

6 结语

大数据条件下,病态数据的判别、修正、剔除等是一项长期而且复杂的数据管理工作,该文对质量数据中病态数据的定义、来源、特点和判别技术进行了初步的研究,该研究对于正确认识病态数据、科学处理病态数据具有一定的辅助决策作用。在该文研究的基础上,需要进一步说明的是:

(1)病态数据是相对主流数据而言的,是质量数据中不可避免的数据类型。对质量数据中出现的病态数据要正确对待,正确分析其来源、特点,然后决定对其取舍或者修正。较为重要的是要通过一定的管理技术避免病态数据的出现,抑制其发生。

(2)对于病态数据的管理分析,该文仅给出了部分研究成果,随着研究的深入和统计理论的发展,各应用单位可根据本身的特点,归纳总结实用的病态数据管理技术。

参考文献

[1] Kenneth Cukier,Viktor Mayer-Sch?nberger,著.大数据时代:生活、工作与思维的大变革[M].周涛,盛杨燕,译.浙江人民出版社,2012.

[2] Rao D.,Gudivada V.N.,Raghavan V.V.Data quality issues in big data[C]//IEEE International Conference on Big Data.Santa Clara:IEEE.2015.

[3] Becker D.,McMullen B.,King T.D.Big data,big data quality problem[C]//IEEE International Conference on Big Data.Santa Clara:IEEE.2015.

[4] Immonen A.,Paakkonen P.,Ovaska E.Evaluating the Quality of Social Media Data in Big Data Architecture[J].IEEE Access,2015,3(10):2028-2043.

[5] 宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报:社会科学版,2013,33(5):38-43.

[6] 程平,孙凌云.大数据、云会计时代考虑数据质量特征的企业投资决策[J].会计之友,2015(12):134-140.

[7] 黄冬梅,陈括,王振华,等.基于块嵌套循环的海洋大数据质量检验方案选择算法[J].计算机工程与科学, 2013,35(10):51-57.

[8] Huang Zhiwei,Gao Tian,Zhang Huaving,et al.Transient power quality assessment based on big data analysis[C]//2014 China International Conference on Electricity Distribution (CICED).Shenzhen IEEE.2014.

[9] Liu Fei,Zhang Xi,Jia Yan.An efficient sampling algorithm for uncertain abnormal data detection in biomedical image processing and disease prediction[J].Biomedical Materials and Engineering,2015,26(s1):249-255.

[10] Joon-Hong Seok,Jeong-Jung Kim,Joon-Yong Lee,et al.Abnormal data refinement and error percentage correction methods for effective short-term hourly water demand forecasting[J].International Journal of Control,Automation and Systems,2014,12(1256):1245.

[11] 王晶.电力系统异常数据检测辨识方法综述[J].电力与能源,2015,36(6):813-817.

[12] 费欢,李光辉.基于K-means聚类的WSN异常数据检测算法[J].计算机工程,2015,41(7):124-128.

猜你喜欢
质量管理大数据
浅谈智能建筑电气施工管理及质量控制
大数据环境下基于移动客户端的传统媒体转型思路