(西南科技大学 四川 绵阳 621000)
在互联网技术、物联网技术、云计算技术、大数据技术等高新技术持续发展的背景下,工业生产领域逐步实现了智能制造,在此背景下,数据逐步成为工业生产制造企业的核心价值之一。数据分析利用度越高,则企业的运营发展就越高效,从而实现生产效率的提升。在智能制造背景下,大数据正在逐步改变着生活方式和生产方式,也在一定程度上改变了工业制造企业的运作模式。基于此,开展智能制造背景下工业大数据的数据质量控制对策研究就显得尤为必要。
智能制造背景下工业大数据所具有的特征主要体现在以下几个方面:
第一,数量大。在智能制造背景下工业生产中很多设备感知数据被广泛接入生产系统中,一些工业制造企业生产数据量可达到EB级别。
第二,生成速度快。在智能制造背景下企业生产速度非常快,无论是数据生产,还是采集频率,甚至可以达到毫秒级别。
第三,模态多样化。在生产制造中,大数据种类丰富多样化,包括:结构化、半结构化、非结构化等数据。
第四,价值密度比较低。就目前我国工业大数据发展现状而言,价值密度的分布还不够均匀,总体而言存在“二八定律”,也就是20%的结构化大数据,占80%的价值密度,而80%的非结构化大数据,占20%的价值密度。这就使得我国工业大数据存在很大的价值[1]。
在智能制造背景下,工业大数据和传统数据有很大区别,主要体现在数据采集速度、数据分析过程、数据存储及数据质量管理都造成了极大的挑战,工业大数据和传统数据对比分析表如表1所示:
表1 工业大数据和传统数据对比表
从表1中可以看出,相比于传统数据,工业大数据的结构更加复杂,涉及到的范围更加广泛,因此,在具体管理中非常容易发生数据质量问题,主要体现在以下几个方面:
第一,在数据收集方面,工业大数据来源更加广泛,结构各异,不同数据源之间存在一定的冲突和矛盾,如何保证数据管理的完整性和管理质量的可靠性极为重要。
第二,工业大数据的规模非常大,且大数据获取、存储、计算等环节存在错误,传统人工检错方法,根本无法适应海量的数据检查,无法快速找到存在问题的数据,而言无法及时提取出有效、有价值的数据。
第三,由于数据生产速度快,且复杂多变,也更加容易形成不一致的数据。
第四,数据源头种类多样化,并且存在多种结构形式的数据。致使不同的数据源之间,相同数据源之间,可能存在冲突和不一致现象,再加上数据质量管理需要多个部门协调完成,大大增加了数据处理中发生问题的概率。
(一)构建数据质量评价体系。完善系统的质量评价体系是保证大数据质量管理水平的关键,爱智能制造背景下工业大数据的数据质量评价体系的构建需要同时从三个方面进行考虑,包括:完整性、一致性、准确性。
第一,完整性是衡量工业大数据是否满足生产实际运行条件的关键,在智能制造背景下,工业大数据呈现指数式增长,每天都会形成大量数据,这些数据可能在某一范围中波动。如果发生突然激增或者土壤激减,则要及时找到那个环节发生变动,对发生变动范围比较大的数据进行系统研究,找到发生变化的根源,为调整生产工艺和生产方法提供数据支持。
第二,一致性是检查工业大数据采集数据和实际生产数据是否相同的主要方法,由于工业大数据数量比较大庞大,逐步检查根本不现实,采用合规记录来检查工业大数据是否满足生产要求。比如:工业大数据多为集合数据,但在实际生产中,经常发生超出范围之内的数据,此时就需要通过一致性检验来对一些工业大数据的竖向,比如:如果甲数据属性为一个确定的数值,乙属性的值需要在有一个特定的数据范围中,衡量乙属性的主要方法为合规率。
第三,准确性多用于分析和记录一些个别数据,和一致性有一定的差异,比如:准确性比较关注工业大数据的数据错误情况,而一致性则比较关注合规率。所以,如果企业生产数据的实际值不再定义范围中,此时此数据就好毫无价值,是一个错误数据。但如果某个数据,是工业生产数据,具有实际意义,可能是数据范围定义发生差错,此时不能认为数据错误,而是要重新修补实际定义[2]。
(二)全面落实数据质量信息的采集、分析与监控。对采集到的数据来源进行质量分析,就可以充分了解及掌握生产数据的质量。再通过和历史数据的对比,就可以对数据质量控制质量进行评估,针对存在的问题,制定有效的解决方法,从而逐步提升工业大数据的数据质量控制水平。
(三)建立数据质量的持续改进工作机制。影响工业大数据引起数据质量问题的来源包括四大问题域,信息问题域、技术问题域、流程问题域及管理问题域。无论那个方面发生问题,都会引起数据质量问题。因此,一旦发现数据质量问题,必须对问题形成的根源进行系统化分析[3]。
综上所述,本文结合理论实践,分析了智能制造背景下工业大数据的数据质量控制对策,分析结果表明,在工业制造生产中,数据质量控制贯穿数据全生命周期,涉及到的内容也比较多,包括:数据质量评估、数据监控、数据清洗、数据诊断等多方面内容。在智能制造背景下,工业大数据呈现爆炸式增长,对数据质量控制技术和方法,提出了更高的要求,针对目前工业生产中大数据数据质量控制管理中面临的挑战。需要从都方面同时入手,既要构建完善系统数据质量评价体系,也要对工业数据的采集过程、分析过程等进行全面监控,并按照工业生产实际情况,合理改进工作技术。才能保证数据质量时刻处于平稳状态,促使企业持续健康的发展。