当前,国内的工业生产活动正在积累着越来越多的数据,尤其是现代化的工业生产线上的传感器与监测设备,它们能够对生产过程和运行参数进行高效的监控和记录。时间序列数据作为最基本且普遍的数据形式,对推进工业大数据的分析研究发挥着至关重要的作用。为了实现工业大数据分析的有效性,建模过程必须依托于高质量的数据。但是,工业时间序列数据的复杂性,例如它们的广泛来源、庞大的数据量、来源的多样性、持续的采样特征、低价值密度以及高度动态性,使得数据质量问题变得普遍。
劣质的数据可能导致分析不精确和决策错误,典型问题包括数据丢失、格式不一致、重复数据、异常数据以及业务规则违规等,数据质量管理变得越来越重要。对数据进行异常检测、故障监测和设备状态分析对保障生产的高效和智能化制造的安全至关重要,并构成了数据质量管理的一个重要研究方向。如果无法及时识别和处理工业生产中的异常、故障或危机情况,可能对生产安全带来威胁,为工厂的智能制造系统带来无法预计的负面影响,并可能造成重大的经济损失。因此,创建一个能对工业时间序列数据的质量进行智能分析和评估的系统显得尤为重要。
本文针对工业时序数据质量问题展开分析和评估,提出了一种新的数据质量量化评估模型。与现有的数据质量评估模型相比,本文提出的模型具有更广的应用范围,使用更加灵活,本文围绕该模型设计了时序数据分析系统,以系统化地评估和管理工业时间序列数据的质量,提升工业生产的效率和质量。
考虑到数据质量的核心重要性及其在各个领域决策过程中的关键作用,经过对数据质量属性的深入分析,本文提出了一种时序滑动窗口偏差计算模型(Time-series Sliding Window & Deviation, TSWD)。该模型旨在对数据质量的四个核心维度——准确性、一致性、完整性、和时效性进行量化评估。
(一) 数据质量核心维度
1.准确性(Accuracy)
准确性是指数据正确反映现实世界或数据源的程度。一个数据元素的准确性高意味着它与被描述的实体或事件真实情况之间的误差很小。例如,一个客户的地址记录如果与其实际居住地址完全一致,则认为这个数据具有高准确性。准确性的高低直接影响数据分析结果的可靠性和决策的有效性。
2.一致性(Consistency)
一致性指的是数据在不同数据集或系统中保持一致,无矛盾的特性。例如,同一客户的信息在公司的不同部门或不同的IT系统中应该是相同的,不应该因为记录的方式不同而有所差异。数据的一致性保证了跨系统和部门的数据整合和数据迁移的可靠性。
3.完整性(Completeness)
完整性涉及数据的全面性和完备性。一个数据集的完整性高意味着所需的所有数据字段都已被收集并且填充。数据记录缺少必要字段的情况会导致数据完整性低,这可能会影响到数据分析的深度和准确性,例如,缺少客户的联系信息可能导致市场营销活动的效果不佳。
4. 时效性(Timeliness)
时效性是指数据在需要时可用的程度以及数据反映最新信息的能力。及时更新的数据可以更准确地反映当前的业务状态或市场条件,对于做出快速响应和决策尤为重要。例如,在库存管理中,及时的库存数据能帮助企业避免过度库存或缺货的情况。
(二)TSWD模型
TSWD模型由两个核心组成部分构成:一是时序滑动窗口部分,该机制通过分析过去时间点的数据评估结果来估计其对当前评估结果的影响;二是偏差计算部分,专注于评估当前时间点的数据如何影响当前的数据质量评估结果。此模型能够更精准地识别和量化数据质量问题,为提高数据处理和分析的准确性提供了强有力的工具。
1.时序滑动窗口
时序滑动窗口确保了时序数据在整个评估过程中的适当影响,为模型提供了一个坚实的基础。这种机制不仅增加了模型对于时间序列数据变化的适应性和灵敏度,而且通过参数配置,保障了输出结果的稳定性和可靠性。通过综合考虑滑动窗口长度和权重因子的作用,该模型有效平衡了对近期与远期数据的关注,以此来优化整体的评估精度和模型性能。
2.偏差
偏差部分专注于通过计算当前时间点数据与预期符合程度的变化值来评估数据的偏离程度。具体而言,若当前数据未达到预期,评估值将会降低;相反,当数据满足预期时,评估值则会相应提高。
通过综合利用时序滑动窗口机制和偏差计算这两个核心组成部分,本模型实现了对数据质量的全面评估,既从数据的维度(横向考量)进行分析,也从时间序列的角度(纵向考量)考察其变化趋势。这种双维度的评估方法使得模型不仅能够精确地衡量数据在特定时间点的质量,还能够追踪和分析数据质量随时间的动态变化,从而提供了一种强有力的工具,用于全方位地评估和保障数据的质量。
工业时序数据质量分析评估系统包括三个层级,分别为数据层、服务层、应用层(见图1)。其中,数据层包括关系型数据库、非关系型数据库、时间序列数据库;服务层包括数据预处理模块、决策支持模块、任务调度模块,以及上文所提出的TSWD模型。
(一)数据层
数据层是工业时序数据质量分析系统的基础,负责存储、管理和保护所有数据资产,包括关系型数据库、非关系型数据库和时间序列数据库,每种数据库因其特定的功能和优势,被用于处理不同类型的数据需求。
关系型数据库(如MySQL、PostgreSQL等)通过表格的形式存储数据,强调数据的结构化和严格的数据完整性。它们支持复杂的查询语言(如SQL),非常适合需要执行复杂查询和事务处理的应用场景。在该系统中,关系型数据库用来管理用户信息、系统配置和事务性业务数据,如设备维护记录和操作日志,确保数据的一致性和可追溯性。
非关系型数据库(如MongoDB、Cassandra等)提供更灵活的数据存储选项,适用于不需要固定数据模型的场景。这类数据库支持快速的读写操作,适合处理大量的非结构化或半结构化数据,如日志文件、JSON数据等。在处理大规模或高变动性的数据时,非关系型数据库能够提供高性能和易扩展性,满足工业时序数据分析对数据处理速度和灵活性的高要求。
时间序列数据库(如InfluxDB、TimescaleDB等)专门为时间标记的数据设计,优化了时间序列数据的存储和查询。这类数据库非常适合存储和分析由传感器产生的连续时间数据,如设备状态、环境监测数据等。时间序列数据库可以高效地处理大量的写入操作和时序数据查询,支持快速的数据聚合、时间窗口查询和实时监控。
通过这三种数据库的组合使用,不仅为系统提供了强大的数据存储能力,还确保了数据处理的高效性和灵活性。这使得数据层能够支撑起系统的核心功能,包括数据的实时分析、历史数据查询和复杂数据处理,满足工业时序数据分析的各种需求。
(二)服务层
服务层是工业时序数据质量分析系统中的核心,负责处理数据、执行分析和协调任务。它由多个功能模块组成,每个模块针对特定的业务需求设计,以提高数据处理的效率和准确性。
数据预处理模块包括数据清洗、数据验证和特征工程三个主要环节。数据清洗负责去除无用或错误的数据,如重复记录、格式不一致的数据等,确保数据集的清洁和一致性。数据验证环节对数据进行格式和逻辑的校验,确保所有输入数据都符合预定的标准和业务规则。特征工程则是从清洗验证后的数据中提取有用的信息,转化数据分析所需的特征,对后续的分析效果至关重要。
决策支持模块旨在辅助用户做出更加明智的业务决策。该模块包括问题捕捉,能够识别并报告系统中的关键问题;依赖分析,分析不同数据元素或任务之间的依赖关系,以优化处理流程;处理建议,根据分析结果向用户提供具体的改进措施;规则更新,根据新的业务需求和环境变化动态更新系统规则。这些功能共同作用,提高了系统的自适应能力和决策的精确性。
任务调度模块负责系统中所有任务的管理和执行。任务接口调用功能允许系统与外部系统或服务进行通信,执行数据导入导出等操作;任务生成负责根据分析需求自动创建任务;数据连接确保任务能够访问所需的数据源;监控告警功能实时监控任务执行状态,一旦发现问题即时通知相关人员,保证系统的稳定运行和数据的安全。
TSWD模型提供了一个全面和精确的方法来评估数据质量的四个核心维度。这种综合性的评估能力使得该模型在工业生产活动中尤为有价值,能够为提高生产效率和保证产品质量提供重要的数据支持和决策依据。
通过这些功能模块协同工作,不仅可以使得数据处理的高效和准确,还为用户提供了强大的决策支持和任务管理能力,确保系统能够灵活、高效地响应各种业务场景和需求。
(三)应用层
应用层是工业时序数据质量分析系统中用户交互的前沿,负责提供直观、易用的界面和强大的用户体验。它允许用户管理自己的账户、上传和管理数据、配置分析参数,以及查看和解析分析结果。
用户界面在应用层中起着至关重要的作用,通过提供清晰的导航、直观的布局和简单的操作步骤,确保用户无需技术背景即可有效使用系统。界面设计包括数据上传的拖放功能、实时的进度显示、以及直接的结果预览,所有这些功能都旨在提高用户的操作便捷性和系统的整体效率。
用户管理模块处理注册、登录和权限控制等功能,确保数据安全和功能的适当访问。这一模块允许细粒度的权限设置,例如区分只读用户和有权进行数据上传及分析配置的用户。
仪表板提供动态的数据可视化,展示实时的数据分析结果,如生产效率、设备运行状态等关键指标。这些可视化工具帮助用户快速捕获和理解复杂数据的核心趋势和模式。
报告生成器自动化地生成详细的分析报告,包括图表、数据统计和专业的解释,支持导出为多种文件格式。这为用户提供了一种便捷的方式,以正式的文档形式分享和讨论分析成果。
通知系统在检测到关键事件或结果达到预设阈值时自动向用户发送警告或更新,确保及时的信息传递,从而支持快速的决策和响应。
应用层不仅使用户能够有效地与系统互动,还增强了系统的实用性和响应能力,是用户与系统之间沟通的桥梁。
本文提出的工业时序数据质量分析系统旨在通过高效的数据处理、精准的分析和先进的智能决策支持,为用户提供了一个全面的解决方案,确保从数据收集到处理再到最终的决策支持,每一个环节都能高效协同工作。
系统的核心功能在于其处理复杂工业数据的能力,能深入分析和评估时序数据的质量,及时识别并解决潜在的数据质量问题。通过这一系统,决策者可以更加精准地理解和控制生产过程,优化操作流程,显著减少机器的停机时间,降低维护成本,从而提高生产效率和产品质量。
此外,该系统提升了数据处理的自动化程度,并强化了依据数据进行决策的能力。这意味着决策者可以依据系统提供的实时数据及历史数据分析,迅速做出更加准确的决策。这种数据驱动的决策模式,不仅提高了决策的速度和质量,也使工业生产活动有更高质量的参考。
作者单位: 陈彦卿 杨正益 重庆大学大数据与软件学院
张 程 重庆市质量和标准化研究院