钟 宇,董 浩,邢 军,徐 燕,胡兴锋,赵朋贤,周明珠,禹 舰,杨 进
1.新疆维吾尔自治区烟草质量监督检测站,乌鲁木齐经济技术开发区天柱山街55 号 830026
2.国家烟草质量监督检验中心,郑州高新技术产业开发区翠竹街6 号 450001
3.中国科学院合肥物质科学研究院,合肥市蜀山湖路350 号 230031
4.中国科学技术大学,合肥市金寨路96 号 230026
5.重庆中烟工业有限责任公司,重庆市南岸区南坪东路2 号 400060
以大数据、人工智能为代表的新兴信息技术已推动科学研究进入第四范式[1-2],同时深度影响着制造业的发展,数字化转型已成为烟草行业创新发展的必然选择[3],烟草行业在烟叶种植[4]、市场营销[5]、专卖管理[6]、科技文献分析[7-8]、科学数据挖掘[9-11]等领域也已开展了大数据技术的研究及应用。质量是企业赖以生存、赢得市场的根本,是“国家利益至上、消费者利益至上”行业价值观的具体体现,是推动行业高质量发展的重要支撑。质量大数据[12]依托于行业产品质量管理,根植于工业大数据,在工业互联网大平台上发挥着关键作用。因此,将大数据与质量管理进行有机融合,开发出贯穿于企业、行业、供应链的数字化、智能化质量大数据体系正成为研究热点[13-14]。质量大数据是基于工业场景提出的概念,属于工业大数据的一部分,其目的是为产品设计、生产、运维全生命周期的质量分析管理提供数据来源,并在此基础上开发用于质量管理、战略决策的分析工具,为企业提升产品的设计、制造和运行质量提供支撑[15-16]。质量数据在烟草行业分布广泛、数据资源结构化高、数据延续性好,但由于缺乏系统的收集整理和整合挖掘,质量数据的利用并不充分,未能实现全流程的质量数据分析和建立质量数据相关的应用体系。为此,基于对行业重点工商企业质量检测机构的调研,研究了质量数据分析利用现状以及应用需求,旨在为构建烟草行业质量大数据平台提供依据和支撑。
采用问卷调研和现场调研的方式,对北京、上海、云南等烟草商业企业和河南、湖北、重庆等卷烟工业企业进行质量数据主题调研。调研内容包括质量数据资源、质量数据信息化和分析利用现状、问题需求及意见建议等方面。质量数据资源调研内容涵盖了卷烟、烟叶、烟用材料等12类产品的产品信息、检验检测结果和数据存储方式等。现状调研内容包括实验室信息系统的应用,质量数据分析及实际应用,质量数据存储形式、更新频率与数据规模等。需求调研内容包括产品生产制造过程中的趋势判断、预测分析、智能决策,产品来料加工及生产全过程的质量追溯,实验室的能力水平和资源配置以及对原辅材料供应商的评价等。
共收到来自6 家商业企业和6 家工业企业的12份调研结果。其中,数据资源信息946个特征字段;现状和需求信息233 条,包含数据分析需求144 条、信息化现状20 条、数据分析现状16 条、存在问题28条、意见建议25条。
1.2.1 信息和数据现状
烟草行业常用的质量检验方式为监督检验和交收检验。监督检验一般由国家烟草质量监督检验中心、省级质量监督检测站、工业企业质量监督检测站负责;工业企业的卷烟厂负责交收检验,并承担单项或部分项目的委托检验。各检验单位在各业务环节均建立了相应的信息化系统,如工业企业用于产品质量检测的MES(Manufacturing Execution System)系统,用于原辅材料管理的ERP(Enterprise Resource Planning)系统,质检机构用于检验检测的LIMS(Laboratory Information Management System)系统或综合性办公平台等。如图1所示,根据检验项目和数据量,检验数据大体呈金字塔状分布。
图1 烟草行业质量数据分布Fig.1 Distribution of quality data in tobacco industry
调研的卷烟、烟叶和烟用材料等12 类产品的检测量均较大,各类产品又细分为一二级指标,产品类别与一级指标分布见图2。其中,烟叶占比最大(19.45%),该类别共有11项一级指标。一级指标下又覆盖多项二级指标,二级指标主要为产品信息与检测结果。12类产品一二级指标数量分布见表1。
表1 各类产品质量信息分布Tab.1 Distribution of quality information of main products in tobacco industry (个)
图2 产品类别与一级指标分布Fig.2 Distribution of various product categories and first-level indicators
工业企业(代号A1~A6)在各产品类别的质量信息覆盖率见图3。可见,调研的6 家工业企业中有4家在各级指标上均有覆盖,有2家无烟用丝束质量信息,1家无滤棒成型纸质量信息。各工业企业全部指标的平均覆盖率最高为A1(86%),最低为A5(14%),平均值为61%。在各类产品中,卷烟的指标覆盖率最高(74%),其次是条与盒包装纸(70%)、烟用接装纸(70%)。指标分布和覆盖率可以体现产品的受关注程度,由于丝束检测已转移至供应商或滤棒生产企业,条与盒包装纸、烟用接装纸质量是近年的关注热点,也是出现质量问题较多的产品。未覆盖的信息主要是检测数据以外的指标,如产品基本信息等,表明企业更加关注产品本身的质量状况,在质量追溯和数据关联分析上关注程度不够。
图3 工业企业各指标覆盖率Fig.3 Coverage rate of various indicators for industrial enterprises
商业企业质检站(代号B1~B6)在各产品类别的质量信息覆盖率见图4。可见,各质检站质量检测情况差异较大,6家质检站全部检验卷烟产品,烟用胶、烟用三乙酸甘油酯有1家检测,其余产品有2~3家覆盖。卷烟的指标平均覆盖率为76%,最高97%,最低66%。各质检站质量信息覆盖率产生的差异主要体现了所属辖区监督产品特点和业务内容,如辖区是否为烟叶产区等,对于较少或未开展过烟用材料等项目研究的质检站,其检测信息的覆盖率也较低。
图4 质检站各指标覆盖率Fig.4 Coverage rate of various indicators for quality supervision and test stations
1.2.2 数据分析方式
传统数据分析主要是通过样本数据,基于概率统计理论进行的简单统计、描述性统计、时间序列分析、相关性分析的技术活动。在具体分析场景和目的下,往往会结合多种方式展开分析。被调研单位在不同应用场景下主要采用的数据分析方法见表2。可见,各单位主要采用描述性统计的方式分析各指标的构成、排序、集中和离散情况,通过寻找特征和规律进行预警和生产指标控制,以提高产品质量水平。在传统数据分析方式下,往往采用人工收集数据、软件分析作图、描述图表规律等方式完成数据报告撰写,周期相对较长。随着大数据时代的到来,企业数据呈现数据量大、数据维度广、数据非结构化强等特点,采用传统数据分析方式已无法满足当前分析需求,需要整合先进技术,充分利用云计算、机器学习和人工智能等手段,提高质量数据分析的时效性、真实性和全面性。
表2 不同应用场景下采用的数据分析方法Tab.2 Data analysis methods used in different application scenarios
1.2.3 需求及意见建议
现有质量数据的主要应用展示方式是合格判定结果和质量通报,随着数据可视化和大数据分析技术的发展,数据的分析需求呈现定制化和多样化的特点。调研结果中关于数据分析的需求最多,表明行业对数据分析的需求日益迫切。构建质量大数据系统的目的在于利用大数据技术实现行业层面的数据资源梳理、整合和深入挖掘,满足行业各级机构质量方面的决策需求。图5展示了数据分析需求调研结果的词频分布情况。可见,工业企业(图5a)与商业企业质检站(图5b)在质量、分析等关键词上的热度相对较高。
图5 工业企业和质检站对质量大数据需求的词频分布Fig.5 Word frequency distribution of quality big data for industrial enterprises and quality supervision and test stations
将需求进行分类梳理、汇总后划分为11类,结果见图6。可见,质量趋势分析和预测分析需求居首位,由于工业企业产品以及用于制造产品的供应商数量多,各类历史数据积累时间长,对历史数据趋势进行分析与把握,有助于指导产品设计、开发、制造和质量管理;其次是卷烟产品质量分析需求,当前企业及质检机构的数据大多是孤立存在的,受分析技术和手段限制,各企业无法全面、准确、及时地掌握卷烟产品在全国市场的质量状况;第三是实验室能力水平及资源配置分析需求,随着实验室资质评审的深入开展,各企业对实验室能力水平的关注逐步提升。
图6 质量大数据各类别需求分布Fig.6 Demands for quality big data in various categories
1.2.4 存在问题
将存在问题分为技术、数据、业务3个维度,各单位在3 个维度上共涉及40 项问题,问题项分布见图7。可见,技术维度的问题最多(20项,分布在8个单位),其次是数据维度(15项,分布在8个单位),第三是业务维度(5项,分布在5个单位)。
图7 各单位在3个维度上问题项分布Fig.7 Distribution of problem items in three dimensions of each institution
各维度数据问题的主要表现形式见表3。可见,当前主要问题是数据分布分散,普遍存在数据孤岛化现象。①在企业层面,表现为信息化系统多且系统间协同性差等特点。一方面,企业针对业务场景及需求开发相适应的信息化系统,随着业务场景及需求变化,信息化系统也逐渐增多。由于缺乏统筹规划,企业内部生产、管理、质检等各环节积累的大量数据无法畅通流动,难以为实现企业质量目标提供支持。对于规模较大的集团化公司,其数据分散化现象更为明显,表现在总公司与所属子公司、子公司与子公司间存在众多系统,由于系统的运行环境、数据类型、存储方式等存在差异,数据难以汇集、交互进而形成数据屏障,无法进行整体、全面的挖掘和分析。另一方面,针对同一业务目的,基于不同发展阶段的不同需求,企业开发了多个版本的信息化系统,因新老系统的继承性、衔接性较差,造成原系统大量历史数据丢失、弃用,浪费了有价值的数据资源。②在行业层面,表现为产业链上各参与单位质量数据共享性差等特点,因缺乏信息资源互通共享平台,无法实现工业企业、商业企业、供应商之间质量数据的有效整合和共享,难以为行业管理决策提供服务。
表3 各维度数据问题的主要表现形式Tab.3 Primary manifestations of data problems in various dimensions
质量大数据建设是一项综合性系统工程,要注重以产品为核心,实现行业内上下游企业、各管理部门的数据集成,形成供应、生产、营销、市场导向的现代化质量数据管理模式。各参与单位要在数据采集、存储、传输、共享、分析等方面共同发力,全面、系统地推进相关工作的高质量开展。
质量大数据标准体系是平台的顶层设计,工业、农业等领域大数据标准体系已有较大发展,初步形成了由基础标准、技术标准、管理标准、产品/应用标准4 部分构成的体系框架[17-20]。质量大数据标准体系的制定过程要注重把握大数据技术和行业发展特点,整合和借鉴国内外相关领域的标准化资源,在业务、数据、技术等多个层面建立、形成包含元数据、数据规范、数据交易及数据共享等内容的标准体系,用以指导各数据库的建设、各类工具包的应用。
质量主题数据库是大数据分析的基础,要围绕业务和技术两个层面展开建设。在业务层面,要根据行业的具体需求和数据特点,有针对性地收集各相关方的数据资源,建立主题明确、字段完整、可拓展性强的数据库。例如,卷烟产品质量信息数据库、烟用材料质量信息数据库、烟叶质量监控信息数据库、实验室能力信息数据库、材料供应商信息数据库等。在技术层面,要密切跟踪大数据相关产业的发展,探索适用于行业的数据采集、清洗、存储等技术。例如,用于采集数据的传感器及边缘计算技术,用于清洗数据的大数据工具集,用于存储数据的结构化、非结构化数据库等。利用各种数据技术打通数据孤岛,形成汇聚能力强、弹性强的数据湖,为后续的数据分析和利用提供支撑。
数据分析是综合利用数据、发挥数据效用的核心环节,传统的分析软件及分析技术已无法满足当前大数据时代的分析需求,运用机器学习、深度学习等算法实现面向海量静态数据、实时数据、时间序列数据、结构/非结构化数据的聚类、关联和预测分析是当前质量大数据分析技术的核心。随着算法领域的不断发展、开源代码仓库的不断丰富,将先进模型应用于卷烟质量分析已成为可能。要注重数据分析库的建立,不断形成并更新数据分析模块,构建应用于卷烟、烟叶、烟用材料等产品的分析评价模型,为行业持续提高产品质量,实现高质量发展提供分层级、定制化、多样化的质量信息服务和技术支持。
(1)质量缺陷预警模型。采集并整合传感器采集的工艺数据与实验室检验检测数据,对不同时间周期、不同批次、不同规格产品生产过程中的质量参数进行实时在线监测,分析工艺过程与缺陷产生的相关性,对高风险环节予以识别,不断降低产品缺陷发生率,提高产品质量。
(2)质量分析模型。通过建立卷烟、烟叶、烟用材料等质量主题数据库,汇集企业内、行业间的产品质量数据,开发横跨原辅材料、成品、在销品的质量数据库查询技术,探索利用机器学习算法、人工智能及深度学习算法等先进技术,深度挖掘数据间的关联性,为产品质量分析、预测及决策提供服务。
(3)实验室能力评价模型。建立实验室能力评价数据汇集系统,开发系列统计分析模型,对数据进行全流程自动化、定制化处理,快速发布实验室能力评价结果,实现能力评价后续全流程的数字化监督。
构建质量大数据平台,促进不同主体的数据资源建设,支持数据资源的分级分类管理,实现贯穿企业内、行业间、产业链的质量大数据协作、共享机制。同时要注重依托烟草科研大数据重大专项已研发的安全态势感知关键技术,为平台的数据和系统安全提供支持。结合项目数据的来源、规模、更新频率等特点以及系统平台的要求,提供支持数据完整性、保密性以及备份和恢复等安全功能。
长期以来,质量相关数据分析都是基于分析人员经验而开展的以描述性分析为主的技术活动,这种模式已无法满足大数据时代的质量管理要求,并且缺乏具有大数据技能和专业领域知识、经验丰富的人才,亟需加强质量大数据管理复合型人才培养和锻炼。开展面向质量大数据的重大专项,探索建立针对质量大数据人才的培养模式,持续为质量管理和业务工作的进步注入活力,为质量大数据发展赋能。
基于对行业重点工商企业质量检测机构的调研,分析了质量数据分布利用现状和应用需求,梳理了行业质量数据面临的重点问题,指出了行业质量大数据的发展方向。结果表明:①行业质量数据分布层级清晰,数据量大,覆盖率高,能够满足大数据分析需求。②现有数据分析方式较为传统,缺乏多维度、定制化、时效性强的数据分析手段,数据分析需求主要集中在卷烟产品的质量状况、质量趋势和预测、实验室能力水平和资源配置情况等领域。③数据分布分散、数据孤岛化现象普遍存在、信息化系统众多、各系统间协同性差等均是亟需解决的问题。④构建行业质量大数据要重点围绕数据标准体系的制定、质量数据库建设、大数据分析技术的应用、数据共享及安全以及技术人才培养等方面开展系统性工作。作为一个新兴技术体系,质量大数据在建设时需要得到行业内各企业及质检机构的关注和支持,充分发挥行业集中统一管理的优势,注重统筹规划、协同建设、开放共享,为提升行业整体效益、实现高质量发展提供支持。