商允伟 梁娜
运用大数据理念,从质量状况信息搜集、数据利用等角度是改进质量状况分析的有效途径。
产品质量状况分析是质量安全监管的基础,是对一定时期内一定范围内的产品质量现状、趋势、特点等进行分析,以便有针对性地采取监管措施或提出消费建议等。本文运用大数据理念从质量状况信息搜集、数据利用等角度探讨了进一步改进质量状况分析的途径,并给出了有关建议。
我国采取分段与分类监管相结合的方式实施产品质量监管。各有关管理部门会定期对辖区内、管理范围内的产品质量状况进行分析,在此基础上采取有针对性的管理措施。质监、工商、食药监、出入境检验检疫、农业、旅游等管理部门及有关的行业协会等都会定期组织开展相关的质量状况分析并发布质量报告。
但是,我国企业数量众多、产品类目广。据不完全统计,全国有生产制造类企业七百多万家。产品种类繁多,国家标准《全国主要产品分类与代码:可运输产品》(GB/T 7635.1-2002)列入产品类目约50000多条,其中列入产品品种或产品类的约40000多个。显然,任何部门或机构所进行的产品质量状况分析都不可能覆盖某一区域的全部企业或者某一类目的全部产品。质量状况分析一般都是基于一定时期内检验检测、行政执法、统计调查数据进行的。从统计学角度看,如果在开展质量状况分析时能够获取更多的相关信息并加以充分利用,则分析结果的深度、广度都将有较大的改善,分析结果会更接近真实的状况。
当前产品质量状况分析的局限性及原因
虽然多个管理部门都定期开展质量状况分析,但受客观条件的限制,数据量和覆盖面不够宽,一般是针对一定区域、某些类目的产品抽样检验结果的分析,缺乏较为全面的质量状况分析、或某类产品的全景式状况分析。究其原因,主要有以下几个方面的因素。
信息来源少,未建立有效的信息共享方式。虽然近年来国家一直在推动政府信息公开和部门间信息共享,但由于对信息公开的数据格式、所包含的具体内容未做出明确要求,部门公开的信息都是统计分析结果,未公开原始数据,且大多是文本信息,这些数据对其他部门来说一般没有再次深入分析的价值。
缺乏统一的技术标准。目前各部门监督抽查、行政执法等工作产生的产品质量相关数据,尚缺乏统一规范的数据标准。
数据管理和处理手段不足。信息技术在社会管理、公共服务等方面的应用尚处于实践阶段,除去行政管理上的因素外,信息结构化程度低、缺乏数据关联分析比对分析、统计调查信息采集和挖掘分析技术手段不足是重要的制约因素。
缺乏顶层设计。近年来各地陆续制订了政府数据资源共享管理办法,但管理办法中,原则性规定多,尚未明确部门间信息共享的范围和使用方式。由于没有建立部门数据资源清单和数据标准,无法实现数据资源的统一汇聚和集中分析。
产品质量监管的数据资源需求
从信息产生、所有权归属的角度看,产品质量所涉及的信息主要有:
政府部门。发改、工商、质检、工信、统计、商务、食药监、农业、卫生等部门通过行政许可、行政执法、监督检查、调查、统计分析等积累了大量数据。其中既有结构化数据,也有非结构化数据,其特点是数据质量和可靠性高。
检验机构。各类检验机构中积累了大量的产品质量检验数据,其中包括各级政府部门委托的监督抽查、市场抽检、质量状况调查等检验数据,也包括企业委托检验数据、质量仲裁、司法鉴定等信息。
社会中介组织。各行业协会、研究机构通过调查、检验、搜集、分析得出的有关产品质量信息。
生产加工企业。生产加工企业内部积累了大量的产品质量检验信息、验货信息等。这类企业产品质量控制信息具有较强的私密性,企业缺乏共享这些信息的意向。
销售企业。这些企业积累了大量的验货、消费者投诉信息。传统销售企业的这类信息比较分散,结构化程度低。近年来快速发展的电商积累了大量的信息。由于电商自身对此类信息的分析有明确的需求,实时性要求也高,此类信息较规范,易于统计分析。
消费者投诉举报信息。消费者通过网站、媒体等关于产品质量的投诉举报信息。这类数据的类型多,包括语音、视频、图像、文本等。由于来源杂,信息未经调查分析,信息的可用性、可靠性低。
上述信息中,信息来源、加工、归属不同,信息的质量、有效性、可信度不同。产品质量状况分析的目的是通过对一定区域内某些类别的产品质量数据进行统计和分析,评估产品的质量状况和发展趋势,政府部门据此采取有针对性的监管措施,为制订产业政策、规范产业发展提供科学依据。这与生产或销售企业针对某一具体品牌型号的产品所做的质量分析不同,需要对一定区域、某一类别(或全部、某一具体产品)进行整体分析,以掌握整体质量状况。由于是采用部分样本分析整体质量状况,在数据质量(可信度、准确性)一定的情况下,纳入分析的有效数据量越大、信息的质量越高,分析结果越接近真实状况,给出的结论才会更科学。因而尽可能搜集、使用可获取的信息,将大数据分析技术应用于产品质量状况分析,可提高统计分析的有效性。
产品质量状况分析中大数据的应用方式
开发并应用统一的信息系统或对部门在用的信息系统按照统一的数据标准进行整合,可以较方便地实现信息资源共享和综合利用。但这种方法的困难和问题也是显而易见的:制订并应用统一的数据标准并对在用信息系统进行改造或整合需要逐个部门实施,周期长,工作量大;如果整合各部门的需求再规划统一的信息系统需要重新部署应用新系统,很难照顾到各部门自身的管理需求。这两种方式都需要巨大的投入、较长的实施周期、强有力的行政推动力。本节探讨在不进行新的信息系统开发、大的经费投入前提下,充分利用各类信息资源进行质量状况分析的方式。
高效处理结构化和半结构化数据
前述的信息中,来源、准确度、可靠性、与质量分析的紧密度不尽相同。有效利用这些信息,必须将“大数据变小”,即通过抽样、去重、过滤、筛选、压缩、索引、提取元数据等数据变换方法,将其中有价值的信息提炼出来。
充分利用现有的结构化数据。业务信息系统中的数据一般是结构化、半结构化数据。应通过建立完善数据资源目录体系和数据元标准,实现业务系统间的信息资源共享。
建立有效的数据表示方法。根据信息分析需求,通过抽样、索引、提取元数据等方式建立半结构化、非结构化数据的有效表示方法,以便有效管理、利用这些数据。
在相关数据间建立固定的模式、因果联系和关联。不同来源的质量信息由于采用的产品编码、检验标准、数据元标准不同,无法直接加以利用。必须在不同类型数据、不同来源数据间建立关联关系,从而实现多来源数据的筛选、提取、归类和统计分析。
推动数据标准化
统一的数据标准是信息共享的基础,在信息系统开发和应用过程中,应着力加强建立产品分类代码、检验检测标准的标准化工作。
对于产品编码来说,目前主流的几种产品编码体系均有广泛应用,不可能在短期内合并为某一种标准编码。就近期应用看,可以根据监管工作需要,分析日常监管、重点监管的产品在不同编码体系中的编码情况,通过索引表、关联关系表等方式在不同编码体系间建立关联关系,从而使不同编码体系下的产品质量检验检测数据、质量信息等建立关联。
对于不同的产品质量检验标准来说,可以首先对产品标准进行结构化解析,在此基础上建立格式化的检测数据管理方式。对于已有的产品质量检验报告可以通过格式化解析、检验项目关联等方式,将非结构化、半结构化的产品质量检验报告转化为结构化的检测数据。
纵向共享利用优先
由于行政管理具有纵向上下对应的特点,因而业务信息也具有纵强横弱的特点,即纵向信息流畅通,而横向部门间信息交流少。根据这一特点,可以优先考虑综合利用同一业务系统内部的信息,再推广到其他部门。
就产品质量状况分析而言,各级产品质量监管部门都安排了监督抽查工作,获取了大量的监督抽查信息,但各部门在进行质量状况分析时,一般仅就本部门安排的监督抽查获得的质量状况数据进行分析。如果产品质量监管部门在进行质量状况分析时,统筹考虑本部门和下级部门掌握的质量信息,则分析所依据的样本量、检测数据量将有较大的提高,分析得出的数据更接近实际。同时,这种数据利用方式是在同一业务系统内部自上而下进行信息扩充,由于业务管理模式基本一致,其数据格式较为一致;另外,由于是在同一业务系统内部进行数据整合利用,所需的行政成本也较小。
依此类推,按照业务联系紧密性,将信息共享范围推广到业务联系较为紧密的出入境检验检疫、工商等部门。对于质量状况分析这种对于数据实时性要求不高的数据共享需求,通过离线数据交换即可满足要求。
以社会化治理的视角开展质量状况分析
质量安全是社会问题,不能仅靠某一个部门来完成。对于质量状况分析这一具体工作,也必须跳出部门羁绊,以社会化治理的视角来梳理各有关部门的业务,统筹考虑各类信息和数据的采集、分析、共享。这就需要在各地域、各部门、协会和机构间共享信息,同时吸收全社会的参与。大数据再“大”,如果不能有效的分析利用也不能发挥作用。要以大数据的思维形成开放、协同、合作的工作机制。
加强基础业务信息的搜集和管理,实现业务流与信息流的同步。创新业务管理,以数据为驱动,业务事项办理过程中同步形成业务信息,积累可靠的数据。例如,有的单位在安排产品质量抽查任务时,仅仅要求检验机构提供分析报告,而忽视了基础检验数据的搜集和汇总,非结构化的分析报告显然不如颗粒化检验数据的价值大。
建立跨部门的信息共享机制。目前各级政府都在积极推动部门间信息资源共享,也制订了相应的规章制度,但尚未建立完善的信息资源目录和开放数据资源清单,未明确信息开放共享的范围。在这些工作取得实质性进展前,可以借鉴政府信息公开条例的有关要求,凡是业务工作中产生的数据,除保密和不宜公开的信息外均应向同级的其他政府部门无条件开放(业务数据开放为惯例,不开放为特例),信息接受方在使用前明示信息用途,履行保密义务,以使宝贵的业务信息数据充分发挥作用。
建立高效的沟通协调机制。各级政府的综合性管理部门,如政府办公厅(室),牵头建立跨部门信息共享协调机构,相关部门明确责任部门,负责协调部门间信息获取、交换、使用中遇到的具体问题。定期通报各部门提供其他部门共享的信息情况,促进部门间业务信息的开放和跨部门信息共享。
关于跨部门信息利用可能产生的责任问题。大数据的4V特征之一即其价值总量高但价值密度低。由于不同来源的信息采集时间、方式、渠道、格式不同,信息提供方提供的信息不一定完全满足使用单位的要求,部分信息也可能存在错误、过期等问题,因而需要使用方对信息进行交叉比对、校核。有的单位由于对自身掌握的信息准确性心存疑虑而不愿与外部门共享信息。在质量信息共享过程中不应将使用错误、过期数据可能带来的风险回溯到信息提供单位,以推动部门间开放共享有关信息。
(作者单位:山东省质量技术监督局信息中心)