钱倩 严慧
摘要 :作为社会管理和公共服务的提供部门,政府在收集数据、使用数据时有着得天独厚的优势,业务数据成为政府部门海量数据的来源。为了提高政府部门监督管理水平的科学化,有必要加强对现有业务数据的科学整理和利用。本文以电子政务实施的成功案例——昆明市质量技术监督局在用的《基层质量技术监督管理信息系统》内企业质量信息为原始公共数据库,探讨对现有企业质量信用信息进行数据挖掘和数据分析,如何剔除重复数据和无用数据。采用最小数据集与质量信用信息相结合的思维模式,利用R语言使用随机森林算法,对最小数据集候选因子关于企业质量信用评级结果重要性进行选择,再通过逻辑论证形成企业质量信用管理最小数据集,以及对企业质量信用最小数据集的评级指标做相关性分析。研究结论显示存在五个质量信用因子对企业质量信用的评级具有稳定的重要影响。
关键词 :企业质量信用 最小数据集 质量技术监督管理一、引言
随着ICT(信息通讯技术)在市场决策和公共管理领域的广泛运用及大数据时代的来临,数据和信息作为一种重要的资产和财富越来越受到决策部门的重视。数据和信息实质上是两种不同的概念,数据往往不能直接为管理决策工作提供依据,因为数据的确切含义往往不明显。而数据经过加工处理形成的信息能够反映客观事物的规律,对管理决策工作发挥着重要作用。通过对数据的挖掘、整合、去伪存真,再加以分类、汇总、分析后形成报表和资料,可以实现为市场决策以及公共决策提供可靠的事实依据,实现市场资源、公共资源的有效配置。由于认识到数据的这种重要性,国内外政府部门在推行了超过一个世纪的电子政务之后提出了电子治理理念,其目的就在于利用信息技术更好的服务于公共管理,为政府和公众提供便捷的互动渠道。本文以电子政务实施的成功案例——昆明市质量技术监督局在用的《基层质量技术监督管理信息系统》为研究对象,以其在具体应用中产生的大量企业信息为数据基础,分析系统中的原始数据为什么不能直接为质量技术监督管理部门评价企业的质量信用状况所用,而造成数据资源浪费的原因,以及如何筛选小范围的可用的企业质量信用数据,形成企业质量信用管理最小数据集,并对企业质量信用最小数据集的评级指标做相关性分析。本文采用最小数据集与质量信用信息相结合的思维模式,提出以最小数据集为切入点进行企业的质量信用管理,并用现有数据库中备案的信息进行数据统计分析验证其可行性。
二、相关概念阐述
“最小数据集”(MDS)是指通过收集最少的数据,较好地掌握一个研究对象所具有的特点或一件事情、一份工作所处的状态,其核心是针对被观察的对象建立起一套精简实用的数据指标。1最小数据集的概念起源于美国的医疗领域。最小数据集的产生源于信息交换的需要,就好比上下级质量技术监督部门之间、企业与质量技术监督部门之间、质量技术监督部门与社会公众之间都存在着信息交换的需求。为此需要建立一个类似于适用“端口”的数据库以实现信息交换、共享。1973年,在美国国家生命健康统计委员会(NCVHS)的主导下,为了规范出院病人的信息收集工作,美国第一次制定了统一的出院病人最小数据集。由于实用性较强,最小数据集的概念在医疗领域被迅速推广。近几十年来,几乎每年都有新的最小数据集被定义、开发和推广,一时间衍生出各种各样特定的最小数据集。随时时间的推移,最小数据集在美国已经演变成一个一般概念,它指代国家管理层面针对某个业务管理领域强制收集的数据指标。当然,对于“最小”的看法不同的管理者、决策者、公共服务提供方及接收方都会有不同的需求和看法,一个指标是否纳入最小数据集的范围,所处立场、视角以及管理方式的不同皆会产生不同的看法。最小数据集在中国的应用是始于2003年中国在医疗卫生领域开始最小数据集的应用研究,到2006年中国卫生部出台了第一版中国医院最小数据集的标准。
“质量信用”的概念始于1915年芝加哥大学Max F Meyer等人“Credit for Quality”中的论述,并以教育为对象提出了质量信用的一般原则。目前,国外将企业的质量信用作为企业信用的组成部分和要素,被包含在“企业品格”(Character)和“企业能力”(Capacity)评价范围内,与“资本状况”(Capital)一起,组成企业信用评价“3C”模型的基础。我国的质量信用管理研究始于1987年,它与企业发行债券同步产生。从广义上来看企业质量信用应该包括企业产品质量、企业内部管理质量以及企业资本状况及其抗风险能力三个关键要素。2006年10月24日,国家质量技术监督检验检疫总局下发的《国家质量监督检验检疫总局关于加强企业质量信用监管工作的意见》(以下简称:国质检质[2006]464号)中第一次对质量信用做出了官方叙述,即“企业质量信用是指企业在生产经营活动中遵守质量法律法规、兑现质量承诺的能力和程度”2。《企业质量信用划分通则》(GB/T23791—2009)中表述为“取得并保持对其质量信任的能力,这种能力由企业在遵守质量相关法律法规、执行标准以及兑现质量承诺的基础上,提供产品在生命周期内满足顾客的需求或期望来实现”。从本文的实际研究角度来看,本文将沿用《企业质量信用划分通则》(GB/T23791—2009)中对于“企业质量信用”的定义。
尽管肯德基苏丹红事件、三鹿奶粉风波、地沟油恐慌等企业质量失信事件给我国企业的质量诚信敲响了紧钟,但假冒伪劣、缺斤短两等企业失信行为仍然屡见不鲜,这些行为严重地损害了消费者的利益,扰乱了市场经济秩序,败坏了国家声誉,这就表明单靠品牌、传播积累起来的产品诚信过于流于形式,很容易在突发危机时土崩瓦解,只有通过一套客观、真实、有效、科学的企业质量信用管理方法,才可能真正让消费者吃下一颗定心丸。2013年6月21日,国家质检总局办公厅下发了关于组织企业试点发布《企业质量信用报告》的通知,文件中表述“推动企业发布质量信用报告,是引导企业履行产品质量主体责任、建立质量诚信自律机制的重要措施,也是引导和推动全社会对企业履行质量责任情况进行监督的有效方式,有利于推动企业牢固树立‘质量第一、诚信为本的经营理念,有利于提高企业的质量诚信意识和质量法制意识,有利于企业主动向社会、消费者公开产品质量状况和质量承诺信息,接受社会监督”。文件中要求各级质量技术监督管理部门组织企业发布《企业质量信用报告》,以及推动《企业质量信用报告》的使用。由此,加强对企业质量信用的管理对增强企业诚信意识,提高产品质量水平,促进经济社会健康发展具有十分重要的意義。
三、企业质量信用管理最小数据集研究的必要性
美国经济学家、政治学家赫伯特·西蒙曾敏锐的指出:“信息消费了什么是很明显的:它消费的是信息接受者的能力。信息越丰富,就会导致注意力越匮乏。信息并不匮乏,匮乏的是我们处理信息的能力。我们有限的注意力是组织活动的主要瓶颈。”作为企业质量信用的主要监管部门,昆明市质量技术监督局在用的《基层质量技术监督管理信息系统》自2004年在全省推广运行以来,配合《获证企业管理信息系统》(企业用)形成了一个企业提交数据、质监局审核数据并录入监督执法数据的动态监管模式。企业通过提交企业基本信息和企业质量数据来充实数据库,质监局对企业提交的信息进行审核从而进行行政许可和业务监管,长此以往,该公共数据库积累了大量有关企业质量信用的数据。至2014年6月为止,该数据库中备案了超过150万条企业质量技术数据信息,已经形成了一个庞大的动态监管数据库。这一宝贵的质量信用数据资源,无论是对于质量技术监督部门,还是企业、公众,都是一笔具有巨大潜能的数据财富。数据本身可能是没有价值的,数据的价值体现在与对数据的挖掘和分析程度。由于这些原始数据庞大而繁杂,并充斥了相当数量的重复数据和无用数据,大量的数据冗余并不能直接为行政管理提供直接高效的依据,必须使其本身实现从数据到价值的转化。由此,为了强化和提高对于企业质量信用的监督管理水平,对企业质量信用公共数据库进行最小数据集挖掘具有相当的必要性。对企业质量信用管理进行最小数据集研究的必要性主要体现在以下几个方面。
第一,从公共产品使用上的非竞争性和受益上的非排他性的属性上看,企业质量信用的原始公共数据库属于公共产品的范畴,在其产生过程上与其他公共产品相类似,但是由于其数据运行模式与商业web数据又有其共通之处,所以单纯使用一般公共产品的管理手段和方法并不适用于对公共数据库的控制,而单纯使用商业web数据的分析管理模式,一是难以满足公共产品的公共服务性,二是出于公共数据库的保密原则也不适合将企业的商业机密提交给第三方。因此,针对企业质量信用公共数据库这一特殊的公共产品,应采用特殊的分析管理方式。
第二,数据的收集和处理需要支付成本,当然形成的信息也会带来收益。出于公共事務处理和政府信息公开的需求,企业质量信用的部分数据来源具有强制收集的特点。这就使在原始数据收集的过程中必然会产生社会成本,包括企业采集和录入被强制收集数据的成本和质量技术监督管理部门审核数据、录入监督执法数据以及管理数据的成本。因此,面向数据提供者强制收集的数据种类和范围应该应可能小,对不同数据强制收集的指标之间也应该尽量不重合,以达到节约社会成本,提高企业和政府部门工作效率的目的。
第三,由于行业的特殊性,企业的质量信用数据有着不同的表现形式,且其数据库中存在的数据大多是难以直接进行数据分析的文本数据。这些数据与企业的质量信用之间的相互关系十分复杂,加之文本数据容易混淆,不易形成明确的概念,这就给数据分析带来十分巨大的困难。此外,与企业质量信用相关的数据种类繁多,对象复杂且涉及面广,其间既有纵向联系,又有横向联系,所以直接判断不同种类的数据指标与企业质量信用的相关程度显得十分困难。
第四,基层质量技术监督管理信息系统中的数据是由企业或质量技术监督管理部门录入的一手数据,并不能直接加以分析,需经过调研和实证才有可能对其进行科学的转换,这就要求对原始数据进行预处理,而这个任务十分艰巨。此外,笔者经过调查研究发现确实存在相当的重复数据和无用数据,过量的数据冗余会影响研究结果的准确性,所以有必要在数据分析之前预先进行数据清理、数据转换、数据加载等过程,剔除对企业质量信用最终评价结果没有用的冗余属性。
四、昆明市获证企业质量信用管理最小数据集候选因子的确定
根据国家质量监督检验检疫总局在464号文件中的描述,企业质量信用监管指标主要由质量、标准、计量、认证、出口检验方面的指标构成。根据企业质量信用指标反映的不同情况将企业质量信用等级分为A、B、C、D四级,分别代表守信、基本守信、失信、严重失信四级信用程度3。企业质量信用评级的具体标准参见国质检质[2006]464号文件中的细则。根据该文件中关于企业质量信用评级的具体规定,笔者选取了昆明市质量技术监督局GX分局的领导及业务人员进行深度访谈,了解昆明市企业质量信用评级的具体情况,用于与企业质量信用管理最小数据集候选因子做相关性分析。为了更加直观的进行数据观测,设企业质量信用评级结果R为:
昆明市获证企业质量信用管理MDS的建立基于基层质量技术监督管理信息系统中的原始数据。该系统对企业的监管主要分为四个模块。一是企业基本信息(包括企业基本情况、主导产品、认证产品、综合评价、人员资质信息等子模块);二是企业监督检查信息(包括监督检查、违法记录、执法案卷、安全监管、图片管理等子模块);三是企业设备信息(包括设备管理、计量管理、生产设备、检测仪器);四是企业产品信息(包括产品质量、产品检验报告、检验报告附页等子模块)。因为原始系统数据多为文本数据且与企业质量信用不相关,譬如企业基本信息中公司名称、组织机构代码、法人代表、地址、联系方式等数据,所以本文在数据采集时候予以剔除。通过实际操作系统以及与质监部门业务人员的反复沟通,从第一模块中抽取了认证产品、综合评价和人员资质信息作为企业基本信息的代表性指标,依此选取了监督检查、违法记录、安全监管、设备管理、计量管理、产品质量分别作为企业监督检查信息、企业设备信息和企业产品信息的代表性指标。
根据国质检质[2006]464号中对企业评级要求的规定,从数据库中统一筛选出企业依法设立年满5年且各项数据齐全的已评级获证企业1953家,通过重复采样反复校对,选出信息包含量高的特征数据作为最小数据集的候选因子项,经过多次与昆明市质量技术监督分局领导及业务人员进行深度访谈,并根据访谈调查结果与实际数据信息量的充分程度对原始数据库中的信息进行筛选,剔除重复数据及无用数据,最终,共采集到数据信息较齐全的GX、P、W、X、J、GD六个主城区分局的认证产品、综合评价、监督检查、违法记录、安全监察、设备管理、计量管理、产品质量、人员资质九个类别的企业质量信用数据17577条,设企业质量信用最小数据集候选因子V为(如表1所示)。
五、昆明市获证企业质量信用管理最小数据集的建立
随机森林4是一个包含多个决策树的分类器,其输出的类别是由个别树输出的类别的众数而定,它能够在决定类别时,评估影响因子的重要性。随机森林算法适合分析离散型数据,能够与本文想达到的数据挖掘目的一致。
因为考虑到从原始数据库中导出的9类数据并不一定齐全,因此在进行数据筛选时会对存在数据缺失项的企业进行过滤。最终选取GX区392家企业、GD区403家企业,从实地调研中在已知GX和GD两个区企业质量信用评级结果的情况下,从数据库中通过企业代码查询并导出已评级企业的上述9个因子的信息生成excel文档,并根据表1中每一候选因子的属性规范值对其赋值。通过R语言使用随机森林算法,对最小数据集候选因子关于企业质量信用评级结果重要性的选择,得出以下结果:
经过重复测算,得到9个候选因子对GX区企业质量信用评级结果影响的重要系数分别是x1:0.02052695;x2:0.02099938;x3:0.13253261;x4:0.13318551;x5:0.10781621;x6: 0.0000078;x7:0.02954396;x8:0.11117428;x9:0.00000052。对其ID进行降序排练如下:x4;x3;x8;x5;x7;x2;x1;x6;x9。
采用同样的算法与步骤,得到GD区企业质量信用最小数据集候选因子對企业质量信用评级重要性影响结果如图2所示:
9个候选因子对GD区企业质量信用评级结果影响的重要系数分别是x1: 0.02493162;x2:0.00896896;x3:0.12552268;x4:0.12337022;x5:0.06401767;x6:0.0000100;x7:0.04410699;x8:0.03029900;x9:0.00000092。对其ID进行降序排练如下:x3;x4;x5;x7;x8;x1;x2;x6;x9。
由于两个实验区企业存在差异,两个质量技术监督分局对企业的监管也存在人为因素的不同,所以存在候选因子对企业质量信用评级影响结果的重要性排序存在差异,但从重要性的影响数值来看权重最高的五个因子是相同的,在两个表中都分别高于其他因子。说明该五个因子对企业质量信用的评级较其他四个因子重要,其结果如表2所示。
六、结论与建议
(一)结论
根据表2中对两个区企业质量信用最小数据集的比较,发现x3;x4;x5;x7;x8不管在两个区中各自的排序如何,皆处于企业质量信用最小数据集重要性影响因子排序的前五位,而x6;x9皆处于排序的后两位。由此考虑将x3;x4;x5;x7;x8所对应的监督检查、违法记录、安全监察、计量管理和产品质量作为评价企业质量信用登记的重要影响因子。即企业质量信用最小数据集M。
(二)不足之处与政策建议
1.不足之处
由于笔者直接搜集到的数据多为文字描述性数据,通过属性值规范得到可用于分析的数字型数据属于离散型数据,所以不能直接用SPSS软件或EVIEWS软件实现对最小数据集包含的因子进行两两之间的相关性分析。笔者担心得出的结果因子之间存在两两相关的情况,如果被证实,那么还需要对现有结果进行筛选,保留相关性程度较高的二者或三者其中之一即可。这一点笔者在继续努力,尝试对结论因子进行回归分析,验证结论中两两因子的相关性,对相关系数极高的数据予以过滤,以便找出更优更小的最小数据集。
此外,上文阐述了由于管理者视角、立场、所处环境的不同,会导致对某一特定指标是否纳入最小数据集范围的看法不同。而且,各个最小数据集本身可能是完整的、有效的、但当不同的业务的最小数据集越来越多后,从全局出发,它却不一定是最合理的,因为可能存在更好的划分方法,使各个最小数据集之间具有更明确的边界和更少的重叠。
2.政策建议
第一,继续推行电子政务,完善信息化工作。GX辖区企业有1152家,实际筛选出9项候选因子指标数据皆齐全的企业仅492家,其余660家企业由于或系统内无记录,或由于信息录入不全而无法进行企业质量信用最小数据集分析。在企业质量信用最小数据集评级办法的具体应用中,缺失数据过多可能会导致评级结果的公平公正难以保证,那些无数据或数据不全的企业多是小作坊或企业信息化工作不到位的企业,质量技术监督部门工作人员对数据的更新程度同样也影响着评级结果。由此可见,企业和质量技术监督管理部门的信息化工作是进行企业质量信用评级的基础。鉴于此,继续推行电子政务,充分利用《基层质量技术监督管理信息系统》完善企业质量信用的信息化工作,有利于提高企业质量信用评级的准确性和公正性。更进一步来看,应实现各地联网进行信息的交流查询,改善各部门之间的信息分割的情况,实现信息共享。
第二,实现对企业质量信用评级的有效利用。质量技术监督管理部门可以参考企业质量信用管理最小数据集对企业进行快速的质量信用评级,评级结果的应用也十分广泛。例如,质量技术监督管理部门可以根据其评级结果对四种类型的企业采取有差别的监管态度,以减少行政成本,提高行政效率。一是对A级企业(守信企业)予以奖励和扶持,适当减少日常的监督检查频率。对于其生产加工的产品,在企业申请产品认证时优先推荐,以鼓励其诚信生产、诚信经营;二是对B级企业(基本守信企业)予以鼓励和帮助,并根据影响评级结果的不合格项有针对性的对该指标重点监管,鼓励企业提高诚信意识,加强质量管理,争取成为A级企业;三是对C级企业(失信企业)予以警告,并对该类企业采取重点监管的态度,严格审查企业的质量信用指标,对引起企业失信的行为责令整改,对已获得的认证或奖励根据相关规定给予暂停或撤销。帮助企业改进质量管理,提高产品质量和质量信用水平;四是对D级企业(严重失信企业)予以惩罚,并强制纠正其质量信用中的不合格项。向公众披露和曝光企业质量失信行为,将情节严重者纳入企业黑名单,依法对其进行惩处。
第三,实现多部门间的信息共享,推进社会信用体系的建设。现云南省委副书记仇和在昆明市社会信用体系建设暨诚信工作会议上的讲话显示:昆明市的企信用信息分散在工商、税务、质检等政府部门和银行、法院等公共机构,相互之间缺乏信息沟通和共享,造成信息割裂与封闭,对企业的质量信用管理造成一定阻碍。根据企业质量信用管理最小数据集可以实现质量技术监督管理部门对企业质量信用进行评级,同时鼓励部门之间的相互合作,参照银行、税务、工商、海关等部门反映的企业在不同领域的信用状况,综合评价企业的整体信用,建立企业社会信用信息综合数据库,并提供联网查询平台为社会公众服务,同时在不同的监管领域中按照帮扶守信企业,惩治失信企业的原则对企业采取差别对待、分类监管的模式。
参考文献:
[1]涂子沛.大数据[M].广西师范大学出版社,2013,4.
[2]Max F.Merritt L.Hoblit and Franklin W.Johnson.Credit for Quality.The School Review.The University of Chicago Press.Vol.23.No.10.1915.
[3]国家质检总局.国家质量监督检验检疫总局关于加强企业质量信用工作监管工作的意见[Z].2006.
[4]Breiman L.Bagging Predictors.Machine Laerning. 2001,45(1).
基金项目:
云南省教育厅科学研究基金项目(2014J083)。