何鹂颍 张起闻
(1.北京出入境检验检疫局 北京 100176;2.北京师范大学)
绿色家用电子产品评价,是指评价某类家用电子产品在生产、使用、处置等整个生命周期均符合环境保护的要求,不对人体健康造成危害。许多国家非常关注绿色产品,德国莱茵TÜV集团(TÜV Rheinland)于2012年推出绿色产品标识,旨在针对消费品及其对环境的影响做自律性规范。我国也高度重视绿色产品,国家质检总局与认监委已经开始建立统一的绿色产品标准、认证、标识体系。
绿色产品中包括绿色家用电子产品,本文结合数据挖掘技术对绿色家用电子产品进行分析和评价。
目前,社会已经进入大数据时代,人们生活、工作等都会产生大量数据,汇成浩瀚的大数据海洋。如何有效地利用大数据,从大数据中提取有用信息,创造价值,就需要数据挖掘技术。
数据挖掘技术一般是指从大量、不完整、有噪声、随机、模糊的数据中发现隐藏在数据中的关系,通过建立模型,提取有价值的信息和数据的技术。
数据挖掘有以下几个阶段:
(1)确定挖掘的任务或目标。用回归、分类、估计、聚类、关联规则发现或序列模式发现等进行(图1)。
图1 数据挖掘目标模型
(2)数据与信息收集。搜集不同渠道来源的数据,如相关数据库和互联网,根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的存储和管理的数据仓库至关重要。
(3)数据选取。根据需要从原始数据库中抽取一组数据,其目的是确定发现任务的目标数据。
(4)数据预处理。由于数据源来自多方面,根据数据来源的质量,在有必要的情况下需要进行消除噪声、数据过滤、消除冗余数据、完成数据类型转换等预处理。
(5)根据挖掘任务选择合适的算法。选择算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求。
数据挖掘算法有很多,如C4.5、k-Means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive Bayes、CART等,使用频率最高的算法是决策树(如C4.5、CART)、聚类算法(如 k-Means)。决策树算法本质上是导致做出某项决策的问题或数据点的流程图,其最容易让人理解,具有很强直观性。
在决策树算法上需要避免的一个问题是把决策树构建得过大,过于复杂。过于复杂的决策树往往会过度拟合(Over-Fitting),不稳定,而且有时候无法诠释,这时可以把一棵大的决策树分解成多棵较小的决策树来解决这一问题。
(6)建立模型。根据数据挖掘的目标和数据特征,选择合适的模型。在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳数值,如决策树模型。通过创建挖掘结构定义要使用的数据列,将挖掘结构链接到数据源,但只有对挖掘结构进行处理后,该结构才会实际包含数据。
(7)评估。评价数据挖掘的结果,选择最优的评估模型。
评估分类器的技术有保持方法、随机二次抽样、k-折交叉确认方法、自助法。评价数据挖掘分类模型除用准确度以外,还需要使用灵敏性和特效性等评价指标,还可以用精度即表示被分为正例的示例中实际为正例的比例来度量。需要注意的是,评估分类模型时,通常使用的是准确度,它的功能是评估模型分类是否正确,但并不是说准确度越高模型就越好。因为对于评估来讲有2类错误,第1类为弃真错误,第2类为取伪错误,很明显第2类错误造成的危害和损失比第1类错误要大,因此即使第2类的准确度高于采用第1类的准确度,也不能说明前者优于后者。
此外,在生成模型时,通常需要使用不同配置创建多个模型,并对所有这些模型进行测试,验证生成最佳结果的模型。
绿色家用电子产品评价的基础来自其整个生命周期,而检验检测认证是其重要的一个环节,通过检验检测认证来证实家用电子产品是否绿色环保。关于检验检测认证行业,每年要出具数亿份报告,可以提供几百亿个数据,是大数据的制造者。虽然这些大数据很有价值,但由于大数据具有数据体量巨大,持续实时产生,增长量高,类型复杂等多种特性,因此有用数据被淹没在巨量的数据大海中,要利用如此海量的大数据进行绿色家用电子产品评价,需要使用数据挖掘技术来挖掘出节能性能与环保数据。通过对这些数据进行分析整理,就能判断家用电子产品是否符合绿色产品的指标和标准,诊断出家用电子产品达不到要求、出问题的环节,这样就可以对家用电子产品进行风险分类和评估,通过让企业进行改进、对产品进行召回,对家用电子产品进行风险控制。
利用数据挖掘技术进行绿色家用电子产品评价有以下几个阶段:
(1)确定挖掘的任务或目标,首先确定绿色电子产品评价所需信息和参数。
①产品类别或名称。电子产品大类有:音视频设备、信息技术设备、家用电器设备;每类又包括很多产品,如音视频设备包括电视机、机顶盒等,信息技术设备包括计算机、显示器、便携式电脑、打印机等,家用电器设备包括空调、冰箱、洗衣机、电饭锅、抽油烟机等。
②产品测试数据。开机功率、能耗、待机功率、关闭状态功率、RoHS、REACH结果等。
③产品品牌。如海尔、三星等。
④产品制造商和生产企业。铭牌和产品证书显示的制造商和生产企业。
⑤时间段。产品数据参数对应的时间段。
⑥回收机制。
(2)数据与信息收集。对于绿色电子产品的评价,权威数据来源渠道很多,生产企业、检测机构会上报认证机构或者质量监督管理部门,回收企业、销售企业会上报节能环保管理部门,也有数据来自政府相关管理部门或其授权网站的报道、投诉和相关内容。数据和信息分散储存在上述机构和单位的服务器中,可能存储格式会有不同。根据确定的数据分析对象,将收集到的信息存入数据库,建立数据存储和管理的数据仓库。
(3)绿色家用电子产品评价数据选取。对于绿色电子产品认证,数据库和信息主要来源于认监委、认证机构、质量监督部门、质量抽查部门、检测机构、相关企业等的信息和数据。
(4)绿色家用电子产品评价数据预处理。由于数据源来自主管部门、认证机构、检测机构、相关企业等数据库,也有取自网页或其他途径,因此需根据不同数据来源的质量,进行消噪、数据过滤、消除重复、数据类型转换等预处理。
(5)选择合适的算法,建立绿色家用电子产品评价模型[2]。例如可以选择使用频率最高的决策树算法(如C4.5,CART),建立决策树模型。第一分支查能效等级,根据能效等级设立数据分隔点,按照能效等级把产品划为几组,其中能效等级为3级的直接变为叶子节点,不再往下延伸。对于能效等级为1级、2级的可以设为决策树的第二层,按照产品各部分是否满足RoHS、REACH要求,不满足的直接变为叶子节点,不再往下延伸;满足的可以设为决策树的第三层,以此类推。判断依据是电子产品满足绿色产品的要求的个数,还可以按更细的参数再做层次划分。这样不断通过创建挖掘结构定义要使用的数据列,将挖掘结构链接到数据源。
利用决策树系统创建评价绿色电子产品最优路径是将绿色电子产品涉及的参数和指标进行排序,这样,经过最少的步骤,得出绿色电子产品评价结果。
(6)评估。评价数据挖掘的结果,选择最优的模型,评估模型是否适用于可以判断绿色电子产品相关的实际情况。选择准确度高的模型,同时避免取伪错误给绿色家用电子产品评价带来的危害和损失。
总之,可以利用数据挖掘技术,通过整合各相关机构大量的检测报告和检测数据,建立电子产品相关数据库。用功率、能耗、有毒有害物质含量等参数,形成个性化变量特征库;采用数据挖掘技术,对大量数据进行抽取、转换、分析和模型化处理,从中提取关键性数据;通过绿色产品标准,建立数据模型,分析电子产品每个参数是否均满足绿色产品相应每个限值的要求;根据数据挖掘的基本模型和工具,在绿色家用电子产品评价的数据建模中进行运用,尤其是与绿色家用电子产品评价过程进行相关运用,利用数据挖掘中的粗糙集、神经网络、关联规则、决策树等来研究绿色家用电子产品评价问题;可以通过事先设定的标准找到匹配的电子产品,也可以把电子产品进行聚类分析让其自然分群,通过功率、能耗、有毒有害物质含量等相关数据变量的分析预测和优化,找到满足绿色电子产品目标,发现评价信息和数据;利用数据挖掘的理论和方法,可以得到绿色电子产品的数据挖掘结果,如确定是否为绿色电子产品、绿色电子产品等级、电子产品不合格情况等,实现绿色家用电子产品的评价系统,从而为社会和公众能够提供判断依据。
大数据技术和数据挖掘技术为检验检测认证行业带来了新的应用工具,本文结合对绿色电子产品的评价,探讨数据挖掘技术在检验检测和认证领域的应用范例,希望国家主管行政部门牵头建立一个检验检测认证行业的大数据平台,用数据挖掘方法发现检验检测认证行业中的所有关键信息和潜在信息,在避免非法用户对数据进行篡改或窃取的安全保护措施下,给公众和社会提供信息和数据查询,给不同层次的管理人员提供决策的依据,从而提升检验检测认证行业在国家的公信力和权威地位,提高管理者的决策水平。
[1]David Hand,Heikki Mannila,Padhraic Smyth. 数据挖掘原理[M].张银奎,廖丽,宋俊,等译.机械工业出版社,2003.
[2]赵连宝.数据挖掘在银行业中的应用[J].财政金融,2014,(40):28-31.