基于决策树的家庭垃圾分类模型的研究

2022-12-22 13:06王维虎刘艳超纪慎思
湖北工程学院学报 2022年6期
关键词:决策树正确率垃圾

王维虎,刘艳超,杨 雷,纪慎思

(1.湖北工程学院 计算机与信息科学学院,湖北 孝感 432000;2.湖北工程学院 信息技术中心,湖北 孝感 432000;3.湖北工程学院新技术学院,湖北 孝感 432000)

家庭垃圾分类是指按照一定标准将家庭垃圾进行分类储存、分类投放和分类搬运,从而转变成公共资源的一系列活动总称。当前,垃圾分类研究已取得一定的成绩,许多学者从理论和技术两个方面展开研究。杨雅瑜等[1]指出传统的垃圾分类技术主要有人工筛分、重选、风选、浮选、磁选、电选等分选技术,采用特性技术对混合后垃圾进行分类,取得了一定效果,但是分类效率比较低;江辉等[2]基于射频识别技术进行垃圾分类,在垃圾袋上贴有IC电子标签,通过识读标签,实现垃圾分类的投放;吴新华等[3]利用二维码技术进行垃圾分类,需要人工提前分好类且贴好标签,其缺点是人类需要具有一定的垃圾分类知识,并不能自动分类;文献[4-7]主要利用第三方现有技术(比如红外线、物联网、语音识别),均基于已经筛选过的垃圾再一次进行分类,实现垃圾的自动回收处理,但并未考虑对首次垃圾进行分类。同时,邓冰峰等[8]研究德国专注运用IOT、云计算、大数据、3S等技术,采用循环利用模式进行消化垃圾,致力于为垃圾分类系统提供全面的信息化解决方案,但是垃圾种类均过于复杂。另外,部分学者对垃圾自动分类展开研究,吴健等[9]提出基于计算机视觉的实验室场景下废物垃圾分析与识别的方案,但是受限于垃圾种类广,新垃圾的出现、垃圾语料库的缺乏、固定匹配方法,导致分类正确率较低,并不能满足于实际的使用需求。

目前,我国垃圾每天产量数以万吨,主要是家庭垃圾,种类复杂,分类困难,给生存环境带来巨大压力和考验,成为当前的迫切待解决问题。为了克服不同家庭垃圾分类方法的缺点,本文提出一种基于决策树的家庭垃圾分类识别方法。首先利用网络爬虫技术,构建一套家庭垃圾分类标准与数据集;然后,分析家庭垃圾特征,选取有效的特征集,采用机器学习中的决策树ID3算法建立决策树的家庭垃圾自动分类模型的研究,实现自动分类,无需人工分类,提高分类效率、精度与粒度,为上层的“语音+垃圾分类”和“物联网+垃圾分类”等物联网应用提供基础技术支撑。

1 研究内容框架

结合当前我国最新垃圾分类类别标准,为了解决家庭垃圾分类存在的问题和提高分类的效率和准确率,本文提出基于决策树的家庭垃圾分类模型,框架如图1所示。

图1 基于决策树的家庭垃圾分类识别框架

从图1可知,本文主要分为两个阶段:训练阶段和测试阶段。在训练阶段中,首先,通过手工收集、网络工具或网络爬虫爬取国家省市县区环保领域网站,以及淘宝、京东等购物网站,获取家庭垃圾常用实体数据集,并对数据集进行数据去噪和去重等操作处理;然后,邀请环保领域专家对家庭垃圾数据集进行抽取数据特征,并优化特征集;其次,环保领域专家和学者根据特征集标注实体家庭垃圾数据集,得到规模为4000条实体数据集语料库,作为本文构建模型中所需要的训练语料和测试语料;最后,结合决策树算法,构建基于决策树的家庭垃圾分类模型。在测试阶段中,将家庭垃圾测试语料应用于已构建的基于决策树的家庭垃圾分类模型,得到家庭垃圾分类预测的结果。

2 基于决策树ID3算法的家庭垃圾分类模型

2.1 算法基本理论

决策树ID3算法是通过特征的信息增益作为准则来构建决策树,每次选取信息增益最大的特征作为结点。特征的信息增益越大,则该特征对分类X的不确定性就减少的越多。决策树算法已经广泛运用在智能机器人研究、遥感图像分类研究、竞争对手识别模型等不同应用领域。本文正是利用决策树的速度快、准确性高、适合高维数据等优点,来构建家庭垃圾分类模型。

对于一个给定的数据集,具体计算方法如下:

设训练集为D,D的样本个数为N, D的数据有m个分类,分别为C1,C2,C3,…,Cm,分类Cm的数据个数为|Cm|,那么D的信息熵为,如公式(1)所示。

(1)

设任一个特征的n个不同取值,记为a1,a2,a3,…,an。根据特征的n个取值将D划分的n个子集为D1,D2,D3,…,Dn。对于任意的子集Di∈{D1,D2,D3,…,Dn},设Di的样本个数为Ni,Di中属于类Ci∈{C1,C2,C3,…,Cm}的样本个数为|Cii|,那么特征A对数据集D的条件熵为,如公式(2)所示。

(2)

那么,特征A对数据集D的信息增益,如公式(3)所示。

G(D,A)=H(D)-H(D|A)

(3)

2.2 家庭垃圾特征选取

2.2.1 特征的选取与分析

特征的选取决定模型性能,因此非常重要。本文主要根据环保专家和学者经验以及相关书籍资料,同时考虑常见家庭垃圾处理方法和结合家庭垃圾特点,选取材质、形态、毒性、是否易腐烂和是否包含再利用材料作为有效特征。

1)毒性特征。在家庭垃圾中,有部分垃圾具有毒性,例如废电池、废灯管、废温度计、废药品、废油漆、废杀虫剂、废相纸等,这些毒性家庭生活垃圾可以明显区分垃圾类别,一般作为不可回收类别。因此,选取毒性作为本文有效特征(“1”表示有毒,“0”表示无毒)。

2)腐烂性特征。家庭生活中产生的易腐性垃圾(即湿垃圾),腐烂性垃圾主要包括:剩菜剩饭、菜梗菜叶、肉食内脏、果壳瓜皮、室内绿植等等,但是这些腐烂的家庭垃圾却是生物或者有机物中的一类,可以形成沼气和有机肥,正是植物所需养分的主要来源,也能够改善土壤肥力特性,所以可以将物体是否易腐作为一个维度特征划分。因此,选取腐烂性作为本文有效特征(“1”表示腐烂,“0”表示不腐烂)。

3)再利用特征。在家庭垃圾中,有部分垃圾废弃物可以回收利用,例如纸类、塑料、玻璃、金属、织物及瓶罐等,这些垃圾都能通过重新加工处理被再次利用。因此,再利用作为一个重要特征维度(“1”表示可再利用,“0”表示不可再利用)。

4)材质特征。在家庭生活中,不同垃圾有着不同的材质构成,在一定程度上,材质决定所属类别,例如纸张、玻璃、塑料、金属、橡胶、木材、棉织物、电子产品、化学品、肉类等。因此,选取9种主要的材质作为本文有效特征(“0”表示纸张,“1”表示玻璃,“2”表示塑料,“3”表示橡胶,“4”表示木材,“5”表示金属,“6”表示棉织物,“7”表示电子产品,“8”表示化学品,“9”表示肉类)。

5)形态特征。家庭生活垃圾的形态,一般分为固体(板凳)、液体(酱油)、气体(瓶罐中的氧气),它能够比较明显区分是否是湿垃圾或再利用垃圾。因此,选取形态作为本文有效特征。其中,(“0”表示固态,“1”表示液态,“2”表示气态)。根据选取特征维度,将家庭垃圾数据进行整理,如表1所示。

表1 家庭垃圾数据集格式

2.2.2 垃圾类别

根据国家现行的垃圾分类标准,本文采用“0”表示有害垃圾、“1”表示湿垃圾、“2”表示可回收垃圾、“3”表示其他垃圾。

3 实验

3.1 实验测评标准

本文采用正确率作为家庭垃圾分类模型的测评标准,其计算公式如式(4)所示。

(4)

式中,P为正确率,Nr为家庭垃圾测试集中预测分类正确的个数,Nc为家庭垃圾测试集中垃圾的总数。

3.2 实验数据

本文实验数据规模为4000条,主要来源是通过手工收集和网络爬虫等技术,收集国家省市县区环保领域网站以及淘宝、京东等家庭垃圾实体数据,并邀请环保专家学者进行数据去噪和数据清洗,并按照国家垃圾分类标准进行分类,将训练数据和测试数据保存在格式为UTF-8的文本中。

3.3 实验过程与分析

为了验证本文提出的基于决策树的家庭垃圾分类模型性能,本次实验平台采用Python语言,使用绘图工具库Matplotlib和机器学习知识库SKLearn,分别进行开放与封闭实验、5倍交叉实验和数据规模实验,进行综合评价。

3.3.1 实验一

为了能够进一步准确评估构建的决策树家庭垃圾分类模型,本次实验将家庭垃圾数据集按照每500条均匀划分为500条、1000条、1500条、2000条、2500条、2500条、3500条和 4000条等8组不同训练数据规模集合,进行正确率测试,实验结果图如图2所示。

图2 不同数据规模实验正确率

从图2可见,基于8次实验数据规模,对决策树模型的性能评估,正确率分别为高达82.26%、82.30%、82.35%、82.45%、82.75%、83.21%、83.34%和83.52%,随着数据数据规模的增加,正确率稳定于83.52%。

3.3.2 实验二

为了能够更加准确评估构建的决策树家庭垃圾分类模型,本次实验采用5倍交叉实验,将家庭垃圾语料库4000条数据集平均划分为5等份,其中4份作为训练数据,另外1份作为测试数据,实验结果如表2所示。

表2 5倍交叉实验结果

从表2可见,5倍交叉实验对基于决策树模型的性能评估,正确率分别为83.53%、83.41%、84.16%、83.21%和83.27%,本文采用平均值更加准确客观评价模型性能,正确率为83.52%。

3.3.3 实验三

本次实验采用开放测试与封闭实验,评估构建的基于决策树ID3算法的家庭垃圾分类模型的性能,测试结果如图3所示。

图3 开放实验与封闭实验对比图

由图3可知,封闭实验正确率为83.52%,开放实验的正确率为76.51%,两者相差7.01%,分析其差异主要在于进行开放测试过程中,存在未登词现象,从而导致正确率下降。

4 总结

针对当前家庭垃圾种类繁多,人工分类导致垃圾分类效率和正确率低的问题,本文通过构建家庭垃圾实体数据集,结合机器学习决策树算法建模,得到基于决策树的家庭垃圾分类识别模型,对家庭垃圾实体进行识别,能够有效地降低人力、物力、财力在环保领域的投入。本文语料数据集规模还不够广,家庭垃圾的有效特征还需进一步抽取优化。下一步,扩大垃圾实体种类,构建更多领域的垃圾分类模型,提取更多有效特征,能够更加精准、全面、快速地识别家庭垃圾的类别。

猜你喜欢
决策树正确率垃圾
垃圾去哪了
门诊分诊服务态度与正确率对护患关系的影响
那一双“分拣垃圾”的手
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
倒垃圾
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
基于决策树的出租车乘客出行目的识别