基于神经网络的建筑装饰石材智能分类研究
——以天然大理石分类为例

2023-03-25 03:12黄士真广西机电职业技术学院艺术设计学院讲师硕士
广西城镇建设 2023年2期
关键词:池化大理石石材

文_黄士真(广西机电职业技术学院艺术设计学院,讲师,硕士)

耿 栋(通讯作者)(广西壮族自治区自然资源遥感院,工程师,硕士)

建筑装饰石材纹理自然优美,品类多样,长期被广泛应用于室内外装饰中,主要可分为天然石材和人造石材两大类。天然石材根据岩石类型、成因及石材硬度高低不同,可分为花岗岩、大理石、砂岩、板岩和青石五类。人造石材根据生产材料和制造工艺不同,可分为聚酯型人造石材、水泥型人造石材、复合型人造石材、烧结型人造石材和微晶玻璃型人造石材等;根据骨料不同,又可分为人造花岗岩、人造大理石和人造文化石等。

传统的建筑装饰石材分类方法较多,依托于人工分类耗时且耗力。随着计算机硬件水平的提高,卷积神经网络也取得了飞速发展,在图像分类、语义分割、目标检测等图像识别任务中取得了巨大的成功,被广泛应用于各行各业。2012年ImageNet大规模视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),在图像分类任务中,AlexNet以压倒性的结果横空出世,极大地激发了全世界众多研究者的热情,更加成熟稳定的网络不断被推出,一次次打破ILSVRC图像分类任务的纪录。早在2017年,卷积神经网络SE-Net就已经达2.251%的Top5错误率,与此相比,人类的Top5错误率约为5.100%,卷积神经网络在图像识别领域早就超越了人类。

近年来将人工智能应用于室内设计领域的研究越来越多。何金彬使用不同的机器学习方法对家具板材进行分类识别,最高正确率达90%以上。罗霞使用卷积神经网络对19类家具进行分类识别,识别正确率达96%。目前,国内对石材智能分类识别的研究不多,2009年康利娟使用图像颜色对石材进行分类研究,受限于传统机器学习算法,整体效果仍存在提升空间。2019年彭伟航使用卷积神经网络InceptionV3模型对16类矿石分类,识别率达86%。

虽然装饰石材类别众多,花纹、颜色多种多样,但基于卷积神经网络对装饰石材识别的研究却很少。笔者通过网络收集、实地拍摄等手段收集整理867张大理石照片,制作了20类大理石分类数据集,将此数据集公开可以促进基于神经网络人工智能方法在建筑装饰石材分类领域的研究。随着卷积神经网络图像识别技术的飞速发展,将该技术引入建筑装饰石材识别中,并将成果与APP、小程序等新媒体相结合,对企业具有现实效益,且对推广建筑装饰石材的了解与认识具有重要意义。

基于上述研究,本文将卷积神经网络图像识别技术应用于建筑装饰石材分类中,因建筑装饰石材种类繁多,拟以天然大理石装饰板材为例,通过训练及测试最终实现天然大理石装饰板材的智能分类,并进一步证明扩展应用于建筑装饰石材分类的可能性及可行性。

一、智能分类应用于天然大理石装饰板材识别的价值

天然大理石资源分布广泛,易于加工成装饰板材,具有较高的抗压强度和良好的物理化学性能,吸水率低,耐久、耐磨。同时,天然大理石装饰板材的花纹优美自然、千变万化,有山水型、云雾型、图案型(螺纹、柳叶、文像、古生物等)、雪花型等,按颜色可分为白、黄、绿、灰、红、咖啡、黑色七个系列,适合搭配各种室内装饰风格。随着经济的发展,大理石应用范围不断扩大,销量不断增加,受众多客户青睐。随着大理石开采规模扩大、工业化加工、国际性贸易,大理石装饰板材大批量地进入建筑装饰装修业。

但同时,也正因天然大理石装饰板材品类、花纹、颜色繁多,使得其分类难度较高。据不完全统计,仅国产大理石品种便多达400余种,在分类与识别过程中需要较高的专业知识,而企业在对大理石装饰板材分类的过程中也耗时耗力。一方面,对于普通消费者而言,在选购大理石装饰板材时眼花缭乱,对其品类的了解与认识大多依托于商家或网络之言,识别的方法和途径相对有限,难以快速、正确地对大理石装饰板材进行识别,或是当青睐于某款大理石装饰板材时无法快速正确查询出是何种品类,难免陷入困境。另一方面,对于装饰行业从业者、环境艺术设计类专业的学生及石材爱好者而言,面对种类繁多的大理石装饰板材,也亟须一个方便快捷的途径帮助其快速认知。随着技术的进步和信息化程度的提高,将智能分类方法应用于大理石分类识别,在具备一定正确率的基础上,将成果与APP、小程序等新媒体相结合,为商家、消费者、装饰行业从业者、学生及爱好者提供便捷的大理石识别与分类服务,可帮助用户快速了解并识别大理石,甚至在生活中随时随地通过手机APP扫描大理石装饰板材照片便可快速获得相应品类的知识,此举具有一定的现实意义及科普价值,有利于促进天然大理石装饰板材的推广与应用。

二、卷积神经网络基础知识

卷积神经网络通过卷积核在特征图上按步长滑动,提取不同空间位置上的特征,将非线性激活函数引入非线性,再通过池化层提取主要特征并进行特征降维。卷积神经网络经过不断堆叠卷积——激活——池化结构,构建深层网络结构,通过层次化的计算,逐步提取图片的主要特征。层次化的结构也使卷积神经网络具有平移不变性、旋转不变性、尺度不变性等特点,能较好地解决图像数据所具有的多视角、多尺度、目标物遮挡、光照条件差异、目标物类内差异等问题,是图像识别领域最主流的研究方法。

图1较为直观地展示了卷积神经网络的主体结构及其运作方式。RGB三通道图片即为卷积神经网络的输入层,通过第一次卷积计算,初步提取原始输入数据的特征,得到多通道的特征图;所得多通道特征图经过非线性激活函数激活,获得更多的非线性表征,然后传入池化层;池化层接收经激活函数激活后的特征图,进一步进行池化操作提取主要特征,压缩特征图的纬度,所得到的特征图在经过下一轮的卷积激活池化,最后通过输出层输出结果。

图1 卷积神经网络结构示意图

卷积核在输入数据上按一定的步长滑动,每次提取卷积核相对应位置的与卷积核尺寸相同大小的局部输入数据,提取出来的局部输入数据与卷积核上相对应位置的值计算乘积之和,得到该局部输入数据经卷积计算所输出的特征,直到输入数据中所有的值都被卷积计算,结束卷积操作,得到一张由卷积操作提取的特征图,如图2所示。

图2 卷积操作示意图

激活函数也是卷积神经网络不可缺少的重要组成部分。非线性激活函数,将非线性特性引入到卷积神经网络之中,大大增强了卷积神经网络的学习能力,使得网络能够通过有效地学习,拟合任意复杂的非线性函数,解决复杂的现实问题。本文使用的激活函数为ReLU激活函数。

ReLU函数的全称为Rectified linear units,中文名称为线性修正单元,是如今应用最为广泛的激活函数。其数学公式为:

relu(x) =max(0,x)

其函数图像、导数图像如图3、图4所示。

图3 ReLU函数示意图

图4 ReLU函数导数示意图

池化层是卷积神经网络的一个重要组成部分,本质上是一种降采样操作,用以减少特征纬度,降低网络的计算量。池化的实现和卷积相似,通过池化核(一般其尺寸为2×2)在输入数据上按一定的步长(一般步长为2)滑动,提取特征图的主要特征,减小特征图的尺寸(长宽降为原特征图的一半)。通过池化提取特征的方式主要有两种:最大池化(max-pooling)和平均池化(average-pooling)。最大池化提取与池化核对应的局部特征的最大值作为输出,而平均池化的输出为该区域特征值的均值。相较于平均池化,最大池化可以提取出输入数据的纹理特征,是使用最多的池化方式。

卷积神经网络的计算可以分为两大部分:前向传播和反向传播。前向传播也被称为前向计算,将经过初始化的原始数据输入参数初始化后的网络中,卷积网络通过卷积——激活——池化,逐步学习和提取输入数据的主要特征,最后输出层与原始标签对比,通过损失函数计算损失。反向传播也被称为反向求导,从后向前逐步计算神经网络各层的参数对损失函数的偏导,进而更新参数,减小损失。两大部分交替进行,直到损失符合预设标,完成卷积神经网络的训练,训练完的卷积神经网络就可被用于图像的智能识别。

三、数据集的制作与处理

由于目前缺少建筑装饰石材分类的公开数据,集本次实验用到的大理石装饰板材图像数据,均为笔者通过网络收集、实地拍摄等手段所收集整理,共20类867张照片。将收集的大理石照片,分类存放入对应的文件夹,随机拆分为训练数据集和测试数据集,使用675张大理石图片训练、191张大理石图片做测试验证。数据集具体类别及数量,详见表1。

表1 数据集中标注的大理石装饰板材类别及数量

四、实验过程与结果分析

(一)网络结构介绍

本文使用ResNet(残差神经网络)进行大理石识别。ResNet是卷积神经网络发展史上的大里程碑,该网络提出的identity shortcut connection(恒等快捷连接),将卷积神经网络推向史无前例的深度。

identity shortcut connection具体实现如图5所示,通过恒等映射,将上层输出直接跳过一个或几个隐藏层,再将恒等映射的输出和经隐藏层变换的输出逐元素相加,通过不断的堆积该结构,构成了ResNet网络的主体。

图5 恒等快捷链接结构图

本文使用ResNet-18网络进行训练,所谓ResNet-18,即层数为18层的ResNet,结构如图6所示。每两个identity shortcut connection组成一个Stage,共4个Stage组成网络的主体结构;Input stem由一个7×7步长为2的卷积层和3×3步长为2的最大池化层组成;Output由自适应平均池化层和全连接层组成。

图6 ResNet-18网络结构图

分辨率为224×224的图片输入ResNet-18卷积神经网络中,经过Input stem获得56×56×64的特征图,经过4个Stage,获得7×7×512的特征图,经过自适应平均池化层,获得1×1×512的特征向量,经过全连接层,获得“1×1×种类数”的特征向量,再通过softmax激活函数,将“1×1×种类数”的特征向量转化为概率。在本次实验中,最终获得1×1×20的特征向量,通过softmax激活函数,转化为20类的概率,概率最大的即为预测种类。

(二)训练平台及训练过程

本文使用的实验平台为win10系统,处理器为英特尔I5-9400F,显卡为Nvidia RTX2060,使用Pytorch深度学习框架进行网络的编译训练。输入数据统一调整为224×224大小,使用随机的水平和竖直翻转,0到30度的随机旋转进行数据增强,优化方法为带动量的SGD,初始学习率为0.001,总epoch为25,在第5和第15个epoch时学习率乘以0.1。评价准则为正确率,公式如下:

acc=right_num/all_num

其中,right_num为分类正确的图片数,all_num为全部图片数。

由图7可以看出,随着训练的进行,ResNet-18训练集Loss持续降低,在第25个epoch时接近于0,而由图8可以看出测试集Loss在前14个epoch持续降低,随后在趋于稳定,不再下降,继续训练已没有意义。由图9可以看出随着训练的进行,训练集正确率持续上升,正确率接近100%,而由图10可以看出验证集正确率在第14个epoch处趋于稳定,最高正确率约为99.500%。

图7 ResNet-18训练集Loss图

图8 ResNet-18测试集Loss图

图9 ResNet-18训练集正确率图

图10 ResNet-18测试集正确率图

(三)实验结果分析

经训练,得到对20类大理石装饰板材进行分类识别的深度学习模型,在测试集上测试,测试集共包含191张大理石装饰板材照片,其中,190张分类正确、1张分类错误,模型整体正确率约为99.5%。

对20类大理石装饰板材照片分类别进行测试,正确率如表2所示。

表2 大理石装饰板材分类别测试结果

20类大理石,除爵士白错分类一张照片,其余19类全部正确分类,其中,误分类为将爵士白分类为鱼肚白。爵士白和鱼肚白较为相似,受拍摄角度、光照等条件的影响,有些照片确实难以区分,将爵士白误分类为鱼肚白或鱼肚白误分类为爵士白是较难避免的。

五、结语

基于神经网络的智能分类方法飞速发展,其开始在越来越多的领域发挥独有的价值,但是目前对基于神经网络人工智能方法的建筑装饰石材分类研究较少,主要原因是缺少建筑装饰石材的公开数据集。装饰石材类别众多,花纹、颜色多种多样,因光照拍摄角度等原因,导致人工识别困难,制作数据集需要较高的专业知识。本文收集了20类共867张常见大理石装饰板材照片,制作了大理石装饰板材分类数据集,并将此数据集公开以促进基于神经网络人工智能方法在建筑装饰石材分类领域的研究,希望将深度学习方法应用于大理石分类中,使室内装饰领域也能搭上人工智能这辆飞速发展的快车。实验结果表明,CNN可识别图片中存在的大理石,在20类大理石数据集上,识别准确率高达99.500%,具有较高的应用价值。但是,此方法一张照片只能识别一个类别,不能适用于实际场景中同时使用多种大理石组成的复杂图片。今后,将继续使用目标检测方法对大理石进行识别,使其具有更高的应用价值。通过进一步扩充数据集,支持更多的建筑装饰石材种类,还会将智能分类方法集成到小程序或APP,使用者通过拍照上传,就能方便快速认识大理石,以达到借助新媒体扩大大理石在建筑装饰领域使用面的目的。

猜你喜欢
池化大理石石材
基于Sobel算子的池化算法设计
卷积神经网络中的自适应加权池化
设施蔬菜病害识别中的CNN池化选择
大理石
2020年《石材》目录
为何石材难以大量飞入寻常百姓家
如何让大理石呈现更好的装饰效果
石材洞采风险预防
2019年中国石材贸易仅86亿美元,再次表现深幅下挫——中国石材贸易已经失去多个世界石材第一
基于卷积神经网络和池化算法的表情识别研究