学贯中西(6):阐述ML分类器的工作流程

2022-04-21 09:24高焕堂
电子产品世界 2022年4期
关键词:八大山人分类器画作

高焕堂

1天字第一号MlL模型:分类器

在上一期里,曾经在Excel 画面的幕后,设计了一个分类器(Classifier)模型,将各<诗句>归类到各自所属的<作品>。此时,把一个作品名称(如静夜思),当作一个类(Class )。于是,这种ML模型,就通称为:分类器。在ML(机器学习)领域中,分类器就是天字第1号模型。

在本专栏的前面几期里,曾经介绍过分类器的幕后实践技术。在本期里,就来把去年介绍过的技术,与华夏的艺术、文化创作,连结起来,让您能够贯通ML的知识体系及其实现技术,请您回忆上一期的范例(见图1)。

这是ML模型的基本技能,它透过机器学习而记住了<诗句>与<作品名称>之间的关系,也就是分类关系。于是我们就可以把某个<诗句>输入给这模型,由它来预测(推论)出其所属的<作品名称>(参见图2)。

这是典型的ML分类器模型。我们可以建立更多这样的模型,来表达各式各样的事物之间的复杂关系。

分类器的学习流程

刚才已经说明了,分类器是一种AI模型。顾名思义,它经过机器学习,就能在人们的指引下,认识不同种类的图像,或其他事物。换句话说,它就具有分辨出不同种类事物的智慧能力。现在来举例说明其学习流程。2.1收集数据

于此,叙述分类器的工作(学习)流程。例如,它就具有分辨出八大山人与毕加索,两种不同画作的风格。首先,收集两个类的画作图像,如图3。

这些图像是用来训练一个分类器模型。训练完毕之后,它就具有分辨出八大山人与毕加索,两种不同画作的风格。由于分类器是属于监督式学习( Supervisedlearning ),我们先进行分类,并且对各类来贴上标签( Label)。贴上类的标签:[1]代表<Picasso>类,而以[0]代表<八大山人>类(见图4)。

分类器是属于监督式学习( Supervised learning ) ,我们先进行分类,并且对各类来贴上标签( Label )。贴上类的标签:[1]代表<Picasso>类,而以[0]代表〈八大山人〉类。接下来,就来定义这个分类器的架构,包括它的各项参数来配合这些画作图像的大小(即多少像素)。

现在,训练数据(Training data)准备好了,模型也定义好了,就可以展开〈机器学习〉了;也就是,开始训练这个分类器模型。

2.2展开机器学习

·步骤1:拿第1笔数据来训练

首先从Picasso类取出一笔数据(即一张画作),以X表示之,输入给分类器。同时,把Picasso类的标签,提供给分类器,做为目标值(Target),简称:T值(见图5)。

此时,分类器模型就进行推论(Inference ):从X 计算出Z。并且计算出Z与T的误差。也就是:T-Z = Error (見图6)。

然后,依据这项误差值(即Error)来更新这分类器的参数,如图7所示。于是,更新了分类器的参数,让分类器的智慧提升了。此时已经输入第1笔数据,并对分类器进行1次迭代(Iteration)的训练了。

·步骤2:拿第2笔数据来训练

现在从八大山人类取出一笔数据(即一张画作),以X表示之,输入给分类器。同时,把八大山人类的标签, 提供给分类器,做为目标值(T)。此时,分类器模型就进行推论:从X计算出Z,如图8所示。

接下来,就计算出Z与T的误差。也就是:T-Z =Error。然后,依据这项误差值(即Error )来更新这分类器的参数(见图9)。

更新了分类器的参数,让分类器的智慧提升了。此时已经输入2笔数据,并对分类器进行2次迭代的训练了。

·步骤3:继续拿下一笔数据来训练

这是重复〈步骤1〉的学习流程,从Picasso类取出另一笔数据(即另一张画作),以X表示之,输入给分类器。同时,把Picasso类的标签,提供给分类器,做为目标值。此时,分类器模型就进行推论,计算出Z 和误差值(Error)。最后,依据这项误差值来更新这分类器的参数。更新了分类器的参数,让分类器的智慧提升了。此时已经输入3笔数据,并对分类器进行3次迭代的训练了。

·步骤4:继续拿下一笔数据来训练

这是重复<步骤2>的工作流程,但是从八大山人类别取出另一笔数据(即另一张画作),来输入给分类器。同时,把八大山人类的标签,提供给分类器,做为目标值(T)。此时,分类器模型就进行推论,计算出Z和误差值。最后,依据这项误差值来更新这分类器的参数, 让分类器的智慧提升了。此时已经输入4笔数据,并对分类器进行4次迭代的训练了。

·步骤5:继续重复循环下去

然后,重复循环下去,直到Error趋近于0为止。以上是典型的机器学习流程,其中每1次迭代都各输入1笔数据给分类器去进行学习(也是训练),也更新1次模型参数。这样地重复循环下去,就会逐一地把各笔数据(画作)都输入给分类器去学习了。当我们把全部数据都输入给模型去学习了,就称为:学习一回合(Epoch )。

如果学习了一回合之后,发现其误差值(Error)还蛮大的(不接近于0),表示学习得还不够好。于是继续重复下去,也就是进行另一回合的学习,重复循环下去,直到Error趋近于0为止。一般而言,机器学习都需要进行数千或数万,或更多回合的学习(训练)过程, Error才会趋近于0。

3学习的效果

于此,使用空间对应(Space-mapping )的观念来解释之。输入空间(即X空间)包含全部数据(画作),经由推论(计算)之后,会对应到输出空间(即Z空间)。这种对应过程,就通称为:模型推论,如图10所示。

经过数百或数千,或更多回合的学习之后,这分类器就能把这些画作,对应(Mapping )到它们各自所属的类了。

一旦机器学习完成,图11里的关系建立起来了。计算机(ML模型)就观察画作的风格,而推论出该幅画作是来自毕加索或是来自八大山人了。

4结语

前面提到了,分类器是ML领域的天字第一号模型。为什么它具有这样重要的角色呢?请您仔细领会一下图11里的X(空间)与Z(空间)的关系。基于这项关系,MIL模型就观察画作的风格(结果),而推论出该幅画作是来自毕加索(原因)或是来自八大山人了。

于是,X空间里的事物或其特征,是我们所观察到的结<果>。而Z空间里所表达的却是这些结果幕后隐藏的原<因>。一旦能找到眼前(现实)结果幕后藏的真正的因,我们就能针对此<因>而对症下药,就可以改变眼前的<果>了。这称为:溯因( Abductivereasoning)推理。君不见,许多人类的科学性创新,大多来自于这项溯因(又称果因)推理能力。请您期待本专栏的继续解说ML的更多魅力。

猜你喜欢
八大山人分类器画作
建构八大山人研究的知识谱系
——评朱良志先生《八大山人研究》(第二版)
清·八大山人《湖山泛舟图》
八大山人作品欣赏
BP-GA光照分类器在车道线识别中的应用
“我心中的航天梦”画作展
“我心中的航天梦”画作展
行走的时髦画作
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
弗利尔美术馆解谜八大山人