机器学习之半监督学习释义

2019-12-05 05:29MartinHellerCharles
计算机世界 2019年45期
关键词:视图亚马逊标签

Martin Heller Charles

在2017年写给亚马逊股东的信中,Jeff Bezos提到了亚马逊语音智能助理Alexa的一些有趣之处:

在美国、英国和德国,通过改进Alexa的机器学习组件以及使用半监督学习技术,在过去12个月里我们把Alexa的口语理解能力提高了25%以上。(利用这些半监督学习技术,实现相同精度所需的标记数据量减少了40倍!)

鉴于这些结果,在我们自己的分类问题上尝试半监督学习可能会很有趣。那么,什么是半监督学习呢?它有什么优缺点?我们怎样使用它?

什么是半监督学习?

顾名思义,半监督学习介于受监督学习和无监督学习之间。受监督学习采用带有正确答案(目标值)的标记过的训练数据。在学习过程之后,将得到一个经过调优的权重集的模型,这可以用于预测尚未标记的类似数据的答案。

半监督学习同时使用标记和未标记的数据来拟合模型。在某些情况下,比如Alexa的添加未标记的数据的确提高了模型的准确性。在其他情况下,未标记的数据可能会使模型更差。正如我将在下面所讨论的,在不同的数据特性条件下,不同的算法会有不同的缺点。

一般来说,标记数据需要花费金钱和时间。这并不总是问题,因为有些数据集已经有了标记。但是如果您有很多数据,其中只有一些是标记过的,那么半监督学习这种技术很值得一试。

半监督学习算法

半监督学习至少可以追溯到15年前,甚至更长;威斯康星州大学的Jerry Zhu在2005年写了一份文献调查。近年来,半监督学习再次兴起(不仅是在亚马逊),因为它降低了重要基准的错误率。

DeepMind的Sebastian Ruder在2018年4月写了一篇博文,介绍了一些半监督学习算法,即创建代理标签的算法:包括自我训练、多视图学习和自我整合。

自我训练使用模型自己对未标记数据的预测结果,将其添加到已标记的数据集中。实际上,这为预测的置信水平设置了一些阈值,通常为0.5甚至更高,高于该阈值时,相信预测结果并将其添加到已标记的数据集中。不断地重新训练这个模型,直到没有更多可信的预测结果为止。

这就回避了用于训练的实际模型的问题。和大多数机器学习一样,你可能会尝试每一个合理的候选模型,以期找到一个能很好工作的模型。

自我训练在一定程度上是成功的,可谓是好坏参半。最大的缺点是模型无法纠正自己的错误:例如,对异常值高度自信(但错误)的预测可能会破坏整个模型。

多视图训练在不同的数据视图上训练不同的模型,其中可能包括不同的特征集、不同的模型体系结构和不同的数据子集。多视图训练算法有很多,其中最著名的是三视图训练。本质上,可以创建三个不同的模型;每当两个模型同意一个数据点的标签时,该标签就会被添加到第三个模型中。与自我训练一样,当没有更多的标签被添加到任何一个模型时,就停止了。

自我整合通常使用具有多个不同配置的单个模型。在梯形网络方法中,对干净样本的预测结果被用作随机扰动样本的代理标签,目的是开发能够抵制噪声的特性。

Jerry Zhu在2007年的教程中還考虑了一些其他算法。这包括生成模型(例如,对每一类假设高斯分布的模型)、半监督支持向量机和基于图的算法。

云中的半监督学习

半监督学习正慢慢进入主流的机器学习服务。例如,Amazon Sagemaker Ground Truth使用Amazon Mechanical Turk对部分图像集进行手动标记和边界确定,并使用神经网络训练功能对图像集的其余部分进行标记。

类似的半监督学习方法可以用于其他类型的半监督学习,包括自然语言处理、分类和对多种服务的回归。但是,你必须为其中的大多数算法编写自己的链接代码。

Martin Heller是InfoWorld的特约编辑和审稿人。他曾是一名网络和Windows编程顾问,1986年至2010年间开发过数据库、软件和网站。

原文网址

https://www.infoworld.com/article/3434618/semi-supervised-learning-explained.html

猜你喜欢
视图亚马逊标签
亚马逊雨林在燃烧
亚马逊卖的最好的100款玩具
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
节俭又“浪费”的亚马逊
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
亚马逊推荐:TOP 25热销玩具清单