机器学习：每一种方法和技巧的适用时机

2018-01-15 02:55BobViolino

计算机世界 2018年46期

关键词：欺诈决策树机器

Bob Violino

机器学习到底能做些什么？

我们将介绍适合你的各种方法和技巧。

机器学习对你来说可能已经如雷贯耳了，它是人工智能的一个子集。而机器学习到底能做些什么呢？

该技术包括很多方法和技巧，每种方法和技巧都有一些很好的应用情形。企业在计划投资机器学习工具和基础设施之前，最好先详细了解一下它们。

监督式学习

如果你知道想要机器去学习什么，那么监督式学习是理想的选择。你可以喂给它大量的训练数据，检查输出并调整参数，直到获得预期的结果。随后，可以通过让机器从一组以前从未见过的验证数据中能预测出什么结果，来检查机器学到了什么。

最常见的监督式学习任务包括分类和预测，即“回归”。

监督式学习方法可以用于根据过去有关财务业绩的信息来确定个人和企业的财务风险。基于以前的行为模式，这种方法能很好地了解客户的行为方式以及他们的偏好。

例如，网络贷款市场Lending Tree公司的战略和分析副总裁兼主任Akshay Tandon介绍说，该公司正在使用来自DataRobot的自动化机器学习平台来为其客户定制体验，并基于他们过去的行为来预测客户的意图。

通过预测客户意图——主要是通过案源计分（lead scoring），Lending Tree公司能够区分出谁只是在看看利率，而谁实际上是想要贷款，并准备申请贷款。使用监督式学习技术，它建立了一种分类模型来定义案源结束的概率。

无监督式学习

无监督式学习使得机器能够研究数据集并识别链接不同变量的隐藏模式。这种方法可以用于仅根据数据的统计特性把数据分组到聚类中。

无监督式学习一种很好的应用，是用于执行概率记录链接的聚类算法，这种技术提取数据元素之间的链接，并在其基础上识别个人和企业以及他们在物理和虚拟世界中的连接关系。

LexisNexis风险解决方案公司利用分析技术来帮助客户预测和管理风险，该公司技术副总裁Flavio Villanustre介绍说，如果企业需要集成来自不同源和/或跨不同业务部门的数据，以便为客户建立一致和全面的视图，那么这种技术尤其有用。

咨詢公司剑桥咨询（Cambridge Consultants）的机器学习专家Sally Epstein解释说，无监督式学习可以用于情绪分析，能够根据个人在社交媒体上的帖子、电子邮件或者其他书面反馈来识别个人的情绪状态。该公司看到越来越多的金融服务企业使用无监督式学习来深入了解客户满意度。

半监督式学习

半监督式学习混合了监督式和无监督式学习。通过标记一小部分数据，训练者给机器提供一些线索，提示它应该怎样对数据集的其余部分进行聚类。

半监督式学习可以用来检测身份欺诈，以及其他用途。Villanustre指出，好在欺诈行为并不像非欺诈性行为那么频繁，因此可以把欺诈行为看成是合法行为领域中出现的“异常”。尽管如此，欺诈行为仍然存在，半监督式的异常检测机器学习方法可以用于对这类问题的解决方案进行建模。这种类型的学习被用于识别网上交易中的欺诈行为。

Epstein说，当有标记和未标记的数据混合在一起时，也可以使用半监督式学习方法，这在大型企业环境中比较常见。她说，亚马逊通过对混合有标记和无标记数据的人工智能算法进行训练，增强了对Alexa服务的自然语言理解能力。她说，这有助于提高Alexa响应的准确性。

强化学习

通过强化学习，可以让机器与其所在的环境进行交互（例如，把传送带上有缺陷的产品推到垃圾箱中），并且按照企业的要求完成任务后，对其进行奖励。通过自动计算奖励，可以让机器自己花时间去学习。

强化学习的一种应用情形是对零售店的服装和其他物品进行分类。

咨询公司德勤（Deloitte）的分析师David Schatsky专注于新兴技术和商业趋势，他指出，一些服装零售商已经开始尝试机器人等新技术，以帮助对服装、鞋子和饰品等物品进行分类。

Schatsky说，机器人使用强化学习（以及深度学习）来计算在抓取物品时应该用多大的力，以及怎样恰好地抓取货架上的这些物品。

强化学习的一种变体是深度强化学习，它非常适合于自主决策，在这种情况下，只采用监督式学习或者无监督式学习技术并不能完成工作。

深度学习

深度学习执行无监督式或者强化学习等类型的学习。从广义上讲，深度学习模仿了人们学习方式的某些方面，主要是通过使用神经网络来越来越细致地识别数据集的特征。

Schatsky说，以深度神经网络（DNN）形式出现的深度学习技术，已经被用来加速药物发现过程中的高含量筛选工作。它涉及到应用DNN加速技术来大幅度缩短处理多副图像的时间，同时从模型最终学习的图像特征中提取出更深入的信息。

这种机器学习方法还有助于很多企业打击欺诈，通过自动检测不法行为来提高检测率。

深度学习也可以用于汽车工业。Schatsky介绍说，有一家公司开发了一种基于神经网络的系统，可以及早发现汽车的问题。该系统能够识别噪声和振动，并且利用偏离规范的任何偏差来解释故障的性质。它可以成为预测性维护的一部分，因为它能够判定汽车任何运动部件的振动，并且可以发现汽车性能的微小变化。

机器学习技术

神经网络

神经网络旨在模仿人脑中神经元的结构，每个人工神经元都与系统内的其他神经元相连接。神经网络按层排列，一层的神经元把数据传递给下一层的多个神经元，如此继续。最终，数据到达输出层，在此，网络给出解决问题、识别对象的最佳猜测，等等。

神经网络在各行各业的应用案例：

·Schatsky介绍说，在生命科学和健康护理领域，它们可以用来分析医学图像以加速诊断过程和药物发现过程。

·在电信和媒体领域，神经网络可以用于语言翻译、欺诈检测和虚拟助理服务。

·在金融服务领域，它们可以用于欺诈检测、投资组合管理和风险分析。

·在零售业中，它们可以用来缩短结账排队长度，实现顾客体验的个性化。

决策树

决策树算法旨在通过发现属性相关的问题来对项目进行分类，这有助于决定把项目放在哪个类中。树中的每个节点都是一个问题，分支会带来项目相关的更多问题，而叶子是最终的分类。

决策树的应用情形包括为客户服务、定价预测和产品规划构建知识管理平台。

商业和技术咨询公司SPR的首席数据科學家Ray Johnson评论说，当保险公司根据可能出现的风险来深入分析需要哪种类型的保险产品并调整保费时，可以使用决策树技术。通过把天气相关的损失数据与位置数据相叠加，它能够根据提交的索赔和支付金额来建立风险类别。他说，然后，它可以根据模型覆盖范围来评估新应用，以提供风险类别和可能的财务影响。

随机森林

必须对单个决策树进行训练才能提供准确的结果，而随机森林算法则采用一组随机创建的决策树，这些决策树基于不同的属性集进行决策，并允许它们对最受欢迎的类进行投票。

Epstein说，随机森林是在数据集中寻找关系的通用工具，而且训练起来也很快。例如，大量的垃圾电子邮件长期以来一直是个问题，不仅对用户来说是这样，对于互联网服务提供商也是如此，他们不得不处理服务器越来越高的负载。她说，为解决这一问题，已经开发出了从正常电子邮件中过滤掉垃圾邮件的自动化方法，使用随机森林来快速准确地识别出不想要的电子邮件。

随机森林的其他用途包括通过分析患者的病历来识别疾病，检测金融欺诈行为，预测呼叫中心的呼叫量，以及通过购买某一股票来预测利润或者损失。

聚类

聚类算法使用K均值、均值平移和期望值最大化等技术，根据共享或者类似的特征对数据点进行分组。这是一种可以应用于分类问题的无监督式学习技术。

Schatsky说，当需要细分或者分类时，聚类技术特别有用。这方面的例子包括根据不同的特征对客户进行细分以便更好地分配营销活动、向某些读者推荐新闻文章，以及落实规章制度等。

聚类还能够有效地发现复杂数据集中的分组，而人眼并不能一眼看出这些分组。Epstein说，这方面的例子包括对数据库中类似的文档进行分类，以及从犯罪报告中识别犯罪热点等。

关联规则学习

关联规则学习是推荐引擎中使用的一种无监督式技术，用于查找变量之间的关系。

这是很多电子商务网站上“买X的人也会买Y”推荐的支撑技术，怎样使用这类技术的例子很常见。

Johnson说，一种特定的应用情形是希望促进额外销售的特色食品零售商。他会使用这种技术来分析客户购买行为，为产品庆祝活动、运动队等提供特殊的罐头和包装。关联规则技术能够揭示客户何时何地购买了自己最喜欢的产品组合。

Johnson说，利用过去采购的信息和时间顺序，公司可以主动地创建奖励计划，并提供特殊的定制产品来促进今后的销售。