如何构建有效的人工智能生态系统

2019-07-12 02:27JoelYoung
计算机世界 2019年25期
关键词:开发人员机器流程

Joel Young

随着人工智能越来越普及,组织机构必须要让开发人员更容易释放人工智能的潜能。

在业务用例和垂直行业中,工程师和领导者正在持续讨论人工智能可以带来的价值——通常,这样的机遇似乎无穷无尽。它们可以预测你的兴趣、你认识的人或你的下一份工作。

但是,我们时常会忽略执行大型人工智能驱动系统时所必须采取的步骤。人工智能的部署在人才、计算资源和时间方面成本高昂。然而要充分释放人工智能创新浪潮的潜力,开发人员必须得到适当的授权和工具。事实上,成功实施人工智能所需的许多关键要素与算法细节关系不大,更多的是与之相关的工具和流程。

其中一些工具和流程是标准化中最常用的工作流程。它们可以像带有常见功能的电子表格那样简单,也可以像完整的人工智能开发人员平台那样复杂。当我们在LinkedIn上拓展我们的人工智能时,我们逐渐选择了后者,创建了我们自己的“生产机器學习”(简称“Pro-ML”)计划,以提高开发人员的工作效率。

以下是我们在人工智能工作中积累一些要点和提示。这些要点和提示对任何组织机构都是有益的。

清理数据,让洞察更加智能

部署人工智能的先决条件是要彻底了解自己的数据。人工智能模型的性能与其训练数据有着紧密的内在联系,因此清楚自己需要使用干净的数据这一点非常重要。然后,在选择要用于培训的数据集时,与业务合作伙伴协作以了解最终业务目标是有帮助的。例如,如果你想通过新闻Feed“增加参与度”,那么你是否是通过文章和帖子的点击率,或者对帖子的“点赞”或评论来衡量的呢?通过共同确定能够支持明确业务目标的最佳数据,你可以设计出更有效的模型。

选择训练数据时要考虑的另一个因素是如何标记。数据是否有足够的上下文直接输入模型,还是需要注释?就后者而言,创建“代码簿”或“运行手册”非常重要,因为它们会为数据的分类方式设定标准。我曾经与一组专家展开合作,尝试着寻求手工标记数据集,但是在我们评估成品时,我们意识到他们之间的一致率低于0.2。这意味着专家们对注释完全有着自己不同的意见,因此我们也没有理由期望使用这些数据进行训练的模型将会有令人满意的表现。如果专家无法就如何标记数据达成一致意见,那么指望CrowdFlower公司(现在更名为Figure Eight公司)这样的注释服务能够有效地进行标记也是不现实的。

关键点:非常清晰地预先确定数据标签标准可以消除歧义和棘手问题。

将功能标准化并让其具有可重复性

在LinkedIn的不同产品线中,不同的团队正在使用人工智能来解决不同的问题(如优化信息、确定应聘人员的适合度,并为今后的职业选择提供建议课程等)。每个团队会使用不同的管道让机器学习模型生成自己需要的功能,因为每个用例都是不同的。然而,在这些团队中许多功能又是非常相似的,因此我决定必须简化流程。

为此我们创建了功能市场Frame,通过让团队利用现有功能和知识的方式帮助解决此问题。Frame充当一个公共存储库,供团队共享、查找和管理各自机器学习模型的功能。其允许所有团队从同一标准化功能模板开始,然后根据特定管道或环境的需要进一步定制。当团队处理不同类型的项目时,Frame市场可以防止重复工作,节省时间和资源。

积极进行模型维护

模型会随着时间而退化,这是机器学习生命周期中不可避免的一部分。我们通过积极主动的模型维护方法在LinkedIn上克服了这个问题。从一开始,当我们建立模型时,我们就采用了能够让再训练更容易实现的方式来做这项工作。我们创建和测试的模型并不是一次性的,而是具有生产级品质且可进行代码审查的产品。当重新训练模型的时候,我们会继续贯彻让训练变得更容易这一理念。

此外,我们还为重新训练模型时制定了一个固定的时间表,以进行“预定的再培训”。这样有助于消除建模团队的一些认知负担,同时确保能够在模型完全停止工作之前发现所有的模型缺陷。同时,我们还投资开发了性能监测工具以确保模型始终处于健康状态。任何程度的监控都比没有监控要强。能够在某些指标超过预设阈值时发送警报的自动监控无疑会推动整个系统向着我们期望的目标又迈进了一步。

实施人工智能部署可能只需要某些组件,如GPU、模型、数据等,但是在一个大型组织机构中成功部署人工智能需要一个强大的支持工具包,以为开发人员提供支持。通过为开发人员配备人工智能最佳实践和工具,我们也在不断提升我们以最佳方式应用人工智能的能力。

本文作者Joel Young为LinkedIn公司负责机器学习基础架构团队的主管。

原文网址

https://www.infoworld.com/article/3401080/tips-for-building-an-effective-ai-ecosystem.html

猜你喜欢
开发人员机器流程
机器狗
机器狗
吃水果有套“清洗流程”
Semtech发布LoRa Basics 以加速物联网应用
未来机器城
违反流程 致命误判
本刊审稿流程
析OGSA-DAI工作流程
后悔了?教你隐藏开发人员选项