什么是深度强化学习:人工智能和深度学习的下一步

2018-03-30 11:28JamesKobielus杨勇
计算机世界 2018年10期
关键词:开发人员代理架构

James Kobielus 杨勇

强化学习非常适合于监督学习或者无监督学习技术不能胜任的自主决策环境。

在人工智能领域,强化学习一直处于小众地位。但是,强化学习过去几年中已经开始在很多人工智能项目中发挥出了很大的作用。其最佳应用点是在环境情境化决策场景中计算出代理应采取的最优措施。

强化学习使用试错方法来最大限度地实现算法奖励函数,因此,非常适合IT运营管理、能源、医疗、商业、金融、交通运输和金融等领域的很多自适应控制和多代理自动化应用。它被用来在机器人、游戏和仿真等传统关注的领域中训练人工智能,也用于边缘分析、自然语言处理、机器翻译、计算机视觉和数字助理等新一代人工智能解决方案。

强化学习也是物联网自主边缘应用开发的基础。对于工业、交通运输、医疗和消费类应用,大部分边缘应用开发都涉及到在动态环境下,开发出能够在不同程度自治情形下运行的人工智能机器人。

强化学习是怎样工作的

在这样的应用领域,由于缺少预先存在的“完全真实”的训练数据集,边缘设备的人工智能大脑必须依靠强化学习,目的是最大限度地实现累积奖励函数,例如,根据规范中包含的一组标准来装配制造组件。这与其他类型的人工智能学习方式形成了对比,其他类型的人工智能通过(例如有监督学习)最小化基于完全真实数据的算法损失函数,或者(例如无监督学习)最小化数据点之间的距离函数来进行学习。

然而,这些人工智能学习方法并不一定是相互孤立的。最有趣的人工智能发展趋势之一是强化学习与有监督和无监督学习在更高级应用中的融合。人工智能开发人员在应用中混合了这些方法,因为没有一种单一的学习方法能满足需求。

例如,如果没有带标签的训练数据,监督学习本身是无用的,自动驾驶等应用中经常没有带标签的数据,每一次环境的瞬间变化基本上都是没有标签的,也是唯一的。同样的,无监督学习——使用了聚类分析来检测传感器馈入数据和其他复杂的无标签数据中的模式,并不适合用于确定智能端点在实际决策场景中应采取的最佳措施。

什么是深度强化学习

还有深度强化学习,在这种前沿的技术中,自治代理使用强化学习的试错算法和累积奖励函数来加速神经网络设计。这些设计对依赖于有监督和/或无监督学习的人工智能应用有着强大的推动作用。

深度强化学习是人工智能开发和训练流水线自动化的核心研究领域。深度学习、机器学习和其他人工智能模型的设计人员在确定各种架构、节点类型、连接、超参数设置,以及其他选项时,使用深度强化学习驱动的代理能够帮助他们迅速弄清楚这些设置的优缺点。

例如,研究人员使用深度强化学习,快速确定哪一种深度学习卷积神经网络(CNN)架构最适合解决特征工程、计算机视觉和图像分类等应用中的各种难题。人工智能工具使用通过深度强化学习得出的结果,自动生成最优CNN,针对具体任务,可以使用TensorFlow、MXNet和PyTorch等深度学习开发工具。

在这方面,令人鼓舞的是出现了强化学习开发和培训的开放框架。当你研究深度强化学习时,表中列出的强化学习框架可以供你参考,这些框架与TensorFlow以及其他深度学习和机器学习建模工具有接口,利用并扩展了这些得到广泛应用的工具。

人工智能开发人员需要的强化学习技能

展望未来,人工智能开发人员自己也应该沉浸在这些以及其他框架中实现的各種强化学习算法中。还需要加深对多代理强化学习架构的理解,其中很多架构充分利用了已经建立起来的博弈论研究成果。还应该熟悉深度强化学习,将其作为一种工具来识别计算机视觉应用中与“模糊”这种攻击方法相关的安全漏洞。

猜你喜欢
开发人员代理架构
基于FPGA的RNN硬件加速架构
功能架构在电子电气架构开发中的应用和实践
Semtech发布LoRa Basics 以加速物联网应用
代理圣诞老人
代理手金宝 生意特别好
LSN DCI EVPN VxLAN组网架构研究及实现
复仇代理乌龟君
一种基于FPGA+ARM架构的μPMU实现
后悔了?教你隐藏开发人员选项
一个村有二十六位代理家长