人工智能战斗正在升级:这是IT巨头们的下一步行动

2017-06-28 01:14PeterSayer
计算机世界 2017年25期
关键词:机器语音神经网络

Peter+Sayer

谷歌、IBM、微软和亚马逊网络服务都将人工智能功能置入到他们的软件堆栈中 IT领域的人工智能竞争非常激烈,微软和谷歌在五月份各自的开发人员大会——Build和I/O上都展示了适用于企业的、功能强大的、始终可用的人工智能工具。 这不仅仅涉及到工作:现在人工智能软件的象棋、围棋,以及一些老的视频游戏比任何人类玩得都好,甚至汽车也比我们很多人开得好。尽管这些超人类的表现还只是体现在很少的领域中,也要得益于数十年人工智能研究的应用——越来越多的研究,例如Build和I/O,让人工智能脱离实验室,进入到现实世界中。 同时,像苹果Siri、微软Cortana、Amazon.com的Alexa和三星电子的Bixby等虚拟助手的人工智能语音技术尽管表现得还没有远超人类,但它们根本不需要超级计算机那么强的计算能力。企业可以在这些边缘进行竞争,例如开发Alexa的“技能”,让Amazon Echo所有者与公司进行互动,而不用致电其呼叫中心,或者使用各种基于云的语音识别和文本语音转换“即服务”产品,开发自己成熟的自动呼叫中心。 人工智能的一些最早的工作旨在以计算机能够处理和推理的方式来明确地模拟世界人类知识——即使是不能真正的理解。这导致了第一个基于文本的“专家系统”的商业化。这些早期的系统并不是像人类那样通过专业知识,或者在职业生涯中通过经验学习而实现的。相反,首先是经历了人类对其他人类艰难的采访过程,把他们的隐性知识提炼成明确的规则之后,把经验灌输给人工智能。 近年来人工智能研究取得的最大进步,最适合企业应用的是让机器学习从经验中获取知识和理解。让我们看看机器学习进步的直接结果——去年,由谷歌DeepMind子公司开发的一个程序AlphaGo,令人震惊地以4-1击败了曾18次获得世界围棋冠军的李世石。 机器学习开始于神经网络的建立——这种计算模型模拟神经细胞或者神经元在我们身体中传播信息的方式。我们的大脑含有大约1000亿个神经元,每个神经元与大约1000个其他神经元相连接。人工神经网络模拟这些细胞的集合,每一个都有自己的输入(输入数据)和输出(该数据的简单计算结果)。神经元按照层来组织,每一层从前一层获取输入,并将其输出传递给下一层。当网络正确地解决问题时,对于能正确预测答案的神经元的输出,提高其权重,通过这种方式,网络得以学习。 分层越多的网络会越准确,也就是所谓的深度神经网络。早期的时候,它们对计算能力的要求非常高,很难满足其要求。它们之所以没有局限于研究,是由于GPU的并行处理能力——以前主要用于显示游戏,而不是参与其中。 晶体管本身正是这样做的 这些进步为企业提供了处理大数据问题的新方法——但是在某种程度上,要开发出所需的技术本身就是一个大数据问题。 谷歌工程总监Ray Kurzweil在3月份的Cebit全球大会上向与会者介绍说,我们人类所擅长的是能从很少的几个例子中进行学习。 他说:“如果一个重要人物或者你的老板和你谈过一两次,那么,你就会从中学到一些东西,这就是人类智慧的力量。但是,在深度学习领域,有一句话是‘生命从十亿个例子开始。” 换句话说,深度神经网络等机器学习技术需要观察一个任务十亿次才能做得比人类更好。 为任何事情找到十亿个例子本身就是一个问题:AlphaGo的开发人员在互联网上找到了数千个人类玩家的围棋记录,以支持其13层神经网络的初步训练,但是随着它变得越来越强,让它与其他版本的自己进行对弈,产生新的比赛数据。 AlphaGo采用两种类型的机器学习方法来赢得比赛。使用监督学习方法分析人类的比赛,把神经网络应该学习到的响应标记输入数据——在个例子中,标记是走出能够致胜的一步棋。 然后,采用另一种称之为强化学习的方法,让AlphaGo自己和自己比赛。目标仍然是赢得比赛,但没有了输入数据。使用第二神经网络,让AlphaGo自己去产生并评估每一步棋,在第二神经网络中,作为监督学习网络,神经元开始时有相同的权重,但是随着它发现超过人类的策略后,而逐渐修改这些权重。 第三种方法,即无监督学习,在商业中比较有用,但在游戏比赛中不太实用。在这种模式下,不给神经网络关于其目标的信息,而是让它自己去研究数据集,把数据按类别分组,并找到它们之间的链接。使用这种方式的机器学习成为另一种分析工具:它可能会发现可以通过多种方式进行游戏或者结束游戏,但是让人类监督人员作出判断应该怎么办。 有很多公司,不论规模如何,提供了一些人工智能构建模块用于企业应用程序和服务。小公司往往侧重于具体任务或者行业;而大公司眼光更高一些,其工具可用于一般的应用。 很大程度上归功于对Watson产品的大力宣传,IBM在人工智能方面已经深入人心——尽管它倾向于采用“认知计算”这个术语。 Watson系列包括的工具可以用于创建聊天机器人,发现文本数据中的模式和结构,以及从非结构化文本中提取知识等。IBM还通过具体行业信息训练了一些Watson服务,为用户提供医疗保健、教育、金融服务、商业、营销和供应链运营等定制服务。 IBM及其合作伙伴可以帮助把这些与现有业务流程集成在一起,或者开发人员自己去进行开发,因为可以从IBM Bluemix云服务门户网站上通过API获取大部分工具。 认知也是微软喜欢用的术语。在微软认知服务品牌下,它为开发人员提供了将机器学习技术整合到自己应用程序中的API。这些包括把语音转换成文本并理解其意思的工具;检测和纠正文本中的拼写错误;翻译语音和文本;研究学术论文、其作者和出版刊物之间的关系。还有一个称之为Bot Framework的服务,用于构建聊天机器人,并将它们连接到Slack、推特、Office 365邮件和其他服务。微软还提供一个开源工具包,企业可以下载它,采用自己大量的数据集来训练他们的深度学习系统。 在5月初进行开发时,它提供了以前只能预览的服务版本,包括面部标记API和自动“内容主持人”,可以准许或者阻止文本、图像和视频,将不好处理的案例转发给人类进行检查。还有一种新的定制图像识别服务,企业可以利用它来训练识别他们感兴趣的对象,例如工厂中使用的零件。 谷歌提供了很多机器学习技术,这些技术曾作为谷歌云平台的一部分在谷歌内部使用。这些系统可用来进行特定任务的训练,也可以作为干净的白板用于对您的数据进行训练,包括图像、文本和视频分析、语音识别和翻译等。还有一种自然语言处理工具,能够从聊天机器人和呼叫中心使用的文本中提取出情感和含义。甚至还有一个备受关注的工作搜索工具,根据求职者的位置、资历和技能来匹配空缺的职位。 对于亚马逊网络服务,它允许企业为Amazon Echo设备中嵌入的数字助理Alexa创建新的“技能”或者语音控制应用程序,并提供了支持Alexa“即服务”的很多技术。最新的是呼叫中心即服务,亚马逊连接按照每次呼叫和每分钟进行计费。这实现了与亚马逊语音识别和理解服务的集成,支持企业创建更复杂的交互式语音响应(IVR)系统。 当明天到来时 这些服务都已经投入使用,但还有许多其他服务在等着我们。 例如,微软已经邀请企业测试其他几项服务的“预览”版本。这些包括Emotion API图像分析工具,可以识别照片中脸部表达的情感,给愤怒、蔑视、厌恶、恐惧、幸福、悲伤和惊喜等表情分配相对的概率。(您可以发一个自拍照,去试试看。)采用改进后的公司语音工具,企业可以调整引擎以适应特定的区域或者环境(定制语音服务),甚至能识别扬声器。 一款名为QnA Maker的新工具从文本语料库中提取出常见问题,供聊天机器人作为参考答案。目前为止的结果还让人感觉有点笨拙,这可能是源文本而不是QnA Maker的问题,QnA Maker很可能还没有读取十亿个常见问题来展开自己的学习。 在3月份旧金山举行的谷歌2017下一代云大会上,该公司发布了其云视频智能API的私有测试版,支持测试人员通过搜索描述内容的名词或者动词来查找相关的视频剪辑。为进一步激发对其服务的需求,谷歌与风险投资公司“数据采集和涌现资本”合作成立了新机器学习初创公司,并在加利福尼亚州山景城开设机器学习高级解决方案实验室,客户可以在此与谷歌专家一起工作,应用机器学习来解决自己的问题。 两个月后,在谷歌I/O上,该公司展示了用于手机的TensorFlow Lite平台,以及运行机器学习工作负载的更强大的处理器,即云TPU(张量处理单元)。它还公布了自己内部使用的一些机器学习API的详细信息。 虽然大公司在人工智能研究领域并没有进行垄断,但对人才的竞争却是非常激烈的。脸书有自己内部的人工智能研究部门,组织内部培训活动,以提高员工对机器学习的认识。 一些从事人工智能研究的大公司愿意公布其研究结果,并在开源许可下发布了大部分代码。即使是大家关注的神秘的苹果公司也在去年年底发表了第一篇研究论文。 但他们并没有放弃“皇冠上的宝石”。这些机器学习工具包和云服务都非常好,很显然,未经训练的神经网络对于典型的企业和对于16岁的高中毕业生来说都同样有用。 就像参加招聘时经验很重要一样,像谷歌、脸书、亚马逊甚至苹果和微软这样的公司正在收集Kurzweil所說的数十亿个例子。被点击的每一搜索结果,被接受的每次购物推荐,被标记的每幅照片,或者要查询的运动得分等等,都被添加到收集中。 当然,十亿个例子并不总是必要的:计算机可以学习做一些事情,就像人类以很少的数据就能够工作一样,而且对于今天的很多任务来说,几个例子可能就已经足够了——特别是如果计算机能够将其无法处理的情况提交给人类监督者的情形。 就在您身边 无论如何,这是很多开发人工智能聊天机器人的企业所关注的。他们的数据点远远不到十亿个,他们仍然希望像微软QnA Maker这样的服务能帮助他们以新方式为客户服务。 一个例子是英国关节炎研究所,这是一个慈善组织,资助关节炎症的医学研究,并向患者提供咨询。它正在使用IBM的Watson对话API来构建虚拟助理,回答有关关节疼痛的问题,并提出一些适当的锻炼建议来缓解症状。 该组织的目标有两方面:减轻现有电话支持人员的工作,创建一种新的对话渠道,通过它可以在将来提供其他服务。 助理已经学到了关于50种肌骨骼病症常见问题的1000个答案。 英国关节炎研究所媒体活动经理Shree Rajani说:“我们将扩展其功能,以便在适当时候包括关于医疗和外科治疗以及饮食的信息。” 最初的开发历时大约五个月,其中包括第一轮测试,约有三百名试用用户参与其中,但助理还没有准备好迎接公众。Rajani说,第二轮用户接受测试正在进行之中,应该在今年下半年的时候出现在我们网站上。 没有被接受的一个原因是名字:最初被称为“Ask Arthy”,根据英国关节炎研究所的隐私政策,该服务现在被称为“关节炎虚拟助理”。 该政策强调了欧洲企业的聊天机器人使用美国云服务时面临的风险:虽然这一助理还没有正式启用,但是在隐私政策的2890个字中,大约460个字是专门针对虚拟助理的,在网站条款和条件中另外还有490个字是关于它的警告的。这实际是提醒用户,他们告诉助理的所有内容将被传送到美国的IBM服务器,因此他们不应该在对话中自愿地提供任何个人信息——当用户被问及敏感的医疗问题时,这就需要微妙的平衡技巧。 另一急于采用机器学习来推动新一轮客户服务,但也非常担心隐私问题的领域是银行。 埃森哲最近进行的一项调查发现,在未来三年内,78%的美国银行将依靠人工智能在处理自动化系统时获得更接近人类的经验,其中76%的希望开展竞争,怎样让技术对客户来说是不可见的。 不仅仅是美国比利时银行BNP Paribas Fortis也正在采用聊天机器人来回答400个呼叫中心工作人员目前必须处理的一些问题。该银行的零售部总监Michael Anseeuw最近告诉比利时报纸,当客户更喜欢和人类交流时,聊天机器人甚至可以帮助员工更快的找到正确答案。 人类与机器之间紧密的工作关系使得机器更容易提高其性能。 数字推理公司创始人兼总裁Tim Estes说:“您希望以自动化的方式为人们提供支持,因为您所做的是建立基础设施,从人类那里学到怎样更好的进行抽象决策。” 其Synthesys产品将机器学习技术应用于业务信息分析,并且可用于识别潜在的欺诈性交易,以及出于合规目的,标记有风险的员工通信记录。 Estes预计在不久的将来,如果在没有计算机帮助的情况下进行这种“分类筛选”决定,会变得非常不经济。 他说:“可以把人类的评估模式教给机器,并应用它们,但您不一定会采用机器做出的决定——重要的是采用还是不采用,在没有人类参与的情况下最终做出决策。” 在接下来的两三年里,机器学习系统最有效的应用是用来筛选人类做出的决定,确定哪些决定要优先考虑。 他说:“我不认为没有机器辅助的分类决策会成为经济高效的商业模式。” Peter Sayer——IDG新闻服务巴黎局局长,工作涉及IDG新闻服务的欧洲公共政策、人工智能、区块链和其他技术突发新闻。endprint

猜你喜欢
机器语音神经网络
机器狗
机器狗
神经网络抑制无线通信干扰探究
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
未来机器城
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用