文本技术承载商业模式转型

2017-02-27 00:44王盈
软件和集成电路 2016年12期
关键词:神州语义人工智能

王盈

“2013年至今,大数据处于修跑道阶段。”北京神州泰岳软件股份有限公司(以下简称神州泰岳)副总裁杨凯程认为,大数据产业在这一阶段的发展中还存在一些问题,如文本等非结构化分析挖掘领域还缺少有效的工具。而造成这一现状的症结在于,“技术的投入和创新力度不够,又缺乏现成的近道可走。”

当下,业界对于大数据概念性的讨论已越来越少,进入相对静默期,部分企业开始沉下来思索大数据能做什么,亦逐渐意识到技术优势的重要性。

“现在是大数据场景创新的重要阶段。有幸的是,鼎富科技(神州泰岳旗下成员企业)起初就意识到场景创新的重要性。在过去的2~3年积累了较多的场景和产品创新经验,已具备了很好的技术和产品优势,这是很多初创公司希望达到的。”杨凯程道出了鼎富科技能抢占众人觊觎的大数据高地的关键所在。

“2+2”战略:推进创新和转型

人工智能和大数据是神州泰岳“2+2”全新业务格局中的重要部分。杨凯程介绍道,“6月收购鼎富科技后,公司正式推进‘2+2发展战略。第一个‘2是指ICT运营管理和手机游戏,今年这两项业务整体较好,构成了当下的主要利润;第二个‘2是指人工智能与大数据、物联网与通讯技术应用,是泰岳未来着力打造的战略业务,希望通过努力,在未来三年形成四轮驱动。”

未来,神州泰岳将把人工智能和大数据作为重要的转型方向之一。

杨凯程透露,神州泰岳并购鼎富科技的原因就在于公司对于大数据和人工智能领域未来发展前景的高度认可,而鼎富科技在非结构化文本大数据领域拥有自身的核心技术。

“因此,我们希望将自身在大数据产业链的现有资源和成果与鼎富科技的技术优势进行整合,从而,扩大神州泰岳在整个大数据产业链上的实力,并希望,未来能够在大数据和人工智能方向上有所作为。”杨凯程道出了并购的缘由。

为此,神州泰岳将以鼎富科技的技术为核心,对人工智能、大数据相关的业务进行整合。“在传统的ICT业务中如果我们导入人工智能,那么人工智能在运维管理等领域就会产生一些创新的机会和场景,比如运维知识库的提升、运维工单的自动分拣和帮助台的智能机器人等。”杨凯程分析了神州泰岳在人工智能和大数据方向与现有业务整合后的一个可能的发展途径。

另外,神州泰岳子公司—神州泰岳智能数据公司和运营商合作较多,可以依托运营商的数据提供大数据的数据服务,在应用方面主要是帮助客户做精准营销、客户分析和客户画像等业务,例如向出国咨询公司提供精准营销。

在“2+2”战略下,神州泰岳的整体实力会得以再加砝码,杨凯程说:“神州泰岳已积累了大量的行业客户资源,尤其在运营商领域,使我们相对容易地在原有运营商的运维管理业务和其他延伸业务中叠加人工智能和大数据技术,从而使原有业务得以提升和创新。加之现在运营商对人工智能、大数据已有较充分的认识和逐渐明确的需求,也使得神州泰岳有可能成为该领域主要的供应商之一。"

“不仅如此,结合鼎富科技在文本技术上的领先性以及原有金融行业等领域的先期优势,神州泰岳的整体实力将在整合中得以进一步加强。”杨凯程补充道。

语义理解技术才是人工智能的关键

杨凯程认为,从某种角度上看,人工智能就是大数据,所以神州泰岳在往人工智能方向发展时,亦是在往大数据方向拓展。

鼎富科技的核心技术是非结构化文本的分析挖掘,即语义理解技术,并围绕这个方向展开非结构化大数据业务。在该领域,自然语言的语义理解是人工智能认知技术的核心。IBM、微软、BAT都在布局人工智能,而人工智能最离不开、也最具挑战性的环节就是自然语言的语义理解技术,因此这些公司都希望在语义理解技术上实现突破。

目前,深度学习的出现使得自然语言处理领域在传统的规则方法和统计方法之外,有了更为领先的技术手段。

应该说深度学习的出现,有效地促进了语音识别、图像识别等领域的快速发展,使其可用性达到了可广泛应用的条件,但是在自然语言语义理解领域通过深度学习来达到与语音识别等类似的效果,目前看还比较困难,尤其是中文的语义理解。

众所周知,深度学习和统计方法都需要语料学习,高质量的数量庞大的语料就变得极为重要,这也是深度学习在自然语言语义理解方面所面临的挑战。

而在行业领域,积累和准备可供学习的语料这项工作仍较繁重,而且需要时间积累,但好的方面是行业领域具有边界,所以在某些行业领域中如果样本数据丰富或者易于积累的情况下,或者在特定的功能范围内,深度学习是会有较好效果的。

“目前,我们在自然语言的语义理解方面,处于一个相对领先地位。鼎富科技自2011年成立就一直在研发基于概念计算、能够解决中文歧义性和支持多语种的‘智慧语义认知技術。该技术不同于深度学习和统计方法,不需要学习大量语料,这是不同公司在底层的自然语言语义理解技术的差异。”杨凯程解释道。

“我们对非结构化文本大数据行业的另一贡献是,研发了DINFO-OEC非结构化大数据的分析挖掘平台。它是完全面向业务建模的,让研发人员将注意力放在业务理解和业务表达上,而将鼎富科技的智慧语义认知技术进行了封装,因此极大地缩短了行业应用场景创新的研发周期和提高了应用质量。”在杨凯程看来,DINFO-OEC平台还存在不断完善的要求,但它的出现推动了行业在文本处理技术的应用,促使大家开发应用时专注于业务的大数据创新,而不是成为语义技术和文本技术的困兽。

“近几年,DINFO-OEC平台推出后在工行、中行、顺丰、军工、政府中都得到很好的应用。2014年,中国工商银行呼叫中心的客服工单分析挖掘系统、顺丰的呼叫中心工单智能分检系统都上线了。其中智能分类的准确率达到95%以上,并支持多语种,这在国际上也是遥遥领先。”杨凯程介绍。

“大数据时代,不能纸上谈兵,而是要扎扎实实地结合行业进行场景的创新。”杨凯程认为,埋头苦干、真有创新远比空有噱头来的重要。

三大战略助推大数据优势

依托在自然语言的语义理解上的技术领先优势,神州泰岳大数据战略主要分为三个层面:

战略一:语义云

杨凯程认为,推出泰岳语义云目的是因为自然语言语义理解技术的投入是十分巨大的,需要的技术研发时间也是长期的,而大数据和人工智能的发展离不开自然语言语义技术的应用,各行各业的大数据和人工智能创新除了技术创新的同时,也离不开业务场景的创新。

只有整合行业背景资源和语义技术资源才可能做好这件事,所以神州泰岳希望通过泰岳语义云的推出,将自然语言语义技术开发给市场,开发给合作伙伴和行业客户,大家一起共同推动行业大数据和人工智能应用的发展,当然也希望有更多志同道合的同仁一起,围绕泰岳语义云建设一个领先的自然语言语义处理的生态圈。

众所周知,大数据尤其是非结构化大数据的分析挖掘,需要的投入和技术准入门槛很高,神州泰岳不可能覆盖各行业的业务或创新。但现在社会化数据80%都是非结构化数据,非结构的文本数据在各行各业有大量需求。

“就此,我们希望通过语义云的方式,将非结构化数据的技术和人力向社会开放,也希望客户和合作伙伴能通过使用这种能力,再结合自身对行业的创新理解和行业的背景、经验,在行业中不断创新,从而共同推动非结构化大数据产业的发展。”杨凯程如是说。

“我们现在虽未理清语义云开源的政策和策略,我们也还在学习中,但这是个方向。我们也希望集合更多的资源,共同推动语义云的创新。同时,我们也希望通过语义云的方式给神州泰岳带来新的业务盈利模式。”为此,杨凯程表示,目前神州泰岳也已成立了神州泰岳人工智能研究院,研究院汇聚了鼎富科技的核心技术力量,以持续推动自身在自然语言的语义理解技术上的领先性。

战略二:人工智能

人工智能的核心是认知,而认知的核心是语义理解技术。我们依托领先的语义技术,重点推出了两款人工智能产品—统一业务知识库和小富机器人。杨凯程指出,“现在的机器人还不能完全实现自然的交流,而未来机器人应该跟人沟通、交流时更像人,所以我们希望小富机器人能够推动机器人在认知领域的进一步发展。”

知识库也是人工智能的重要环节。现在知识库的加工基本是人工的参与为主,由人工进行知识的加工、入库,这会给知识库的应用领域带来大量的困扰和挑战。

“我们希望能够生产出新一代的知识库系统,可以支持加工智能化,为行业带来巨大的改变。”杨凯程如是说。

战略三:云服务

云服务战略是神州泰岳希望服务好行业客户的战略,同时也是希望未来更多地采用SaaS服务的方式提供云服务,将服务对象向中小企业甚至个人倾斜的战略。行业客户具有较多的差异性,在一段时间内,服务行业的商业模式可能是多种模式的混搭,不排除传统的解决方案交付方式,但是我们会尽可能寻找服务模式的机会和机遇,甚至在时机恰当的时候引导客户选择服务模式。

从目前来看,行业的大数据和人工智能机遇已经来临,关键问题是,如何选择机遇和如何落实落地的问题。

“工欲善其事,必先利其器”,对于神州泰岳来说,优势在于“器”已经在手中了。杨凯程表示,“我们根据不同行业对文本技术的依赖度选择行业。对文本技术依赖度很强,或文本是其重要业务的行业,如媒体、证券等行业将重点开拓。”

对于文本的坚守与期待

要拥有国际影响力,核心竞争力是关键。就此,杨凯程认为,神州泰岳人工智能和大数据业务的核心竞争力就是自然语言语义理解技术的领先,尤其是对中文的分析处理能力。

杨凯程认为,“从某种角度上说,掌握中文语义理解技术对于中国人来说是一次重要机遇,不论是鼎富科技突破还是其它国内的友商突破都是值得庆贺的事情。长期以来与国外的IT巨头相比,中国非常缺乏领先的IT技术领域,而‘中华民族是以汉字为记的伟大民族,中文是我们祖先留下的最为宝贵的财富,而中文自身的歧义性等难于攻克的难题,也使得国外IT巨头难于短时间突破,如果我们能够领先,就能够将中文的处理能力留在中国人手中。泰岳人希望看到这样的情况,不希望丧失这个可以领先的机遇。”

因此,我们成立了神州泰岳人工智能研究院,使鼎富科技的技术人员可以专注地研究自然语言语义技术和人工智能的产品,由集团的其它分子公司来落实行业的应用创新和市场营销。

“当我们拥有很强的中文处理能力同时又具有完全自主知识产权的时候,就为神州泰岳服务于军队、安全和公安等部门创造了机遇。例如我们在军工行业做了一个类似于情报系统的知识库,目前已经同时支持12个主要国家的语言,且其知识处理能力具有较好的领先性。再比如在公安刑侦文本分析挖掘中,对作案手段、时间、地点、物品、当事人和嫌疑人等信息的抽取水平的准确率和召回率都达到了90%以上,而这一技术能力通过优化是完全可以达到98%以上的,这将对提升刑事案件侦破的效率、线索的发现等提供极大的帮助。”杨凯程表示。

楊凯程认为,在未来大数据创新中,国内大数据企业还是具有很大优势的。“因为大数据的属性是本地化,和生活、工作具有较强的相关性。而国外企业在国内数据方面的获取应该还是有一定挑战的,这也给国内企业提供了竞争的便利。”

其次,应用产品的优势明显。“正是数据的本地化制约和对于国内行业的理解,我们在产品创新上依然具有优势。我们与国外在工具的研发等技术领域确实有差距,所以我们希望在中文这个细分领域,做得比国外更强。”杨凯程道出了产品的优势和未来的战略所在。

优势和困境总是如影随形。大数据面临的难题就是需要大量而持续地投入。“鼎富科技在开始的几年中,将70~80%的资金都投入了研发,虽然保持了每年接近300%的收入增长,但还是不一定能够完全满足研发投入的要求。而大数据和人工智能的发展极其迅速,IT和互联网巨头们纷纷加入,若没有及时把握,就可能丧失机会,我们不希望丧失机会,所以才与神州泰岳进行整合。”杨凯程道出了发展大数据的困局和坚守之难。

文本技术需要承载公司未来商业模式的转型。但杨凯程认为,在这个过程中,需要有所为、有所不为。相信有这份有所为、有所不为的魄力,神州泰岳将在人工智能和大数据领域开拓出一片新天地。

猜你喜欢
神州语义人工智能
韩国语“容入-离析”关系表达及认知语义解释
2019:人工智能
人工智能与就业
二月二
包公
数读人工智能
下一幕,人工智能!
神州谜苑