拥抱大数据 驾驭新未来

2016-07-04 10:18吉燕勇
软件和集成电路 2016年6期
关键词:知识库证据比赛

吉燕勇

我想跟大家分享两个话题,一个是IBM怎么看大数据,另一个是IBM的认知计算。

IBM如何看大数据

现在有很多大数据项目在实施过程中,怎么证明这个项目能成功呢?我们有三个标准,第一是看它是否能够改变企业做决策的方式;第二是看这个项目是否能够改造创造价值的方式;第三是看是否通过它能够改变对每个用户创造价值的方式。

大数据其实是关于产业转型、提升、重塑秩序,转型以后会出现一个多发经济,会有新的经济形态呈现。第一是由基于洞察的服务构成的;第二是数据的生产者、消费者以及运营者可以在同一个平台共享利益。由于云计算比较成熟、分析能力比较丰富,所以洞察经济是应运而生的。想要得到一个方法论,就要在标准、模块和资本化中有更多的探索。

IBM大数据能力

IBM过去十年投入了200亿元,通过收购和研发构建了非常健全的大数据体系。第一部分是大数据本身的存储、探索以及管理能力;第二部分是数据分析,也叫预测,包括算法、建模、积极学习;第三部分就是计算能力。我们希望通过大数据本身的能力,包括建模、预测、云计算,能够创造出价值。

有了相关能力,怎么使用呢?想通过大数据改变一些决策方式。比如,两个选手在打网球比赛之前,帮助选手做三个PPI:S球的成功率多少等等,这样对网球比赛会有新的帮助。我们通过8182场比赛,包括4100万数据点(这是数据的收集和储存),找到5500个模型出来,再进行分析,由45个模型最终变成19个影响胜负的关键点。每个选手之间的比赛,选择三个点,这三点做得比较好就能赢,做的不好就不能赢,最终经过学习和训练,以此来指导选手如何能够赢得比赛。我们通过大数据分析来改变决策,影响比赛的胜负。

IBM战略的方向

第一、基于云计算;第二、希望把企业的数据,包括银行数据、保险数据、企业的内部数据和企业的外部数据相结合,帮助企业建立一个企业洞察体系。通过这种方式帮助企业决策,并产生出更高的价值。

IBM在大数据中的新动向是拥抱开源。我们拥抱开源,培养100万个数据科学家,目前做大数据特别紧缺科学家。我们建立一个Spark技术中心,IBM成为Spark的创始性会员,IBM通过开源加速大数据开发的能力。

我们希望通过大数据的能力,帮助客户做更多的创新。比如,我们在制造行业,通过预测性的运维与质量管理,做出高端制造。在制造业转型的大背景下,企业会安装很多海量的传感器,这些传感器采集很多的数据,如何把这些数据集中到大数据中心,是很多企业面临高端制造时遇到的困难。如何通过这些传感器的数据做实时的运维也是比较大的挑战。我们通过Spark和大数据平台,做实时的运维和维护,这样可以实现秒级、分钟级的健康检测,并对所有的状况进行分析。

关于大数据,最大的挑战还是非结构化数据的爆发性增长所带来的新的技术挑战。IBM推出了认知计算,并进入到认知时代。在这之前是编程时代,需要写程序、精确编程,而在这之后则是认知时代。

在认知计算中,人工智能有很多新的发展。在1997年,IBM便有人工智能。2011年,沃森系统战胜了人类,这算得上是一个新的里程碑。今年,阿尔法狗也是人工智能上一个突破。

那什么是认知计算呢?每个公司的理解不一样。IBM认为就是URL。U是指能够理解各种数据;R是指这个系统能够推理和抉择;L是指能够自主学习。所以,沃森通过危险边缘游戏,能够理解你说什么,也能够进行推理和决策、回答问题,还可以增强学习能力。这是IBM所有的认知解决方案、认知计算的基本能力。

沃森如何实现这个能力呢?你提出问题以后,它需要对问题进行分析和分解。把问题变成若干个小问题之后,通过检索知识库,产生一些假设,再通过证据库的证据打分,考量这个假设有多高的可能性,最后合并成一个答案。所以整个的架构中有一个信息库和一个证据库。

目前IBM做得比较好、进展比较快的是,在美国已经可以通过计算机在肿瘤医院帮助癌症病人看病,里面有知识库的信息。很多数据也是有专利的,包括实验、病历,还有公共数据和互联网数据等等。此外,还有一些证据库,如果病人口述一些症状,他希望通过知识库判断出侯选结果。

如何建立知识系统和知识库呢?如何把行业内的内容放在一起,构建知识库呢?这是一个比较复杂的过程。有了知识库以后,又如何检索出结果呢?怎么通过继续学习,通过推理,通过自学习,让系统更加的智能化,最终通过知识库,怎么形成假设,通过证据库怎么进行打分,形成一个答案?这和搜索引擎不一样,搜索出关健词以后,可以看到一万、两万个风险答案,而在这里只有一个答案可以看到。认知计算对传统大数据的落地是比较大且有利的补充,但还是有区别。

传统大数据的分析,有以下几个特点:首先是用数字方式与计算机交付;其次是问题相对比较清晰;第三是需要提供一个确定的答案。你需要存储数据、记录算法,用机器学习,建模,就可以做到。

认知计算中更多是通过资产语言进行交互,不需要通过计算机编程,答案也不见得是百分之百的,它可能是70%或是90%。目前,在美国看病需要通过的答案是80%~90%,专家需要对答案进行下一步分析,分析出为什么是80%~90%。

另外,处理更多的东西没有明确的信息,因为数据量很大,不知道数据存到哪儿,如何分析,则需要计算机自己算出来。

目前,很多企业认同要把认知计算落地中国,IBM在中国有一款产品已经落地,并且是免费,名叫IBM Watson Analytics。只要有数据,就可以导入进去,不需要任何程序。你不需要做任何安装,它是基于云的服务,只需要通过互联网使用就可以了。IBM Watson Analytics基于自然语言,人们可以直接问他问题,当然目前还是英文版本的,中文的还没有做完。比如,把销售数据放进去以后,想知道哪个区域销售量最好,他会马上告诉你答案。

(根据演讲内容整理,未经本人审核)

猜你喜欢
知识库证据比赛
我国机构知识库内容质量服务探讨
选美比赛
比赛
最疯狂的比赛
手上的证据
家庭暴力证据搜集指南
手上的证据
基于Lucene搜索引擎的研究
位置与方向测试题