数据处理:从大数据到大知识

2016-10-15 22:44施水才
软件和集成电路 2016年8期
关键词:人工智能互联网

施水才

我主要讲三方面的内容:第一、大数据技术和商业模式创新;第二、大知识;第三、我们的实践。

大数据和传统的信息化最大区别在于,大数据具备分析、预测和决策功能;另外,大数据和传统海量信息处理的区别在于,大数据具有三大本质特性—计算实时化、数据关联化以及应用跨界化。

技术虽然很重要,但不是最重要的;数据也很重要,但也不是最重要的。最重要的是应用场景。和创新型的公司相比,我们非常关心是否落地。但就现在来说,很多大数据应用场景还是大数据公司“想象”出来的。

大数据还存在一些问题。首先,数据本身存在问题,包括数据质量、数据开放,商业模式,是否建立数据联盟等。谁也无法拥有全量的数据,数据的积累和优化是个长期过程。

其次,不能脱离应用谈数据。我们的数据银行有很多数据,但不是所有数据都有价值。一个应用到底需要什么类型的数据,这是个非常复杂的问题。

再次,光有数据不行,还得有知识。如对非结构化的数据进行结构化处理,要依靠大量新兴的技术,最终形成的是一种知识。

大数据卖什么?有卖基础设施的,有卖技术的,有卖解决方案的,也有卖数据的,如数据堂。但卖什么并不重要,重要的是在商业模式上要有大数据的思维。

受大数据驱动的商业模式,主要有四种:第一、免费增值云存储或云盘。要想获得数据,就要免费让用户存储;第二、平台型的商业模式,如滴滴、Facebook;第三、开放型的模式,像知乎、HealthTap;第四、长尾商业模式,如kindle电子书、视频网站。

大数据的技术发展趋势:第一个趋势,从技术上讲主要是开源,柔性选择,整个架构上有弹性。第二个趋势,从数据搜集管理转向分析挖掘预测。第三个趋势,人工智能技术的应用。人工智能产业发展:一是从把握、感知到智慧决策;二是当前人工智能应用的热点基本集中在营销、安全、金融和公共服务领域,未来将应用到教育、医疗、健康和金融科技行业。

我认为,大数据下一阶段的三个关键词就是“大知识”、“互联网”和“人工智能”。

大数据在过去的四年发生了三个变化:第一、从技术上,从通用架构到需求细分;第二、从计算分析到学习理解,增加了很多机器学习和人工智能;第三、从分析数据到构建知识,包括知识库、知识模型、知识图谱。

根据VentureScanner的统计,截至到2016 年初,全球共有957家人工智能公司,美国以499家位列第一。覆盖了深度学习/机器学习(通用)、深度学习/机器学习(应用)、自然语言处理(通用)、自然语言处理(语音识别)、计算机视觉/图像识别(通用)、计算机视觉/图像识别(应用)、手势控制、虚拟私人助手、智能机器人、推荐引擎和协助过滤算法、情境感知计算、语音翻译、视频内容自动识别等13个细分行业。

从大数据到大知识,搜索引擎的智能化包括利用知识图谱,就是一个很好的案例。如用百度搜索马云,会显示阿里巴巴的创始团队、企业家;用搜狗搜索马云,第一个出来是他的关系图谱,这就是大规模的知识图谱在起作用,而且是自动机器学习所致。

第二个案例是即将到来的虚拟机器人时代BOTs时代,主要涉及机器学习、NLP和知识图谱。很多公司在推出相关产品和技术,如智能机器人客服“小i机器人”。

第三个案例是Palantir。Palantir因拉登和庞氏骗局而被神化,对应的两个产品是Gotham和Metropolis。作为排名第三的私有化公司,Palantir的核心就是知识管理和协作。

三个案例突显了知识图谱、NLP(自然语言处理)这两个核心技术的重要性。无论是智能搜索、虚拟聊天机器人,还是大数据独角兽Palantir,都不离开知识图谱。而知识图谱的基础是大数据,大数据有分析的能力,从大数据上建立的大知识,能使大数据真正活起来。

有了大数据和深度学习之后,NLP技术领域将面临一些新的机会和突破。关键是两点:深度学习在NLP领域应用;问答机器人将有可能成为一个类似操作系统的新平台,目前一些公司正投入巨资研究问答机器人。

拓尔思是首批在A股上市的大数据公司之一。2011年,我们在大数据的精准营销、征信、安全等领域投资了10亿元。我们的核心业务是大数据核心技术和基础软件平台。包括智能信息处理软件包、TRS海贝大数据管理系统、TRS水晶分布式数据库系统、数据采集交换和共享平台等。

行业应用解决方案。包括集约化政府公共服务云平台、融媒体智能传播服务平台、面向安全的大数据分析和挖掘平台、金融行业风控和监管平台、水晶球大数据分析师平台。

互联网营销服务及大数据分析云平台。包括网站及全网口碑优化整合营销服务、舆情分析挖掘云服务、“数家”数据服务、网脉网站数据分析平台、思图大数据可视化云工具。

CKM中文自然语言文本挖掘平台。可以进行情感分析,实现非结构化数据的结构化提取。例如将文本文件中犯罪嫌疑人的名字、组织、电话号码、车牌号、银行卡号、QQ和微信号都结构化提取。如何利用自然原处理技术,从海量的文本中挖掘出真正有价值的知识,并且把知识关联起来,这是非常重要的。

水晶球大数据分析师平台。可以称之为中国版Palantir,将全面取代i2。这个平台最关键的是知识图谱,它比传统的知识图谱更具有扩展性。如可以把不同数据源的信息进行关联,与地理信息系统或其它系统进行集成。水晶球的定位在于公共安全、国家安全、金融的反欺诈、军事情报和公共关系等。(根据演讲内容整理,未经本人审核)

猜你喜欢
人工智能互联网
人工智能之父
2019:人工智能
人工智能与就业
数读人工智能
“互联网+”环境之下的著作权保护
“互联网+”对传统图书出版的影响和推动作用
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
下一幕,人工智能!
下一幕,人工智能!