李德毅
(中国人工智能学会,北京 100876)
《》
大数据认知
——“2015大数据价值实现之路高峰论坛”主题报告
李德毅
(中国人工智能学会,北京 100876)
从作诗、语言翻译、语音识别、保险、人脸识别等方面深入浅出地阐述了大数据认知的方法学。大数据标志数据密集型科学的新时代的到来,大数据时代是小模型、小定律、交叉学科的时代。大数据认知的突破口在于聚类。提倡利用云加端的形态和深度学习,研究制造神似形不似的云机器人。介绍了驾驶服务云机器人、语言机器人,提倡研发机器驾驶脑,展示了无人驾驶客车的研究成果,以及团队正在进行的智能车的6类试验与评估,倡导研究者做实践中的研究,少做研究中的实践。
大数据;聚类;脑认知;云机器人
各位大家好!我想讲一个认知的课题。我们知道现在认知科学很兴旺,我们把它叫做cognitive science。那么大数据认知呢?这是我今天要讲的题目。
1.1 数据认知案例
先讲一讲大数据认知方法学,讲一个数据认知的案例。
写诗是一项创造性的活动,大家认为是很智能的。人们熟读众多诗歌,记住了针对各种意境的大量“字串”。需要时,触景生情,把脑中的“字串”按既定的一些规矩取出来,就成了一首新诗。我们常说“熟读唐诗三百首,不会写诗也会吟”。数据多了,文字的碎片多了,就可以写诗了,但是要写得好,很难。诗歌要讲语境,要讲押韵,但是对于计算机来说,规矩越多越适合计算机写。对四声和押韵有严格要求的五言绝句就是一个例子。例如,李白一生写诗1 010首,把李白的所有诗句进行“机械切割”后放在一个库里,如果按照押韵的方式将这些切割后的字串组成数据集,并作索引,依据 “仄仄平平,平平仄平。平平仄仄,仄仄平平”的规律让李白作诗来纪念毛主席诞辰一百周年,结果也是蛮有意思的。比方说,毛主席是1893年12月26号生日,用18来检索第一句,用93检索第二句,12检索第三句,依次类推,所做的诗是 “秀玉竟不还,西湖哀苦寒。风楼留不住,夜郎醉不眠”,见图1。这就是不确定人工智能的魅力所在。所以数据认知离我们不远,就在我们身边。把数据挖掘出来,就可以反映价值。
图1 实例
1.2 大数据特点
大数据来源于人类测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信计算机和互联网的迅猛发展和应用,人类获取信息的手段越来越多,速度大大加快,层次和尺度更为精细,人联网和物联网又使得人和物都成为数据源。这样一来,大数据成为网络时代人类社会的重要资产,它标志着一个时代的到来。
统计学和概率在当前发挥着巨大的作用。我们经过十几年的努力,又把它回归到概率和统计学中。大数据造就了野蛮翻译,甚至穷举翻译。我刚才讲Google和百度的成功首先是搜索引擎的成功。在今年的计算机科学大会上,我会强调一个认知,叫记忆认知,而不是计算认知。智能里面的记忆很重要,所以如果计算机速度很快,容量足够大,我们也可以用数据来做成一个野蛮翻译或者穷举翻译。这里面就要回答一个根本的哲学问题,是形而上,还是形而下?形而上谓之学,形而下谓之器。器就是工具。是先有语言学,还是先有语言?是先有语音学,还是先有语音?科大讯飞超脑的成功,需要我们语言学家的反思,对语音重视了吗?语音心理学里面有一个最大定律,就是在沟通的时候,语义只占7%,语调、肢体要占更多的比例。语调很重要,所以我们开论坛、看新闻和看PPT是不一样的。
Google作为互联网运营商的成功主要是大数据搜索引擎、排序算法和在线群体智能的成功。在搜狗的统计排名中键入LDY,得到的结果肯定是李德毅而不是林黛玉,这是什么原因?满足了小众。所以大家讨论大数据价值实现,一定要把自己放进去。大数据是网络时代的一种客观存在。大数据本身,既不是科学也不是技术。各行各业的大数据,规模从TB到PB到EB到ZB,以3个数量级的阶梯迅速增长,是使用传统工具难以认知、具有更大挑战的数据。
Google各种语言之间的转换服务每天超过10亿次。我们看到微软在网上有一个东西,一个西班牙的学者和一个美国的中学生,进行2种语言的对话,对方说的是西班牙语,这边听到的是英语,但是是对方的语音。照相机尤其是Google眼镜,可用7种语言对图标或者菜单进行即刻的逼真翻译。为什么可以做到这样?因为对话模式由32种语言的翻译机器人来回沟通。所以出去旅游到了哪个机场、哪个地铁中心,不用担心,就好像自己国家一样。大数据造就了Google高度、准确的自动实时翻译。这就是大数据的力量。
按照维基百科的定义,大数据是常规软件无法处理的。今年IEEE国际数据工程大会(ICDE)的最大亮点是将10年最佳论文授予2014年图灵奖获得者Micheal Sronebraker的论文“One size fits all”。该论文回答了大数据时代的一个基本问题:“是继续构建通用数据库系统,还是构建特定负载面向特殊目标的系统?”作者支持后者。这件事对我们这些把大数据看成资产的人有很大的教育意义。大数据标志着一个新时代的到来。这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
1.3 大数据认知的突破口是聚类
“物以类聚,人以群分”,这是人类几千年来认识世界和社会的基本能力。依托云计算的大数据认知的突破口,我个人认为是聚类。聚类是认知学科作为“学科的学科”要解决的首要问题。认知科学要有所突破,首先要在大数据聚类上有所突破。当今社会或宏观或微观的任何价值发现无不借助大数据分析的结果。因此,聚类成为发现大数据资产价值的第一步。搜索引擎和排序算法首先都要解决聚类问题。大数据聚类的挑战性表现在并行计算、深度计算、抽样技术、增量学习、近似计算、在线学习、跨模态融合、时序关联等方面。大数据聚类表现形式是多层次、不确定和变粒度特性的。什么是粒度,就是用多大尺度来看待事情。
图灵奖获得者说:“人类走过了几千年的实验科学,几百年的理论科学,几十年的计算科学之后,迎来了数据密集型科学的新时代。”举一个保险行业在大数据认知方法学方面的例子。保险公司对车险客户的传统聚类分为4类:A:连续两年没有出车祸的;B:最近一年没有出车祸的;C:过去一年出了1次车祸的;D:过去一年出了2次及以上车祸的。如果经常出车祸,保险费就会高一些。但是随着汽车成为双驾双控轮式机器人和成为大数据发生器以后,每一次驾驶、每一次维修、每一次行程,甚至每一次刹车都记录在案。利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低、不勤开车的特定客户给予更大优惠,而对风险太高的客户报高价甚至拒绝。总之,能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。大数据聚类成为保险公司的核心竞争力。
1.4 大数据认知的方法学
再讲讲关系数据库。人脸聚类的传统方法是先结构化,用几何结构的特征将人脸放入关系数据库中。将双眼间距、鼻梁高度等人脸特征变为数据。这种方法存在的一个问题就是人脸属于隐私,有时无法获取。另外,到底需要多少个结构特征才能完整表现人脸特征?结构化人脸大数据聚类的局限性在于其本质上仅是几何结构的聚类,形式化约束太强,忽略了聚类的不确定性、聚类的多样性、聚类过程中简单的群体交互性、聚类样本的可获得性,缺少聚类结果的评价标准(群体认知的共性),尤其是表情、年龄、肤色、基因、性别、婚姻等太多因素。所以,如果有企业能够从一张全家福里面找出儿媳妇或者女婿来,我觉得这个产业就能赚钱。
在实验科学、理论科学和计算科学时代,任何学科的公理系统,即形式化理论,更多地依靠学科奠基人的天才归纳而成,并取得共识。学科重点在解释,形成逻辑推论,即公理系统的定理和推论,可以认为是“大定律、大模型、小数据”时代,数据围绕模型和程序转。真正的发明在程序。
大数据认知对形式化方法提出了挑战。公理、模型、程序要围绕着数据转,形成数据定义的系统。大数据时代一切靠数据说话,数据可能是“学科”的原生态的碎片化,数据价值就是从数据中期待被发现的“学科”。任何学科的形式化理论要更多地依赖大数据,服从大数据,数据中隐含的真理性会创造出新学科,这样一些学科往往是交叉学科。大数据时代是小模型、小定律、交叉学科的时代,要树立程序和模型围绕数据转的思想。通常一个好的模型或者算法是基于小数据样本,例如计算复杂度是数据规模N的二次或者三次方,计算能力是没有问题的。但是在大数据样本学习中,需要的计算资源就要相差千万倍甚至更多,那个曾经好的算法只能到此为止了。
实践中的研究可能胜过研究中的实践。要更多关注有意义的小众(精确定位客户群),众多的小众构成大众。通过大数据聚类即时发现价值,充分认识大数据中的不确定性和价值隐蔽性,跨界构建基于统计的可变视角和可变尺度的全新发现状态空间,用大数据的规模来弥补单个数据的误差,保证发现价值的精准性。
云计算已经被全世界所重视,国务院专门下发云计算信息产业指导意见,最近又下发了“互联网+”行动的指导意见。云计算带来了什么?智能手机用人工智能的观点来看就是一个机器人,一个智能代理。对于机器人与人,当前更应该关注研发神似形不似的云机器人。云机器人依托云计算优势,重在认知,体现在端设备上是感知和行动。先研发语言和图像丰富、认知复杂、动作相对简单的特定领域的云机器人比较好。如导航机器人,其智商和情商容易取得小众的共识。因此,研发云机器人成为大数据认知的又一个突破口。
云计算和大数据催生了云机器人。语言、文本、歌曲、剧本等都可以通过一个虚拟机器人来产生形象、情感、动作、语音、语调、风格等。例如,高德的导航机器人做了郭德纲版和林志玲版。
在云计算方面当前的一个热点是深度学习。深度学习以卷积神经网络为代表,相比最早的浅学习,它是在更高阶上提取精细特征参数。深度学习是一套灵活、复杂而又简单的形式化模型框架,依靠不同且更深度的神经网络中的大量参数的确定去处理不同的问题,参数量可高达十几亿个,参数的精度依靠大数据量训练得以保证,适合端到端学习。在云计算数据中心,采用成千上万台“CPU+GPU”服务器架构做混合的大规模数据的并行训练,可确定几十亿个参数的人工神经网络模型,将其用于语音识别、人脸识别等已经获得明显成效。
深度学习吸收了云计算和大数据的红利。互联网、云计算、物联网和大数据可以有力支撑云机器人如何说、如何看、如何想,而解决机器人如何动作的“智能制造2025”迎来了我国机器人的春天。
我希望尝试这种机器人。将北京市路口简单的摄像头定位成路口机器人交警,根据限号情况,压线就扣分、罚款。企业界的朋友们,为什么不做这件事呢?将导航机器人加入数据,变成导游机器人。我们做的双驾双功能轮式机器人在醉酒时是代驾机器人;若不会开车,就变成教练机器人。未来我们希望做交通事故仲裁机器人交警和特种车辆服务机器人。当人们移动生活品质提高后,可以在车上做高考辅导聊天机器人,喜欢诗人的话在车上安装机器诗人汪国真,喜欢邓丽君的歌声,那我们就编个机器歌手邓丽君。也可以做手语交互机器人,以及和痴呆病患者聊天的机器人。大数据是原生态、脚踏实地的。语言大数据的价值发现,不是要找到更好的形式化方法来反映语言的丰富和高雅,而是利用语言数据明确特定的情景,消除混乱的输出。
上面讲的是大数据价值发现的实现之路,下面讲讲我自己做过的东西,研发机器驾驶脑(大数据认知的实践)。
当前人工智能不是要人工造出一个生物意义的人脑。现在大家对神经网络很感兴趣,但是卷积神经网和生物神经网完全是两个概念。我们现在最迫切的是要利用大数据的认知做一个特别明确的智能,好比聊天机器人。轮式机器人要颠覆的不是汽车,而是汽车的人工孤立驾驶,提高移动生活品质。我们研发了一个不带情绪的机器人。最近Google宣布其研制了相当于人类75年驾龄的机器人。75年驾龄的水平是什么,尚未清楚。脑认知如何度量,仍然尚未清楚。狼孩在狼群里长大,无法具有人的心理,错过了大脑学习语言和文字的最佳生长发育期,例如一些弱智儿童,就是大脑在成长期受到了一些伤害。我个人认为,包括驾驶在内的所有技巧、技能都是后天学习的,语言、指示、文明、传承等都是后天学习的。因此,要研究脑认知的后天属性,就要建立人脑认知的成长机制,从认知能力水平上理解大脑的工作机理,研发和人脑特定认知能力相当的机器脑,例如机器驾驶脑。
脑认知的外在表现是如何说和如何看,即语言认知和图像认知。脑认知的内涵包括3个方面:计算认知、记忆认知和交互认知,因此要把人脑的计算认知、记忆认知和交互认知放在一个板卡上。开车造成事故的最大原因是注意力不集中,情绪是根本,于是我们开始研究脑认知的本质。我个人认为脑认知的本质是概率认知、统计认知。脑对客观世界的认知往往需要多次反复,在“反复感知-认知-行动”的过程中形成相对稳定的认知,形成不确定性中的基本确定性。脑认知的核心是记忆认知。是记忆能力重要还是计算能力重要?按照大数据的观点,我个人认为记忆能力更重要。
概念的形成过程、判断的形成过程、推理的形成过程就是思维的过程,是对多感知信息的觉悟,即认知计算(也称计算认知)。脑认知也是计算认知。在人脑算法中,只有一种算法:相似度计算。脑认知的一个重要特点是脑的不同区域、不同力度的认知可以往返跳跃,并行处理。大脑皮质中形成的先验知识(粗粒度)和海马体中当前学习和思维的问题(中粒度),以及视觉神经中残留的感觉和观察(细粒度)可同时发生交互和关联,反映为在不同尺度空间的灵活转换。所以丰富的感觉记忆、较丰富的工作记忆大脑皮质中的长期记忆又进一步被简约了。感觉记忆、工作记忆和长期记忆随着一次次认知而演化。也许在脑区里没有明确的分界面,只是我们理解脑认知功能的人为划分而已,只是我们要形式化脑功能以便于机器实现而已。
我们用1个或者几个CPU和GPU,再加上FPGA,再加上几个ASIC芯片,能不能做一个板卡插入汽车中,变成一个机器脑。既要表现学习能力,又要表现思维能力;既要表现模仿类比,又要表现归纳演绎;既有技能,又有知识。我们的板卡就要做到这3条。我们把雷达(激光雷达、红外雷达、超声雷达、毫米波雷达),摄像头(感知周边环境,七八个,包括看前景和看车道线、交通指示板等),再加上GPS、地图,形成一个以驾驶员认知为核心的驾驶态势。在脑认知中有很多记忆,比如哪个路段是事故多发路段,哪个路段容易下雨,把它拿来作交换,形成一个驾驶态势认知。我认为驾驶的认知比较简单,驾驶的技能十分重要,所以着力点是要把车子改造好,保证车子动力学特性。这就是我们驾驶脑感知、认知和行为的综合。
2015年4月20日进行了无人驾驶汽车演示,2015年5月课题组在郑州进行了无人驾驶客车演示。目前我们正在进行的智能车6类试验和评估:包括智能车电磁频谱兼容性评估、智能车架构开放性评估、模块的独立性评估、驾驶智能鲁棒性评估、人机交互友好性评估和智能车自主学习能力评估。
研究告诉我们多做实践中的研究,这就是大数据时代的状况。科学在大数据时代怎么做?我今天用我的认知讲了几个基本问题:基于数据的算法(程序要围着数据转)、基于数据的聚类、基于数据的搜索引擎、基于数据的工程(数据定义的工程或者网络)、基于数据的趋势。这些都是对我们新的启示。
谢谢大家!
本文根据“2015大数据价值实现之路高峰论坛”上李德毅院士主题报告录音整理。
[1] Newton I.自然哲学之数学原理[M].王克迪,译.武汉:武汉出版社,1992.
[2] Handy C.Beyond Certainty: The Changing World of Organization[M].Pennsylvania: Harvard Business School Publishing,1998.
[3] 王梓坤.概率论基础及其应用[M].北京:北京师范大学出版社,1995.
[4] 李洪兴,汪培庄.模糊数学[M].北京:国防工业出版社,1994.
[5] Pawlak Z.Rough sets[J].Int’l Journal of Computer and Information Sciences,1982,11(5):341-356.
[6] Gau W L,Buehrer D J.Vague sets[J].IEEE Trans.on Systems,Man and Cybernetics,1993,23(2):610-614.
[7] 李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究和发展,1995,32(6):16-21.
[8] 李德毅.知识表示中的不确定性[J].中国工程科学,2000,2(10):73-79.
[9] 邱菀华.管理决策与应用熵学[M].北京:机械工业出版社,2002.
[10]李德毅,刘常昱.论正态云模型的普适性[J].中国工程科学,2004,6(8):28-34.
[11]Ruelle D.机遇与混沌[M].刘式达,梁爽,李滇林,译.上海:上海科技教育出版社,2001.
[12]苗东升,刘华杰.混沌学纵横论[M].北京:中国人民大学出版社,1993.
[13]王梓坤.论混沌与随机[J].北京师范大学学报,1994,30(2):199-202.
[14]王兴元.复杂非线性系统中的混沌[M].北京:电子工业出版社,2003.
[15]孙霞,吴自勤.分形原理及其应用[M].合肥:中国科学技术大学出版社,2003.
[16] Wang X F,Chen G R.Complex networks: Small-World,scale-free and beyond[J].IEEE Circuits and Systems Magazine,2003,3(1):6-20.
[17]陆汝钤.世纪之交的知识工程与知识科学[M].北京:清华大学出版社,2001.
[18]Crick F.惊人的假说[M].汪云九,齐翔林,吴新年,等,译.长沙:湖南科学技术出版社,2003.
[19]王甦,汪安圣.认知心理学[M].北京:北京大学出版社,2003.
[20]李德毅,淦文燕,刘璐莹.中国人工智能进展[M].北京:北京邮电大学出版社,2003:6-14.
[21] Zipf G K.Psycho-Biology of Languages[M].Cambridge: MIT Press,1965.
[22] Ford K,Hayes P.On computational wings: Rethinking the goals of artificial intelligence[J].Scientific American Presents,1998,9(4):78-83.
[23] Hearst M,Hirsh H.AI’s greatest trends and controversies[J].IEEE Intelligent Systems,2000,15(1):8-17.
(责任编辑 杨黎丽)
Big Data Cognition: Keynote Lecture of “2015 Forum of Big Data Value Realization Road”
LI De-yi
(Chines Association for Artificial Intelligence, Beijing 100876, China)
This paper deeply elaborated the big data cognitive methodology with simple explanation with the introduction of poetry writing, language translation, the voice recognition, insurance, face recognition and so on. Big data symbolizes the coming of new era of data-intensive science and the big data age is the era of little model, little’s law and interdisciplinary. The breakthrough of big data cognitive lies in the cluster. Using the shape and depth of cloud and end to study is advocated and the research manufacturing of cloud robots which may like in spirit but do not like in form are advocated. He introduced the driving service cloud robots and robot language, and promoted development of brain machine driving, and demonstrated the research achievements of unmanned buses and the ongoing six class testing and assessment of the smart car of his team and advocated researchers to do more in practice, and less research in practice.
big data; cluster; brain cognition; cloud robotics
2015-07-22 作者简介:李德毅(1944—),男,江苏泰县人,中国工程院院士,欧亚科学院院士,中国人工智能学会理事长,主要从事计算机工程、复杂网络和智能驾驶等方面的研究。
李德毅.大数据认知 ——“2015大数据价值实现之路高峰论坛”主题报告[J].重庆理工大学学报:自然科学版,2015(9):1-6.
format: LI De-yi.Big Data Cognition: Keynote Lecture of “2015 Forum of Big Data Value Realization Road”[J].Journal of Chongqing University of Technology:Natural Science,2015(9):1-6.
10.3969/j.issn.1674-8425(z).2015.09.001
TP18
B
1674-8425(2015)09-0001-06