娄铮铮 张朝阳
信息是海量的,信息的载体是数据。当我们首次面临海量的信息数据时,在无任何先验知识的情况下,是无法驾驭这些信息的。此时,海量的信息对于我们来说是无形的、不可控的。人们期望将这些无形的信息变成有形,不可控的信息变成可驾驭的,以便更好地理解、认知数据。IB的英文全称是Information Bottleneck,中文直译则是“信息瓶颈”。瓶颈一般是指在整体中的关键限制因素。因此,在我们首次看到“信息瓶颈”一词时,大多数人可能认为该词是贬义的,有信息不对称之嫌。实则不然,IB方法的初衷是将一些无形的信息通过一个“瓶颈”使其变成有形的,从而使我们更好地驾驭这些信息、更好地理解数据。因此,IB方法中的“瓶颈”是褒义的。
一、IB方法的压缩认知与人类认知之关联
IB方法通过将数据对象压缩到一个“瓶颈”变量中来学习数据中所蕴含的内在模式,其学习模型如图所示。在图中,变量X代表载有海量信息的大数据,Y是描述数据对象的特征变量,而T则是压缩的“瓶颈”变量。变量X中载有海量的信息,在无任何先验知识的情况下,这些信息对人类来说是不可驾驭的。然而,“瓶颈”变量T的规模远小于X的规模,相对容易被掌控。变量X到T的压缩过程中所产生压缩编码P(t|x)则为IB方法所发现的压缩模式,若一些数据对象被压缩到了同一个t中,这些数据对象则被划分到同一个类中。为使IB方法所得的压缩编码P(t|x)可放映数据中所蕴含的真实类别,IB方法在对大数据进行压缩的同时,还要求“瓶颈”变量T尽可能的最大化保存特征变量Y中所载有的信息量。在对数据进行压缩时,我们不可能平白无故地对数据进行分类,需要依据数据对象自身的特征来对数据进行划分,只有将具有相似特征的数据压缩到同一个类中,所得的压缩模式才具有意义。特征变量Y客观地描述了数据对象,因此IB方法将特征变量Y作为数据压缩的依据。
中国古圣先贤老子曾说过:“无名,天地之始。有名,万物之母。”IB方法在将数据对象压缩到“瓶颈”变量的过程有为万物命名之意。当人类还没有给这个世界的事物命名之时,在人类的认知中这个世界里的一切事物本身与自然是浑然一体的,处在一种人类认知意义上的混沌状态中。但一旦我们对事物进行确切的命名之后,即使它们并没有完全与自然脱离其成为整体的状态,但在人类的视角里已有了独立认知的意义,即石头、山、水、河流、花鸟虫鱼、太阳、月亮……人们可以将某一事物从他原来的混沌状态中抽离出来,在人类的世界里建构对它的独特认知。这时候原来的混沌状态似乎就一下子瓦解了,整个世界由无数独立存在的事物井然有序地构成一个统一的整体。由于海量的信息数据对我们来说在一定意义上也是混沌的,因此IB方法的思想与上述思想如出一辙。IB方法从混沌的海量信息中压缩得到的每一个类是对数据的一个总结,是数据中的一些共性特征,是对数据化繁为简的结果,是无形信息的有形化结果。IB方法的压缩分类就如同对万物的命名,人类对万物的命名过程也是一个压缩认知的过程。
二、顺序IB算法学习过程与人类学习过程之共性
IB方法通过压缩来认知数据,属于机器学习领域中的一个无监督学习方法。机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。不少机器学习领域专家给出了机器学习的定义。兰利(P. Langley)认为:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。”米切尔(T. M. Mitchell)在其著作《机器学习》中谈到“机器学习”关注的问题是“计算机程序如何随着经验积累自动提高自身的性能”,也就是主要指的归纳学习。机器学习的功能是知识发现,知识发现是通过学习算法实现的。下面结合一个典型的顺序IB算法,来阐述IB方法的压缩认知过程与人类的学习过程之间的关联性。
对于计算机来说,信息就是数据,因此IB算法以数据对象作为输入,从中学习有价值的模式。顺序IB算法的主要学习过程为:在某一随机划分的基础上,计算机依次读取每一个数据对象,在IB方法目标函数的指导下将其指派到一个与该数据对象拟合度最强的一个划分中,重复迭代该步骤,直到划分指派不再有新的变换为止。
根据米切尔对机器学习的定义,顺序IB算法中的经验便是我们能观测到的数据集。在顺序IB算法的主循环中,依次考虑每一个数据对象的迭代过程便是从经验中不断修复当前所得压缩模式的过程,从而提高自身识别数据的性能,最终达到“物以类聚,人以群分”的目的。试想一下,当我们人类面临着海量的数据时,也需要通过读取每一条数据对象,得到数据中的一些大概划分模式,然后再综合考虑每一个数据对象与当前划分模式之间的匹配程度,对所得的划分模式进行修复。因此顺序IB算法的学习过程也可认为是一个循序渐进、归纳总结、温故而知新的过程。这和人类的学习过程有着异曲同工之处。
另外,在顺序IB算法中第一步要求对数据做一个随机初始划分,在此基础上, IB算法再循序渐进地从数据中学习数据对象间所蕴含的内在模式。初始化是一个随机的过程,一个好的初始划分往往会得到一个好的压缩结果。顺序IB算法中的随机初始划分就如同人的出身,出身在一定程度上决定人的命运。一个人若出身在一个经济基础、周边环境及家风较好的家庭中,这个人成才的概率往往就会比较高。当然境遇不好,但经过自身努力拼搏最终成才的人也大有人在。顺序IB算法的知识发现过程是一个随机性与确定性的辩证统一。
三、机器学习与人类学习之不同
虽然顺序IB算法的学习过程与人类的学习过程有着异曲同工之处,但机器的学习能力是无法完全模拟人类的学习能力的,其最根本的原因是计算机无法像人类那样既具有意向性又具有主观性。塞尔认为:“计算机程序永远不可能代替人心,其理由很简单:计算机程序只是语法的,而心不仅仅是语法的。心是语义的,就是说,人心不仅仅是一个形式结构,它是有内容的。”计算机程序只是以一种形式化、语法化的特征,这种形式化的符号是不具有任何语义的。
“枯藤老树昏鸦,小桥流水人家,古道西风瘦马,夕阳西下,断肠人在天涯。”这是元朝马致远的经典小令《天净沙·秋思》,对于中国稍通文墨的人来说都能够背诵。整个散曲描写的是一个秋天的下午,一个远离家乡的孤独的旅人,怀念故乡和亲人的那种淡淡的惆怅的情感。这首曲里所点出的一切意象全部都是自然的存在,但这些自然的存在在人类的世界具备丰富的情感意义,并且这些物象的类别即与某一类别的人类情感有效地衔接,当这些物象在诗人的笔下娓娓地叙出时,读到这类物象的人们就自然生发出与此相应的内在情感,从而与诗人、诗中的旅人的内在情感强烈地一致!
然而,当计算机程序在读《天净沙·秋思》时,所获取的知识只是枯藤、老树、昏鸦这类客观存在的自然界物体,却无法像人类那样理解其中的情感。尽管一些人工智能研究者也力图将某些语义信息融入到机器的学习中,然而人对语义的解读远远胜于任何带有智能的机器。
虽然机器的学习能力不能完全模拟人类的学习能力,但计算机的特点决定了机器学习也有其自身的特点。例如,计算机的记忆力(存储能力)胜于人脑,计算机在特定领域的计算能力胜于人脑。这些特点可以使机器学习方法作为一个辅助的手段来帮助人类学习认知世界。例如,海量数据的模式分析对于人类来说往往是一件枯燥无味、费时费力的事情,并且在无任何先验知识、无任何工具的帮助下,对海量数据模式的提取并不是轻而易举的事。此时,可以借助机器学习方法,如IB方法,来从数据中提取数据的模式特征。正是得力于计算机的出色存储能力、出色计算能力,机器学习算法可以在较短的时间内为人类提供一个对数据的初步认知模式。另外,得益于计算机无情感的特点,计算机在做这些事时才不会像人类那样感觉枯燥无味。由于机器学习的特点与人类学习的特点不同,机器学习方法或许还会为人类带来一些意想不到的学习结果,从而帮助人类提高对世界的认知程度。
此时,想起苏轼的诗:“不识庐山真面目,只缘身在此山中。”当数据是海量,我们无从下手的时候,或许机器学习方法,如IB方法,可以引领我们从庐山中走出去。
四、人类学习的研究对机器学习研究的指导意义
人类在做事情的时候,自身往往都具备一些先验知识,并且我们人类还可将自身已有的知识应用到对新事物的学习中。我们用一个典故来阐述人类学习能力的一个特点。
乾隆曾问纪晓岚,传说关羽忠义,朕且问你,他老婆是何等样人?这是存心刁难,史书上根本没有关夫人的详细记载,让人如何回答?可纪晓岚立刻答道,生何年,殁何月,皆无从考;夫尽忠,子尽孝,岂不谓贤?乾隆大笑,说爱卿真有你的!
在无任何有关关夫人的先验知识下,纪晓岚的回答则是将有关关羽的认知迁移到对关夫人的评价上。
在现有图灵机的模式下,计算机对数据的语义理解能力远远不如人类,因此,计算机所学习到的模式划分往往会与我们人类的认知有偏差。此时,我们期望将人类的学习模式平移到机器学习中,来提高机器的学习能力。机器学习中的一些热门研究领域,如监督学习、深度学习、迁移学习、多视角学习、终身学习等,都有与人类学习的基本思想一致之处。
人类的学习思想可以指导机器的学习过程,然而在实施中还需从具体的领域问题中来抽象具体的领域知识,对这些知识进行建模,将人的学习思想融入到模型中,并设计具体的实施算法在计算机上运行。
(作者娄铮铮的单位为郑州大学信息工程学院,张朝阳的单位为郑州大学软件与应用科技学院)