吕乃基
(东南大学 科技与社会研究中心,江苏 南京 210096)
“大数据”与“认识论”,前者在眼下炙手可热,后者则是古老的研究领域。将二者联系起来,前者因深入到认识论而不只是流于口头和报端的“浮云”,也不仅是“云”;后者因接触到前者而焕发了新的生命。以下试图以传统的认识论来梳理目前关于大数据的种种论述,以及由此反过来扩展传统的认识论。
文中的论述过程往往把大数据与认识论二者合到一起,既因为大数据认识论实际上正在隐然成形,也因为行文的方便而省略了“与”。因而,文中在述及“大数据认识论”时,并非意味二者完全融合。读者可以由前后文判断此处说的是“大数据认识论”,还是大数据“与”认识论。
一般认为,大数据来自自然界,来自生命,以及来自人类社会。前两项涉及自然科学,涉及后者的学科或学科群已经在2009年被称为“计算社会科学”①。本文没有涉及大数据认识论在自然科学中的作用,集中讨论人类社会中的大数据与认识论的关系。*2009年2月,美国哈伯大学的戴维·莱兹(David Laze)等15位学者在《科学》上联合发表题为《计算社会科学》的论文,宣告了计算社会科学的诞生。
认识论的核心之一是主体与对象的关系,这里的主体泛指人类。进入20世纪后,对认识主体的理解有所扩展,把仪器也作为某种“主体”或主体感官的延伸,电脑则是大脑的延伸。在大数据认识论中,自身与体外的主体进一步分化。人自身,即使加上个人电脑也没有能力认识大数据,要应用独立于个人的计算机、网络、云,互联网大脑[1]在大数据认识论中担负重任。人类把复杂的认识过程“全部打包”给电脑[2],互联网大脑则需要有专门的维护和操作运行人员。
20世纪以来,认识主体随着从小科学到大科学还有一项分化,那就是由人“类”分化到具有相同或相似“范式”的“共同体”。近年来,越来越多的情况是,一方以种种方式委托另一方来认识某个对象,如咨询、课题,以及知识流程外包等,认识的意向方与实施方分离,分为甲方和乙方。委托方可以有各个领域的科学家,更会有大量来自政府、企业界和社会的甲方。相对而言,乙方和应用互联网大脑的人员具备较为高深的科学知识,需要相当熟悉甲方的需求才有可能完成后者外包的事项,需编写特殊的程序和软件,以及向甲方提供可视化的分析,因而主体在分化的同时紧密相关。
随着认识主体的分化,认识的动机目的也发生相应的变化。在近代的“小科学”时代,认识就是为了求真;“大科学”时代,认识的动机承担越来越多来自社会的需求,较之以往更有可能发生知识的“社会建构”。大数据时代,“面对海量信息,任何人都只需要对自己有益和有用的信息”[3]。在大数据认识论中,就目前现状来说,虽然甲方的意图带有明显目的性,有趣的是,乙方因与甲方分离而较少利益相关,有可能相对客观冷静地从事求真的研究。然而也会发生新的问题:乙方如何判断甲方所委托事项的合理性,是否符合伦理规范。只管求真的乙方是否可以因认识主体的分离而免责,可以不顾其中的伦理道德,有求必应。无论是知识流程外包,还是在大数据认识论中,在这些高度分化的认识主体之间还需要有关系到责权利等事项细致妥贴的制度安排。简言之,在大数据认识论中,认识主体高度分化并社会化。从这次马航失联飞机的搜寻过程中,可以看到海事卫星组织和英国海难调查处等独立于马来西亚等当事国的机构的重大作用。
从另一个角度看,大数据认识论的认识主体可以清晰地分为两个方面或层次:政府、公司,以及个人,分别对应于国家、市场和社会。政府由大数据把握全局;公司由大数据了解政府与个人的需求,理解相关政策,洞悉竞争对手,以及掌控资源。一个健全的社会拥有与政府和公司处于均衡状态的个人。目前还看不到个人在大数据认识论中作为主体的地位和作用。可以确定的是,即使个人作为大数据认识论的主体,其影响也与政府和公司不可同日而语。
相对于认识主体的变化,在大数据认识论中,认识对象的变化更具有根本性。传统的认识论所涉及的认识对象是客观存在*形形色色的后现代思潮对此有种种诘难,本文不涉及这一点。,而大数据认识论中的认识对象就是所谓“大数据”。这么看似乎是同义反复,如果站在波普尔“三个世界”的角度来理解,两种认识论在认识对象上的区别马上就彰显出来。传统认识论的认识对象是“世界1”(包括被看作世界1的生物学意义上的人类),大数据认识论的认识对象虽然并不等同于波普尔的“客观知识”,但大数据毕竟既非世界1,亦非世界2,应该属于“世界3”。反过来说,世界3有必要从客观知识扩展到大数据。波普尔在上世纪60年代提出“世界3”的理论,近半个世纪以来,这一理论因各种原因而没有得到应有的重视[4]。现在看来,其实数据还不够多,不够“大”,因而世界3本身尚未成形也是原因之一。这一点非常重要,数据只有充分“大”才可能有“大数据认识论”。再者,当时也缺乏研究世界3的手段工具和方法。过去更多的是处理分散而又各自具有结构的数据,而现在和未来需要处理的是大量处于混沌状态的非结构数据[5]。传统的研究方法对于后者难以奏效。现在对象已经摆在前面,适宜的工具也已经在手,时机已经成熟。
另一方面,在麦肯锡和舍恩伯格的眼中看到的只是数据,即使是“大数据”,而“世界3”则上升到哲学层面,大数据具有与世界1和世界2平起平坐的地位,在这样的视野下,大数据和大数据认识论具有无限的研究空间和发展前景,不仅为相关产业功利目的的研究提供广泛领地,而且为纯粹求真的研究打开新的无穷的数据“宇宙”。大数据只是世界3中的一部分,而且只是表层的部分。例如,既然提出“大数据”,那就必然有“小数据”,于是可以提出这样的问题:大数据与小数据是什么关系?大数据真的可以只求知其然,一步到位,到此为止?在大数据的背后还有什么?由此必然涉及到与世界1和世界2同样广阔无限,而又迥然不同的世界3,由此可以进一步提出“世界3认识论”。大数据认识论有其特殊性,同时又是世界3认识论的一部分。以世界3为研究对象,这是大数据认识论中的关键之点。世人在惊艳麦肯锡和舍恩伯格的洞见之时,不要忘记波普尔在半个世纪前提出的“世界3”。
必须指出,大数据之所以得以成为研究对象,更重要的在于提供大数据的人和人际关系。近代以来,人是机器、单子,社会是由零件组装而成可拆卸的机器。随后,人是化工厂、细胞的王国,乃至人是社会动物,着眼点基本上都是单独的个人。个体行为与社会活动规律如此复杂,很难运用严谨的科学进行逻辑推理或进行精确的定量计算,直到互联网时代和功能各异的社交网站出现。社会软件建立了一种新型的远程社会关系,从面对面地交往到数字操纵的交往,深刻地修改了已有的社会模式[6]。“人类行为较之于相对独立的个体决策行为发生了显著变化,”[7]构建了某种“心有灵犀一点通”而又变动不居的人际间的相关性,使得数据不再杂乱无章,而是成为有规可循的大数据,成为有价值的研究对象。“由于能够测得更准、计算得更加精确,社会科学也正在脱下‘准科学’的外衣,在21世纪全面迈进科学的殿堂”[8]。
具体而言,作为对象的大数据有以下特征:首先是所谓“4V”,即数据量大(Volume),类型繁多(Variety),价值密度低(Value),以及速度快时效高(Velocity)。这样的提炼固然有其意义,但毕竟处于表层。在大数据背后深层的是人类作为整体的时空尺度,在个体不可比拟的量级所显示出的前所未见的属性。也就是“揭示冗余度支持的有统计意义的情报及其关联,从大众层面而不是个体层面来理解人类行为”[9]。
正因为此,所以作为世界3的大数据具有与世界1同样的特征:客观性。“传统民调需要设计问卷,可能有意无意引入主观因素,不能完全排除模糊歧义乃至误导。大数据是自底而上的自动数据分析,用归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性[10]。”客观性的关键在于,其一,数据之大,充分抵消了少数个体的特殊性,类似于在众多裁判中去掉最高分和最低分。显然,裁判越多,打分的结果就越接近运动员的真实水平。这一点也类似于所谓“主体间性”。显然,两三个人之间的主体间性与数以万计个体的主体间性不可同日而语。这就再次表明波普尔的世界3理论多年来得不到重视的一个原因:数据不够大,因而难以进行客观的研究。其二,数据之全,不仅是“二八定律”中的“二”,而且是“八”,是“长尾”,这就极大提升了普罗大众在社会生活中的权重。不过,随着“少数服从多数”成为现实,如何避免多数人的“暴政”,成为大数据时代有待解决的问题之一。其三,所谓“自然流露”,也就是无意识。一方面,这种自然流露就是个体的主观意识,另一方面,个体并不知晓其作为大数据认识论的认识对象。大数据的客观,所需要的正是这样的“主观”。千万个这样相对纯粹的主观最终汇成客观。
作为认识对象的大数据之所以呈现出整体上的特定关系,与数据背后的人有关,笔者曾试图以“漩涡与人性”的隐喻(后现代的认识途径)来说明这一点。在池里洗碗、洗脸、洗澡……,如果水较多,把塞子一拔,水就形成漩涡,以最快的速度迅即从出口流走。然而人呢?平时大概还可以有条不紊,循序而出;要是遇到地震火灾之类紧急事项,那就一涌而出,其结果或者造成踩踏事件,或者谁都出不去,至少大大减缓出去的速度。每个人的争先恐后,造成了整体的拥堵。这种情况在日常的交通中也是屡见不鲜。为什么人不能如漩涡那样,在塞子拔出的瞬间即形成特定的关系和次序;反过来说,为什么那些无生命的水分子似乎知道争先恐后无济于事。网友的评论说,如果把水分子用纳米碳管来输运,一样会出现“整体的拥堵”;反之,如果出口足够大,人类也不会出现拥堵。宏观流体定律在建立时基于连续介质,即最小颗粒尺度与所考虑的尺度相比是可以忽略的,但在人作为个体的大规模运动中,流体定理就发生了破缺。在大数据里,个人就相当于旋涡中的水分子,其“毛糙”的边缘和瞬间的变化可以忽略不计。由此再次可见,数据之“大”的关键地位。由此不禁想起布朗运动,自然科学早就在统计力学等学科中关注自然界中的大数据。人类社会的大数据是否相当于布朗运动,个人只不过是其中一个不起眼的粒子而已。
大数据不仅具有“4V”的特征,而且处于不断增长之中。人类存在一天,大数据就与日俱增,永不枯竭。人们对于“物质无限丰富”尚有争论,至少还需要做一番解释,对于大数据,似乎甫一问世,即已是无限,乃至需要培育“删除”和“忘却”的“美德”。无限的大数据或将有助于解决眼下有限的物质匮乏。虽然其中的绝大部分是垃圾,数据“垃圾”,是否也是“放错地方的资源”?
主体与对象的特殊关系也是大数据认识论与传统认识论的一个值得注意的不同点。
其一,由于在大数据的背后是在不同层次作为整体的人,或者是众多社会关系的“总和”,在大数据认识论中成为认识对象而又毫不知情的人,于是认识主体政府和公司便有接近上帝俯视芸芸众生之感,认识主体与对象之间成为牧羊人与羊的关系。此外,相应于认识主体的三个层次,自然也就有作为对象的不同数据。无疑,政府所面对的数据最“大”,公司次之。不过,跨国公司认识对象之大完全可能超过不少国家。个人所能够认识的数据在大小、内容和性质上均不可与政府与公司手上的数据同相提并论。数量巨大的个人及彼此间无意识的主体间性,是否可能平衡政府和公司?
其二,上帝会满足于“俯视”,有人则把对数据的占有和控制看作是在陆权、海权、空权之外的另一种国家核心资产。这一点在斯诺登所曝光的“棱镜”中得到充分显示。IBM执行总裁罗睿兰则认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”(百度百科)这就提醒我们,大数据,进而世界3既可能“成为人类至关重要的自然资源”,也可能成为“另一种国家核心资产”。谁对大数据和世界3拥有产权,甚至主权?传统认识论以世界1为对象,世界1对任何人一视同仁,因而在认识论上并没有所有权之争,所有权主要是在实践层面,在应用领域。在大数据认识论中,所有权进入到认识层面。个人、公司、国家可以独自开发、独占其中的一部分。大数据不仅具有认识价值,而且拥有因人而异的使用价值。有人认为[11],计算社会科学可能会变成私人公司和政府机构的专属领域。或许会出现占有私有数据的特权学术研究群体,无助于公众利益。在物理学和生物学里的调查目标,例如夸克和细胞既不会介意我们发现它们的秘密,也不会对于我们在研究过程中改变它们的环境发出抗议。美国伦理审查委员会委员(U.S.Institutional Review Boards)必须增强他们的技术知识来了解产生侵权和个人伤害的可能性,因为新的危害的产生条件会不同于现存的模式。有人把对大数据的占有与否,联系到资本在资本主义刚诞生时的原始情况[12]。于是,当下就预示某个新时代的开始。
其三,由此可以还引出一点,那就是技术手段在大数据认识论中的极端重要性。棱镜表明,技术手段可以用于发现、开发大数据,挖掘大数据中的金矿,以及在于控制和支配。由此可见,在大数据认识论中,技术比以往任何时候发挥更大的作用。对此有必要引起高度重视。“大数据时代,技术的有效性要比科学的完整性更重要!”[13]
大数据,进而世界3,受到技术手段和权力的制约和影响。技术关系到作为对象的大数据之大、之深,以及之利;权力在于控制与支配,控制大数据的透明和共享的程度,并由此支配放牧的羊。虽然主体与对象在一定程度上可以互易,此时此地的主体在另一个场合可能就成为他人的对象,不过,拥有更先进技术手段和更大权力者无疑更会是政府和公司,他们更像是牧羊人而不是羊。
传统认识论的认识过程涉及各种思维方式,如逻辑思维、形象思维和直觉思维,以及多种方法,如分析、综合、归纳、演绎、比较、分类、类比、假说、模型,还有现在的复杂性科学方法等等,不一而足。在科研中纯熟应用这些方法并非易事,其要义是,先对现象也就是知其然进行抽象和分析,把复杂的对象和过程分解为要素、部分和片段,再加以比较、分类和归纳,找出共同点,经由假说揭示知其所以然,然后再回过头来解释原有和更多的现象,进而提出预言。
上述认识过程可以归结为马克思所论述的“两条道路”[14]。“在第一条道路上,完整的表象蒸发为抽象的规定;在第二条道路上,抽象的规定在思维行程中导致具体的再现”。
相对而言,大数据认识论的认识过程在于把非结构化的大数据(复杂世界的存在方式,就是非结构化中包含着结构化,混沌中包含着有序),按不同主体的不同目的转变为特定的结构化数据,使之对于特定的认识主体显得简约有序。例如,空间科学的研究方法,逐渐从传统研究方式转变为数据驱动的“观测、计算、挖掘、分析、验证”的研究方式[15]。简言之,就是在大数据中提取出波普尔的“客观知识”。李德毅院士认为,就是由传统的认知科学到认知计算。在传统认识论的各种方法中,似乎唯有比较方法在大数据认识论中继续赋予重任。李维认为,在对大数据的认识过程中“需要竞争对手或行业的背景。多话题的调查和对比是这类产品设计的题中应有之义。世界3对所有搜索的话题一视同仁,独立于话题。数据及其挖掘的不完善(查准率和查全率)放在比较的框架中就不是严重问题。”区别在于,传统认识论中的比较方法旨在使资料有序和做出发现,大数据认识论中的比较旨在使结论客观和突显。
正是这种由大数据直接获得的“简约有序”或“特定的结构化数据”,提供了人类群体在宏观上的某种行为,政府和公司的领导据此轻松和直截了当做出更为有效的决策。“‘大数据’可能是许多行为科学理论,乃至于是科学理论的终结者。”[5]《连线》杂志的前主编克里斯·安德森在2008年说:“数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。”“大数据”用事实向人类宣告:“知其然不知其所以然”,既是电脑望尘人脑的劣势,也是电脑超越人脑的优势[2]!然而,也正是这一点引发了诸多争议。
支持者以卡尔·波普尔推崇的科学研究方法*此处不讨论对波普尔科学方法的理解。力挺舍恩伯格:大胆预测,不断犯错,不断尝试。在大数据认识论中,就是“统计+分类-推理分析=决策”,认为这是一种更加进取的思维方式,进而是一种崭新的生活理念。需要预测贝叶斯定理中所说的先验概率,鉴于新证据的不断涌现更新先验概率进而预测结果。一旦获得新信息,再更新预测[16]。关键在于,知其然,不必知其所以然,知道该怎么做就行;“不再强调意义的真实来源,而是强调意义如何被生产”[17]。“真正‘懂得’大数据的公司,比如谷歌,并没有将大量时间花在构建模型上。”《信号与噪音》作者希尔写道。“这些公司每年从事数十万次实验,在真实的顾客身上测试自己的想法。”[18]
反对者认为,舍恩伯格放弃因果关系而只考察相关性的思路,与其说是一种进步,不如说是一种思维紊乱,不利于下一步预测,也无法采取行动[15]。李维明确指出,大数据不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水。真的可以止于“知其然”,而不求“知其所以然”吗?认知计算是否可以取代认知科学?人类的祖先经过长期观察发现蛙鸣与下雨往往同时发生。这样的长期观察大概也称得上是“大数据”。于是试图通过学蛙鸣来求雨。在多次失灵之后走向巫术、献祭和宗教。走向错误道路的根本原因就在于“知其然不知其所以然”。
当然,“真正‘懂得’大数据的公司”与先民不可同日而语,在“真实顾客身上的数十万次实验”也迥异于巫术。回想上世纪中叶,鲍林等人面对复杂的DNA结构由传统的先分析后综合的方法一筹莫展时,富兰克林由x-衍射,不经传统道路而直接获得DNA整体的照片,华生与克里克由此破译了DNA的双螺旋结构。大数据与此有异曲同工之妙,开辟了人文社会科学领域居高临下在整体上把握对象的认识道路,为看待人类和社会提供了一种全新的方法,“可以跳过个体认识直接到共性认识阶段[3]”。决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉做出(百度百科)。它最大的价值是给我们一个“高处视角(Top sight),允许我们以前所未有的丰富细节与深度,观察和跟踪真实世界”[19]。然而,依然可以追问的是,双螺旋结构最终得到科学解释,大数据认识论是否也需要在知其然之后再走一步?“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始”[20]。
此外,在大数据如火如荼之时,小数据依然有其价值,譬如解决前述多数人暴政;况且还存在“大数据浮夸(Big Data Hubris)和算法”的缺陷,因而应该将大数据与小数据(即传统的控制数据集)结合起来,创建对人类行为更深入、更准确的表达。以“全数据革命”(all data revolution)和用全新的技术和方法对各种问题进行更多更好的分析。
然而争论的根源并不止于此,问题还在于大数据认识过程本身的特殊性:从作为认识对象的大数据只要跨出一步,就不仅是认识,而且是实践,乃至产业链。上述争论混淆了认识与产业,以及认识与实践。舍恩贝格及其支持者把大数据认识论中的产业特征和实践特征等同于传统的认识过程,这就“遮蔽”了——用海德格尔的专用词汇——由“知其然”通往“知其所以然”的道路;反对者则以传统认识论否定大数据认识论中为传统认识论所不具备的新的实践特征,这就堵住了传统认识论拓展前行的道路[21]。
大数据认识论使用计算机乃至互联网大脑等现代技术手段,简化了马克思两条道路中的第一条道路,越过对整体的分析和对个体的归纳,一步到达所谓“共性认识”,但在本质上依然是归纳,而归纳总是不完全的,尤其是没有给出所以然。有必要揭示处于语境中的人群之所以具有这样或那样行为的依据。认知科学不仅研究脑的“自然属性”,而且要研究人类认知的特殊性,也就是文字、文明和传承,研究人类认知的社会属性[12](包括用户搜索、用户关系挖掘、话题发现、情感分析等)。大数据为人文社会科学提供了前所未知的“知其然”,开辟了通往人的心灵深处之途,仅仅是人工智能进入人类生活的一个序幕,马克思的“第二条道路”刚刚开启。大数据认识论不能止步于此,更不能半途而废,社会学、心理学、传播学等学科对此赋予重任。在由知其然到知其所以然的道路上,大数据认识论与传统认识论一脉相承。
大数据认识论更是对传统认识论的超越,其一是知行合一。长期以来,知行分离,知行之争不断。在大数据认识论中,知与行开始结合起来。其二是求真求效。传统认识论的核心在于求真,在20世纪的“大科学”中,为科学而科学的求真,在相当程度上被纳入特定社会的动机之下。在大数据认识论中,功利目标进一步彰显,并且贯穿于认识(行动)的各个环节。大数据认识论的实践特征在下文关于社会的知识建构的内容中将得到进一步说明。其三,大数据认识论不止是认识,而且是产业和实践。专家认为,眼下需要切实解决网络化数据社会与现实社会缺乏有机融合、互动以及协调机制的难题,形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统,达到大幅度提高数据消费指数、数据安全指数,降低数据能耗指数等目标[21]。
上述分析自然引向大数据认识论的认识结果。
在认识的结果上,传统认识论所关注的是,知识是否以及在多大程度上与对象相一致,是否以及在多大程度上独立于认识主体,简单说,就是认识结果的客观性,例如欧几里得几何、牛顿定律,以及爱因斯坦的相对论等。由知识的客观性可以推知知识的公有性,这是默顿“公有性”规范的依据。认识结果所得到的是属于全人类的“非嵌入”的编码知识[22]。发现者并不对他的发现拥有产权,其权益仅在于冠名。
大数据认识论同样强调结果的客观性,否则对主体毫无价值,甚至把主体导向歧途。与传统认识论所不同的是,所得到的结果归特定的主体所有所用,主体可以选择公开,也可以保密,也可以束之高阁*譬如买了某项专利不用,以维持垄断。。其他的主体或者得不到这样的结果,或者得到了也毫无用处。因而,大数据认识论的认识结果具有某种主体相关性,认识结果以特殊的方式嵌入于主体之中,知识的公有性被知识的私有稀释,乃至取代。此外,计算社会科学使用私有数据发表的论文无法被批驳和复现,不符合科学的“证伪”和可重复要求[11]。
如果把类型繁多(Variety)集中到单一的个体,就有可能前所未有地从各个角度全方位透析一个特定的个体。可以从横向的,如生活习惯、医院治疗、药物使用等,以及纵向的跟踪等数据,聚焦到一个个体(不止是个人),得到更直接、有效的结论。这样的维度可能是无限的。虽然每个维度因其单项而显得模糊,然而由“无限的模糊”所带来的聚焦成像会比“有限的精确”更准确[5]。“人是社会关系的总和”(马克思)。大数据比以往任何时候都趋于揭示这样的“总和”。于是,大数据不仅概观人世间的“布朗运动”,而且知晓其中个体的所作所为,从整体(群体)和个体两个层面前所未有地接近人性,这就是经由世界3研究世界2。阿里巴巴做小微企业信贷,不见面,只看数据,只看信用。用互联网和大数据推动整个征信体系的完善,不良率非常低[23]。亚马逊对交易数据的掌握能力和处理的深度,不仅充分掌握上游供应链的信用违约概率,甚至非常接近给其核心消费者建立动态CDS(信用违约掉期)的程度。这意味着亚马逊可以有效率地放大消费者的消费能力,对商品和商品组合实施真正意义上的个性化定价,以及大幅提高信贷的配对能力[24],这也是大幅降低互联网金融准备金的理由。美国东北大学教授艾伯特·巴拉巴西认为,如果你知道一个人过去的所有社会数据,预测其未来行为的准确性将达到93%[25]。这不禁让人们想起拉普拉斯。“计算”,真的只给人的自由意志留下7%的空间?
由此可以发现大数据认识结果的另一个特征:关系到特定对象的隐私。个体对于自己的言行,在社会上的一举一动是否拥有产权,如同舞台上的演员拥有对于自己演出的产权,他人没有买票即无权观看,即使买了票也无权录像,等等。而今,在大数据认识论中,牧羊人可以放牧一群羊,也可以特别的关注其中的一只羊[26],“羊”的隐私在“牧羊人”那里透明。只要他有意,并不顾及这只或那只羊是否在意。或许,身为大数据时代的羊,就要习惯自身的透明。大数据认识论认识结果的对象相关性有必要受到关注。
虽然当政府和公司这样的牧羊人用显微镜观察某一只羊时,这只羊或许也正在经由大数据审视周围的一切。个人能否,以及在什么意义上与政府和公司均衡?在聚光灯下剖析一个个体,毕竟不同于个体泛泛扫视周围的世界。
在走向后现代的认识论看来,知识的客观性受到来自世界2的牵连,这就是知识的社会建构。同样,也可以在大数据认识论中提出这一质疑。在前述分化及社会化的认识主体中,是哪一位或哪一部分认识主体,因何目的而提出什么样的需求,外包给什么主体,彼此间具有什么样的社会关系等等;再加上大数据认识论主体与对象的互易与叠加,这些特殊的“主体间性”必然会对大数据认识论所获得结果的客观性产生影响,从而形成新的“主体间性”。 从根本上说,主体间性的不断重构就是社会的运行,就是社会本身。知识的社会建构,反过来说就是社会的知识建构。
由此就涉及到为大数据认识论所特有的现象:认识结果对认识对象的反作用,这种反作用主要表现为源于从众心理的正反馈。虽然也可能会有逆反心理,但因其处于少数且方向不一,所以在实际上会以很大乃至极大的概率淹没于大数据的正反馈之中。如果确是如此,这就给出了大数据时代社会的知识建构的某种方向,不仅路径锁定,而且沿着前述“多数人”的方向自我强化。大数据时代是否具有相应的纠错或均衡的机制?
在大数据认识论中,对结果的评价也是重要的组成部分。传统认识论所关注的主要是“真”,而在大数据认识论中,甲方所关注的不仅是“真”,而且是“善”,当然也可能是“恶”,不仅是客观,而且要有用,也就是所谓求真求效[3]。“求效”,对谁有效?何谓“有效”?特别的爱给特别的你。与此同时,由于大数据认识主体的分化和多样化,认识动机各异和变迁,“唯一真理”于是被多项选择所替代[2]。大数据的价值主要在于其中所蕴含的“关系”。所谓“多项选择”,不仅是对于同一组关系可能有多种认识,而且是“关系”本身的多样性,随着视角的不同可以揭示出几乎无限多的关系。再加上每一种数据来源都有一定的局限性和片面性,事物的本质和规律隐藏在各种原始数据几近无限的相互关联之中。只有融合、集成各方面的原始数据,才能反映事物的全貌[22]。
自然界本身无所谓善恶之分,无论是弱肉强食,还是寄生共荣。与世界1一样,大数据本身亦然。不过随着认识的开始,也就出现了传统认识论与大数据认识论的分野。前者主要关注求真,后者还要“求效”。“求效”,就会关系到“双刃剑”。传统认识论涉及的主要是科学,相对而言科学本身不是双刃剑[27],大数据认识论从一开始就沾染了浓厚的功利色彩,有了善恶之分,因而其本身就是双刃剑。这一点还可以从产业链的角度来理解。如同人类面对世界1有上中下游的产业链,面对属于世界3的大数据同样有类似的“上中下游”。上游旨在数据挖掘,在这一环节,知识在很大程度上公有。随着产业链向终端用户移动,知识产权的分量越来越重,最终“嵌入于”政府部门和公司。在技术领域熟知的一句话是,能做的是否要做,所指的是在实践领域;在大数据认识论中,问题已经转化为“能够认识的是否都要去认识?”
本文旨在讨论大数据认识论,在探讨过程中必然涉及大数据产业,以及大数据实践论。
在大数据认识论中,大数据是认识对象,认识过程在“脑”(互联网大脑、电脑和大脑)中进行,最终知其所以然的认识结果,也就是关于人类的行为方式及其根源的知识属全人类所有。事实上大数据认识论依然难以“认识”意会知识。正是在意会知识中隐匿了人性的冰山水面下的部分。在大数据产业中,大数据是作为原料的生产力要素,产业链的各环节对原料进行挖掘、提炼、加工(知其然),以供特定用户消费,从而在整体上提升原有产业。与一般意义上的产业具有明确目标有所不同的是,大数据产业在一开始并不知道会“挖掘”出什么,更不知道会有什么用,这一点又与传统认识论有相似之处。在大数据实践论中,大数据不仅是“数据”,而且是知识社会的基础部分。大数据实践论的重要功能是弥补认识的不足,在实践中领悟体察意会知识,进而由此探索人性。更重要的是,对大数据的认识过程和加工过程就是社会本身的运行和变化,知识的社会建构,就是社会的知识建构。云和互联网把世界2投射到世界3,在未来的社会中,每一个人自降生之时,还会有一个与之一一对应的“数字”映像,分别存在于现实社会和“虚拟”社会之中,相互动态对应[6]。大数据认识论由世界3认识世界2,大数据产业和实践论籍此作用于世界2。世界2在与世界3的博弈和互动中前行。再进一步看,大数据产业应该属于大数据实践论,只是前者的主体是公司,在谋利的同时参与了实践;大数据实践论的主体不仅是公司,而且是政府和非营利机构,在实践的同时创造了社会效益和经济效益。计算社会科学在对所涉及的复杂问题进行建模时,不再完全以逼近某一实际复杂系统的程度(也就是认识论之“求真”——引者)为唯一的标准,而是把模型也认为是一种“现实”,是实际复杂系统的一种可能的代替形式和另一种可能的实现方式,而实际系统也只是可能出现的现实中的一种,其行为与模型的行为“不同”但却“等价”,这是利用人工系统研究社会计算问题的思想基础。通过对二者之间的行为的对比和分析,“借鉴”和“预估”各自未来的状况,相应调节各自的管理与控制方式,落实复杂社会问题有效解决方案或者学习和培训目标的实施问题等[6]。
大数据认识论和大数据实践论(含大数据产业),二者合一,而又各有侧重。大数据认识论旨在求真,是大数据实践论的基础;大数据实践论旨在求效和应用,并以其实践活动为大数据认识论提供素材,以其对生产力和经济基础的促进和对人的观念的影响推动社会发展,更以其价值观引导大数据认识论,以其实践过程推动大数据认识论。大数据时代的本质可用现代管理科学奠基人德鲁克的名言概括,即“预测未来最好的方法,就是去创造未来”[26]。的确,德鲁克的这一名言用到此处,清楚不过地表明了大数据时代的实践本质。
大数据,无论是认识论,还是实践论,都存在自身固有的局限。大数据,只是世界1和世界2的“镜像”。其一,不可能把世界1和世界2的全部“镜像化”,总有遗漏或不可能镜像化的部分,正如不可能把意会知识彻底编码一样。其二,一旦成为镜像,“就像一个小镇倒映在平静的湖面上,”虽然“对不同的观者,它夹杂了每个人不同的生命体验,倒影中包含了你在真实生活中的社会、机构和家庭结构”(戴维·杰勒恩特),但对于政府、公司、牧羊人来说,所见所闻只不过是平面的镜像而已*在刘慈欣的《三体》中有对二维、三维和四维的精彩描述。,活生生的小镇与平静的湖面不可相提并论,这一点类似于柏拉图的“洞穴”。作为产业,必须与传统的产业相结合,服务于传统产业。作为实践论,其一必须坚持以人为本的价值观引导,不要让大数据压倒真实的世界;其二,意识到大数据所涉及到的实践只是人类众多实践活动之一。
大数据认识论对传统认识论的超越具有深刻的认识论和知识论依据,前者在于认识史,后者是知识阶梯。
自从笛卡尔开启哲学的“认识论转向”之后,人类的认识史在整体上就是沿着马克思的“两条道路”推进。近代科学沿现象层面逐一深入,最终,万物皆机械。经济学归结到“经纪人假设”,管理学以泰罗制为本,如此等等。总体而言,直至19世纪末20世纪初,认识过程沿“两条道路”的“第一条道路”一路向前,由整体到部分,过程到环节,系统到要素,旨在揭示现象背后的基础或本质。
20世纪物理学革命启动了“第二条道路”。认识“回过头来”,随之出现了一系列“否定性”的概念,不确定、电子云、非对称、模糊、突变、非有序、非线性……。上世纪中叶兴起的复杂性科学关注的是关系和涌现。林林总总的后现代思潮从不同方面批判、围剿近现代的认识过程和所得到的结论。现实世界不存在质点,不存在纯粹的“经济人”,存在的是形形色色的个体,这些各具特色的个体又处于瞬息万变的“此情此景”之中,牵一发动全身,以及与同样处于此情此景下的认识主体有着千丝万缕的联系,在认识过程中必然相互影响。这就否定了基础主义和本质主义。如此复杂的对象,难以如近现代那样去理性认识,更遑论背后的原因;只能在实践过程中以全身心去体认,由隐喻去感受,重要的是定性、直觉和悟性。“learning by doing”,这就是所谓后现代认识论的实践论转向,不是不要认识,而是走向知行合一。显然,21世纪出现的大数据认识论与后现代认识论的特征具有某种一致性。
在知识阶梯[28]上,位于低层的知识具有较为清晰的边界,包括与其他知识的边界,知与行的边界,以及求真与功利的边界。例如,经典物理学具有严格的概念体系,生命科学就较为模糊,生态学尤甚,不仅与数理化天地生全都有牵连,而且涉及人文社会科学。物理学的实验主要在于认识和发现未知,而不是某个在先的目标,医学既是科学也是技术,不仅认识人体和疾病,更是治病救人。在大数据的背后是人的心理和社会,在知识阶梯上位于高层,自然边界模糊,以及具有更多实践特征。正因为此,大数据认识论显示出与传统认识论众多不同之处。李德毅院士认为,在这一领域,技术将成为科学的先导。
由此可见,人们对于大数据的理解和应用同时具有认识和实践的意义,相当于一枚硬币的两面。大数据认识论,从时代特征及其目前显现出来的主要内涵,也就是人的心理和社会来看,应该称为大数据实践论,而从整个历史和大数据所包含的“自然、生命和社交”而言,“大数据认识—实践论”或许更为恰当。
旨在认识世界1的传统认识论在各国各民族尚有差异,以隶属世界3的大数据为对象的大数据认识论在各国各民族之间的差异就更大了。大数据的利用机会和进程因国家和社会形态而异。
在当前及今后的一段时期,只要中国社会依然处于快速的转型之中,只要政府依然在经济社会发展处于主导地位,政府就是主要的认识主体,公司作为认识主体的地位正在上升。目前的情况是,政府主要把对大数据的认识解读委托给政府内部的统计和信息中心等部门,大公司也有自己的信息CIO,这无疑是必要的;不过,由于甲乙方没有分化,基本上是某种“合伙人”,利益捆绑在一起,难以独立运行,认识过程受到干扰,认识结果的客观性难以得到保证。民间和国外的一些机构和媒体之所以质疑所公布数据的真实性,这也是原因之一。一些互联网公司也与政府有着千丝万缕的联系。中国的“乙方”有待独立和成长壮大,走市场化的道路,更重要的是甲乙方之间完善的契约和制度安排。
就对象而言,中国拥有最大的“大数据”。世界第一的人口,每天都在产生大量信息(包括垃圾之类),再加上国情差异之大,与时俱进变化之快,所有这些不对称都是信息的来源。遗憾的是,中国在这一领域技术手段相对落后。
作为认识对象的大数据,“大”的含义还在于空间上的完整和时间上的连续,而非零碎的片段,以及可以随时跟踪和共享,主体由此方可得到关于对象真实与完整的认识。
“美国政府提出大数据计划的根源,在于有十几年以上数据公开的基础。”北京理工大学教授丁刚毅说,“里面很多敏感数据,就是敢公布,认为只有公布这样的数据,才能有更好的国际合作去应对危机。欧盟、英国,包括巴西这样的发展中国家,都已经加入了DATA.GOV”。丁刚毅曾跟国内一些著名的互联网公司接触过,申请共享其数据,公司表示“给你一段可以,几百个TB也好,几个PB也可以,但连续的数据绝对不可以”。他认为,对于研究者,长期不断、随时随地都可以接触的数据,才是大数据。“政府和行业共享数据应该是大数据的基础,离开共享政策,根本就没有大数据”[29]。关键是“数据共享”和“全球数据的流动性”。现在的情况是不公开,不透明,部门分割,把自己分管的数据当成属于自己的“资源”,“数据共享”还没有提到议程上,并且在一定程度上抑制数据的流动性,由此可能引发国内和国际的冲突。任何阻止、迟滞、干扰大数据到来的社会组织都会面临粉碎式的改变。唯有改变社会,搭上大数据的高铁,否则就可能沦为大数据时代的殖民地[30]。
数据,自然良莠不齐,世界各国,概莫能外。不过,中国的水军、恶意操纵、假冒伪劣,以及形形色色的山寨之类,特别是近年来每况愈下的全社会诚信缺失,可能会对大数据的真实性及基于大数据的认识、产业和实践产生负面甚至灾难性影响。一个没有信用的社会不可能应用信息技术所带来的所有便利,反之,信息技术将放大社会弊病。大数据,无论是认识论、产业,还是实践论,都呼唤一个诚信的社会。
对大数据的认识过程也有中国特色。有人提出,面对复杂的中国问题,是应该强调规范与价值解决优先呢,还是可以将它们化解为科学方法问题,并依赖于越来越技术化的分析方法?是在“知其然”之后就采取直截了当的行动以化解问题,还是求“知其所以然”,也就是解决问题的根源?在实际上,社会上所发生的大部分问题都可以在“知其然”的基础上予以化解,只有少数带有根本性的问题需要追根溯源。有必要指出,所谓“规范与价值解决”,实际上与中国传统文化的实用主义一脉相承。在中国传统文化看来,重要的是最终解决问题,至于背后是否有理论依据及其正确与否则处于次要地位。再者,中国东西部和城乡差距巨大,白领、蓝领和农民工的消费习惯迥异,还有不小的贫富差距;再加上改革深入,70、80、90后纷纷登台亮相,各领风骚,还有老龄化,不同的群体,各自嵌入于特定的语境,难觅一致的理论和规律;凡此种种表明,面对当代中国的现实,无论是对政府还是公司来说,大数据认识论主要在于知其然,在于实用。
中国社会的这种“碎片”和“流变”赋予大数据认识论或实践论,尤其是其中的比较方法以格外重要的意义。在社会发展较为均衡的发达国家,大数据的比较需要深入到人性中更为细小的习性和喜怒哀乐,而在中国,各种群体之间存在着甚至相当巨大的差别,不仅是消费水平和习惯,而且涉及到几乎对所有事项的看法和应对方式。这些显见的差别为在大数据认识—实践论中比较方法的应用提供了广泛的用武之地,由此得到的结论会成为决策的基础。而社会的迅速转型导致的“流变”,则要求不仅做“同时”的比较,而且进行“历时”的比较。所有这些比较都需要考虑到个性和语境,考虑到初始条件和边界条件。鉴于当代中国所面临问题的艰巨性、复杂性和紧迫性,大数据实践论会占据主导地位。
参考文献:
[1]刘峰.互联网进化论,[M].清华大学出版社,2012.9.
[2]《大数据时代》:记录一切数据 等待有趣的事发生[OL].金融界http://book.jrj.com.cn/2013/09/13074715834692.shtml.
[3]吴基传.大数据与认识论随笔[OL].中国信息产业网http://www.cnii.com.cn/wlkb/rmydb/content/2013-12/02/content_1263979.htm.
[4]吕乃基.走进世界3[J].东北大学学报,2007(6).
[5]王和.大数据时代将在本质上挑战保险行业[OL].和讯网 http://insurance.hexun.com/2013-02-01/150863309.html.
[6]王飞跃.社会计算——科学、技术与人文的数字化动态交融[OL].中国基础科学·科学前沿http://wenku.baidu.com/link?url=2x8MjQd_SdVSequ-WAVJXHnxYZkaABV0xryJUG7AEeSJGejjoOLKcZLm06 ZboUmN5Ku1fQWN4-vqMh1kFBM1VcI-jsymxlyNZoZNG
Pcw0CG 2005(5)5-12.
[7]王国成[C].// “计算社会科学:计算思维与人文灵魂相融合”[OL].经纬网 http://www.jingwei.com/feed/news/-4405165377780491313/11861053.html 2014-04-16.
[8]科学出版社.大数据改变世界[OL].http://blog.sciencenet.cn/blog-528739-802727.html2014-6-12.
[9][经济学人] 信息管理专题 | 数据,到处都是数据[OL].译言网 http://article.yeeyan.org/view/ilovericsson/92509?from=rss_related 2010-03-03.
[10]李维.“大数据与认识论”研讨会的书面发言[OL].科学网http://blog.sciencenet.cn/blog-362400-766229.html?2014-2-10.
[11]计算社会科学[OL].豆瓣网 http://www.douban.com/group/topic/31562256/ 2012-07-31.
[12]安替.政治如果不适应大数据 会有民族和阶级斗争[OL].腾讯文化http://cul.qq.com/a/20140815/050352.htm.
[13]中国工程院院士李德毅:大数据时代的认知计算[OL].C资讯网http://www.csdn.net/article/2013-11-13/2817475-MDCC-Big-Data-Cognitive-Computing.
[14]政治经济学批判.《马克思恩格斯选集》第2卷[M].北京:人民出版社,1995.
[15]科学出版社,大数据改变世界[OL].科学网http://blog.sciencenet.cn/blog-528739-802727.html 2014-6-12.
[16]大数据:迷思与解毒[OL].搜狐http://business.sohu.com/20131128/n390955671.shtml.
[17]卞友江.“大数据”概念考辩[J].新闻研究导刊,2013,5,pp27-30 [C].//转引自李金辉,大数据和镜像化生存:对大数据时代的哲学反思,《中国自然辩证法研究会2014年会论文集》235.
[18]大数据的局限性:算法不能完全代替人的判断[OL].和讯网http://book.hexun.com/2012-11-06/147648361.html.
[19]互联网的终极形态是“镜像世界”[OL].百度贴吧http://tieba.baidu.com/p/1070185004 2011-5-5.
[20]《大数据时代》译者序[C].//引自李金辉,大数据和镜像化生存:对大数据时代的哲学反思《中国自然辩证法研究会2014年会论文集》235.
[21]赵斌.从谷歌流感趋势(GFT)出错看大数据发展之路[OL].科学网http://blog.sciencenet.cn/blog-502444-776900.html 2014-3-17.
[22]程学旗.追本溯源 解析“大数据生态环境”发展现状[OL].C资讯网http://www.csdn.net/article/2014-02-13/2818402-bigdata-hadoop.
[23]吕乃基.论非嵌入编码知识,自然辩证法研究[J].
2006(1):104-107.
[24]“我们不会在家里装五道门”,访支付宝首席风险官[OL].http://www.infzm.com/content/98692 2014-03-07.
[25]高利民.如果谷歌变成金融企业……[N].南方周末,2014-04-10.
[26]谢方.大数据时代催生计算社会科学[N].《中国社会科学报》第358期2012-09-19.http://www.csstoday.net/Item/23729.aspx.
[27]吕乃基.科学技术之“双刃剑”辨析[J].哲学研究,2011(7):103-108.
[28]吕乃基.三个世界的关系——从本体论的视角看[J].哲学研究,2008(5):107-114.
[29]大数据:热潮中切忌一哄而上[OL].中国科技网http://wenku.baidu.com/link?url=64R1jdaSOvfo75qtR8a
JeUqsdQIiVEUYqw3nW7WoFS78jnok_rwpIjhdYRku2tMnnp
U66wC3v0b4BQ86s1IOieUqv45f4u 9UonNQUWXPOEi 2013-11-27.
[30]谢文:中国有可能沦为大数据时代的殖民地[OL].中国社会科学网http://www.cssn.cn/jjx/jjx_gd/201408/t20140815_1293660.shtml.