■ 陈仕伟
据考证,“大数据”一词最早由NASA研究员Michael Cox和David Ellsworth在1997年的IEEE第八届国际可视化学术会议上提出,但是当时并没有引起重视[1]。2008年9月,Nature推出了“大数据”专刊才在科学研究领域引起了重视,特别是2009年开始,“大数据”一词成为互联网中的热门词汇[2]。而2011年6月麦肯锡咨询公司发布的题为《大数据:下一个创新、竞争和生产力的前沿》的研究报告则全面阐述了大数据对经济社会发展的重要价值,并宣告大数据时代的来临。2012年2月11日《纽约时报》通过发表头版文章正式宣告大数据时代的降临[3]。因此普遍认为,2013年是大数据时代的元年。大数据技术变革导致的大数据时代在给我们带来雨后春笋般滋润的同时也给我们提出了严峻的伦理问题,以至于“伦理学家不得不重新思考传统的伦理概念(conceptions)”[4]。因此,大数据技术变革导致的大数据时代必然会产生出与以往不同的伦理问题。
虽然大数据时代已降临,但是对什么是“大数据”仍然众说纷纭。Michael Cox和David Ellsworth、2011年麦肯锡公司的研究报告、维基百科、美国权威研究机构Gartner、2013年第462次香山科学会议、维克托·舍恩伯格和肯尼思·库克耶的《大数据时代》和John Wiley出版的《大数据傻书》等都对大数据下过定义,我国学者邬贺铨院士、李德毅院士、李国杰院士和涂子沛等也探讨过何谓大数据[1-2]。虽然大数据拥有各种不同的解释,但是都强调了大数据的“大”,已远远超过传统常规技术的处理能力。例如,“2013年,挪威研究组织SINTEF的研究者称,世界上超过90%的数据是在过去两年中产生的。每秒钟就有205000GB的数据被创造出来,这是1.5亿本书的容量”[5]。特别是社交数据呈现出指数增长的趋势,“社交数据总量翻一番所需时间只有18个月。……2000年全年产生的数据总量目前只需要1天即可完成。以这样的增长速度计算,预计到2020年,不到1小时就能产生等量的数据”[6]。摩尔定律也表明,数据如黑洞般增长,远超过传统常规技术所能处理的能力,必须借助于大数据技术。
数据如此之大,那么我们不禁要问,到底是谁的数据?毫无疑问都是我们的数据。在量化一切和数据化一切的大数据时代,我们的一言一行都将以数据的形式存在着,或者说我们就是数据的主要生产者。但是,我们生产的数据为什么要被存储与处理呢?关键在于数据中蕴藏着巨大价值。大数据不仅是“大”,同时还具有巨大价值。正因为大数据具有巨大价值,谁掌握数据就掌握主导权,谁能够娴熟地处理和利用数据就能够在竞争中居于有利地位。当我们的言行都将以数据的形式被搜集、存储、传输、处理和利用的时候,一个透明化的社会即全面监控的社会就已经来临,首当其冲的是我们的隐私将不再受到保护。大数据时代或许就是一个隐私大泄露的时代。
在小数据时代,要获得别人的隐私存在一定的技术条件限制。从某种意义上说,隐私就是信息。要获得别人的信息只有通过相互间的接触与交往。如果不进行相互间的交往与接触,就只能依赖人际间的口口传送。但是任何一条信息在口口传送中难免会失真,就不能获得别人准确的信息。因此,如果为了自己的生活与工作免受打扰,完全可以拒绝与他人接触与交往,隐私就可以得到保存,至少“在人们的心中,家变成了至圣所,披上了隐私与安全的外衣”[6]54。但是在大数据时代,即使不与他人接触与交往,你的言行仍然被当作数据而被搜集、存储、传输、处理和利用;即使躲在家里不外出,你的行踪仍然会被预测出来;借助于大数据集输的“口口传送”信息即使传遍了世界的任何一个角落,也不会失真和改变原来的模样。1993年,彼得·施泰纳(Peter Steiner)曾在《纽约客》上发表一幅题为《在互联网上,没有人知道你是坐在电脑前的一条狗》的经典漫画。但是在大数据时代,“情况已经今非昔比了,适用于今天的漫画题目应该是:‘在互联网上,所有人都知道你一条狗。你戴着蓝色的颈圈,对猫感兴趣。你的主人正在度假’”[6]61。因此,我们在小数据时代一直在苦苦保护的隐私在大数据时代已消失得无影无踪。这就意味着大数据技术变革导致的结果就是一个透明世界的形成,是一个大监控世界的到来,隐私已无处藏躲。正如美国迈阿密大学法学院教授迈克尔·鲁姆金(Micheal Roomkin)所说:“你根本没隐私(You have zero privacy),隐私已经死亡。”[7]国际著名隐私法专家丹尼尔·沙勒夫(Daniel J.Solove)也认为:“他们相信隐私已死,而且能够做的也不太多,除了送上悼词以外,就是继续前进。”[8]
大数据技术变革导致让我们的一切言行都将以数据的形式存在着,并且借助于大数据技术,我们的数据并不是孤零零的数据,而是能够形成一个完成的数据链条,不仅对我们的过去了如指掌,而且还能够预测出我们的未来。这意味着我们完全生活在一个透明世界中,即在大数据时代里我们被监控已在所难免。大数据就是大监控,隐私已无处藏躲,隐私保护的伦理问题必然要产生。既然大数据技术变革导致我们的隐私大泄露,那么我们是否可以放弃大数据技术而退居到小数据时代呢?要放弃显然是不可能的。或许我们只能重新审视自己的隐私,重新区别小数据时代与大数据时代的隐私,在此基础上转变观念以适应大数据时代的生活。
大数据已被誉为是21世纪取之不尽、用之不竭的“石油”,其中蕴藏着巨大的价值。“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而大部分则隐藏在表面之下。”[9]大数据蕴藏的价值到底有多大,谁都无法给出一个准确的答案。因为“数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值”[9]135。大数据并不是一般的钻石矿,在利用完之后就消失或者变为废物,而是能够不断地重复二次利用;并且在不断地重复二次利用中不具有竞争性和排他性,即大数据在实现了首次价值目标之后还能继续实现二次、三次……的价值目标,并且无论实现多少次价值目标,彼此之间都不会产生制约与影响。因此,大数据到底蕴藏着多少价值,关键是看它能够被多少次地重复利用,而到底能够被多少次地利用当然又是一个未知数。需要特别是指出的是,可能有些大数据在多次重复利用了之后所蕴藏的价值已相当有限,甚至会被认为是数据废气甚至数据垃圾。但是,一旦有了新搜集的数据加入其中即进行数据更新,原来的数据又会焕发出意想不到的新价值。总之,大数据意味着大价值,且大数据中蕴藏的巨大价值是不可估量的,并且还具有这样的特点:首先是大数据表面价值巨大;其次是大数据的巨大价值不具有竞争性和排他性;再次是大数据能够不断地重复二次利用,挖掘出其中源源不断的潜在价值;最后是大数据能够不断更新而产生出新的巨大价值。
正因为大数据蕴藏着如此巨大的价值,谁都希望通过运用大数据技术从中挖掘出自己所需要的价值。按照荷兰学者Andrej Zwitter在Big Data ethics(大数据伦理)一文中的解释,大数据利益相关者(Big Data stakeholders)主要包括大数据搜集者(Big Data collectors),大数据使用者(Big Data utilizers)和大数据生产者(Big Data generators)[4]。大数据搜集者主要是根据一定的目的搜集和存储相关数据;大数据使用者则是根据一定的目的挖掘和利用大数据,以实现大数据的巨大价值;而大数据生产者指的是广大社会大众,在自己的生产、生活、学习和工作的过程中自觉地、不自觉地从事着大数据的生产工作。可见,大数据不仅意味着大价值,也可能意味着大矛盾。大数据利益相关者之间难免产生利益矛盾即利益冲突。“利益冲突(conflict of interest),顾名思义,是不同个人或不同团体或个人与团体之间在各种利益分配或占有过程中出现的矛盾。”[10]大数据利益相关者之间的利益矛盾同样也是利益的分配和占有中的矛盾。大数据技术是一项综合性技术,任何个人和团体都很难真正实现完全而又全面地掌握大数据技术,特别是相对于大数据生产者而言,或许根本就没有掌握任何大数据技术,但是又完全参与到大数据价值的实现过程中。但是,能参与到利益的分配中吗?相对于他们而言,可能更大程度的是遭受大数据价值实现过程中的伤害(如隐私泄露),只有遭受到伤害的时候才能通过各种手段来寻求相应的补偿。相对于大数据搜集者和大数据使用者而言,如果是同一群体,可能就不会存在利益冲突,但是在绝大多数情况下都是属于不同的个人或者团体,利益分配难免会出现矛盾。特别是由于大数据能够不断地重复二次利用,一次价值目标实现之后的二次价值、三次价值……又该如何分配呢?因此,“由于分工的不同和地位差异,大数据利益相关者必然处于利益的尖锐矛盾之中。其根本原因就是数据价值很难实现按比例恰当分配:大数据搜集者与大数据使用者难以实现利益均沾,大数据搜集者、大数据使用者和大数据生产者则是利益与伤害不均等”[11]。
大数据之所以能够蕴藏着如此巨大的价值,关键是充分利用大数据的强大预测功能。“大数据的核心是预测。”[9]16而要充分发挥出大数据的强大预测功能,关键又是要充分利用好相关关系,“大数据告诉我们‘是什么’而不是‘为什么’。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声”[9]19。只要掌握更多、更杂和更好的数据,就能够充分利用相关关系来实现预测未来,大数据也就意味着大预测:让我们在不知道“为什么”的前提下而知道“是什么”进而知道“该怎么办”。而一旦当我们知道“该怎么办”的时候就意味着由“事实”上升到“价值”,必然涉及新的伦理问题。
在历史上曾对“事实”与“价值”之间的关系进行了长期的争论,但是总的认识过程还追寻这样的路径:在认清“事实”的基础上来探寻出其中蕴含的“价值”。基本上就将认知与价值予以割裂。因此,伦理问题就是在充分理解与掌握“为什么”的前提条件下提出,即伦理问题的探讨必须建立在“求真”的基础之上,没有“求真”也就无所谓“求善”和“求美”的问题。但是,大数据技术变革带来的结果就是相关关系已利用到极致,完全可以在不掌握“为什么”的前提条件下实现“是什么”进而知道“该怎么办”。这意味着,伦理问题的提出并不完全建立在“为什么”的基础上。用田海平教授的话说就是“不明所以”的“二阶认知”:“与在因果关系方面‘明所以’的‘一阶认知’相比,大数据认知方式是一种旨在挖掘相关关系而采取‘不明所以’之策略的‘二阶认知’。”[12]
在一切皆可数据化的条件下,基本上实现了全数据模式,我们的言行都将以数据的形式存在着,大数据技术变革所形成的“不明所以”的“二阶认知”能够发挥出强大的预测功能。这样导致的结果不仅是我们的过去是透明的,而且我们的将来也完全透明。而未来的完全透明必将直接导致我们无法按照自己的独特意志进行相应的选择,自由的选择意志必然受到限制。更为极端的是,既然通过大数据能够清楚明白地预测出我们的未来,未来的状况将会是怎样完全可以由大数据技术给我们设计好、选择好,那么我们根本就无须做出设计与选择,一切交由大数据技术。这样的结果就意味我们根本没有设计和选择未来的自由。如果真的如此,大数据技术变革不仅导致了大预测时代的到来,也导致了大限制时代的到来。
由于大数据时代的被设计与选择而导致我们的不自由,这种境况的进一步发展就是导致我们不能真正实现自由而全面发展。既然我们的未来都将由大数据技术来进行设计与选择,那么我们只能完全执行大数据技术的设计与选择,这样我们也无须思考如何挖掘我们自身的无限潜能。那么,我们人类到底该干什么了呢?或许以色列著名的年轻历史学者尤瓦尔·赫拉利(Yuval Noah Harari)的《未来简史》(该书的最后一章的标题就是“大数据主义”)给我们敲响了警钟。在尤瓦尔·赫拉利看来,随着技术的不断进步,“过去有许多事情只有人类才能做得到,但现在机器人与计算机正在迎头赶上,可能很快就会在多数任务上超越人类”[13]。最终的结果就是“算法自己可能成为所有人”[13]291。智能机器人不仅能够完全取代人类去认识世界,也能够取代人类去改造世界。那么人类该做什么呢?“由于接下来的科技发展潜力极其巨大,很有可能就算这些无用的大众什么事情不做,整个社会也有能力供养这些人,让他们活下去。然而,什么事能让他们打发时间,获得满足感?人总得做些什么,否则肯定会无聊到发疯。到时候,要怎么过完一天?答案之一可能是靠药物和电脑游戏。”[13]294我们人类已经无聊至死,只能借助于毒品之类的药物和电脑游戏来消磨时光。
虽然尤瓦尔·赫拉利的预言有点危言耸听(也但愿是危言耸听),大数据技术与人工智能是否能够真正发展到这一天我们还不能完全做出准确的判断,但是不能不引起我们的警觉。大数据技术变革不仅能够充分利用相关关系而预测我们的未来,更为重要的是还能够设计和选择我们的未来,我们无法做出任何符合自己自由意志的设计与选择,结果一切都交由算法来完成。而当我们的一切都交由算法来完成的时候,我们的自由而全面发展也就无从谈起,最终的结果可能就是我们被算法所取代,甚至降低为算法的“宠物”。这肯定是一个前所未有的大限制时代,不是仅仅限制我们设计和选择未来的自由,而是限制我们的自由而全面发展。
在大数据时代里,数据已上升到本体论的高度,不仅文字能转变为数据,方位也必然转化为数据,甚至沟通也成了数据,“万千事物就能转化为数据形式”[9]123。大数据技术变革最终实现一切皆可数据化。在一切皆可数据化的大数据时代里,“物质的世界同时也是一个数据的世界,因此对世界万物的数据化成了大数据的终极性追求”[14]。数据上升到本体论的高度必然形成与之相适应的数据世界观,“将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观”[9]126,这就要求通过数据来认识与改造世界。
一旦将数据上升到本体论和世界观的高度,就意味着整个世界都是数据信息。“数据化代表着人类认识的一个根本性转变。有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。”[9]125因此,要真正将数据上升到本体论与世界观的高度还必须实现这样一个前提。如果这个前提都无法实现,数据就不能达到如此的高度。这个前提就是要量化一切。“量化一切,(是)数据化的核心。”[9]105如果不能量化一切,数据化也就失去了存在的意义与价值,实质上就不是数据化,而是数字化。因此,在一切皆可数据化的条件下,量化一切成为大数据技术变革的根本目标;如果不能量化一切,就不能实现万千事物的数据化;不能实现万千事物的数据化,就不可能真正进入大数据时代,也就意味着大数据技术变革并没有真正发生。
因此,大数据时代就意味着实现了一切皆可数据化,能够实现量化一切,整个世界都将呈现为数据信息。但是,当整个世界都呈现为数据信息时,一个同质化的世界就已形成。在整个世界中,万千事物都将是数据,通过数据来认识和改造之;万千事物之间并没有任何根本性的区别,而仅仅存在数据复杂程度的差异而已。这样导致的结果就是万千事物之间根本就不存在质上的区别,仅仅是量上的差异而已。这不得不令我们深思“人的神圣性到底在哪里?”,因为我们人类也是万千世界中的一组数据而已,与其他万千事物已没有本质区别。
既然包括我们人类在内的万千事物都是数据信息,那么只要掌握整体数据就能够认识一切,进而利用一切,意味着“我们相信上帝,除了上帝,其他任何人都必须用数据说话”[9]210。如果没有数据就寸步难行。但是如果我们“过于依赖数据,而数据远远没有我们所想的那么可靠”[9]208,那就必然形成一种新的独裁形式——数据独裁,即用数据来衡量一切、裁决一切。如果将数据当作迷信、当作信仰、当作判断一切的标准,那就是唯数据主义[15],也被称之为“大数据主义”[16]。因此,当实现量化一切之后,可能就会导致数据独裁。
数据独裁的出现已违背了大数据技术变革实现量化一切的初衷。量化一切的初衷是要为我们提供一个从未有过的审视现实的视角,达到更好地认识与改造世界的目标。但是,现实的结果却往往与最初的设想相违背,最终走向了反面,这必然会给我们带来新的不确定的伦理问题。
数据独裁意味着永远只能看到万千事物的量上差别,而不能真正认清万千事物的本质区别。相对于我们的生存状况而言,可能永远只能陶醉于数字上的华丽,而永远不能真正享受到其中的生存幸福。毫无疑问,幸福不能仅仅停留于数字上,更应该体现在数字背后的本质。设想,如果政府、单位、团体和企业等的决策完全依赖数据而忽视其中背后更为根本的质,该决策所产生的结果必然消极的。推而广之,就不可能真正实现整个社会的公平与正义,我们的生存也不可能真正幸福。耶鲁大学政治学和人类学教授詹姆斯·斯科特(James Scott)的《国家的视角》一书就详细“记录了政府如何因为它们对量化和数据的盲目崇拜而陷人民的生活于水深火热之中”[9]213的悲惨状况。更何况,数据并不是任何时候都是可靠的,有些数据的质量可能很差;有些数据可能不够客观;有些数据可能存在错误或者误导性;有些数据可能根本就没有达到真正量化的目的;有些数据可能就是垃圾和尾气;等等。如果我们过于相信和依赖这样的数据,来衡量一切、判断一切、裁决一切,给我们带来的后果是十分可怕的,特别是我们还必须具备“数字直觉”[17]。
大数据时代总是相对于小数据时代而言。我们现在能够畅谈大数据时代,关键是大数据技术的兴起。如果没有大数据技术的变革,就不可能实现一切皆可数据化,就不可能实现大数据的“大”,即使实现了大数据的“大”,也无法真正处理和利用大数据,就不可能有真正的大数据时代。因此,大数据不仅是重要的资源,同时还是一项重要的综合性技术。
大数据技术作为一项由计算技术、网络技术、可视化技术等高新技术综合发展的产物,“大数据开启了一次重大的时代转型”[9]9,导致了大数据时代的到来,“已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域”[9]15。因此,大数据时代到来已给我们生产与生活的方方面面产生颠覆性变革,大数据就是大技术。既然大数据是大技术,就不可避免地在给我们带来积极作用的同时也会带来严重的消极影响,毕竟技术都具有双刃性。而这些消极影响在很大程度上就是由大数据技术异化所导致,所以说大数据是大技术,但是也有可能是大异化。
“大数据技术异化,从根本上说就是,到底是大数据技术控制和规定我们还是我们控制和规定大数据技术?其实,大数据技术控制和规定我们的状况已初见端倪,隐私难以得到应有的保护就是明证,但是我们控制和规定大数据技术的状况却迟迟难以实现。”[18]科学技术的不断发展应该是我们人类不断实现自由与解放的重要保证与直接体现,促进我们人类不断实现真正的人的自由而全面发展,但是实现这一结果的前提必须是科学技术完全掌握在我们人类手中。如果不如此,科学技术就会失去我们人类的控制;而科学技术一旦失去我们人类的控制就必然会反过来控制起我们人类来。这样导致的结果就是科学技术的发展不仅不能对我们人类的解放事业起到积极作用,反而会起消极作用。而现行法律伦理制度的滞后又进一步促进大数据技术的使用失去控制与规定。美国著名信息管理伦理专家理查德(Richard A.Spinello)就曾说过:“法律在本质上是反应性的。法律与法规很少能预见问题或可能的不平等,而是对已经出现的问题作出反应,通常,反应的方式又是极为缓慢的”[19]3;并且“技术常常比伦理学理论发展得快,而这方面的滞后效应往往会给我们带来相当大的危害”[19]VI。大数据技术失控必然会朝着非人化的方向发展,进而制约着我们的全面解放与自由发展。
从理论上思考,大数据技术变革确实已给我们带来巨大便利,并且也必将能够为我们解决好当下的伦理困境提供重要的技术支撑,正如田海平所说:“大数据作为一场新的数据技术革命,必将改变也正在改变我们认识世界、改变世界的物质形式、实践方式和价值图式。……进而,凸显了探究大数据内含的认知旨趣从‘认知域’向‘道德域’之拓展的重要性”[12]。岳瑨也认为,大数据“通过将‘是’与‘应该’连接起来,使伦理思考方式不再仅仅是技术展现的伴随现象,或者不再仅仅定位为对‘技术之是’进行批判的‘应该’。它成为与技术展现相契合的文明进程,是技术‘道德化的形态表征’”,并认为“大数据认知及其‘技术展现’至少内涵五种道德意义”,分别是“增进整体人类福利”“推进社会优先构建‘公共善’”“展现开放共享的伦理”“体现尊重差异的价值”和“在道德知识与道德行为之间架设相通的桥梁”[20]。但是在现实中,大数据利益相关者之间的利益矛盾就已经表明很难真正实现“增进整体人类幸福”;数字鸿沟的存在表明“公共善”难以实现;数据割据和数据孤岛直接威胁到数据的开放共享伦理;在一切皆可数据化导致的同质化社会中真正的差异也难以得到尊重;在大数据重点应用到商业领域以实现价值最大化的条件下要实现道德知识向道德行为的转化无疑是与虎谋皮。其根本原因就是大数据技术并没有完全公平地掌握在我们人类的手中,没有成为我们人类的共同财富,而总是掌握在少数人手里,成为这部分人谋求商业利益最大化的工具。因此,在大数据时代难免会出现大数据技术异化。
大数据不仅是蕴藏巨大价值的资源,也是重要的综合性技术,同时还是非常重要的具体应用。大数据技术变革直接导致大数据时代的到来,在给我们带来巨大便利的同时也提出了诸多伦理挑战。如果要实现大数据时代的顺利发展和发挥大数据技术变革的积极作用,就必须对大数据技术变革产生的新伦理问题进行必要的治理。在法律制度规范相对滞后的条件下,我们更需要从伦理视角展开治理。虽然大数据技术变革也已对传统伦理学理论提出巨大挑战,但是伦理治理仍然不能离开传统伦理而另开炉灶,而是在充分运用传统伦理学理论的基础上,并结合大数据技术变革的具体特点展开,一方面实现传统伦理学理论的大数据时代转向,另一方面在治理的过程中努力构建出符合大数据技术变革的大数据伦理学。总之,任何一个时代都有自己的伦理问题,都必须进行必要的伦理治理,大数据时代也不例外。