高 原,崔增宝
(郑州大学 公共管理学院,河南 郑州450001)
随着大数据技术不断发展并融入人们的日常生活,相关的哲学反思日渐兴起,产生了新兴科技哲学领域:大数据哲学。当前,大数据哲学主要探讨大数据背景下的本体论、认识论、知识论与方法论问题,以及大数据相关伦理问题和价值论问题。长期以来,学界对上述问题有着较为一致的观点与主张:在本体论层面,数据具有世界本原地位;在认识论与知识论层面,大数据对人类认识活动产生重要影响并构建了新的人类知识类型;在方法论层面,大数据引发了整体替代抽样、混杂替代精确、相关替代因果等方法论变革;在伦理学层面,大数据给人类的隐私保护与自由意志带来挑战;在价值论层面,大数据具有可重复利用性,蕴含“无限”价值。上述对大数据的主流哲学反思,虽然揭示了大数据的诸多关键特征,但缺少批判精神,忽视了大数据的特征中的辩证因素。鉴于此,笔者对大数据技术进行了独立的哲学反思与批判性考察,尝试提出异于学界主流的观点,发出不同学术声音以供交流探讨。
在本体论层面,大数据哲学研究曾较为混乱。
探讨数据本身的本原存在而不涉及数据的世界本原性问题;对数的世界本原性进行研究,而对数与数据之间的概念差异避而不谈;跳过数据的世界本原性问题,将大数据哲学其他方面的问题与本体论问题混为一谈。在此背景下,学界达成对大数据本体论的某种共识:普遍认为数据具有世界本原属性。有学者指出,“大数据可被看成是‘万物源于数’本体思想的回归”[1],数据作为世界本原是对旧有本体思想的回归;有学者认为,大数据时代样本等于总体、重视混杂性与相关性的特征体现了数据的本体论地位[2];也有学者认为,“万物皆由比特构成,因此皆可被数据化,世界就是一个数据化的世界,世界的本质就是数据,数据世界已经构成了一个独立的客观世界[3]”;等等。
学界在未对数据本质进行深入考察的前提下宣称“数据是世界的本原”,而事实上哲学史上对于数据本质问题的争论至今也未能停息。关于数据本质问题主要存在两种观点,一是关系论(relational theory),二 是 表 征 论 (representational theory)。关系论对数据进行差异解释,指出事物之间的差异体现为数据;表征论认为数据与事实间有着内在关联,表征特性的存在使人类获得对现象的理解力。无论是关系论还是表征论,都未能对数据的本质进行世界本原性的规定,而作为外延与内涵显著大于数据范畴的数也难以获得这种规定性:毕达哥拉斯学派提出的“万物源于数”,只是在信仰层面;柏拉图主义认为的“数”存在于理智才能把握的理念世界,也未对“数”进行世界本原性的规定;康德认为“数”由先天时间观念整理事物“多少”的经验所得,其是思维创造的抽象实体而非“自在”。以罗素为代表的逻辑主义者认为,仅从一般的逻辑出发即可认识数;以布劳威尔为代表的直觉主义者指出,唯有可用有限步骤构造出的数才是真实存在的;以希尔伯特为代表的形式主义者认为,符号推演可代替语言。同样的,三者均未对“数”的世界本原性进行探讨。
大数据技术对人与世界的全面数据化使数据概念越发凸显于人们视野之中,“万能”的数据使人们重新思考数据对于世界的本原性问题。人们普遍认为,赋予数据以世界本原性,在合理解释当下人与世界全面数据化的同时,可以为大数据技术发展打下坚实的哲学基础——即便这显然是出于功利主义的考量。数据的世界本原性的确立有赖于经验证实与理论论证,然而在既缺乏有力的经验证据,又没有可靠的理论支撑的现有条件下,数据之于世界的本原性难以确立。
在认识论与知识论层面,学界普遍认为大数据技术对人类认识活动产生重大影响,为人类知识带来新的划界标准。有学者认为,“大数据认识论的主体高度分化并社会化,对象是世界2在世界3的映射①,技术手段会极大影响主体与对象的关系[4]”;有学者认为,大数据革命“通过‘让数据发声’提出了‘科学始于数据’的知识生产新模式,增添了科学发现的逻辑新通道”[5];有学者指出,大数据技术带来了一种说明力低但预测力高的新的人类知识型[6];等等。
笔者认为,大数据背景下认识主体的分化,无法改变认识主体本质上作为认识活动发起者的个体的人而存在;“世界2在世界3的映射”并非大数据认识论所特有;认识主体与认识对象之间的本质关系不会因技术手段的变化而发生改变。所谓大数据背景下由数据驱动的知识生产新模式,其本质上是忽视了大数据分析与处理技术中所内含的人类智慧与理性成果后的一种直观判断,迄今所存在的人类全部知识都是且仍将是经验素材与人类理性共同作用的结果。
对于大数据技术带来新型人类知识的相关论断,笔者认为,基于知识特征判断的知识型划分并非一成不变,知识特征的变化必然造成其知识型划分发生改变。大数据技术带来的数据驱动型知识表现的混杂替代精确、相关替代因果、说明力低但预测力高等特征,将随大数据技术的不断发展和大数据理论研究的不断深入而发生改变,更好地为人类所理解。
1.大数据时代的整体与“小数据时代”的抽样
学界普遍认为,大数据时代注重对整体数据的考察,“小数据时代”的随机抽样方法已不合时宜。其相应哲学观点是“在大数据时代整体大于局部、确定性大于随机性”,也许这种哲学观点在“小数据时代”才更为适用。在“小数据时代”,受到数据收集与分析能力的限制,人们更倾向对少量“关键”数据的收集、分析和归纳,进而发现数据之间的关系,建立确定性、整体性的理论模型,以期指导实践活动和理论发展。此时期,人类的思维模式更接近理性主义,人们相信可以从有限的理性出发,能通达无限的知识——在“小数据时代”特有的数据收集与分析能力基础之上。在“小数据时代”,人们期望抽样样本量更多、数据分析能力更强;出于对“大数据”的渴望,人们开始执着用整体性替代局部性、以确定性“征服”随机性。
从“小数据时代”的“大数据”与大数据时代的“小数据”来看,“大数据”是“小数据时代”人们的理想,“小数据”是大数据时代应有的警觉和必备的素养;整体“粗加工”不可取代局部“精加工”,经验相关亦不可取代理性因果。辩证地看,整体与抽样的关系为对立统一且优劣互补,对数据的考察无论从“器”的层面抑或“道”的层面,都应充分结合以上关系。
2.大数据时代样本并非等于整体
就信息技术而论,模拟信息属于连续的全样本信息,数字信息属于高密度离散信息,数据信息是被记录的特定数字信息。从离散数字信息中抽取的数据信息是一种不完整信息,严格而论,大数据时代从样本数据到整体数据的转换是不成立的。
人类的数据收集能力有其固有局限性,无法真正完成样本数据向整体数据的转化以实现“自我”超越。人类的数据获取过程受制于当下技术发展水平,总是需要借助相应的测量技术,这就为人类可能收集到的数据总量设定了一个具体的阈值。与此同时,获取数据的环境自身在数据获取过程中会发生改变,也会对环境数据产生一定的自反性,从而大大提高了数据获取的复杂性。
借助一个思想实验来说明:假设在一个密闭空间中填充温度传感器,使其布满空间,用以测量空间不同细分区域的温度。传感器自身具有一定体积,故传感器能进行温度测量的最小空间等同于自身体积。由于空间中的温度分布并非均衡,所以此测量方式的精度有着固有限制,其测量精度的提高取决于温度传感器的微型化程度。温度传感器本身也会产生热能,因此,测量行为本身会对空间内的温度产生自反性,进而造成无法准确测量在无测量行为介入时的环境温度数据。这个实验预示了大数据时代样本数据向整体数据转化时所面临的技术挑战。测量环境数据的目的,在于通过数据分析提高人类对自身生存环境的认识和引发反思,但要警觉过度的自反性会使人类为其认识行为和反思付出代价。
事实上,统计学家已经证明抽样分析的精确性随抽样随机性的增加而大幅提高,与样本数量的增加无显著相关性。在很多情况下,采用抽样样本数据分析结果,已经不亚于整体数据分析精度的分析结果。可见,大数据时代的整体替代抽样、样本等于整体的看法并非绝对正确。
大数据技术倾向于对混杂数据不经人类理智加工,直接交由计算机系统分析处理,不注重分析数据对象,甚至忽视数据分析结果的精确性,就可以得到有助于未来预测与决策支持的有效信息。基于以上判断,学界普遍认为大数据时代的数据混杂性高于精确性,混杂性才更接近人类的认识活动乃至世界运行规律的本质。混杂性思维反映了世界的真实性和复杂性,“混杂性思维让我们更加接近真实世界”[7];大数据经验主义者不再追求精确度,“他们承认混杂性并认为世界的本质就是混乱的”[8]。
事实上,混杂性仅存在于未经处理的数据,人类对混杂数据的处理恰恰反映了其对混杂性的排斥和对精确性的追求。大数据技术对人类认识能力的提高,使人类勇于将具有更高混杂程度的事物纳入其认识范围。与其说“混杂性更接近于认识与世界的本质”,还不如说人类在大数据时代主动选择了混杂程度更高的认识对象,这是人类主动选择与自主构造的结果,而与本质性无关。
大数据技术的现实发展印证了其对数据的混杂性有消除作用。大数据时代,在数据集成过程中,由于数据来源、模式的不同,甚至数据间存在矛盾,人们往往会对数据进行预处理,通过数据清洗消除相似、重复或不一致的数据[9]。
相关性与因果性是学界讨论最多的一组哲学范畴。学界一般认为,在大数据时代相关性对于因果性存在优先级,对相关关系的认识能够帮助人类以一种简便方式找到许多“有用”模式与规律。
有学者指出,“相关关系已经足够”[10];甚至有学者指出,“用相关关系取代因果关系”[11]。然而,“在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续向更深层次研究因果关系,找出背后的‘为什么'”[11];有学者认为,用相关关系代替因果关系需要一定的预设条件,指出:“只有在心理习惯的定律进路下,相关关系才能够代替因果关系在科学中的角色。”[6]
应该注意到,相对于整体与抽样、混杂与精确等哲学范畴,相关与因果之间不具有类似的对立属性,在很多时候它们是可以同时共存的。相较于相关性,因果性更符合人类将自身对象化后对其认识方式的判断,这也决定了人类的知识构架和认识方式被束缚在因果链条之中。人类为了某些对理论或实践有实用价值的目的,往往以最符合自身进化的方式,尽可能简化对无尽因果链条的认识与理解。杂乱无章的自然和社会现象将人类的意识“笼罩”其中,人类唯有寻到具有重复性的可靠关联才能获得安全感。在这种生存欲望驱使下,与紧张感、劳累感等具有近似原初性的无意识诉求,写入人类的基因中,刻在人体功能结构中。能带来安全感的可靠关联,最初只作为相关关系存在,而因果关系的确立需要更为严格的条件:两种事物在时间序列上总是前后相邻,且前者可对后者负有全部责任,前者出现必然导致后者出现。这种必然关联,由于不存在相关程度高低的问题,从而比相关关系更为可靠,它可以更好地帮助人类预见未来,也在最大程度上消解人类的不安。人类,不安于纷杂而找到相关,不安于相关而找到因果,不安于简单因果而找到愈加浩繁的因果链网,共同构建起属人的科学理论体系。科学理论作为人类对现象界因果关联的简化与抽象,有着深深的专属烙印,其注定是不完整的,自然无法完成对现象界原原本本的模拟与回归。
大数据时代,人类在数据收集、分析与处理方面能力大幅提升,使其获得了海量的数据信息。人类主动获取数据关联,不仅源于安全感的缺失,更源于现代科技发展促使人类勇于追求美好生活、主动拥抱未来的信心。大数据技术为人类挖掘出海量相关关系,却由于人类知识体系的不完整和属人性,无法梳理出其中隐含而复杂的因果关系。其中某些相关关系,由于明确了时间序列上前后照应的数理关系而受到重视,被人们用来判断当下和预测未来。
在人类的进化史上,擅长运用相关性思维是帮助人类在面对无数紧急事件时,能瞬间拥有应对能力的重要原因。物种之所以得以生存和进化,其原因是物种特别注重在危急时刻做出的条件反射式的动作,和出于相关性思维的瞬间局势判断;而不是对事物间因果关系的理性把握。因果性需借助理性的推理和分析方可获得,其过程不仅“艰难”,而且不适合应对紧急状况;对于相关性而言,因果性更有助于人类理解自身和世界,使之愈加简明且前后相序。
类似地,机器智能必将从对相关性的提取分析转向因果性的判断。其当下对相关性的重视,其实质仅仅是由于因果分析能力的欠缺。大数据时代的相关关系,已不是人类进化中出于实用目的被训练出的特定思维模式与能力,也不是大脑神经联结方式所造就的人类天赋禀性;而是人类运用数理统计方法对相关性自觉的挖掘。就天赋而论,人类更擅长相关思维。正因如此,人类才努力寻求对自身天赋的超越,追求以更高效能描述事物关系的因果性。可以预见,未来更高级的智能大数据应用必将实现这种自我超越,此种应用可以在分析数据相关性的同时对因果性进行一定程度的把握。
相关性与因果性本无高下之分。二者关系应被历史地、具体地看待:相关性更具备对人类思维模式产生的本原性;因果性更具备对人类尝试在时间序列上整体认识与理解事物关系的本原性。相关性简便易行;因果性帮助人类构建起了科学理论体系。人类对时间序列上的相关性习以为常之后,往往赋予相关性某种因果性;人类对于长期难以理解的因果性又往往将其归于相关性。因果性皆内含相关,相关性必承载因果。
学界普遍认为,大数据技术给人类隐私保护与自由意志等带来巨大挑战。此观点在一定程度上受到大数据隐私问题的自反性治理和自觉之自由的挑战。
大数据技术在增加主体隐私暴露风险的同时,亦为主体隐私保护提供技术支撑。大数据技术能协助主体主动地发现潜在安全威胁,并提供基于主体相关数据的身份认证技术[9]。
技术中性论暗含着技术对于“理想状态”的假设。而在现实中,大数据技术的产生与发展,是在人类特定利益驱动下展开的。如果将人类利益诉求与技术运作完全剖离,那么大数据技术的发展难以成为现实。
虽然技术中性论无法在大数据伦理问题产生初期达成对技术的辩护,但仍有机会在其后续发展,即在其自反性治理中得以实现。大数据技术意味着人类对自身和世界认识与理解能力的增强。未知数据关系在其被技术挖掘与呈现之前,对人类而言都意味着秘密,它的展现使人类从中获得曾经难以企及的关于自身和世界的新认识。而对于新认识中的某些内容,人们总是希望将其设定为属于特定主体的隐私。笔者认为,大数据技术唯有在数据挖掘与分析阶段,即对数据关系的隐私性进行甄别,才能从根本上保护主体隐私。对于数据收集与呈现阶段已确定为隐私的数据和数据关系,这里不做讨论。
由于大数据技术对主体行为有着“惊人”预测力,学界认为其存在对主体自由意志的侵害。人类意识到,主体仅可追求相对自由,无法拥有绝对自由的体验:自由对自由度的指涉无法达到某种极限。人类对自由的体验仅存在于反思、总结与概念抽象中,是人类意识对于不设定时间节点的自身处境的一种属人的概念构造。
大数据技术可以对人类行为进行预测,虽然预测涉及人类自发活动和自觉的基于特定思维方式、理性、态度等确定性的人类活动,但无法预测自觉自由的人类行为。自发自由对人类理性而言,也并非真正的自由,听从理性判断会引出一个与常识相悖的观点:唯有自觉自由才能真正融入人类生命体验之中。
学界普遍认为,可重复利用性使大数据蕴含无限价值。显然,此观点忽视了伦理问题对大数据价值实现的限制。大数据的最终价值的实现,是由技术发展水平、相关伦理问题对大数据价值实现的限制,以及大数据相关伦理问题的解决程度等因素综合作用决定的;唯有在复杂系统的动态平衡中,我们才可能找到大数据技术的价值最大化带来的可靠方案。
大数据的运用增强了人类认识与实践能力,同时也降低了人类对自身行为和世界运行的理解力和直接掌控力。随着大数据技术的广泛运用和不断发展,将有越来越多的数据收集与分析工作,交由人体之外的机器智能“自动”完成。可以想象,经过机器智能分析的结果,多为难以被人类直观理解的相关关系,而非可收敛为“根状”结构的因果关系。当然,人类无法从这种“自动”实现的数据关系结果中获得足够的安全感。
在大数据时代,只有当“全部”数据被作为整体进行分析,并得到明确的相关关系时才能给人类带来价值——即使在此之前,人类已经能够理解其中部分数据的意义。大数据世界的日益形成,使人类感到“世界1”的可知性不断降低。同时,人类会基于大数据分析结果的自身行为决策,逐渐产生出令人难以理解的自信。人类依旧坚持对因果性的研习,对世界、机器智能和自身行为维持一定的理解力与掌控力;这亦造成人与世界、人与机器智能之间始终存在有违人类意愿的张力。最终,人类只能放弃其曾经坚守的主体性——人类的身体、人类的精神世界和机器智能相结合,人类科技彻底进入人的主体性。当人类借助构成自身主体性的机器智能,将整个世界以数据形式带入其主体性之中,人本身就成了世界,就成了“神”。
工业革命以来,人类文明逐渐掌握了对化石燃料等“强大”能量的运用,物质要素的应用水平得到大幅提高。20世纪中叶信息革命爆发以来,人类对信息的收集、存储、分析与应用能力得到很大的提升,也提高了人类对物质与能量的掌控力和应用水平。虽然对物质和能量的过度运用,已经带来拜物主义、环境与生态危机等负面影响,但是,人类在短期利益的驱使下仍不断试探着地球的承载极限。大数据等新型信息技术不断得到发展有着重要的现实意义。当人类对物质与能量的运用难以满足需要时,人类期望能够在大数据等新型信息技术的帮助下,不断提高其科学性与精准度,协助解决“引发于物质与能量过度运用”的人类危机,甚至为此带来重大突破——这也是判断人类文明是处在进化的转折点,还是走到尽头的关键所在。
正如马克思所断言的那样,质变的发生往往很困难,需要实践和主观意识的努力。在命运的转折点上,人类文明将何去何从,有赖于我们每个人类成员的践行和见证。
大数据技术对人类现实生活产生了重大冲击,同时,亦引发了广泛的哲学研究与反思。学界对大数据哲学问题在本体论、认识论、知识论、方法论、伦理学和价值论等重要范畴领域达成了相当程度的共识,也因此带来一定的局限性和片面性:在本体论层面,赋予数据以世界本原地位,但并未建立在深入研究数据本质的基础之上。在认识论层面,认为大数据对人类认识活动的主体、客体及主客体关系产生重要影响,但未认识到这种影响的非本质性。在知识论层面,认为大数据带来了新的人类知识型,但未认识到由技术决定的新知识型会随技术发展而发生改变。在方法论层面,认为大数据技术对科学方法论进行了特征鲜明的改造,但缺乏具体的、辩证的分析。在伦理学层面,认为大数据给人类隐私保护和自由意志等带来侵害,却鲜有论及其对隐私安全保护能力的提高。在价值论层面,认为可重复利用性使大数据具有无限价值,但鲜有论及大数据伦理问题同大数据价值论的相互作用关系。
大数据将给人类命运带来的影响也给业界带来了少有的哲学反思。究其原因,在新技术产生初期,人们往往对其已经或将来可能给人类社会发展带来的促进或挑战,抱有过度的自信或警惕,进而形成一种过度解读。相信随着技术本身的不断发展和理论研究的不断深入,人们会对大数据相关哲学问题形成更为辩证的认识和主张,用发展、客观的眼光全面地看待大数据哲学中的种种变化与关联。
注释:
① “世界1”“世界2”和“世界3”源自英国科学哲学家卡尔·波普尔的“世界三理论”。卡尔·波普尔在其“没有知识主体的认识论”的重要演说中提出宇宙中存在三个世界:世界1是包括物质和能量在内的物理世界;世界2是包括意识状态和主观经验的主观知识世界;世界3是包括由各种载体记录并储存起来的文化、文明、科学技术等理论体系的客观知识世界。