文/黄欣荣
大数据哲学研究的背景、现状与路径
文/黄欣荣
大数据正在掀起一场数据技术的革命,让我们进入真正的信息时代。它带来生产、生活、教育、思维方式诸多大变革反思,并标志着人类在寻求量化认识世界的道路上前进了一大步。面对大数据技术革命,作为时代精神精华的哲学及时作出了回应和批判,国内外哲学界已展开了大数据的哲学问题研究, 而大数据哲学体系也正在形成之中。为此,我们有必要对大数据哲学的兴起背景、国内外研究现状以及未来研究的可能路径作一番回顾、梳理与展望。
在漫长的发展史中,数据世界曾发生三次革命性的变革。第一次是从无数据到有数据;第二次是从生活数据到科学数据;第三次是从科学数据到人文数据,进入“大数据时代”。
在数据发展的历史长河中,数据似乎并没有引起哲学家们的多少关注。当然,我们可以找出古希腊数学家、哲学家毕达哥拉斯,他在古希腊早期就破天荒地提出了“数是万物的始基”的观点,将数提升到本体论的高度。数和数据虽然具有重大的差别,但尚且可以将毕达哥拉斯看作数据哲学的鼻祖。在之后的两千多年的漫长历史中,数据的作用虽然从日常生活变成了科学研究的重要工具,但哲学家们却几乎把它遗忘。哲学家们热烈讨论着经验、观察、实验和理论等,唯独没有人对其中起着重要作用的数据进行哲学的批判和反思。但是,大数据刚刚兴起就引发了哲学界的热烈响应,数据这个历史上被冷落的范畴很快进入哲学研究者的视野中,成为哲学特别是科学技术哲学研究的新对象,大数据哲学也成了科技哲学研究的最新分支和研究领域。
所谓大数据,从字面来看,就是规模特别巨大的数据资源,但实际上,大数据不仅仅只是数据规模巨大,更重要的是数据数量的变化引起了质变,数据不仅仅是自然或社会现象的数量表征,而是引发了一系列的本质变化。在小数据时代,数据被哲学家忽视,而在大数据时代,数据迅速成为哲学的新热点,主要是因为大数据时代的数据与小数据时代的数据有着本质的差别。从采集手段来说,小数据是人工有意测量、采集的数据;而大数据基本上都是智能芯片自动采集或人们无意留下的数据,因为当时没有什么特别用途而被称为“数据垃圾”。从存储介质和方式来说,小数据存储于纸质或硬盘等当地媒质中,而大数据往往因数量过大而存放于云端中。从处理方式来说,小数据只需要单机就基本可处理,而大数据则往往需要云计算平台。从数据性质来说,小数据因有意采集而成为主观数据,而大数据则因没有事先渗透主观意图而具有客观性,因此属于客观数据。小数据只是研究对象局部现象的主观反映,而大数据则全面、完整、客观地刻画了研究对象。传统科学的研究对象基本上都是简单、线性、无生命的自然系统,所以小数据基本上能够刻画研究对象,而人类及其社会则是具有主体性的非线性复杂生命系统,必须用大数据才能够完整刻画研究细节。
随着大数据技术的兴起,大数据哲学研究迅速成为国内外哲学研究的新热。
(1)大数据时代来临前信息哲学家们的先行铺垫
大数据时代来临之前,信息哲学家曾就信息的本质、信息与认知等问题做过先期的研究,为大数据哲学研究做了一些铺垫。托夫勒在其《第三次浪潮》中就宣布人类已经进入了信息社会,信息将彻底改变人类的文明轨迹,在政治、经济、文化、工作、生活、教育等领域全方位地改变我们的社会。后来哲学家们对信息哲学进行了长期的探讨,例如国内学者邬焜、萧峰、刘刚等作了深入的研究。特别是邬焜教授,他30年来坚守在信息哲学领域,对信息的本体论、认识论和方法论等做了全方位的研究,取得了丰硕的成果。这些信息哲学研究工作为大数据哲学研究提供了基础和借鉴。
(2)数据科学的哲学问题成为研究领域
美国学者、图灵奖获得者吉姆·格雷认为,在海量数据和网络无处不在的年代,以数据挖掘为代表的数据科学与技术是科学发现的重要途径,是继科学实验、理论推演和计算机仿真这三种科研范式之后的科学研究第四范式——数据密集型科学发现。第四范式作为知识发现的又一条新通道和新范式,与前三种范式相辅相成,共同构成发现的认知和方法体系。
国内学者刘红也很早敏锐地注意到了数据在科学研究中的重要性以及数据科学的快速兴起。她的博士论文以及在博士论文的基础上发表的《数据哲学构建的初步探析》、《数据革命:从数到大数据的历史考察》,都提出了数据哲学研究的初步设想,认为应将数据纳入科技哲学研究范畴。
(3)大数据伦理问题引起了学者的高度关注
对大众来说,大数据带来的最现实问题是个人隐私的泄漏与保护问题。英国学者帕克(John Parker)曾形象地描述过互联网带来的全面监控与隐私困境,而美国学者戴维斯(Kord Davis)和帕特森(Doug Patterson)则在2012年9月就出版了其《大数据伦理学》(Ethics of Big Data),这是国际上第一部有关大数据伦理问题的学术专著。在国内,吕耀怀很早就对信息伦理做过比较全面的研究,而大数据兴起之后,邱仁宗立即发表论文《大数据技术的伦理问题》。因为个人或组织害怕自己的隐私信息因大数据被泄露并被他人非法利用,而大数据使用者则害怕不小心涉及个人隐私而缠上官司,因此大数据伦理研究更多地集中在大数据引发的隐私问题的讨论。段伟文在其论文《网络与大数据时代的隐私权》一文中比较集中地探讨了大数据将引发哪些个人隐私问题以及西方各国的个人隐私保护措施。
(4)大数据哲学的全方位研究已经初步展开
还在大数据没有成为热潮之前,复杂网络研究者巴拉巴西(A-L.Barabasi)就在其著作《爆发》中提出了利用大数据对人类思想行为进行预测的问题,并认为基于大数据,人类93%的言行都可以被预测,因此他提出了大数据带来的思维变革问题,并用生动的事例刻画了大数据的新思维。
大数据兴起之后,英国学者弗洛里迪(Luciano Floridi)马上在其《大数据及其经验论挑战》一文中提出了大数据对经验认识论的挑战问题,而奥地利学者卡勒鲍特(Werner Callebaut)则在其《科学透视主义:科学哲学对大数据生物学挑战的回应》中提出了大数据对本体论、认识论与方法论的挑战问题,并提出以科学透视主义作为大数据哲学挑战的回应。
国外对大数据进行全面哲学反思的要数英国学者、“大数据时代的预言家”维克托·迈耶-舍恩伯格。他在其畅销书《大数据时代》一书中以通俗易懂的非哲学语言提出了大数据的哲学意义,并将大数据与当年的望远镜、显微镜相提并论。
在国内,李德伟在大数据概念刚刚提出的2012年底就发表了《大数据的数理哲学原理》和《科技大数据,哲学新思维》等论文,并于2013年初出版了《大数据改变世界》一书,提出了大数据的哲学基础和认识论问题。黄欣荣从2014年初开始发表一系列论文,就大数据技术与复杂性科学的关系、大数据思维与大数据方法论、大数据对科学认识论的发展等问题进行了相关的哲学研究,并从本体论、认识论、方法论、价值论和伦理学五个维度对大数据引发的哲学变革展开了全方位的探讨。苗东升在论文《从科学转型演化看大数据》中,从科学转型的视角论述了大数据的革命性意义,并认为大数据的兴起将在哲学上引发本体论、认识论、方法论和价值论的改变。苗东升与黄欣荣都从复杂性哲学转入大数据哲学研究,观点上也具有异曲同工之处。在大数据方法论方面,张晓强、杨君游与曾国屏进行了比较系统的探讨。
正在兴起的这场轰轰烈烈的大数据技术革命即将引发一场彻底的哲学革命,必将带来世界观、认识论、方法论、价值观和伦理观诸多方面的深刻变革,因此正在兴起的大数据哲学必须从这五个维度或者说五条路径进行全方位的哲学研究。
(1)本体论路径,主要探讨数据的本质以及大数据引发的世界观革命
随着大数据的兴起,数据被赋予世界本体的意义。大数据认为,世界的一切关系皆可用数据表征,一切活动都会留下数据足迹,万物皆由比特构成,因此皆可被数据化,世界就是一个数据化的世界,世界的本质就是数据,数据世界已经构成了一个独立的客观世界。因此,哲学史上的物质、意识的关系,变成了物质、意识和数据的关系;大数据的兴起改变了人类认知和理解世界的方式,带来了全新的大数据世界观。大数据本体论的论题主要有:哲学史上的数据观;物质、意识与数据;数据的本质与数据本体论;世界的数据化与大数据世界观等。主要有如下问题需要我们从本体论加以回答:数据究竟是什么?数据的本质是什么?数据与物质、精神之间是什么关系?数据世界究竟是客观的还是主观的?世界能否被彻底数据化?量化一切的大数据目标能否实现?大数据怎么看世界?大数据世界观与传统世界观有什么本质区别?等等。
(2)认识论路径,主要探讨基于数据挖掘的知识发现及其对传统认识论的挑战
大数据通过“让数据发声”,提出“科学始于数据”,数据成为科学认识的基础,而云计算等数据挖掘手段将传统的经验归纳法发展为“大数据归纳法”,为科学发现提供了认知新途径。大数据通过理论和经验的数据化,实现了唯理论和经验论的数据化统一,并可能成为科学划界的新标准。大数据的相关性、模糊性和整体性解释将成为科学解释的新方向。因此,大数据认识论有主要论题:相关性对因果性的挑战;数据挖掘与科学发现的逻辑;数据规律与知识的真理性;大数据与科学划界,大数据与科学解释;传统认识论危机与大数据认识论。主要的认识论问题有:数据与经验的关系是什么?传统经验论是否将走向大数据经验论?大数据是否将成为科学研究的新对象?数据化能否作为科学划界的新标准?科学究竟始于经验、问题还是数据?数据挖掘能否成为科学发现的新模式?相关性与因果性是什么关系?相关性能否超越因果性?大数据解释能否成为科学解释新方式?数据挖掘本质上是否仍属于归纳法?大数据对传统归纳法有哪些超越?通过数据挖掘而来的数据规律是否具有真理性?如此等等。
(3)方法论路径,主要探讨大数据思维及其对科学方法论的变革
大数据技术革命首先表现为思维方式的革命,大数据对传统的机械还原论进行了深入批判,提出了整体、多样、关联、动态、开放、平等的大数据思维,这些新思维具有复杂性思维特征,并得到了技术实现。大数据提出了数据化的整体论,实现了还原论与整体论的融贯;承认复杂的多样性,突出了科学知识的语境性和地方性;强调事物的关联性,认为事实的存在比因果关系更重要;通过事物的数据化,实现了定性定量的综合集成。因此,数据挖掘成了新时代的科学新工具,大数据技术带来了大数据思维与大数据方法论。
该路径的主要论题有:大数据时代的思维变革;大数据思维的复杂性特征;数据挖掘的科学方法意蕴;大数据对科学方法论的革命。大数据方法论的主要问题有:大数据思维是一种怎样的思维新方式?大数据思维的特征是什么?大数据方法的本质是什么?大数据方法是继演绎法、归纳法之后的科学新工具吗?大数据方法与整体论方法、还原论方法是什么关系?大数据方法与复杂性方法是什么关系?大数据方法与定性、定量研究方法有什么样的区别与联系?传统的数据化与大数据的数据化有什么区别?怎么利用大数据方法进行自然科学、社会科学与人文学科的数据化与数据挖掘?大数据的基本方法、基本原则、基本步骤是什么?等等。
(4)价值论路径,主要讨论数据的财富价值及其对传统价值观的转变
大数据时代的来临让数据从记录符号变成了有价的资源,数据从符号价值逐渐延伸到具有认知、经济、政治等诸多价值的财富。挖掘海量数据可以发现规律、预测未来,数据成为科学研究的重要来源。此外,大数据技术能够从文档、图片、音频、视频等非结构化数据中挖掘重要数据,大数据成为人文社会科学研究重要工具,更成为政府、企业等管理者不可或缺的管理手段。因此,大数据时代让数据从原来只是事物关系的表征符号变成了具有重要价值的数据财富,从而带来了传统价值观的变革,并形成了新的大数据价值观。
该路径的主要议题有: 从数据符号到数据财富;数据财富与传统财富的比较;数据财富的本质;大数据时代的价值观变革。大数据价值论的主要问题有:数据的价值为什么到大数据时代才凸显出来?大数据时代的数据有哪些价值?数据财富的本质是什么?数据财富与传统的财富有什么本质差别?如何挖掘数据财富?数据产业会给传统产业带来哪些变革?数据产业与传统产业有什么本质差别?数据产业链有哪些基本构成? 数据财富与传统财富怎样保持平衡?什么是大数据财富观?数据财富观会给传统价值观带来哪些冲击和变革?如此等等。
(5)伦理学路径,主要讨论由于数据滥用所引发的传统伦理观的危机
大数据技术要求实现数据的自由、开放和共享,我们由此进入了数据共享的时代。但由此我们也时刻被暴露在“第三只眼”的监视之下,因此大数据技术带来了个人隐私保护的隐忧,也带来了个别组织的数据滥用或垄断的担心,甚至可能侵犯人类神圣的自由意志,由此产生了大数据时代人类的自由与责任问题并对传统伦理观带来了新挑战。
该路径的主要论题有:大数据时代与信息共享;“第三只眼”与隐私保护;数据预测与个人意志;大数据时代人类的自由与责任。大数据伦理的基本问题有:大数据的共享精神有什么利弊?大数据将带来哪些伦理问题?数据权的本质是什么?大数据时代的个人隐私将可能出现哪些问题?大数据时代如何保护隐私?在数据开放与隐私保护之间如何保持张力?怎样防止数据滥用?大数据伦理问题是否可以通过立法来规制?怎样用伦理道德规范来治理大数据伦理危机?大数据时代如何保护人的自由?大数据时代的政府、企业和个人有哪些法律责任和伦理责任?大数据时代如何平衡人的自由与责任?我们要做哪些伦理观改变来适应这个大数据时代?大数据伦理有哪些基本内容?大数据会给传统伦理学带来哪些机遇与挑战?等等。
(作者系江西财经大学管理哲学研究中心教授;摘自《哲学动态》2015年第7期)