王 天 恩
(上海大学 哲学系,上海 200444)
作为信息数字编码发展的产物,大数据为人类发展提供了一个新的平台,一个不同于作为其物能基础的新世界。在对物能对象的认识中,对象的结构本身可以看作是固有且封闭的,我们只能去发现它。与此不同,由于信息的感受性关系性质,在基于大数据的创构中,数据结构则是相对于人类需要及其发展生成开放的。由于不同于物能结构的封闭性质,大数据的结构开放性与人类更高层次的发展具有更密切的内在关联。
在大数据研究中,普遍以“v”打头的英文单词表征其基本特征,这种做法开始于大数据的数据量大,因此第一个v打头的单词自然是“volume”,与“volume”几乎一样得到普遍认可的是另一个“v”打头的单词“variety”,一般理解为“多样”,这个特征表达的是大数据的多样性,反映了大数据来源和类型的多样化,因此,数据通常是十分混杂和非结构化的[1]。在小数据时代,数据主要来自专门人员根据预先确定的设计方案抽样采集,因此样本数据都是可以用传统数据库处理的结构性数据,而在大数据时代,数据来源多样,扩展至电子邮件、监视设备、智能手机和物联网等,包括网站日志数据、呼叫中心通话记录、Twitter 和 Facebook 等社交媒体中的文本数据、智能手机中内置的 GPS所产生的位置信息以及时刻生成的传感器数据[2]等。数据类型则不仅有数字,还有文本、照片、音频和视频等,其形式越来越多样化。从技术上说数据既有结构化的,更有半结构化的和非结构化的。
用以“v”打头的单词表征大数据的基本特征,这是理解大数据基本特征很有特色的起点,同时这也意味着在此基础上,还有更多的内容需要进一步深化理解。正如“volume”不能只是简单地理解为数据规模大,“variety”也不能只是简单地理解为因数据多样大量出现非结构化数据,而是意味着进一步涉及数据结构本身理解的复杂性。
相对于抽样具体预设而言的数据结构,其事实上指的是样本数据的数据结构,这与样本数据抽样的具体目的以及相应数据处理技术密切相关。正如新的知识建立在已有知识的基础之上,对于大数据的理解,理所当然地首先建立在小数据时代数据理解的基础上。在计算早期,数据总是高度结构化的,所有数据都划分为字段,字段具有固定长度,并且输入到每个字段中的数据被限制为一组预定的允许值。数据被输入预先设置了行和列的穿孔卡片中,由此可见,就样本数据结构而言,小数据通常包含高度结构化的数据,数据领域仅限于单个学科或分支学科,数据通常以有序电子表格中统一记录的形式出现[3]3。而大数据则完全不同,由于没有像抽样那样具体的目的和在先预设,就样本数据的结构而言,其结果存在于各种各样的媒介中,如文本、视频和图像等——有些是结构化的,有些则不是[4]6。正因为如此,就传统数据库来说,数据处理面临完全不同的对象,要处理这些数据只有更新升级处理工具,必须能够吸收非结构化数据(例如,自由文本文档、图像、动画、录音和物理对象),资源主题可跨多学科且资源中各数据对象可链接到包含于其他看似无关的大数据资源[3]4。由此就存在一个更深层次的问题:在数据结构上,“非结构化数据”意味着什么?对于理解大数据的数据结构,这是具有根本性的问题。
从用传统数据处理工具处理大数据可以看到回答这一问题的关键所在。如今,人类输入的大多数数据都是非结构化数据,呈现为自由文本的形式。为了从自由文本获得更多信息价值,有必要强加一些结构[3]16,正是“强加一些结构”足以表明数据结构的赋予性质。不像物能本身的结构,数据结构具有智能体赋予的一面,这一点其实在样本数据中更为明显。在小数据情况下,数据结构相对于传统数据库而言,而数据库是人类设计的产物。在大数据情况下,数据结构则超出了传统数据库技术,扩展到数据所处的更大关系范围,因此,从更高层次看,大数据的“variety”特征意味着其结构只能是相对于更高层次的关系而言。
由于出自特定目的取样,从而具有在先具体预设,取样目的和在先预设都基于传统数据库,因而相对于传统数据库,样本数据本身当然具有特定结构。也就是说,样本数据的数据结构是就其与传统数据库的关系而言的,取样的在先预设越具体,数据结构越确定。相对于样本数据与传统数据库的关系,来源和类型多样的大数据绝大部分是非结构化数据和半结构化数据,而关于大数据数据结构的理解,如果超越传统数据处理工具则显然必须进入一个更大的语境。由于人的需要的发展是开放的,因此大数据的数据结构具有根本意义上的开放性。
相对于数据处理而言的数据结构,首先与数据处理技术密切相关。实际上,大数据不仅仅是大量的非结构化数据,还包括使处理和分析这些数据成为可能的技术[5]。由于数据处理技术与取样具体目的的内在关联,样本数据的数据结构主要是相对于传统数据库而言的。传统数据库正是为处理具有特定结构的数据而创建,因此只能处理结构化数据,或者更确切地说,样本数据之所以是结构性数据就是因为其是相对于特定的数据处理平台而言的。基于传统数据库处理,大数据自然就包含结构化、半结构化和非结构化数据。如果将小数据处理方式用于大数据,按传统数据库数据处理的方式,据估计,所有数字数据中只有5%是“结构化的”——即处于一种只适合传统数据库的形式。如果不接受混乱,剩下的95%的非结构化数据,比如网页和视频,仍然处于不能处理的状态中[6]47。由此可以更清楚地看到,小数据时代的所谓“数据结构”与其说是数据本身的,莫如说是相对于传统数据库的。小数据总是基于特定结构框架,通常驻留于数据库和其他结构化框架中的常规数据方案[4]8。由于所谓结构性数据其实是就传统数据库等处理方式而不只是数据本身而言的,无论“结构性数据”“非结构性数据”还是“半结构性数据”,事实上都与传统数据库等数据处理方式有关,一个重要事实就得以清楚呈现:与物质本身的结构不同,数据不存在各组成部分固定严格搭配和排列意义上的严格结构,而只具有相互关联意义上的结构。也就是说,只存在数据关系意义上的数据结构,数据关系意义上的数据结构不是完全取决于数据本身,而是同时取决于基于信息处理技术的数据处理方式,而数据处理技术则处于发展过程中。
数据结构与数据处理技术密切相关,大数据发展本身就是集中展示。一方面,随着数据规模不断扩大,数据越来越不能用传统数据库技术进行处理,数据正变得无法用传统方法进行指数级分析,这迫使我们重新思考如何利用我们正在产生的大量数据[7]。另一方面,由于数据处理的需要的推进,发生了一种重要变化:人们不仅可以管理比以往大得多的数据量,而且更为重要的是,数据不需要放在整齐的行列或传统数据库表格中,新的数据处理技术已问世,这些技术摒弃了过去那种死板的层次结构和同质性[6]6。正是传统数据库表格化、严格的层次结构和同质性,决定了定义样本数据结构的传统数据库的局限。由于不能用传统数据库技术处理,大数据催生了新的数据处理技术。当今最著名的数据模型可能是SQL模型,它基于埃德加·科德(Edgar Codd)在1970年提出的关系模型:数据被组织成关系(在SQL中即表格格式),其中每个关系都是元组(行)的无序集合[8]。与传统数据库结构化查询语言(SQL)完全不同,非关系型数据库(NoSQL)中不能放进传统数据库表格、没有严格层次结构和同质性的数据,在这里,“非关系型”只是相对于传统数据库而言的。传统数据处理中数据的层次结构可以为新技术所消除,大数据结构的开放性由此得以根本展现。
从传统数据库技术到新技术的发展可以看到,所谓数据结构之所以与取样时的预设以及传统数据库表格整齐排列密切相关,正是因为它是指数据之间的关系,而不是数据本身内部固定不变的结构,由此可见,数据结构凸显了信息的关系性。信息是感受性关系[9],作为信息编码,数据结构指的是数据之间的关系,而不是物质实体意义上的数据内部结构。由于数据之间不可能直接相互作用,因此所构成的不可能是因果关系,而只能是相关关系。数据规模越大,数据之间的相关关系越丰富,这正是大数据相关关系得以空前凸显的根本原因。也正是在这个意义上,不仅结构和关系的联系和区别清楚呈现,而且结构就是关系的理解才在更深层次上得到根本说明。由于这种关系不存在关系项,因而意味着关系致思的信息应证。在信息意义上,关系是基础,结构就是关系。在小数据中,正是基于取样时的预设,通过数据库列表确定数据之间的关系,才有了确定的数据结构。人在一定具体使用目的下的数据列表处理所生成的是相对于特定使用目的的有序结构,如果将其视为固定不变的,那从这一范围之外看,则是死板的层次结构。大数据不是抽样形成的,其没有根据具体目的作出具体预设并据此在先确定数据结构,因此不能用传统数据库列表处理,从而消除了量化的数据层次结构。大数据技术的发展使我们得以在更高层次鸟瞰大数据存在的更深层次性质,极大地拓展我们关于数据的理解。
在目前关于大数据的讨论中,由于数据的结构化、半结构化和非结构化指的是数据关系,而这种数据关系的根据则是传统数据库,只有能放进传统关系型数据库中的数据才是结构性数据。因此,相对于传统数据库而言的数据结构主要是关于大数据中数据结构的技术理解,由于关系具有层次性和开放性,数据关系的理解就有不同的层次。相对于人的需要及其发展而言的数据结构则将关系扩展到数据挖掘,而数据挖掘所涉及的数据处理方式既与技术发展密切相关,又取决于处理数据的人。对于人类来说,大数据完全不同于大自然,基于大数据的创构以人的需要为出发点,以满足人的需要为最终归宿[10],而当我们超越传统数据库并基于大数据进行创构活动时,对于大数据的数据结构就必定需要有理解层次上的提升,显然,这与大数据多样性理解的深化密切相关。很简单,多样性代表所有类型的数据[11],而在大数据语境中,数据的多样性则意味着数据关系的多样性和层次提升,这也就意味着数据结构涵义的开放性。数据越是多样化,数据间所构成的关系层次越高,数据结构越具有不同的涵义,因此,当我们说大数据的数据结构时,就会与样本数据的数据结构有根本的不同,因为数据挖掘以人的需要为出发点、以满足人的需要为最终目的,面对人的需要及其发展,数据结构就不是封闭而是开放的。
在更高整体层次考察大数据,将数据挖掘者乃至人的需要及其发展纳入视野,大数据数据结构实际上的开放性就更是一目了然,这意味着,相对于特定数据处理技术,大数据包含结构性数据、半结构性数据和非结构性数据,因此随着数据处理技术的发展,数据结构的开放程度将逐渐展开,而且,在更高层次,大数据的结构开放性还包含全部大数据整个发展的无限可扩展性。由于对大数据的理解和处理必须在具体语境中,所以,相对于数据处理方式而言,大数据本身的数据结构实质上也是向数据开发者或理解者开放的。
由此可见,在大数据语境中,数据结构可以在三个层次分析:相对于抽样具体预设而言的数据结构、相对于数据处理而言的数据结构、相对于人的需要及其发展而言的数据结构,这三个层次数据结构分析的关联及其性质充分表明了大数据中数据结构在实质上是开放性的。
关于大数据结构的三个不同层次视域具有重要理论和实践意义。从包括人的需要及其发展的更高层次看,大数据具有与大自然完全不同的特点,大自然可以满足我们的生存需要,但我们面对大自然绝不能以人的物能性存在为中心随心所欲,而大数据则不然,在以人类需要为出发点的大数据挖掘中,作为数据之间的关系,数据结构包含数据的关系层次,数据的关系层次则不仅决定于数据本身,而且取决于数据挖掘者对人类需要及其发展的理解和把握,这既与大数据技术的发展有关也与人的理解和创构能力密切相关。创构是创生性创造,作为信息数字编码发展的产物,大数据为人类创构提供了广阔空间。
正是数据结构的开放性,相对于小数据基于取样的结构性甚至精确性,大数据显得混杂无序。由此人们发现,对精确的痴迷是模拟时代的产物,模拟时代信息匮乏,当数据稀少时,每个数据点都至为关键,因此,要非常小心地避免让任何点偏离分析,而在大数据时代,情况则全然不同。作为生活在混杂无序环境中的回报,我们得到了非常有价值的服务,在其范围和规模上,用传统的方法和工具是不可能的。通过允许不精确,我们打开了一扇通往洞察宇宙的窗户[6]40,47。在很大程度上,信息的模拟编码就是信息的物能甚至物体编码(典型的比如传统书信),而信息的物体编码则典型地既费事又不利于传送,更重要的是难以与信息的观念编码(典型的比如抽象概念)直接转换。事实上,非结构化数据和结构化数据的区分仍然源自大数据和样本数据的对比,在这方面,大数据和小数据根本不同,远不只是数据的非结构化和结构化可以说明的问题。大数据和小数据的根本区别在于:小数据是结构化数据,而大数据则是具有结构开放性的数据集合。由大数据的规模整全性和实时流动性[12]可以得到对大数据的进一步理解:具有规模整全性、实时流动性的结构开放数据集合。大数据的实时流动性在更高层次展示了数据类型和数据来源的多样性,因此在大数据实时流动性基础上理解大数据的结构开放性具有更深层次的逻辑根据。
大数据的结构开放性对于人类发展具有极为重要的意义。在哲学层次看,大数据的结构开放性具有存在论意义上的认识价值,因此就不用担心数据量的指数性增加造成结果的不准确,甚至由此可以超越传统意义上的精确和混杂界分。
面对既存的自然世界,无论在什么意义上理解“符合”,认识都必须以对象为标准,因此,精确性具有根本意义。人类“测量臻于至善”的理想就是由此而生的,随着工业化和标准化的发展,人们对精确性的要求走向极端。到了19世纪,法国——当时世界上科学发展领先的国家——已经发展出一套精确定义的测量单位系统,用来度量空间、时间等,并开始让其他国家采用同样的标准,甚至发展到规定国际接受的原型单位(prototype unites)写进了国际条约,这是测量时代的顶峰。仅仅半个世纪后,在20世纪20年代,量子力学的创立永远粉碎了全面和完美测量的梦想[6]33。量子力学凸显了量子现象的关系性质,作为观测的结果,量子现象是由观察者对对象的观测生成的,量子现象与观测主体的关系一目了然,而作为人类活动的产物,大数据则进一步凸显了更广泛的关系性质。面对人类利用信息技术建立起来的大数据,无论在什么意义上理解主观性和客观性,大数据基础上的创构都必须从人的需要及其发展出发,以人类需要的满足为最终目的,因此精确性就不如多样性甚至混杂性重要,由此就可以看到,作为一对二分范畴,精确性和混杂性是内在关联在一起的,只有互为参照甚至相互结合,才能使认识提升到更高层次。在某种程度上,精确性的重要性源自对凝固对象的认识,而多样性或混杂性的重要性则源自对对象活生生成长发展过程的把握。至少在某种意义上,越是在活生生的成长发展过程中,精确性越是信息封闭的结果,而混杂性则越是信息开放的产物。传统数据库局限下的样本数据具有精确性,而数据来源越来越广的多样性大数据则具有混杂性。正是混杂性意味着更丰富的相关关系,从而意味着大数据与人类创构具有更重要的关联。
从样本数据精确性和传统数据库关联还可以进一步看到精确性和混杂性之于人类认识的关系,精确性往往处于已有认识范围内,而混杂性则往往处于已有认识范围之外。在认识的天花板之下是精确性,在认识的天花板之上则是混杂性。相对于人类的认识能力和认识目的特别是长期形成的观念,对人类认识而言,在已知领域和未知世界的交界处甚至未知世界本来就是混杂的,只是人类通过自己的观念系统看到了“精确”的世界。正是作为包括自己在内的世界的量化反映,大数据使人类看到了世界混杂的层次。大数据将数字转换成更具概率性而非精确性的东西,这种改变需要花很长时间适应,而且它本身也会带来一些问题,但目前需要注意,当扩大规模时,我们往往需要接受混杂[6]35。康德的“人为自然立法”在大数据及其基础上的创构中体现得更为充分,而十分耐人寻味的是,在机器翻译领域,更高层次的机器理解却恰恰建立在混杂的大数据基础之上。机器翻译的发展过程恰恰与其基础从精确到混杂的发展过程密切相关,这也表明,大数据的发展使数据结构成了一个必须重新认识的方面。深入到科学技术和哲学机制层面的一体化层次,关于大数据的混杂性以及数据结构与人类认识活动的关系就会有一个更深层次的不同理解。
由于大数据基础上的创构涉及人的需要及其发展,人类基于大数据的实践和认识活动涉及科学和哲学机制层面的一体化。在这个一体化层次,数据结构又可以理解为两个基本层次:一是大数据本身的数据结构,即数据间的关系;二是相对于数据挖掘而言的数据结构,即相对于人的需要及其发展而言的数据结构。在第一个层次,由于作为实时数据流,大数据在不断扩展中,数据之间的关系也在不断变化中。就此而言,即使就典型的比如机器采集生成的大数据而言,数据结构也是开放的,因为大数据处于趋向整全的生长过程中,意味着数据结构的过程性。随着大数据的生长,数据结构甚至会有层次性的展开,而就第二个层次来说,数据结构归根结底是面对数据理解而言的,在这个意义上,所谓的数据结构决定于数据和创构之间的关系。由于人的需要处于持续发展中,这个意义上大数据结构的开放性实际上决定于大数据与人类创构之间的关系,这无疑对人类发展具有关键性意义。
由于大数据的结构开放性决定于数据和创构之间的关系,作为基本的描述方式,结构具有相对性,甚至是否存在结构都是相对而言的,这一点在大数据中最为典型。看似无结构的数据,在更高层次整体观照中,甚至在不同的背景中或简单地换一个角度就可以看出结构。由于大数据的理解和数据挖掘相关联,而数据挖掘又与人的需要及其发展密切相关,大数据的结构典型地是面对人的需要及其发展开放的。信息科技界就有一种“结构相对论”观点,数据结构的这种相对性,正是相对于对人的需要及其发展的把握而言的。在数据挖掘和算法设计中,对人的需要及其发展的理解在根本上决定预测的准确性,这方面美国奈飞公司(Netflix)取得了最具代表性的成功,提供了诸多典型案例。
作为出租录像制品的网络公司,奈飞公司的业务与用户需要及其发展具有最直接的关联。正是由于通过大数据对用户需要及其发展的理解,奈飞公司成功实现从单纯出租录像制品到自己根据用户需要及其发展生产录像制品的转换和升级。美版《纸牌屋》就是最早取得成功的典型案例,奈飞公司将这一成功归功于他们“不断改进的内容”,包括《纸牌屋》和《女子监狱》,这一原创内容正在吸引新会员和留住老用户,事实上,奈飞公司90%的会员都涉及这些原创内容,显然,奈飞公司的成功在很大程度上取决于其对观众将喜爱什么的预测能力[13]20。奈飞公司的这种做法不仅意味着从更高整体层次看,正是相应于人的需要及其发展,大数据的数据结构在根本上是开放的,而且随着对大数据研究的深化,还可能进一步提升到在一定程度上引导用户需要发展的层次。
正是大数据数据结构的开放性,为人类创构打开了新的可能性和无限丰富的空间。人类可以在大数据的基础上,获得在大自然中所没有的自由度,完全以自己的需要为出发点,以这种需要的满足为最终目的,创构自己需要的信息产品以及与之相关的新的物能产品,从而创生以前从来没有而且很多不可能有的价值。正是在这个意义上说,大数据的结构开放性和混杂性在人类发展中具有特殊地位。大数据的结构开放性以及在此基础上大数据的混杂性具有重要价值生产意义,由此建立起大数据结构开放性和人类发展之间的更深层次关联。与此同时,由于随着信息文明的发展,人越来越主要以信息方式存在,而且人归根结底是信息方式的存在,信息价值的释放与人的发展更为内在地关联在一起。
大数据的结构开放性为人类在大数据基础上进行创构提供了无限广阔的空间,从而为人的解放和自由全面发展提供了重要基础。
大数据的结构开放性意味着具有与物能不同的价值属性,它使大数据具有价值生产性[12],而大数据的数据结构相对于人的需要及其发展的性质,则意味着大数据的价值生产性与人类发展的更深层次关联。大数据价值生产的创生性质,更在数据结构开放性的基础上,展开了人类发展与以往完全不同的广阔空间和更深层次。
由结构到关系,凸显了大数据结构开放性对人的意义。人的本质不是单个人所固有的抽象物,在其现实性上,它是一切社会关系的总和[14],作为一切社会关系的总和,人的发展可以直接与大数据相关关系对接。随着信息技术特别是人工智能的发展,大数据的结构开放性与人类发展之间的关系将在两个基本方面日益展开:一方面,大数据价值链将不断延伸;另一方面,随着大数据处理技术的发展,数据挖掘的门槛越来越低,越来越多人可以进入数据挖掘层面活动。将两个方面融汇发展,通过大数据基础上的价值生产大大推进人类发展。
大数据的价值创生不仅决定于对人的需要及其发展的理解,而且也与价值创生者自身的需要层级密切相关。由于大数据的特点,大数据价值链具有无限延伸的空间,数据本身的拥有者、大数据开发者以及致力于大数据思维创新者的分工可能会越来越细化。如今,拥有大数据思维的企业家在创业之初往往不拥有数据,但正因为如此,他们也没有可能会阻止他们释放自己创意的既得利益或经济阻碍[6]131,这就会不断深化大数据的价值创生,大数据价值创生链将不断向纵深基础延伸,同时不断深化地晓示这样一个基本原理:越是基础性原创,越必须有更高层级内在需要驱动。在经济利益驱动下,人们利用大数据显然可以,但由于大数据价值生产和人类存在的信息关联,越是大数据的深度开发,越是深涉人类需要及其发展的大数据价值生产,就越必须有更高层级的内在需要驱动。只有具有更高层级的内在需要驱动,人类才可能有更长远的眼光,才可能有更高层次的整体观照,才可能有人的更自由全面发展。
大数据价值生产不仅意味着必须有内在驱动机制,而且意味着随着价值创生层次的深入,必须有层次越来越高的整体观照能力,这将为人类发展提供更深层次的巨大张力。大数据基础上的价值生产不仅将使意义的分化越来越明显,而且将出现信息价值生产中的新分化。在信息价值生产中,由于整体把握能力的重要性日益凸显,整体理解和技术处理两种不同角色将发生差别越来越大的分化。信息的价值越来越源自更深层次的创生,单纯拥有大数据技术会沦落为信息“打工仔”。如今,离岸外包公司已经进一步降低了编程的价值,曾经的高端技术典范成了世界“穷人”发展的引擎[6]134。即使同为创生信息价值的人,不同的创意层次之间的差别也会越来越大,随着大数据的发展,创意的差别越来越构成人的发展的差别,这与由此而来的人的发展竞争密切相关。“数据中间商”之所以成了发展空间越来越大的职业,就与大数据挖掘的广度和深度扩展联系在一起,这也是催生大数据公司多样性的根本原因。大数据价值创生链的可无限延伸性质将催生越来越多的信息价值创生方式,无论什么价值创生方式,都与大数据基础上的量化整体观照密切相关。
大数据基础上的价值生产使整体观照能力的要求几乎无所不在,而且要求也越来越高。在大数据的价值创生中,整体观照能力越来越重要,大数据的信息性质及其价值创生特点决定了跨界是更可能得到创新的方式。在线平台为开发商和数据科学家提供举办机器学习竞赛等活动,Kaggle提供了很多案例,从这些案例中发现大数据领域的先驱者通常不是来自他们所在的领域。Kaggle的首席执行官安东尼·戈德布鲁姆(Anthony Goldbloom)认为:Kaggle竞赛是大数据项目的在线平台,其获胜者通常都是在该领域取得成功的新人[6]142。这种运作机制与物种远缘杂交极为相似,在生物进化中,近缘杂交优势不明显,太过远缘杂交不能成功。只有把握一定区间,才能既确保成功,杂交优势又最为明显,这就需要不仅是跨学科,而且是学科一体化的整体把握能力。
对于大数据的价值创生,学科一体化的整体把握能力具有决定性的优势,这方面有很多具体例子,虽然看上去的表象只是跨学科,但实质上是源自不同程度的学科一体化,如:一位英国物理学家开发了一种近乎成功的算法来预测保险索赔并识别二手车的缺陷;一位新加坡精算师在一场预测生物对化合物反应的竞赛项目中取得领先。与此同时,谷歌机器翻译小组的工程师们庆祝他们翻译出了办公室里没人会说的语言,类似地,微软机器翻译部门的统计学家们津津乐道一个老笑话:每当语言学家离开团队,翻译的质量就会提高[6]142。这些有趣的案例不但表明了信息价值创生的非同寻常之处,而且表明信息文明时代价值生产的发展新趋势,还表明大数据时代人类发展的方向是基于学科一体化发展的,无论在专业领域还是在日常生活中,这些都可以为人的发展提供诸多启示。随着大数据时代的发展,单一学科领域的专家的确将面临新的问题,可以肯定的是,学科领域的专家不会消失,但他们的优势将会减弱,从现在开始,他们必须与大数据极客们分享讲台,就像高贵的因果关系必须与谦逊的相关关系分享聚光灯一样,这改变了我们评价知识的方式,因为我们倾向于认为深度专业化的人才比通才更有价值——财富更青睐深度[6]142,但这绝不是一个深度和广度哪个更重要的问题,而是以往二者分离的权衡已经越来越不适用于以大数据为重要基础的信息文明时代的发展。在信息基础上,没有逻辑上的广度就不可能有真正的深度,反之亦然。在知识的意义上,不仅“专”和“博”的原则具有合理性,而且随着信息爆炸式发展,百科全书式的“博”早就表明其不仅越来越不可能,而且越来越没有必要,这种发展形势给人类发展所展开的是另一种前景:正是知识呈爆炸式发展的形势,又决定了没有逻辑把握意义上的“博”,“专”即使可能也会有极大局限甚至很可能迷失。信息文明时代“专”和“博”的逻辑关系,其核心奥秘就在整体观照,这又涉及大数据价值生产性与人的需要及其发展的更深层次关联。
大数据的价值生产性和人的需要及其发展之间的更深层次内在关联,典型地体现在信息产品的生产机制中。以往根据市场需要进行商品生产应当是物能产品生产的基本方式,因为人类的物能需要是明显的、没有被遮蔽的,而信息产品的生产就不同了,因为信息需要具有物能需要不同的性质。物能需要都会在一开始就引起相应的意识,而信息需要则往往越是高层级的,其在一开始越是处于无意识状态,甚至难以意识到[15]。越是深度创新的信息产品,用户越不可能有对其需要的意识,如所有科幻作品从未预料到智能手机的出现,正因为如此,信息产品生产越来越不能只是根据市场需要的反映而必须开发人们的需要,即传统意义上的开发市场,这正是乔布斯回答关于推出苹果iPad前市场调查的问题时,那个著名回答的深层根据。
在苹果iPad已经发布但还没有推向市场之际,乔布斯在《纽约时报》大厦展示该款产品时,有记者问到之前有没有做市场调查,乔布斯回答时说出了那句从信息价值创生性看来内涵极为深刻的话:“知道自己想要什么不是消费者的职责。”[6]168越是创新性强的信息产品创生,创新理念越不可能来自现成的市场,而必须是对消费者需要理解和开发的产物——归根结底是对人的需要及其发展把握的结果。由于人的需要处于不断发展中,而且人的需要的发展就是人的发展,因此在大数据的价值创生性与人的发展之间,内在关联将随着大数据的发展越来越深化。
在大数据时代,大数据价值生产性和人的需要的发展是一个互动展开的过程。作为价值创生的基础,大数据的潜在价值与其数据质量密切相关,但是,高质量数据并不能自然而然保证高价值,我们还需要用于价值创生过程的有效算法[4]8。人们不仅发现大数据相关关系,而且采用智能算法寻找大数据中的相关关系,由此不断深化价值创生,大数据的价值创生性与算法密切相关,算法从大数据中创生价值并且算法设计又与数据挖掘者特别是其对人的需要及其发展的理解关联在一起。大数据就在那儿,无论你看到与否,大数据所蕴含的相关关系越来越必须通过算法挖掘,而智能算法的发展也表明数据挖掘可以通过机器智能完成,这些数据更多的是被计算机而不是人类使用:被称为“宽客”(quant)华尔街的数学高手将数据插入他们的算法模型中,以寻找可以转化为利润的看不见的相关关系[6]93。人类的工作越来越主要是在机器智能研发等的基础上,根据自己发展的自我规划,明确自己的需要及其发展。由此可见,随着智能化的发展,了解或理解人的需要及其发展,越来越不是一件去被动发现而是必须去主动设计的事情。对于人类发展来说,大数据所敞开的是一个在大自然基础上更广阔的上升空间。大自然具有孕育人类的机制,但这并不意味着人类可以为所欲为,作为人类活动的产物,大数据则可以更好地满足人类为大自然所不能满足的需要,甚至在不违背自己需要发展要求的前提下“为所欲为”,大数据基础上人的发展关键是对人的需要的把握。
理解和把握人的需要的发展是大数据价值生产性的重要基础,越来越多的企业认识到了这一点,为了使这些数据可用于计算机分析,从而释放其价值,必须以某种方式对其进行量化。奈飞公司的做法是付钱给数千名观众,让他们观看数小时的内容,仔细标记他们在其中发现的要素[13]21。正是由此,奈飞公司的成功主要建立在对用户需要及其发展理解的基础之上,正是在此基础上,构成了用户需要发展和录像制品内容生产之间的良性循环,因此,大数据的价值生产性与人的需要的发展构成一个双向循环,需要人们自己去整体把握和全面负责。随着大数据的发展,在我们面前所展开的将是一个意义越来越深远的前景,同时也是一个越来越需要我们不断展开自己未来的过程。沃尔玛分析其大数据的旧销售数据时,发现完全不同类型的商品(如啤酒和尿布)不寻常地频频出现在同一购物篮,两者间在大数据中呈现强相关关系,沃尔玛将啤酒和尿布这两种不同类型的商品放在同一货架,大大提高了这两种商品的销售量。啤酒和尿布之间的强相关关系反映了家里添丁,年轻的父亲既兴奋又辛苦,必须为婴儿采购的尿布就和犒劳自己的啤酒关联在一起了。从大数据相关关系捕捉到这种极为隐蔽的需要表现,于是可以通过更方便的方式满足顾客的需要,销售业绩大大提高,这为利用大数据相关关系提供了一个简单得令人惊讶的例子,晓示了大数据相关关系的诱人魅力。
奈飞公司通过对大数据的深度挖掘,把握了用户更深层次的需要,并由此开发出自己的产品,将自身发展提升到一个更高层次,从仅仅出租录像制品一跃发展为生产自己的录像制品。奈飞公司从其大数据所反映的用户租用录像产品的喜好发现很多用户喜欢看英国BBC生产的电视剧《纸牌屋》,这些用户中又有很多人喜欢凯文·史派西(Kevin Spacey)主演的影视作品,而这些既喜欢看英版《纸牌屋》又喜欢凯文·史派西的用户中又有很大比例喜欢大卫·芬奇(David Fincher)导演的作品,由这三重相关关系,奈飞公司轻松地得到拍摄美版《纸牌屋》的创意,因此从BBC买来《纸牌屋》的版权,邀请大卫·芬奇导演和凯文·史派西主演,通过精准满足观众的需要,该剧毫无悬念地取得巨大成功。无论从“啤酒和尿布”还是美版《纸牌屋》,从越来越多的这类案例中可以看到在大数据基础上的新的潜在可能性宝藏,一方面可以清楚地看到大数据基础上的价值创生过程,不创生就不会存在这些价值;另一方面可以看到随着相关认识和研究的发展,这方面的潜力挖掘会越来越清晰地呈现大数据价值生产性与人类发展的更深层次内在关联,呈现大数据结构开放性的人类发展重要意蕴。
大数据的结构开放性为价值创生提供了前所未有的平台,从而为人类发展造就了一个新的信息世界。由于人的发展越来越主要以信息方式进行,作为信息数字编码发展的产物,大数据将是人类越来越重要的世界层次,随着大数据的发展,其结构开放性意味着越来越广阔丰富的人类发展空间。