王天恩
(上海大学智能社会和文化研究院,上海 200444)
在大数据的基本特征中,有一个重要特征以“V”打头的单词“velocity”表示,一般理解为速率或高速率。这个“V”特征所包含的内容,比通常的理解丰富得多。它不仅意味着高速、快速,而且由于速率决定了与对象过程的同步关系,还意味着实时的数据流过程。在这个意义上,大数据具有实时流动性。正是随着大数据速率的提升而发展的数据实时流动性,使大数据具有前所未有的强大预测功能,从而不仅展开了大数据时代“未来已来”的深远意境,而且为因果关系研究提供了重要的时态向度。
大数据的“大”不在数据量大,而在数据的完备性。正是数据的完备性,使大数据具有规模整全性。大数据的规模整全性[1],为人类认识提供了新的量化整体把握方式。
作为人类信息文明的基础,大数据的实时流动性与技术设备的数据处理速度密切相关。数据流速是个至关重要的维度,它造就大数据的实时流动性。对于人类来说,大数据的存在不仅取决于数据本身,而且取决于技术设备的数据处理速度,因为数据处理速度决定了实时数据流状态。在这个意义上,大数据不仅涉及其与人类使用的关系,而且涉及大数据的人类使用。这是信息与物能更与人类直接相关的重要体现,也是人与世界联系更为密切的方面,同时还是大数据不同于样本数据的根本所在。
样本数据在取样后就与时间没有了实时关联,而大数据则是实时数据流。在小数据时代,人们只是获取标本,而在大数据时代,我们所获得的则是一个生存的数据基础。正是高速流动的数据,为大数据提供了趋向与现实生活同步的过程性。这种不是凝固的而是可以看作自然生成的数据流,随着信息文明的发展,越来越成为人类生存的直接基础。实时数据流进一步在过程维度表明大数据的形成不是取样式的标本凝固,而是具体数据的即时生动流出。正是在这个意义上说,大数据不仅不是决定于取样设计而是自然生成的,而且随着技术的发展不断成长扩展。
样本数据在取样后就冻结了,与时间没有了实时关联,而大数据则实时获取所需要的信息。当下,这已经是人类生活的基本现实:大数据处理来自商业过程、机器、网络和类如移动设备等人类互作的高速数据流。对于典型形态的大数据来说,信息是流动的、活的,是随着时间进程发展的数据流。因此,对于实时的数据流来说,速率就特别重要。在这方面,基于IBM 的大数据实践,保罗·齐科普洛斯(Paul C.Zikopoulos)等认为:“对速率的传统理解通常考虑数据到达和存储以及相关的检索速率。虽然快速管理所有这些是好的——我们正在查看的数据量是数据到达速度的结果——但我们认为速率观念实际上是一些比这类传统定义更有说服力的东西。”[2]8,9因此在大数据意义上,关于“velocity”的理解和定义应与动态数据相联系,理解为“数据流动的速度”。“如今产生的越来越多的数据具有非常短的保存期,因此组织如果希望在这些数据中找到灵感,就必须能够接近实时地分析这些数据。大数据规模流计算是IBM已经提出了一段时间的概念,并作为大数据问题的新范式。”[2]8,9典型的比如来自GPS数据的位置信息被实时刷新。“要有效地处理大数据,您需要在数据仍处于运动状态时对其规模和多样性进行分析,而不是在其静止后才进行分析。”[2]8,9这种观念最初来自IBM。“IBM 似乎是唯一一家谈论速率而不只是数据生成速度的供应商。”[2]8,9高速的数据流更能够在时间上与现实过程同步,因而可以跟人类的存在或生存更密切地联系在一起。在小数据时代,我们只是获取标本,而在大数据时代,我们所获得的则是一个生存的数据流基础。因此,样本数据和实时数据(real-time data)的区别,也决定了大数据具有与小数据完全不同的性质,这在更高层次与大数据的规模整全性密切相关。
从更高整体层次看,大数据的规模整全性和实时流动性是一体的。大数据的规模整全性,不仅意味着,而且事实上包含了数据的实时流动性。这意味着相对于样本数据,大数据规模更整全,而且具有更高的维度。正是在这个意义上,莫里的航海图虽然不是具有实时流动性的典型大数据,却正因为如此而对大数据的理解具有双重特殊意义。由莫里的航海图可以看到,一方面,由于信息数字编码的发展,才出现了大规模的数据,典型的大数据是信息数字编码发展的产物。莫里的航海图不是由数字数据构成的,数据规模不可能很大,但具有大数据的性质,说明它不是简单地因为数据规模大而成了大数据,从而凸显了大数据的规模整全性特征。另一方面,由于更高维的大数据只有作为信息数字编码发展的产物才可能形成,莫里的航海图不可能具有大数据的实时流动性,因而还不可能是典型的大数据。这又说明目前的大数据有两个层次:第一个层次是在数据的静态构成上具有规模整全性的大数据;第二个层次是在规模整全性基础上具有实时流动性的大数据。也正是在这个意义上,莫里的航海图具有与光场相机相似的性质。
2015年,美国Lytro 相机公司发明了一种名为“光场相机”(light field camera)的浸入式360 度相机设备。光场相机能在多个深度捕捉到图像,在拍摄结束后可以重新聚焦图像,改变焦距进行再对焦,不仅获得更完美的照片效果,而且在拍摄之后可以观看在3D空间中移动的主体视频,用3D显示器展示照片,戴上眼镜可以清楚地看到3D效果。这项拍照技术革命性地超越了普通相机的性质,很像大数据改变了小数据的数据性质和使用方式。使用光场相机拍摄,就像大数据采集全部数据,可以真正捕捉拍摄那一瞬间的全部影像,或者说捕捉到可以代表拍摄那一刻的所有光线。光场相机所采集的数据还不能构成大数据,但能在三维层次说明大数据和样本数据的不同。尽管光场相机可以捕捉整个光场,但还只是一个过程的瞬间,因而还只能说明静态构成上具有规模整全性的大数据,不能说明作为实时数据流的大数据。作为实时数据流的大数据可以是与世界过程同步的大数据。光场相机与普通相机的区别主要在于“聚焦点”,而大数据和样本数据的区别则是存在论意义上的。光场相机只是捕捉一个瞬间的全部影像,一个时刻的所有光线,而实时流动性却意味着大数据所采集的数据可以构成由过去向未来伸展的数据流。大数据基于历史向未来无限扩展的可能性,使数据挖掘可以“针对过去,揭示规律;面对未来,预测趋势”[3]99。大数据的这一特征,从其与小数据资源不同的数据保存时间也可以看到。
在小数据时代,“当数据项目结束时,数据保留有限的时间;然后丢弃”[4]21。数据之间没有长程历史累积关系,而在大数据时代,大数据具有小数据所没有的历史性关联。大数据往往必须永久保存。这当然不仅是一个数据保存期的问题,而是涉及大数据的存在论意义。在小数据条件下,数据保存“很少超过7年,这是研究数据的传统学术寿命”;而在大数据情况下,“大数据项目通常包含必须永久保存的数据。理想情况下,在原始资源终止任务时,存储于大数据资源中的数据将被吸收入另一资源池。许多大数据项目以前瞻性和追溯性的方式累积,数据延伸到未来和过去(例如,遗留数据)”[5]21,4。由此不仅可以在一定程度上撇开大数据共享涉及的敏感利益关系,看到具体大数据融汇为总体大数据的重要机制,而且在具有历史维度的基础上,大数据由于实时流动性而具有至关重要的过程维度,而有的大数据本身则主要甚至完全是对过程同步进行数据采集的产物。因此,才有了大数据的维度展开。
大数据和小数据的根本区别在数据的规模整全性,包括两个基本方面:数据的整全度和数据的整体层次。数据的整全度是指数据采集对象的范围达到程度;数据的整体层次则是指数据的整体性维度,包括规模扩展维度、过程持续维度以及数学意义上的更高维。
数据的性质和维度的区分分别有两个层次的根据:一是数据整全性层次,这是大数据和小数据的区分层次;二是实时流动性层次,这是大数据的维度区分层次。二者区分的根据是数据整全程度,而在数据整全性的基础上,大数据的发展有一个维度展开的进程,由此形成了不同层次的大数据。
大数据的维度展开,在其最基本的方面与大数据的实时流动性密切相关。大数据的实时流动性主要是就特定对象的数据产生过程持续而言,即数据采集与对象过程达到同步。实时数据流建立在实时数据的基础之上,典型的大数据都是实时数据,但由于涉及具有关键性的速率,大数据的实时流动性必须是在数据处理速率发展到一定程度后才有可能实现。从大数据的发展看,实时流动性建立在规模整全性基础之上,前者在后者的基础上发展而来。这意味着,具有规模整全性的大数据,未必具有实时流动性。只有在大数据规模整全的基础上,才可能达到大数据的实时流动。莫里的航海图是具有数据规模整全性的数据集合,还没有上升到大数据的实时流动性层次。只有在数字时代速率达到一定程度,才可能使大数据具有实时流动性。因此,数据本身不仅存在一个整全度的问题,而且存在维度上的巨大区别,由此就有大数据构成维度上的不同。由于数据采集的技术差异,数据的实时流动性会构成大数据维度上的根本不同。大数据时代采集的实时流动的数字数据和19世纪由航海日志构成的模拟数据,在大数据维度上就有根本差异。在当代全球定位系统和具有高速率采集及处理数据能力的条件下,汽车导航系统和莫里的航海图就有根本区别,仅仅是数据的即时更新,二者就根本不同。虽然同为大数据,它们与小数据的区别都具有根本性,由此构成了大数据的维度区别。不具有实时流动性的大数据是低维大数据,具有实时流动性的大数据是高维大数据。大数据从低维到高维的发展是数据维度展开的结果,正是从数据的维度展开,可以进一步深化大数据及其与小数据关系的理解。
数据发展到目前的大数据阶段,已经展开了四个维度:一维数据是单个数据(one)。单个数据是独立的数据,单个的独立数据反映了事物间的数量关系,但建立不起数据之间的关系,因而是没有数据间关联的一维数据。二维数据是样本数据(some)。样本数据不仅反映事物间的量化关系,而且可以构成数据间的相关关系,只是这种相关关系还处于静止状态。典型如关系型数据库处理的数据,这种数据类似普通相机照片,表现为样本数据的典型二维性质。三维数据是低维大数据(all)。这正是只具有规模整全性的大数据。只要趋向数据规模整全,就构成了低维大数据。光场相机照片和莫里的航海图最为典型。四维数据是高维大数据(flow)。在数据规模整全基础上再提升一个维度,数据不仅具有规模整全性,而且具有实时流动性,就在低维大数据的基础上生成为高维大数据。大数据的完备性,在更高维度正表现在大数据的实时性之中。大数据和小数据的更深层次区别,在于作为样本数据,小数据是干枯的标本,就像制作好的生物标本已经“失活”。而大数据则可以是实时数据,那是相对具有活性从而具有时态维度的数据。由此可见,样本数据只能是干枯的标本,从而不可能是具有实时数据流性质的典型大数据。高维大数据是具有实时流动性的数据集合,典型如汽车坐姿大数据。
日本东京先进工业技术研究所教授越水重臣采集汽车驾驶员的坐姿数据,不仅是采集小规模对象的数据建立起大数据,而且是就过程采集数据建立起大数据的典型案例。一个人的坐姿及其变化,反映了其身体轮廓、姿势和体重分布,这些都可以被量化和制成表格。越水重臣团队通过在汽车座椅上安装传感器,测量臀部360个不同的压力点,并将每个点在0~256的刻度上表示出来,从而将臀部坐姿数据化。如果只是采集特定人群的静态坐姿数据,所得到的就只是三维大数据;如果采集的是汽车驾驶过程中司机的坐姿变化过程,则构成四维大数据。由此得到的结果就是典型的由不仅小规模,而且以过程为对象采集的大数据。就数据采集对象而言,汽车驾座的坐姿数据规模可以不大,但却是实时采集的全体数据。由于每个人的数字代码都是独一无二的,由此采集的大数据就在某种程度上构成了驾驶者的身份认证。在一次一定人群的试验中,该系统能够以98%的准确率区分受试者。汽车坐姿大数据是在三维大数据基础上进一步叠加,生成四维大数据。作为三维大数据,由于规模有限,坐姿数据意义也相应有限;但作为四维大数据,意义就以几何倍数激增。典型的比如在静态相关关系的基础上构成动态相关关系,其所展开的是一个有着质性不同的更高层次空间。
由此可见,大数据的规模整全构成了大数据和小数据的基本区别,而数据维度则构成了大数据的发展层次。在具有实时流动性的大数据中,有的大数据是在三维大数据基础上叠加生成的,而有的大数据则是以四维大数据方式直接生成的。汽车驾驶员的坐姿大数据是就过程进行数据采集的典型例子之一,而完全是对过程进行数据采集的典型例子之一则是电子多点触摸地板覆盖物。电子多点触摸地板覆盖物只能是四维大数据,没有人或agent在上面活动,就不可能有大数据的生成。大数据的维度是一个随着大数据的发展而发展的概念,由此可以得到对大数据的更深刻理解。
在具有实时流动性的大数据中,那些对过程进行数据采集形成的大数据,更有利于由大数据的实时流动性,深化理解大数据本身及其重要意义。越水重臣的汽车驾驶员坐姿大数据基于信息的数字编码,在大数据以“量化世界”为口号的发展形势下,聚焦于领域极小的汽车驾驶员坐姿及其变化过程采集大数据,通过数字时代建立起局域性大数据。采集坐姿数据生成的之所以是大数据,因为它具有不同于样本数据的全数据性质,从而具有不同于样本数据的大数据功能;汽车坐姿数据之所以是更高层次的大数据,则因为它是对过程数据采集形成的大数据。因此,它具有完全不同的开发空间。
在技术应用上,汽车驾驶坐姿大数据可以通过因果关系的未来向度延伸,开发成汽车防盗系统,当坐在驾驶座上的不是被认可的驾驶员时,配备了这种装置的车辆能加以识别,并要求输入密码才能继续驾驶,或者可能会切断引擎。将坐姿转换为数据,通过创构因果关系的未来向度延伸不仅可以创造可行的服务,也可以带来潜在的利润。坐姿大数据的用途远不仅仅在阻止汽车盗窃并认出小偷,还可以揭示司机姿势和道路安全之间的关系,比如事故前的位置变化,当司机因疲劳而躺下时,系统感觉到后可以发出警报或自动刹车。[6]77汽车驾驶坐姿大数据研究不仅具有重要技术价值,而且具有丰富的大数据意蕴,有利于我们更深入地理解大数据,尤其是其数据整全特性的高维向度。只要具有整全性,哪怕只是臀部的坐姿及其变化,就可以构成典型的大数据,而且是具有实时流动性的更高层次大数据;而作为量化的整体把握,大数据维度的提升又具有重要因果关系意蕴。
作为完全是对过程进行数据采集形成大数据的典型例子,电子多点触摸地板覆盖物属于由“触感技术”引发的一系列令人惊喜的应用。“该电子多点触摸地板覆盖物具有多个识别形状的传感器。电子多点触摸地板覆盖物识别与其表面接触的物体的形状,然后从诸如数据库的数据存储中检索实体记录,其中所检索的实体记录对应于所识别的形状。然后从第二数据存储器中检索动作,其中所述动作对应于所检索的实体记录。最后由计算机系统执行所检索的动作。”[7]由于完全建立在对过程进行数据采集的基础之上,没有过程的进行,就不能建立起大数据,这样的大数据是指向未来的,由此建立起来的大数据具有系统建立整体关联的功能。大数据的建立过程,就是其特殊意义实现的过程。房间里放置这样一块具有触感的地毯,当有人进入房间活动时,不仅可以分辨出接触它的人,而且可以根据其体重、姿势和行为方式认证其身份。这样的触感地毯不仅是保证房屋安全的理想设施,可以通过识别人,系统决定是报警还是为其自动打开门窗和电器,而且可以通过因果关系理解的拓展,更深入地涉及房屋主人的身体健康甚至心理和精神状况等。
汽车驾驶员坐姿数据和电子多点触摸地板覆盖物,都不仅是采集具体对象,而且主要是对过程进行数据采集建立起大数据,典型地凸显了基于数据的实时流动性,大数据至为重要的过程把握功能。
大数据的实时流动性,既意味着数据的历史维度,又意味着向未来的动态展开,这正是大数据具有非同寻常理论意义和应用价值的重要原因。为了在现实中更好地应用,我们需要大数据是实时流动的。“由于信用卡交易是即时发生的,因此分析通常也必须实时进行。”[6]27不仅社会生活中的许多数据都必须进行实时分析,而且“数据评估通常必须实时进行”[8]76。实际上,成熟形态的大数据都是实时数据流。因此,在具体的情境中建立起来的实时流动的大数据,更有利于在更高维度理解“全数据”。尽管是在一个很窄的领域(比如一台运行的机器),不仅也可以建立起作为一个生命体的大数据,而且可以更清楚地看到所谓全数据的涵义。在这个意义上,大数据更不在于其规模大,而在于就特定领域的“全”;不仅是共时性的“全”,而且包括历时性的“全”。大数据的实时流动性在更高层次展示了数据类型和数据来源的多样性,因此在大数据实时流动性基础上理解大数据的结构开放性[1]也具有更深层次的逻辑根据。因此,大数据的结构开放性也不仅是空间意义上的开放,更重要的是向未来开放。
大数据的规模整全性意味着维度全,而维度全意味着包括过程维度的整全,这又意味着大数据不仅是传统意义上的量的固定把握,更是包括随着时间流动而不断动变、实时流动的信息存在。大数据的发展形态可以有不同,但都不是取样式的凝固标本,而是即时流动的具体数据,都是趋向于自然成长的动态整全数据。在这个意义上,大数据和小数据的原则区别在于小数据是为某种具体目的封存的凝固数据,而大数据则不仅是趋向全数据的存在,而且是实时动态数据,它处于不断生长的过程中。
从小数据到大数据,数据存在经历了一个从样本到全部再到实时流动的维度提升过程。由于涉及大数据实时流动性与数据所反映的对象之间的关系,因此有人认为时至今日,“‘实时’一词仍难以界定”[9]9。这恰恰从一个侧面表明了大数据实时流动性的复杂性和重要性。“样本—全体—实时”所导向的,将是一个不断与对象同步,从而具有基本方面存在论对等性的大数据——归根结底是信息世界。这正是大数据实时流动性特征的重要性所在;也正是因为大数据的这一特征,信息世界得以在过程维度与物能世界相对接。
在经验空间,我们能想象的只有四维时空,而大数据作为量化的整体,却不仅可以构成逻辑意义上的更多甚至无限维,而且这些维度还由于作为经验世界的量化而具有经验意义。这就是大数据相关关系构成的量化维度,也正是大数据相关关系的无限魅力所在。
大数据复杂的相关关系构成了趋向无限的维度,这种多维度存在构成了几乎是无限的理解数据相关对象的可能性空间。数据越多,理解的条件越完备,随着数据不断增加便会趋向就认识目的和实践需要而言的完备。正是由此,美国统计学家内特·西尔弗(Nate Silver)利用可以收集到的所有数据,包括推特、脸书等社交平台,媒体和社区论坛等所有能收集到的数据,成功地预测了美国2012年总统选举所有州的选举结果,由此可见数据驱动的核心含义。大数据的完备性源自“数据地图”的全息效应:数据越多,“地图”的数据要素越齐全;数据要素越齐全,大数据相关关系越丰富;相关关系越丰富,大数据的维度越多;大数据的维度越多,把握对象的全息效应便越得以凸显。因此,无论就既存对象的量化把握,还是新对象的创构,这些显然都是关于大数据理解深化过程中的重要观念进展。为了提供一个更高层次的整体观照,由此可以(在哲学层次)更进一步地深化关于大数据的理解:不仅在规模上大到,而且在维度上全到就使用需要而言的实时流动全数据。由此,关于大数据与小数据的根本区别在于大数据不是根据预先设定的具体目的,由抽样形成的抽象干枯数据标本,而是动态反映事物相互作用过程的活的实时数据流。抽样形成的数据,就像动植物标本,是干枯失活的。一张平面照片,角度和动静等都是固定的。而作为动态反映事物相互作用过程的数据流,大数据具有与现实过程同步关联的实时性。正是不断向未来伸展的实时数据流,构成了人类生存的“未来已来”处境。
大数据的规模整全性和实时流动性,依靠的是越来越发达的数据采集系统“末梢”,其不仅像人的神经系统的末梢神经遍布全身并高度敏感,而且不用像人类那样休息,可以夜以继日地工作。有了大数据这个基础,智能手机这种高度发达的终端,其功能越来越齐全,实时记录着使用者(大都是原子化的个人)的可采集言行及其越来越复杂的相互关系。如果有一天,这些终端设备不断智能化,以至它们像人类大脑那样,其效果就类似可以直接以电信号的方式与人脑直接对接,网络就真与人类神经系统“联网”,这意味着网络的神经“末梢”呈指数式扩展,每一个网络“末梢”都连接着一个带有丰富神经末梢的人工神经系统。这种条件下的数据采集就发展到了不可思议的层次,即已经发展出了基于人类个体智能的“智能网络”。当然,作为独立的个体,人们可能不会想让自己像智能终端那样随意连接在智能网络上,但任何人只要想获得这种智能网络的动态信息,都可以接入智能网络。当接入的人脑和时数足够多,就构成了一个可以预测人类行为甚至人类需要发展动向的超级智能网络。对于人类把握包括自身在内的世界,这样的超级智能网络具有无可比拟的优势。
基于这样的超级智能网络,人类不仅可以对从过去到未来向度有越来越纵深的把握,而且这种纵深把握既意味着更高整体层次,又意味着更深局部细节。整体把握不仅关系到把握整体,而且具有使部分或局部理解更到位的重要意义。以往,我们主要依靠凝固的抽象整体把握,抽象的整体把握总是以九宫格的方式把握对象,不能与现实的世界发展进程相匹配。而大数据以实时数据流的方式,不仅奠定了动态把握对象的基础,而且为对于人自身、世界及其相关关系的过去、现在和未来,提供了因果时态把握的可能性,其中就包括为把握人类自身需要的未来发展创造条件。人的本性就是人的需要,由此可以看到大数据存在论意义上的人类生存和发展维度。这对于“未来已来”的当下发展具有前所未有的重要意义,特别是对于大数据基础上的创构活动。基于大数据的创构活动,正是以人的需要为出发点,以满足人的需要为最终目的的。[10]这一方面使人类认识活动的整体景观更为清晰,另一方面又使关系变得更为复杂。
大数据相关关系以量的方式,构成了其所反映的活动区域内的复杂关联。“通过让我们确定一个现象真正合适的关联项,相关关系帮助我们把握当下并预测未来:如果A 经常和B 一起发生,我们需要注意寻找B,以预测A将发生。即使我们不能直接测量或观察A,以B作为关联项可以帮助我们捕捉A 可能发生的情况。重要的是,它还帮助我们预测A 未来可能发生什么。当然,相关关系不能预示未来,它们只能以一定的可能性预测未来。”[6]53由于大数据的实时流动性,大数据相关关系指向未来,其意义对于人类相关活动是不可估量的。即使在最不确定的股市领域,大数据预测也应当具有很大空间。事实上,大数据预测已经涉足股市,这是公认的人类最难有效把握的领域之一。其难点主要在于股市大数据相关关系的理解,而其关键则是股市相关的现实生活整体观照。
作为过去和当下的量化反映,大数据具有预测的重要意义。基于大数据相关关系做出实际预测的典型范例之一,就是谷歌的流感预测。这种随着大数据发展不断增强的预测能力,就建立在相关关系不断丰富的基础之上。在经验世界,两个量的增减变化的现象关联,很可能并不存在相关关系,但在具体的大数据中(比如超市的销售大数据),购物篮中同时购买两种类别相差很远的不同商品出现高度关联,就很可能存在具有特殊意义的相关性。而且,由于在一个具体的情境中,就像在一个具体的语境中,即使是现象间的商品关联也可能具有销售意义。由于大数据具有实时流动性,相关现象的持续出现肯定反映了某种更深层次的关联。
随着大数据的不断发展,所有生活在大数据世界的人,都在大数据中留下永久的数据足迹。“由于物联网正在将数十亿以前离线的设备——电视、冰箱、安全设备、恒温器、烟雾探测器——连接起来,这些设备现在都在产生和共享数据,因此海量数据正在迅速增长。”正是这些永久数据足迹的累积,构成了数据驱动的基础。“几乎一切都是由数据驱动的,由此带来了许多优势。”[11]15,11由此构成的人类自身认识的独特数据优势,正与其存在论层次的深度关联密切联系。由此看到,数据驱动的意义明显从认识论深化到了存在论层次。大数据与小数据具有存在论意义上的不同,可以从数据存在的历史性得到说明。与实时数据流相联系,特别是从与各种具体大数据可以无限整合的前景看,大数据的存在论意蕴就构成了与小数据的更深层次区别。数据驱动的理解深入到存在论层次,使基于大数据的数据挖掘相应具有存在论意义。在现实挖掘(reality mining)中,这种存在论意义体现得淋漓尽致。
数据挖掘(data mining)通常指从存放在数据库等的大量数据中获取有用的知识。而麻省理工学院人体动力学实验室(Human Dynamics Laboratory)主任桑迪·彭特兰(Sandy Pentland)和内森·伊格尔(Nathan Eagle)提出一种具有重要意义的数据挖掘方式,则是通过智能手机特别是可穿戴贴身传感器等收集人们的现实数据,挖掘出人们的社会行为和健康情况等信息。他们将这种数据挖掘称之为“现实挖掘”(reality mining)。
“大数据风靡一时,它已经是我们当代世界的一个事实。关于大数据的会议、书籍、研究论文和创业兴趣比比皆是。理由很充分:从以前深不可测的大量数据中挖掘意义,以清楚辩明趋势,甚至预测未来的想法无疑非常迷人。但就像所有的会议、书籍、研究论文和商业计划所表明的,弄清楚如何处理并充分利用这种规模的数据,不是一项简单的任务。大数据向来被称为数字废气或伴随我们日常活动留下的数字足迹。它是我们生活的元数据。我们相信,在认真负责收集数据的语境中,使用大数据设计更好的系统和更美好的潜在世界是可能的。我们使用一种称作现实挖掘的方法,不仅涉及分析大数据,而且涉及确保分析反映现实情况和所涉及的人,同时符合认真负责收集数据的做法。现实挖掘是指用大数据开发这样的系统,这种系统能够影响所有规模的积极变化,从个人到全球共同体。”[12]1,2-3现实挖掘也称为“实时数据挖掘”(real-time data-mining),这是大数据及数据挖掘发展必定出现的结果。
随着大数据的发展,数据挖掘不仅是一种传统的信息处理技术,而且是越来越涉及人类活动的存在基础。因此,数据挖掘的难度越来越大。“之所以称之为‘挖掘’,是比喻在海量数据中寻找知识,就像开矿掘金一样困难。”[3]98的确,数据挖掘意味着与描述既存世界不同的规律性。“数据挖掘”不仅在某种程度上反映了数据特别是大数据的存在论地位,而且本身也具有存在论意义。相应地,与数据挖掘的相关规律也具有同样的存在论意蕴。由于实时流动性,大数据的存在具有向未来伸展的动态性质。
随着大数据和智能算法的发展,人类活动留下的“数据足迹”的整体化将伸向越来越远的未来。这不是一个涉及新形式决定论的问题,而是因为在大数据基础上,人类的未来越来越是人类创构的结果。人类活动在大数据留下的数据足迹不仅成了我们过去的数(profiling),而且预示着我们的未来。在更深层次,存在两个维度的根本变化:一是由于不仅过去,而且未来变得更可能量化把握,过去和未来大大扩展为现在的视域,这也就等于过去和未来越来越大规模地压缩到现在,使人的存在和发展空间得以空前扩展。二是从更高层级看,大数据带来的网络空间信息的对称化,实质上是使人类个体间的相互性得到极大强化,在类群分化的基础上,人类群体日益构成整合度越来越高,甚至具有更高层次整体性的存在。这是随着人工智能的发展,在不久的将来逐渐呈现的现实情景。
随着网络和人工智能的发展,大数据实时流动性将给我们展开越来越广阔的过程空间。过程空间的不断展开,不仅意味着人类涉及未来向度的深化,而且意味着这种未来向度的深化将提供越来越高层次的整体观照,使人类对现在乃至过去的理解更为到位。正是人工智能基于大数据的发展,使关于人类的未来预期在越来越大程度上影响甚至决定人们当下的思想和行为,重新改写人类过去、现在和未来及其之间关系的观念。
新一代人工智能的发展表明,人工智能的数据基础和智能网络的形成将带来全新的发展形势。在大数据的基础上,以人工智能为主要标志的信息科技发展,空前凸显了“未来已来”的当代特征。从主要由过去和当下构成的存在到“未来已来”的存在,人类的生存和发展境遇会发生根本变化。“未来已来”意味着未来越来越长程地纳入当下,由此一方面构成了更长程未来预测的紧迫性,另一方面正好为大数据基础上更大程度的可预测性提供了充分发挥的用武之地。作为大数据的核心,未来预测的发展是大数据对人类发展影响越来越凸显的方面。正是未来预测的发展,将构成大数据发展和人类“未来已来”处境发展的双向超循环机制。
“未来已来”的一个重要涵义,就是现在可以不同程度地看到未来的生成。消费者反向定制生产,可以看作是“未来已来”这种意义上的典型体现。大数据基础上的发展所预示的“未来已来”,还可以通过数字孪生技术得到典型说明。数字孪生技术,指的是在虚拟计算里复制一个现实世界,由算法工程师在其中推演未来的各种可能。数字孪生技术由此所展开的,不仅是一个具体落地的“未来已来”,而且是人类在大数据基础上创构的一个全新世界。