大数据与社会实在的三维构建

2016-11-14 09:42段伟文
理论探索 2016年6期
关键词:能动性大数据

〔摘要〕 大数据的社会应用是量化社会和控制革命等现代社会数据化进程的进一步发展。基于大数据社会实在的构建呈现为表征性、语义性和能动性等多个维度。基于大数据的社会物理学试图成为表征社会实在的“社会之镜”和“上帝之眼”,基于大数据的智能分析则将人细分为“算法分格”并使社会转向“管控社会”。鉴于大数据并不能带来完美的表征性构建,应该通过数据化社会实在的语义性构建赋予表征性社会实在以有价值的意义。同时,为了打破算法黑箱,基于大数据社会实在的构建应通过能动性构建让主体的能动性得以凸显,使基于大数据的社会实在成为个人和社会自我调适的智能化手段。

〔关键词〕 大数据,社会实在,表征性,语义性,能动性

〔中图分类号〕N02 〔文献标识码〕A 〔文章编号〕1004-4175(2016)06-0026-07

近年来,大数据的获取、分析、挖掘则使社会实在以一种全新的形式得以展示,甚至有人喊出了“数据统治世界”的口号。随着移动互联网、网络社交媒体和可穿戴式量化自我设备等的发展,相应的智能化大数据分析及应用方兴未艾,不仅使社会投射为其数据化镜像或表征性社会实在,而且还可能通过基于普遍数据化的意义与主体作用使语义性社会实在和能动性社会实在得以构建,三者共同构成了大数据背景下虚实交融的社会实在。

一、大数据视野中社会实在的多重维度

大数据的社会应用是现代社会数据化进程的新发展,并成为社会实在构建的语境基础。基于数据化社会实在的构建以认识、理解和干预社会实在为目标,社会实在的表征性、语义性和能动性等维度据此得以展开。

(一) 大数据语境中的社会实在。大数据是计算机、网络和人工智能等信息通信技术(ICTs)长期发展的结果,不仅在科学上带来了数据密集型科学和网络化科学等“第四范式”,而且在社会层面挖掘出的知识日益成为商业与政府决策的新工具,使人们得以通过大数据洞察社会现实,进而揭示出其中的社会实在。从社会层面来看,可以将大数据定义为社会场域中的人或物与数字网络世界之间相互作用而产生的数据及其完整的集合,其主要内容是人们在日常生活和在线时产生的数据或留下的数据足迹。这些大数据可能涉及较长时段、多个主题和范围广泛的数据及其组合,既可以是某人在数年间单变量的数据,也可以是某个瞬间采集的数以亿计的多变量数据。由此形成的各种大数据集构成了一种全新的可挖掘的知识空间,通过聚类分析、数据画像、数据可视化等形式,其所透视、呈现和构建的社会实在成为人们认识世界、社会和自我的中介。

社会实在的基本含义是指处于社会现实中的主体或群体通过感知、理解而构建对社会事实的陈述。虽然其内涵超出了塞尔(John Searle)在《社会实在的建构》(1997年)和《制造社会世界:人类文明的结构》(2010年)中所讨论的使社会世界(social world)得以形成的社会化和功能性的社会实在(如货币、关税等),但在追问其实在性时所显现出的悖论是一样的,即“在本体论上具有主观性的关于社会实在的论断何以具有认识论上的客观性?”近代以来,在数理自然图景的影响下,用数量刻画社会实在的努力使得社会数据化成为现代社会运行的基础,而其背后的认识论预设就是以数据表征社会实在更具认识论上的客观性。究其历史渊源,大数据对社会实在的刻画是几个世纪以来社会数据化这一长期趋势的最新发展。

(二)大数据社会应用是量化社会与控制革命的进一步发展。社会数据化的进程可追溯至17~18世纪统计学所开启的量化社会和发端于19世纪后期的控制革命。

近年来,大数据的倡导者指出,大数据的本质在于研究进路的数据驱动与计算转向。提倡用关联性取代因果性的安德森(C.Anderson)甚至强调,一旦拥有足够的数据,数据自己会说话。而实际上,对数据的信任,在统计学开始用于分析社会实在时其所诉诸的量化精神已见端倪。产生于17世纪和18世纪的统计学,使人们可以运用数据分析预测人口、健康和社会经济发展。这是历史发展到一定阶段所产生的必然需求。面对日益复杂的近代社会,人们需要对社会实在有更准确可信的认识。马尔萨斯的《人口原理》第一版因为没有数据支撑引发了激烈的争论,这促使英国政府在1801年首次展开了人口普查。在这些数据的支持下,马尔萨斯在新的版本中不再简单地断言人口增长必然引发灾难,转而强调世界上没有一个国家会放任人口增长。

统计学在出生率、死亡率、传染病以及制造、航海、农业和国土的量化上卓有成效,在当时被称为政治算术。〔1 〕75政治算术的核心理念就是通过量化社会来认识社会实在,进而有效地对社会进行管理和调控。政治算术首次在社会层面上体现了量化精神,其深远意义不亚于伽利略在自然层面强调大自然的语言是数学的观点。政治算术的倡导者强调,涉及社会经济和公众生活方方面面的问题时,数据比文字更能说明问题,数据能更客观地反映自然和社会的真实存在,基于数据的论断更可信。从量化精神发展而来的对数据的信任——数字比文字更客观——至今依然盛行。大数据的提倡者所声称的“让数据自己说话”就是这种量化精神的当下体现。

先搁置数据是否真的更为客观可信这个问题不谈,且看自政治算术出现以来社会数据化的趋势为何会一路迅猛发展至今?信息社会的发展历程揭示了其中的奥秘。19世纪下半叶以来,社会数据化持续和加速发展的动力来自信息社会或信息时代的推动,而后者缘于人类为克服“控制的危机”而推动的一场延续至今的控制革命——实际上也是政治算术的延续。1986年出版的《控制革命》一书中,贝尼格(James R. Beniger)指出,信息社会的兴起源于控制革命(control revolution),要理解信息为何在经济与社会中产生越来越重要的作用,必须从信息与控制之间的关系中寻找答案。他强调指出:(1)19世纪后期以降,在工业革命的带动下,技术系统、经济系统和社会系统的迅猛发展与相互整合导致了“控制的危机”,即工业化使物质、能量和社会系统加速发展的同时,信息处理与传播技术领域的创新出现了相对滞后;(2)正是对控制危机的应对导致了控制革命,人们开始有意识地从调控社会与物质系统的需求出发,通过对信息的收集、贮存、处理和传播,运用科学管理、数量规划和基于信息的决策等有形之手,使各种系统更具有目的性与合理性,从而实现对整个社会系统的控制。〔2 〕6-14

综合上述两方面,社会数据化的基本理念是:一方面,运用量化社会所获得的客观数据认识和揭示社会实在;另一方面,通过信息化推进社会数据化发展,以克服各种“控制的危机”,实现控制革命。前者强调量化社会这种方法可以更客观地透视社会实在,后者表明社会数据化的最终目的是对社会进行更有效的管理和调控。值得强调的是,在现代性权力结构和制度安排下,量化社会和控制革命与社会及组织的管理者或治理者等主体或能动者相关,社会数据化的目的在于实现对社会及组织更合理和更有效的管理与治理,具有明显的问题导向。

(三)数据化社会实在的多维度性。社会数据化实质上是一种社会技术,其基本技术路线是用数据和基于数据的模型来构建可以认识、理解和干预的社会实在。由此揭示的社会实在是通过主体与社会存在以及主体之间的互动构建起来的复杂的人工物或人化物。从经济指标、人口状况、社会人群的健康状况到公众的幸福感和网络舆情,各种基于社会数据化的社会实在即数据化社会实在的构建不仅涉及基于观测者视角的客观认识——用数据表征作为主体或群体认识对象的社会存在,而且还与主体或群体认识社会存在的目的与意向性密切相关——从数据中推演意义或据此采取行动。由此,数据化社会实在的构建过程具有表征性、语义性和能动性等维度,其结果呈现为由表征性社会实在、语义性社会实在和能动性社会实在叠加融合而成的多重实在。

表征性维度是指主体可以通过数据模型及其背后的算法使社会存在表征为社会实在,其实质是对社会实在的总体性认知与把握。用数据表征社会实在是由数据的本质特征决定的。一方面,数据在量的定义、选择、收集、处理和分析等方面原则上可以通过主体间的讨论减少主观偏见,较一些非量化的方法更为客观地表征对象、事件和环境的属性。另一方面,数据本身可以借助载体的存储而成为一种稳定的、物理的东西,是一种可以操作、变换和传输的客观存在。〔3 〕109 由此,可以用“……的数据是多少”之类的量化答案回应“……是什么”之类的存在论问题。近年来,此进路最具代表性的是社会物理学和计算社会学。其理想化的认识情境是:在对社会现实和过程进行全方位的自动化数据测量和采集的基础上,它们试图以其所获的社会数据集替代社会现实和过程本身,进而像“社会之镜”一样以数据模型或数据仿真表征人类行为和社会活动。然而,表征性维度至少会遭遇两方面的质疑。首先,数据并不能替代认识对象。对此,杜威曾指出,对象是最后的、完备的东西,而数据是“运用的材料”和有待进一步解释的题材, 是尚待揭示的事物的征兆、证据、标志,是中间线索而不是最终的对象,是手段而非终极事物。〔4 〕74其次,正像并不存在一种“自然之镜”可以完全客观地表征自然实在一样,同样不存在一种理想的数据化社会实在能够像镜子一样反映整个社会的所有方面。

鉴于我们无法以“社会之镜”或“上帝之眼”构建完美的表征性的数据化社会实在,这使得表征性只能是数据化社会实在的一个维度,数据化社会实在的构建还需引入语义性和能动性两个维度。其一是语义性维度。在无法从总体上表征社会的情况下,数据化社会实在的构建只有在具体问题的驱动下,才可能提出具体地揭示社会实在的某一方面的主题,赋予跟问题相关的数据以特定意义,语义性的社会实在由此得以构建。例如,在没有提出具体问题之前,你的财务数据和过往的消费记录只是具有无数潜在信息意义的数据集。而当一家零售商想知道你购买某个新款手提包的可能性时,就可以从中挖掘出你的“可支配收入”“顾客忠诚度”以及“时尚度”等方面的表现或评分,赋予相关数据具体的意义,你的相关特征和经历方面的数据因此被提取和推定出特定的属性标签(如很可能购买某个价位或风格的产品),由此你在特定的意义上被构建为语义性的社会实在。其二是能动性维度。不论是表征性还是语义性社会实在的获得,往往为了展开进一步的行动,或影响相关主体做出相应的行动,能动性的社会实在会由此得到构建。例如,一些用于健康管理的可穿戴式设备通过对数据的采集和分析构建的就是能动性的社会实在,这不仅使监测对象的健康状况通过数据得以刻画,还会对监测对象、医生、保险销售人员、制药厂商等相关主体的行为产生影响。

以主体的目的和意向为纽带,可以使表征性、语义性和能动性三个维度得到整合。在讨论科学表征时,科学哲学家吉尔(R. N. Giere)将其描述为:科学家S为了目的P而用X表征世界W。〔5 〕类似地,我们可以将数据化社会实在的构建看作主体S为了目的P而用X表征社会实在SR的某个方面。并可根据目的P的不同分为三种情况:(1)P为对SR的(总体性)认知或把握,即主体S为了(从总体上)认知或把握社会实在,力图用X表征(反映)社会实在SR可认知的(所有)方面;(2)P为关注部分社会实在的意义,即主体S为了关注部分社会实在的意义而用X表征(刻画)社会实在SR的某个方面的意义;(3)P为干预所关注的部分社会实在,即主体S为了干预所关注的部分社会实在而用X表征(揭示)社会实在SR的某个方面存在的问题以促使其改变。由此可见,数据化社会实在的构建必然与构建主体及其意图相关,因而不单是寻求对社会现实或事实的客观洞察,而是一个事实与价值相互纠缠的过程,应该引入社会公正、权力赋予等方面的考量与权衡。

二、大数据方式牵引社会实在表征性构建

近年来,大数据、智能传感器、物联网和现实挖掘等数据科学的新发展使社会物理学迎来了新一波的热潮——基于大数据的社会物理学,它试图将大数据成为洞察社会微观过程的“社会之镜”,甚至希望成为能从总体上透视和构建社会实在的“上帝之眼”。在实践层面,基于大数据的各种智能分析可以视为广义的社会物理学探究,它正在通过各种“算法分拣程序”将人细分为“算法分格”,当代社会随之走向“管控社会”。

(一)从“社会之镜”到“上帝之眼”。基于大数据的社会物理学及相关的计算社会学试图从总体上构建基于大数据的表征性社会实在。其理论目标是建立一种关注人类社会过程的行为计算理论,试图以此超越对社会现象的单纯描述。为此,它并不满足于相关性发现,而力图寻求对社会结构的因果解释,并希望运用数学模型揭示社会变化和社会行为统计规律背后的动力学机制。

社会物理学的基本研究方法是现实挖掘(reality mining),即通过对人类生活方方面面产生的大数据痕迹的记录、采集和分析,揭示和构建它们所表征的社会实在。在麻省理工学院社会物理学家彭特兰(A. Pentland)看来,基于行为计算理论的社会物理学能够将社会互动机制与海量的行为数据相结合,从而构建出更好的社会系统。〔6 〕9 一个典型的例证是他领导的“人类动力学研究小组”开发的名为“奇缘”的移动系统。通过对社交媒体的数据挖掘,该系统具有社交发现(social discovery)功能,它能在有吸引力的约会对象相距八九米的时候发出报警声,并使符合条件的双方的手机通过蓝牙交换信息,由此可创造意外邂逅的机会。〔7 〕72-73

在具体研究手段上,社会物理学主要通过“生活实验室”开展研究,其实质就是通过全方位的大数据采集和分析对真实的社会生活现场进行实时的追踪式研究。生活实验室如同将整个社会组织——小群体、公司或整个社区放进一个假想的空间,长期持续地记录和呈现社区成员的行为、沟通和社会互动的所有细节,对手机、社交媒体上的帖子和信用卡交易记录等数字痕迹进行完全的监测。运用这种方法确实可挖掘出一些具体的社会实在。如判断一个人是否患有糖尿病或是否按时还款,甚至可以通过对人群模式的研究解释金融泡沫、经济崩溃等随机的复杂现象。

作为一种理论研究,社会物理学以大数据为引擎构建表征性社会实在的努力是高度理想化的。其理想在于通过对人类行为的客观数据的现实挖掘,获得对人和事的客观描述,形成对人类活动的规律性认识。他们认为,对人们的通话记录、信用卡交易记录和卫星定位等人类活动所留下的数据“面包屑”进行现实挖掘,不仅可以对人进行数据画像,还可建立复杂的人类行为的定量预测模型。值得指出的是,社会物理学并不满足于对社交媒体数据的分析,而更多地致力于引入各种新的智能装置记录人的行为和活动,全方位采集不受主观意向影响的数据。在他们看来,这些数据比社交媒介上留下的那些经过编辑的文字更客观。因为我们究竟是怎样的一个人不应完全取决于我们声称自己做了什么,而应根据位置及消费等方面的数据痕迹更为准确地决定。〔6 〕11由此,社会物理学并不满足于各种具体的现实挖掘,而旨在对社会进行总体上的透视与洞察,试图成为“社会之镜”乃至“上帝之眼”。 〔6 〕11-16

在社会物理学家眼里,社会生活各个方面不断产生和累积的大数据为科学家提供了一种全新透镜——大数据透镜或“社会之镜”,它可以帮助人们洞察社会的细微之处,使关于人类行为的研究焕然一新,其作用可与历史上彻底拓展了自然科学视野的光学透镜媲美。在他们看来,现有的社会科学主要基于对统计平均或典型样本的描述,大多建立在对普通实验室现象或调查结果的分析之上,忽略了人与人之间的互动,无法体现基于想法流动等微观过程之上的社会生活的复杂性。在大数据透镜下,社会现象则可能获得更加精细客观的表征,呈现为由个体之间数十亿物质、货币、信息和想法的微小交换构成的微观模式,通过对它们的社会物理学分析,将使真实社会的复杂性得以洞悉。

在此基础上,社会物理学家进一步希望构建一种以大数据为引擎、能洞察一切的“上帝之眼”,以此真正理解社会的运行并从总体上解决人类面临的问题。这一理想化目标的技术路线及其所蕴含的基本假设主要包括五个方面。(1)构建更大、更精确的人类行为大数据集,运用数量惊人的、客观连续并且密集的数据构建能够表征复杂的人类日常行为的定量预测模型。(2)构建更加精确和可视化的表征性社会实在,将有助于我们适应复杂、互联和网络化等人类社会的新趋势,更好地理解和管理当代社会。(3)聚焦于人们的“想法流” 而非人的内在认知模式,透过社会网络和社会学习过程探讨人的想法的交换的行为动力学。(4)通过大数据实现社会物理学所涉及的经济学、社会学、心理学以及网络科学、复杂性科学、决策和生态科学诸学科的融合。(5)为了营造一个更好的社会,建立有利于增长和创新的科学,构建起可靠的政策以及保护隐私和公众知情权的信息和法律框架。

“上帝之眼”的构想反映了大数据和人工智能时代的发展趋势,但也存在诸多困难:(1)客观性问题。仅仅从外在的可测量数据出发,我们难以对社会实在的所有方面进行全面客观的表征。(2)数据洞察力问题。数据洞察力主要取决于元数据的选取以及数据背后理论的解释力,单纯的数据采集数量、参数和频率在量上的提升未必意味着更强的数据洞察力。(3)思维的内在过程问题。回避人的内在认知模式,难以全面客观地把握人类想法流动的规律。(4)知识融合问题。社会物理学一方面要融合多种相关学科,另一方面又置其所融合学科的常规研究对象于不顾,二者似乎很难整合。(5)制度保障问题。大数据实现对社会的表征离不开制度保障,而制定和落实相关制度比较困难。

与社会物理学类似,我国学者王飞跃将工业工程中的信息物理系统拓展到社会领域,提出了平行社会理论。其基本思想是通过建立社会物理网络系统(Cyber-Physical-Social Systems),使人工社会数据化并通过计算实验同步仿真,再通过两者间的虚实互动和平行执行使两者协同发展,并确保系统按照人类期望的目标收敛。〔8 〕但值得指出的是,不论是社会物理学还是平行社会理论,其愿景虽然具有革命性但其困难也是明显的,除了理论上的问题,还面临如何在制度层面引入整体性变革的挑战。显然需要在国家政治乃至国际政治层面作出整体性制度设计和全新价值抉择。

(二)从“算法分格”到“管控社会”。不论是“社交发现”还是“社会之镜”,它们对社会实在的表征性构建都是量化社会和控制革命在当代的发展,这些构建的共同特征具有基于大数据的智能分析。在实践层面,鉴于大数据的本质实际上是数据的自动化和智能化采集、计算和分析。目前,大数据在国家、社会和组织层面的应用,使其被赋予商业智能、管理智能和生活智能,而这些智能分析与应用的首要功能就是透视社会,即构建基于大数据的表征性社会实在,故它们可以视为广义的社会物理学探究。在实践中,基于大数据表征性社会实在构建的关键是对人的“本性”进行智能分析——以数据洞察人。

以数据洞察人的基本方法是通过量化的数据、计算程序和智能算法洞察人的特征、分析人的行为、预见人的倾向。由此,人们所产生的所有大数据都有可能被分析,进而影响到他个人的“数字画像”和分类。这种表征性构建的关键环节是根据人留下的数据痕迹运用算法对人进行分类并将结果付诸应用。在一些搜索引擎中,不同的用户搜索同一个词会得到不同的搜索结果;根据算法推测购买过《哈利·波特》《暮光之城》的用户可能会购买《饥饿游戏》三部曲,他可能因此遭遇较高的“差别定价”;脸谱网和领英网更倾向于招聘那些有熟人在其中供职的应聘者;机场会为那些收入高且愿意多付费以快速通关者提供较近的车位;呼叫中心会让与你的性格特点匹配的话务员为你服务。这种数字种性系统(digital caste system)无疑使商家和各类管理者在提高效益和规避风险上受益,而其“算法分拣”式社会实在的构建也存在着对人的隐晦或公开的歧视,其背后的算法黑箱亦难免渗透利润考量和文化霸权。

基于“数字种性系统”和“算法分拣程序”的社会实在的构建正在赋予人类一种全新的数字身份,它使得量化社会的信息颗粒度在继特定人群(阶层、性别、年代)到个体之后进一步细分为个体(individual)在算法上可区分的特征。当代哲学家德勒兹将这种细分称作“分格”(dividuals),并将托夫勒在《第三次浪潮》中提出的人类由基于商品生产的纪律社会所转向的基于信息和金融化商品的经济社会称为“管控社会”。他指出,在以往的社会中,管控发生在职场、学校和家庭等具体场所,人们的行为通过受到关注而被规训,但存在可以不受管控的空间;而在管控社会中,管控则来自由代码组成的数字语言,它们决定了人们能否获得信息,这种管控不是将人们放到具体的场景中,而是使人置于一种无处不在的、持续运转的网络之中,如同巨型筛子上错落有致地排列筛孔一般。〔9 〕

这些洞察预言了大数据时代人类算法身份的出现,即可以通过一套专门针对每个人的算法对其数据痕迹进行精细的分析。而其出现的必要性在于,不论是从商业还是管理目标出发,不对每个人及其行为方式加以精细区分,市场细分和有针对性管理就不可能展开,也无法对人进行信用评分或对某些有危害社会倾向的人加以监控。显然,管控社会与所谓信息监控社会研究中边沁式的“圆形监狱”隐喻的管控结构并不相同。与以严苛和专制的规则规训囚犯的圆形监狱不同,在管控社会中,实际上是通过消费等“满足”人的意愿和欲望的活动来规训人的自由度。

作为一种表征性社会实在的构建,大数据时代的数据身份实际上是个人与社会互动的产物,虽然人们会意识到“数字种性系统”或“算法分拣程序”是企业或管理部门识别个人的手段或“俘获工具”,但也认识到其另一面则是人们彰显个性和实现自由的工具。因此,在数据化的表征性社会实在的构建中,人们不得不面对的吊诡是:数据已经成为人们身份不可分割的一部分,但却并不拥有它。因此,人类社会在一定程度上可以说正在经历一场“数据谋杀”或数据涅槃。

三、 大数据方式牵引社会实在语义性构建

通过对基于大数据社会实在构建的进一步反思可以看到,大数据并不能带来完美的表征性构建。在实践层面,只有通过语义性的社会实在构建,表征性的社会实在才能被赋予有价值的意义,而且基于大数据语义性的社会实在构建与表征性的社会实在构建是密切相关和互为条件的。

大数据现实挖掘和各种智能分析固然给数据化社会实在的表征性构建带来了全新的可能性,但应该认识到表征性的社会实在并非数据化社会实在构建的全部内容,尤其不能将大数据等同于存在本身或对存在的完美表征。一方面,大数据一般指基于各种测量数据或采集数据的完整的数据集,它必然受到现有理论和数据测量与采集等相关技术的制约,无法替代存在本身。另一方面,虽然大数据可视为对自然存在或社会存在的多样性和多维度的表征,甚至可以在一定程度上视其为完备的和全方位的,但这些表征既不可能穷尽对存在的探索,也不可能仅仅靠数据说话实现认识上的范式转换。

实际上,社会实在的表征性构建与语义性构建互为条件、无法分割——所有的数据必须先赋予其意义然后才能用于表征实在,而数据也只有达到一定的精确性和多样性才可能从中获得有价值的发现。以自然科学中开普勒的发现为例,虽然开普勒三定律所运用的第谷的天文观测记录可以视为大数据集,但不能认为第谷的观测记录是对宇宙存在本身的完美表征。开普勒的成功首先在于他选择了以太阳作为参照系,通过这一新的视角赋予了世界以全新的意义——这无疑是一种语义性的转向。以此为前提,开普勒透过第谷完整而精确的观测数据,获得了行星沿着椭圆轨道运行这一新的实在图景,也赋予了日心说更为确切的新意义。在自然实在的构建中,表征性构建与语义性构建的主要差别在于,前者强调实在构建的基础是唯一正确的理论,后者则认为应该将可能存在不同范式的理论基础视为模型,实在的意义是由模型所赋予的。

在社会实在的构建中,语义性构建一般是表征性构建的前提,或者说表征性实在只有被解读为语义性实在才可能获得有价值的意义。正因为如此,信息哲学家佛洛里迪强调指出,大数据的真正问题并不在于数据之“大”,而在于如何从海量的数据中挖掘出其背后具有规律性的“小模式”。 〔10 〕这些所谓的“小模式”实际上就是数据中所包含的秘密,即各种语义性的实在,如某人信用评分的高低、对某个商品可能感兴趣的顾客、潜在的恐怖分子、社交媒体上的情绪传播模式等。为了揭示这些秘密,可以先提出有意义的问题,再以此作为语义线索,通过基于大数据的社会实在表征去寻找答案,获得确切的语义性实在;也可以不断变换社会实在的数据化表征形式,通过可视化等手段提出一些有意义的猜测,再进一步细化有价值的语义性实在。在通过现实挖掘发现这些语义性实在的过程中,虽然利用了大数据,但显然超越了数据原有的表征意义,而关注如何赋予数据以新的意义,实际上是在原有数据的基础上开展语义性重建。同时,这些语义性重建又是进一步表征性构建的基础。

从知识发现的角度来看,基于大数据的表征性实在可以视为一种介于真实世界现象与基于数据知识发现之间的媒介性的存在,语义性构建是在表征性构建基础之上的二次发现。 〔11 〕通过大数据现实挖掘及智能分析所揭示出的语义性实在是传统认识方式所无法获得的,特别是那些从全新视角出发关于社会事实的有意义的陈述,不仅涉及新的不为人知的各种关系的相关性,还会呈现很多人们永远无法想象的内容。例如,通过对社交媒体的数据挖掘发现,如果配偶双方与共同好友的联系紧密,他们在两个月内分手的概率就会大于50%,像这些研究显然只有通过大数据才能完成。

近年来,谷歌运用其数字图书馆对量化历史变迁领域进行了探索,试图以一种看待历史变迁的新视角和语言、文化和历史的计量方法推进“文化组学”(culturomics)研究。其研究原理是哈佛大学德国文学系主任齐夫(G. K. Zipf)在1937年发现的齐夫定律(Zipfs law):在大型文本(如乔伊斯的小说《尤利西斯》)中,每个词出现的总频次与其在所有的词频率表中的排序逆相关。此后,齐夫和其他科学家发现财富与收入的分布、城市的规模、姓氏出现的频次、战争伤亡人数、热词的流行、人的受欢迎程度等也存在着 “大者更大” 之类的幂律。〔12 〕33-35根据这一原理,谷歌研究人员设计了一种“n元词组查看器”,通过可视化的曲线呈现某个词或某几个相关词汇在谷歌数据图书馆的海量语料库中的词频随时间的变化,以此展示一些重要的历史人物的名望起落、社会观念变迁、历史事件的集体记忆等其他研究方法难以呈现的历史文化脉络。

四、大数据方式牵引社会实在能动性构建

不论是以大数据为引擎的表征性社会实在的构建,还是语义性社会实在的构建,都是由一定的主体所主导的,但在大多数情况下这些主体都是匿名的。之所以出现这种情况,是因为存在着一个默认的假定,即大数据现实挖掘和智能分析所运用的数据、程序和算法是科学的和客观的。由于数据、程序和算法是以数字和符号的形式出现的,很容易让人误以为它们只涉及一些事实和逻辑关系,而与价值、权力和利益无关。所以,人们可能会批评一些地图软件的街拍会干扰到他们的隐私,也会质疑搜索引擎针对性的推介的不当性,但很少对它们背后的数据、程序和算法提出疑问。在大数据公司的经营者看来,用户不需要理解复杂的技术过程,他们应该接受数据、程序和算法被装进普通人难以理解的黑箱这一现实,通过各种输入,再根据输出结果作出选择。

正是通过这些匿名主体的构建,个人和社会成为表征性实在和语义性实在。从社会和组织(包括企业及各种形式的实体性组织)的角度来看,这无疑使得整个社会和各类组织所关注的群体成为透明的观测对象,其中的个体被细分成各种算法分格,成为网格化治理以及商业智能和管理智能监控的对象。但这些表征性构建和语义性构建有其固有的缺陷。表征性构建的根本性问题在于,一方面,我们并不能在以大数据为引擎的表征性构建的基础上获得透视一切的“上帝之眼”;另一方面,通过大数据获得的相关性很难进一步发现因果性,更不可能由此实现对社会的总体性控制。语义性构建的问题在于其方法论在本质上遵循的是斯金纳式的行为主义进路,基于表征性实在的二次发现从根本上讲是一种对外部关系的揣测性认识,而并未触及内在的动力学及机理层面。更重要的是,在所有的现实挖掘中,不论是表征性构建还是语义性构建都存在着脱离语境和时空的问题。因为数据原则上既无法还原到其语境中去理解其完整内涵,也难以根据其发生的时空条件把握其有效性,所以基于大数据的表征性社会实在的构建和语义性社会实在的构建存在着难以克服的刻板性。

鉴于表征性构建与语义性构建的固有缺陷,基于大数据的社会实在的构建应该进一步凸显主体性,走向能动性社会实在的构建和智能化调适。从理论上讲,所谓能动性构建基于一种能动实在论的立场,即认为社会实在的构建是主体发挥其能动性,并通过与各种人与物的关系网络中的组分之间的互动而实现的。也就是说,主体不仅应该参与到基于大数据的社会实在的构建之中,而且还要通过这种构建采取进一步的行动。实际上,近年来方兴未艾的量化自我(QS)运动就是基于大数据的能动性社会实在构建的典型技术。通过可穿戴设备,人们可以了解其健康、情绪和生活中方方面面的数据和由此获得的评分,在此基础上制定相关的改进计划。由此,量化自我既是对作为社会实在一部分的自我的构建,也是一种动态的智能化的自我调适。从某种程度上讲,量化自我体现了福柯的自我技术的思想。

作为能动性构建典型的量化自我给我们的启示是:主体可以将基于大数据的社会实在的构建当作一面矫正行为的智能化的镜子,借此不断地调节其行为。以学术不端检测软件为例,正确地使用方法一方面可以将其内置到写作软件中及时矫正潜在的不端行为,另一方面可以针对其算法中存在的不透明、不合理的地方提出质疑并促使其改进。值得指出的是,在能动性构建的场景中,大数据这面智能化的镜子不是用于鸟瞰世界,而类似于自我观测的镜子或后视镜,用于前进中对自我状况的观测和自我调节。如果将能动性构建的视角放大到社会和组织,则可以通过对相关性的智能化调节来弥补总体上的因果控制上的不足。例如,大数据不一定能够对每个人的能量消费进行绝对的调控,但却可以通过展示每个人亲朋好友的相关数据促使他们向好的方面转变;如智能化的防灾系统虽然不能预报地震,但却可以通过及时的数据反馈将灾害减到最小。因此,主体的能动性社会实在构建不仅会使个人在大数据的发展中获益,也使作为复杂系统的社会通过数据化的反馈体系实现智能化的发展。

参考文献:

〔1〕丹尼尔·墨德里克.追溯信息时代〔M〕.崔希芸,等译,石家庄:河北教育出版社,2016.

〔2〕James Beniger. The Control Revolution: Technological and Economic Origins of the Information Society〔M〕. Cambridge: Harvard University Press,1986.

〔3〕马克·布尔金.信息论:本质、多样性、统一〔M〕.北京:知识产权出版社,2015.

〔4〕约翰·杜威.确定性的寻求:关于知行关系的研究〔M〕.上海:上海世纪出版集团,2005.

〔5〕R. N.Giere. How Models Are Used To Represent Reality〔J〕. Philosophy of Science, 2004(5).

〔6〕A.彭特兰.智慧社会:大数据与社会物理学〔M〕.汪小凡,汪蓉,译.杭州:浙江人民出版社,2015.

〔7〕卢克·多梅尔.算法时代:新经济的引擎〔M〕.胡小锐,钟毅,译.北京:中信出版社,2016.

〔8〕王飞跃.X5.0: 平行时代的平行智能体系〔J〕.智能产业快讯,2015(1).

〔9〕Gilles Deleuze.Postscript on the societies of control〔J〕. Societies of Control, 1992(59).

〔10〕Luciano Floridi. Big Data and Their Epistemological Challenge〔J〕.philosophy &Technology;, 2012(25).

〔11〕段伟文.大数据知识发现的本体论追问〔J〕.哲学研究,2015(11).

〔12〕埃雷兹·艾登,让-巴蒂斯特·米歇尔.可视化未来:数据透视下的人文大趋势〔M〕.王彤彤,等译. 杭州:浙江人民出版社,2015.

责任编辑 苏玉娟

猜你喜欢
能动性大数据
基于新课程改革的英语教师负向能动性及其应对策略
项目教学法在《微机原理》教学中的应用
在实践中如何激发幼儿学习数学的情趣
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
英语阅读中学生主体能动性的发挥探讨
比较主观能动性、意识能动性、意识对客观事物的反作用的异同
冯契对毛泽东的主体能动性思想的解读和阐发