马克·安德烈赫维奇
内容提要 | 大数据技术推动社会生活转型时,个人数据权益成为了争论的焦点。本文拓展“大数据鸿沟”的概念,揭示了大数据时代的不平等关系,指出鸿沟主要存在于能够收集、存储和挖掘大量数据的人与数据采集目标人群之间,二者在数据思维和使用方式上的差异更进一步地加剧了数字权利的不平等。文章还探讨了个人数据权益、大数据挖掘及模式识别、大数据的社会分类,以及当前语境下的隐私悖论等问题。基于这些维度,本文认为,随着数字技术的普及,不同人群的数字鸿沟有所缩小,但这并不代表大数据鸿沟的弥合。应对大数据鸿沟加剧所带来的不透明的歧视,将是人类面临的考验。
作为“个人数据大革命”的主要参与者,新媒体领域的元老级人物、万维网创始人蒂姆·伯纳斯·李(Tim Berners-Lee)近日呼吁,互联网用户应当有权利获取他们的个人数据。“我的电脑和手机清楚地知道我的健康状况、饮食习惯、住处、每天做了多少运动、爬了多少级楼梯等各种信息。”伯纳斯·李认为所有人都应掌握自己的数据资源。在技术发展过程中,有关技术的话语总是不断地强调机器已经比人类更加了解自己,如比尔·盖茨(Bill Gates)1995 年讨论的软件代理,或尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)1996 年讨论的数字管家。对此,伯纳斯·李将数据库描绘成一种服务于个人的资源,他描述道:“如果我的计算机了解我的一切,那么它就能帮助我管理生活,预测我的需求来填补生活所需,这会非常有用。比如预测我早上想要阅读些什么。”
当然,谷歌新闻和许多新闻聚合类平台在既无用户参与、也不回收数据轨迹的情况下,已经在积极地为人们提供上述服务。然而来自不同社交网络“孤岛”的数据依然是被孤立地使用,伯纳斯·李注意到了这个问题,他倡导有效地汇集个人设备中的数据:
在我电脑上运行的所有程序,都不支持使用其他社交网络系统形成的数据。这些数据既包含个人日程,也有跑步地图上记录的站点数据,还有小健身器存储的数据等等,如果它们都能真正为我所用,将会提供出色的服务。
现如今,我们通过交互式设备和服务所得到的数据能够勾勒出活跃用户的生活状况,但实际情况却是用户正与其数据渐行渐远。“数据鸿沟”(data divide)不仅指产生数据的群体和收集、存储、分类数据的群体之间的行为差异,还指这两个群体掌控数据的能力也有所不同。伯纳斯·李就此提出疑问:如果个人生成的数据能有所助益,那我们为什么不能获取并使用它?另外,为何不能克服用户与其数据之间的分离,并打破因各种设备和平台限制所形成的“数据孤岛”呢?他的确切中了问题的要害,但这又引出了一个更深的问题:即便用户拥有访问自己数据的权限,却只能获取孤零零的信息,这与在大量的数据背景下分析个人数据截然不同。举一个耳熟能详的例子,伯纳斯·李讨论过自我数据挖掘(self-data-mining)为新闻推送带来的好处,其中之一就是当计算机掌握了用户的阅读数据时,便能预测可能吸引他们的新闻故事,这与尼葛洛庞帝提出的“我的日报”或“数码管家”概念不谋而合。然而,在线新闻聚合器不仅要分析个人自身的兴趣模式(它不是孤立而形成的),还要分析跟他有共同兴趣的其他人还对什么内容感兴趣。这些个人和同好圈层的人所提供的数据共同促成了各种形式的“协同过滤”。
从数据挖掘的角度来看,将个体行为模式置于更广泛的社会模式中去考察,会比仅仅依赖特定的个体数据更为有力。但是,即使允许用户访问自己的数据,也并不能完全解决那些因数据鸿沟所带来的矛盾,因为人们使用数据的能力是有差异的。普通用户虽然有权限访问,却缺乏储存和处理数据的技能,因而很难从中获取更多的信息,更不用说为自己所用。更何况他们也并不具备模式识别能力或预测能力,因为这些是挖掘聚合数据库的人才拥有的。由此可知,“大数据时代”之下,数据所驱动的意义生成的新形式不断出现,这势必导致结构性的鸿沟问题越来越凸显。
为了描述这种大规模数据获取和使用能力的差异,本文首先将定义“大数据鸿沟”的概念,并解释关注该问题的必要性,然后探讨它如何勾连起公众所关心的个人信息收集和使用的问题。个体对于当前新型数据采集和挖掘所显现出的无力感,既反映了数据所有权和控制权的关系正形塑信息资源的获取,也显示出人们逐渐意识到他们其实对数据的利用方式知之甚少。本文着重讨论的是个人数据,这一数据类型是当前有关在线数据收集监管争论的核心,而“大数据鸿沟”也正是围绕于此。
在学术研究层面上,丹娜·博伊德(danah boyd)1丹娜·博伊德(danah boyd)在其个人主页上解释了姓名首字母使用小写的原因,详见https://www.danah.org/name.html。和凯特·克劳福德(Kate Crawford)指出了存在于“大数据富人”(如能够生产或购买,且能存储大数据库的公司和大学等)和“大数据穷人”(不具备获取和处理数据等专业知识的人)之间的沟壑,并强调当前大数据的研究议程正被相对较小的利益群体控制。本文拓展了“大数据鸿沟”的概念,将数据思维和使用方式也纳入考量。当然,我们首先聚焦“大数据挖掘”,后文将更详细地展示数据挖掘者们的观点,揭示了大数据的野心远不止定向广告(targeted advertising),还有全方位预测未来的新方式,涉及领域涵盖医疗保健、警务、城市规划、财务规划、工作筛选和教育等方方面面。
本文指出,大数据挖掘能够识别出人们此前预料之外却持续存在的社会模式,因而开启了一个“新兴的社会分类”时代。它尽管具有个性化的特点,但其预测的方式是基于概率论的,也因此对个体的生活际遇产生了深远的影响。再进一步讲,大数据范式优先考虑的是发现相关性并加以预测,却无法提供解释,这与数字媒体推进民主化进程或发挥赋权的作用背道而驰。另外,数据挖掘的逻辑应用于在线追踪及其他类型的数据监控,这在很大程度上导致用户对数据使用的知情权失去了意义。
若以超越个体或群体所认知的信息范畴作为界定标准,大数据的概念自人类意识诞生之初就已经存在。对于任何具有感知能力的人或物来说,世界乃至宇宙都是难以理解的大数据。然而在当代,这个概念的用法发生了很大变化,它代表了人们想要探索巨量数据资源、挖掘大数据宝藏,并将之投入使用的愿望。更简单地说,大数据意味着模式识别的自动化形式(即数据分析)能够与数据收集和存储的自动化形式相同步。这种数据分析不同于过去长久以来我们对大型数据资源进行简单搜索和查询的方式。数据挖掘技术的出现使人类迈向了大数据时代,而大数据规模会不断扩大,以跟上数据存储和数据处理能力的增长。国际商业机器公司(IBM)已在数据挖掘和预测分析方面投入了巨资,并指出大数据不仅关乎规模,还涉及数据的生成和处理速度,以及转储到组合库中数据的异质性。简单来讲,三个“V”能够准确地描述大数据的各项维度:体积(volume)、速度(velocity)和多样性(variety)。
目前大数据挖掘已着眼于识别不曾预测过的项目,探求意想不到的相关性,它无所不包,发展迅猛。正如IBM 公司所言:“大数据涵盖各种类型的数据,包括文本、传感器数据、音频、视频、点击流、日志文件等,结构化和非结构化的数据都在其中。把这些数据放在一起或许能促使新见解的产生。”数据正以前所未有的规模被收集、分类和关联,这将产生远超人类大脑所能探测和解释的有用的信息模式。数据挖掘顾问科琳·姆库(Colleen McCue)认为:“通过数据挖掘,我们可以利用自动化方法对巨量数据库进行地毯式的搜索,这远远超出了人类分析师甚至分析团队的能力。”《知识的边界》描述了这种“新知识”:“它不仅仅需要巨型计算机,还需要一个可以连接这些计算机、向它们输入信息,并且让它们的成果得以为人们接受的网络。因而,这种知识存在于网络系统的层面,而不是人类的头脑中。”
以上所述勾勒了“大数据鸿沟”的轮廓,也表明要将数据投入使用,需要获取并控制昂贵的基础技术设施、数据库、配套的分析软件以及数据处理能力和专业知识等。虽然大数据预言家们认为,大数据将为那些无法访问、存储和处理数据的人们提供有价值的决策和预测参考,但在社会实践的许多领域中,只有那些真正能够访问数据库、具备处理能力和数据挖掘专业知识的人才处于优势地位。如大卫·温伯格(David Weinberger)所言,如果在大数据时代中,“房间里最聪明的人就是房间本身”,那么谁拥有房间才至关重要。同样,只有那些能够使用机器、数据库和掌握算法的人才能拥有与大数据挖掘相关的各种能力。当然,大数据鸿沟的争议不仅停留在是否拥有数据的问题上,它还涉及不平等的分类过程,以及数据如何关联知识及其应用的不同思考方式。下面几节将依次讨论这些问题。
“没什么。”我说着,跟着马老师离开了学校。我们一起走了一段路之后就分开了。我一个人空手走到了车站门口。
对于能够访问数据的人,抓取和挖掘数据的能力使他们参与到监控的可能性大大提高,这里的“监控”被视为一种“社会分类”的手段。加拿大社会学家大卫·里昂(David Lyon)在奥斯卡·甘迪(Oscar Gandy)的“全景敞视分类”(panoptic sort)概念的基础上指出:“作为社会分类的监控能够确认人们的身份,同时也能进行风险的评估和价值的分配。”那些掌握数据、拥有专业知识,并且具有数据处理能力的人能够参与到日益庞大、复杂且不透明的社会分类排序中,而这是“固化长期存在的社会差异,并创造新区隔的强大手段”。“全景敞视分类”的概念建立在一种权力不平等的基础上,这种不平等存在于那些能够影响个人生活际遇的决策者和被动接受决策的人之间,比如甘迪所说的雇主和营销者。甘迪在之后反思该概念时提到:“这些决策实际上并不是基于对什么人的评估,而是基于他们将来会做什么。‘全景敞视分类’是一种深深依赖于精算假设且具有歧视性的技术。”在数据挖掘和预测分析时代,这些观察尤为重要。
基于前文我们认识到,尽管当前技术被认为具有个性化的特征,但它终究也只是在概率层面上运作。鉴于此,“未来的数据挖掘技术能够准确地预测犯罪行为,使嫌疑人在行动前便被缉拿归案”的说法充满误导性。尽管技术被大肆炒作,但预测分析绝不像水晶球那样能预测一切。如一位评论员所说:
当你正在进行这种被称为“大数据”的分析时,意味着你的研究对象是数十万乃至数百万的人群,你需要计算出他们的平均值。我无法预测一个购物者会做什么,但如果他看起来跟其他一百万个买家差不多,我便可以有九成的把握预测他准备做什么。
但是把预测视为对未来的断言却有可能造成深远的影响,因为根据概率所做的总体层面上的决策将对个体产生影响,每个人都将牵涉其中。对于那些被剥夺了医保、就业或信贷权利的人来说,决策者总是把概率预测当成确定性的预言。
甘迪认为社会分类有着悠久的历史,但在现代官僚理性时代,它作为一种自动计算的形式自成一体。从泰罗制的“科学管理”,到20 世纪中期在银行、住房和保险业等领域采取的“红线政策”,人们很容易注意到大数据驱动的社会分类与先前基于数据的决策之间具有的历史延续性。在早期有关计算机辅助监控的描述中,里昂认为“信息技术造成的差异是程度上的,而非类型上的。新技术只是‘做得更有效、更广泛,并使已经发生的许多过程更隐秘’”。由于新的数据挖掘过程具有的新兴特征,使监控的社会分类由此发生了质的转变,这些过程正在生成不可预测且无法通过直觉感知的模式。更进一步说,数据挖掘系统性的、结构性的不透明在有权获取数据和无权获取数据的人之间割裂出一道知识的分水岭。
公众逐渐意识到数据积累和技术运用所带来的不平等的权力关系,进而开始对个人数据的收集和使用产生担忧。多份调查结果已经证明了这一点。例如,2012 年皮尤公司在美国的一项调研表明,大多数使用搜索引擎的人(65%)不赞成通过行为数据(behavioral data)来定制搜索结果;同时,超过2/3 的互联网用户(68%)反对基于行为跟踪的定向广告。同样,在美国另一项全国性调查中,有66%的受访者反对基于跟踪用户行为的广告定位。在针对“不跟踪”(do not track)立法提议的公众反应研究中,60%的受访者表示支持废除在线跟踪。就笔者于澳大利亚开展的全国性调查而言,人们也强烈地支持对“不跟踪”进行立法(95%的人赞成),超过一半的人(56%)反对基于线上跟踪的定制广告,近六成(59%)的受访者认为网站收集了用户过多的信息。然而,学界也关注到了“隐私悖论”的现象,即人们虽对个人信息的收集和使用表示忧虑,却仍继续接受攫取他们数据信息的平台服务。有观点认为,用户实际上并不真如调查所呈现的那样在乎个人隐私。基于早期隐私问题的相关定性研究结果,本文提供了另一种解释:人们生活在由结构化的权力关系所运作的环境中,虽无不厌恶,却无力抵抗。从推测来看,部分用户已逐渐认识到,“大数据鸿沟”的不平等性和不透明性预示着数据挖掘时代的到来,只有能获取昂贵资源和技术的“宠儿”才享有知识特权,才拥有保障和民主化承诺的信息渠道,而这将加剧人们对数字监控经济潜在负面影响的担忧。
《连线》杂志2008 年的一篇文章引起热议,作者克里斯·安德森(Chris Anderson)声称,大数据时代(他称为“拍字节时代”)将迎来“理论的终结”,未来将是基于模型理解世界的时代。他指出:
在这个世界上,大量的数据和应用数学取代了别的所有可能用到的工具。无论是语言学、社会学,还是分类法、本体论或心理学,关于人类行为的每一个理论都将尘封进入历史。只要有了足够的数据,一切将会不言自明。
这一富有宣言意味的声明显然是以偏概全的,它需要加以限定:统计模型虽是算法开发所必需的,但还需要其他类型的模型参与,共同塑造由越来越多数据生成的信息。数据科学家强调特定领域专业知识的重要性,这不仅能够评估挖掘算法所输入的数据,而且帮助呈现相关的问题。像姆库在《数据挖掘和预测分析入门》所述:“相关领域的专业知识发挥了重要作用,包括评估输入、指导流程以及对终端产品的价值和有效性进行评价。”因此,在数据挖掘融合特征的背景之下,突出领域专家这一术语,是为了解决无法从数据内容中找寻意义的问题,这也打破了“将数据分析视为严格技术操作”的倾向。
由是观之,安德森的主张可被勉强地解读为:数据挖掘所生成的可操作信息既不可预测,也无法解释,当然它既不需要也不能生成潜在的解释模型。举例来说,我们所处的数据挖掘和“微型目标定位”时代,再现了20 世纪70 年代美国共和党政治顾问的政治智慧——“水星牌车主投票给共和党人的可能性远远高于其他品牌的车主”。正如一位政治顾问所说:“我们从来没用资金或技术为选举制造些什么,但现在可以了。”当然,那些致力于将这些信息用于竞选目的的人,也并不关心如何对技术驱动下的数据结论进行解释。安德森指出:“谁知道人们为什么会做这样或那样的事情?关键是他们这样做了,而我们可以用前所未有的精确方式来追踪和测量。”
数据挖掘的目标是对巨大的数据资源加以分类,并监测人类肉眼无法发现或头脑无法直观获取的模式,最终提取的是不可预测、违反直觉的模型。此类知识的重要属性在于用相关性和预测性来替代解释性和因果关系,因此人们得到的不是潜在的原因或者解释,而是一组概率预测。对此持乐观态度的人不在少数,一本数据挖掘相关的教科书曾提到:“世界的复杂性逐渐超出人类的想象,这中间所产生的数据正要压倒我们,而数据挖掘是我们解释这座冰山的唯一希望……数据挖掘被定义为发现数据模式的过程,这个过程必须是自动化的,或更普遍的是半自动化的。被发现的模式一般能够带来经济优势,所以它具有相当重大的意义。”因此,数据挖掘在商业领域被描述成竞争优势不足为奇,它在其他方面的优势也可想而知。姆库从国家安全和军事优势的角度阐明了预测性警务的目标:“如果知识是力量的话,那么通过预测性分析得到的先知先觉,将被视为作战中强大的力量。”麻省理工学院的大数据专家亚历克斯·彭特兰(Alex Pentland)提出了“现实挖掘”(reality mining)这一术语,用来描述新形式的数据捕获所具备的广度和深度。他期待通过数据创造一个更加健康、安全和高效的世界:
对于整个社会而言,我们希望通过新的方式来深入理解个人行为,以此提高行业的效率和政府的回应能力。对于个人来说,能生活在一个处处被安排得极为便利的世界,又是多么具有吸引力:在你生病时,健康检查已神奇地被列上日程;当你刚到站台上,公交车正好停在你面前;市政厅里从来没有排队等候的人群……
人们甚至认为它将带来新形式的数据透明,帮助公众很方便地获取社会不同类型的公共记录,从而促使公职人员和私人企业更具责任感。但是,这些美好的愿景掩盖不了网络数字技术“分层”的情况。大数据挖掘时代掌握在极少数人手中,他们通过特殊的技术便能生成有用的信息(无论是好是坏),以此取得某种优势,达成具体的目标。诚然,互联网赋权的本意是促进人们获取各类知识,理解周围的世界,从而让权力不再只服务于少数人群,但现在的知识形式却将这种愿景抛进尘土中。
安德森在对“理论终结”的叙述中强调:在各种应用程序广泛使用的拍字节时代,曾经通过对已有信息进行仔细研究来理解世界的方式已作古,而今体量巨大的信息势必要通过挖掘来发现有用的模式,但这对于普通的个体或群体来说只是令人费解的庞然大物。即使安德森夸大了事实,但这仍是认识数字时代知识获取的一个重要方面。温伯格在这个意义上提出,这种“知识优势”对于绝大多数人来说不仅不可获取,而且难以想象和理解;而对于那些根本无法访问数据库的人来说,更是遥不可及。基于此,用户很难通过个人信息得出明确的决策参考,例如预测安全风险、信用风险、工作前景或辍学概率等。再比如另一个更极端的例子,研究表明,那些在填写申请表时,使用非电脑自带浏览器的人工作表现更佳,更换工作的频率更低。这一无法被解释的发现连申请者自己都始料未及,但这对他们的生活可能影响深远。
当然,数据挖掘的野心并不止于掌握事物间直观的关联,它还要揭示超出想象边界的相关性。然而,假使我们要对数据挖掘算法进行反向工程分析,它需要的专业知识和生成时所要求的一样多,得出的结果却未必具有直接的解释力。而当相关性取代因果关系或解释模型时,其目标是尽可能地积累全面而多样的数据,以产生真正出人意料、反直觉的结果。
目前,鉴于可用数据的规模、范围以及技术的复杂性,通过大数据挖掘所构想的数据分类类型也日益模糊。在经济合作与发展组织(OECD)的一次会议上,一家数据挖掘公司的首席执行官谈及数据挖掘时,认为其导致“计算机的决策失去了一定的透明性”,他指出:
机器学习相比人能够建立更加精细的联系,也可以校准大量不同信息之间的关系,而这些工作对于人类来说,是不可能完全理解的。
以上讨论围绕数据挖掘的特性展开,并未忽视其善用之下所带来的潜在益处,然而当前社会生活已被权力不平等所笼罩:按照遗传特性、人口因素、地理位置和先前意想不到的数据类型,人们生命中的重要时刻被分类排序,而这些对于受影响者却是晦涩且难以获取的。当然,在一些情况下它发挥了积极的作用,比如医院利用数据挖掘的技术及时采取医疗措施,从而干预了更严重的并发症出现。但与此同时,也很容易想到的是,这种预防性的建模可能会被滥用,如设想这样的场景:私人医疗保险公司通过数据挖掘,及时取消了客户的保险服务,以避免支付重大医疗费用。
公众的“隐私悖论”将在大数据鸿沟及其属性的讨论视角下被解释。那些只凭用户行为来做判断的人可能会得出这样的结论:“普通的美国人在隐私和方便之间找到了一种可接受的平衡,他们可以为了得到更多的方便放弃一些隐私。”这种判断预设人们对交易条款清楚明了,并把用户签订的平台“准入条款”等同于“完全接受条款”。实际上这种结论根本站不住脚,因为在网络环境中,如何定义“知情同意”是个难题,部分原因在于几乎没有人会阅读在注册或登录时所签署的那份使用条款。研究表明,尽管大家对数据采集技术的扩散表达了较高程度的忧虑,但绝大多数用户只会略读隐私政策部分,甚至完全忽略掉,这一事实被视为人们不关心隐私的证据。笔者在澳大利亚开展的个人信息收集和使用的研究,提供了更合理的解释:在是否保护自己隐私的问题上,人们感到别无选择,因为无人知道信息会被用到哪里,以及使用后可能带来什么影响。
在研究中特别引人注目的是,受访者对个人信息收集和使用的条款表达了无力感。虽然学术研究和大众媒体持续关注隐私问题,但相对于这种无力感,隐私问题可以说显得不那么重要。一名受访者提到:“我失去隐私时最在意的不是别人知道了我的信息,而是信息分享在某种程度上是被迫的,或是在被诱导下进行的。”这一观点受到普遍认同。换言之,当谷歌用“没有人会阅读你的电子邮件和账户信息”为其扫描用户数据做合理化辩护时,它或许曲解了用户的担忧。用户真正担心的是,这些公司为某种目的来收集用户信息,却不为大家所知。
上述焦点小组的研究是围绕一个澳大利亚全国性电话调查的结果展开讨论的。该调查收集了1100 份样本,涉及人们对个人信息收集和使用的态度,结果显示,人们对此高度关注,这与在其他国家的发现十分类似。具体而言,有近六成(59%)的受访者认为网站收集了过多的信息,他们也高度支持对个人信息收集和使用进行更严格的控制。在这其中,有92%的人支持设置不跟踪的选项,95%的人认为应实时发放跟踪通知,96%的人支持根据需要删除个人数据,同时有超过半数的回答者反对基于跟踪的定制广告。调查结果还发现,人们明确地意识到,他们对自己的信息被如何利用知之甚少,超过七成(73%)的人想了解网站收集和利用个人信息的方式。
这些发现体现了“大数据鸿沟”的一种特殊形式,它存在于数据分类者和被分类者之间,即有一类人能够提取数据,并有权对不可预测且令人费解的数据结果进行解释和利用,而另一类人只能接受由前者所做的决策。这种认识有助于思考焦点小组的调查结果,回答为什么隐私讨论中占主导地位的框架被挑战了。埃里克·施密特(Eric Schmidt)对这一框架的概括最为恰当,简单来说就是“要想人不知,除非己莫为”,或者是“既然没有什么可隐瞒的,也就没有什么可害怕的”。而当前多数受访者的忧虑并不在此框架之内,他们强调的重点不是信息的被分享或是被采集,而是这一过程的被迫性。值得注意的是,即使是对数据收集表示担忧的受访者,仍不能说清楚大数据鸿沟下实际所受到的、能够感知到的或能预期的伤害到底是什么。当被追问担忧的具体内容时,受访者往往转而回答一些常见的隐私问题,比如关于身份盗窃或欺诈的威胁,或是关于数据驱动的目标营销。总的来说,面对广泛而日益复杂的数据收集和挖掘,人们因无能为力而感受到的挫败感远超过对实际伤害的忧虑。
本文的研究表明,人们表达出的无力感至少有两个维度:第一,对信息和通信资源的所有权和控制权感到无力;第二,对基于知识进行决策的不同路径感到无知。人们清楚地意识到,强大的商业利益集团正控制着信息的获取,而用户要么接受那些条款,要么在许多方面放弃影响个人生活和职业生涯的资源。当然,公众已开始大声疾呼,却难以表明具体担忧的内容,这种模糊不明未必来自懒惰或无知,而是反映了大数据用户所依赖的发现结果既不可预测又反直觉,同时数据挖掘技术也难以捉摸。因此,人们很难想象使用某个特定的浏览器会对工作机会产生影响,更无法理解由无数变量相互作用所产生的数据模型对社会生活的影响,这些显然超出了一般人的知识边界。
在大数据时代,海伦·尼森鲍姆(Helen Nissenbaum)曾极力主张的具有语境化的隐私无疑被挑战了,人们的数据已被彻底地、不可预测地去情景化使用了。同时,随着监测追踪技术的扩散,如车牌读取器、智能相机、无人机、RFID 扫描仪和音频传感器等,数据抓取的范围不断在线上和线下扩展,用户将与自己的数据分离,无权过问和使用,最终被裹挟进大数据鸿沟的分化逻辑里。人们在克服数字鸿沟(digital divide)的同时,往往伴随着大数据鸿沟的加剧。例如,随着更多的人有能力使用智能手机和平板电脑,不同人群的数字鸿沟有所缩小,但便利的访问意味着更多的数据被用于存储、分类和挖掘,而随着数据挖掘形式的多样化,决策制定、信息预测和排序操作将受到更广泛的影响。虽然本文提及的许多应用尚处起步阶段,但变化的速度促使每个人思考大数据鸿沟在社会、文化和政治等各个方面带来的影响。如何减少大数据分类所带来的负面影响,消除不透明的歧视,这是我们在大数据时代面临的考验。