论大数据迷思的建构

2015-03-19 10:19赵利利
传播与版权 2015年7期
关键词:话语现实建构

赵利利

论大数据迷思的建构

赵利利

大数据话语体系的建构正在超越技术和数据本身的社会功能形成迷思。理性看待迷思有助于我们合理选择路径,避免社会资源的浪费。本文从“全体数据”的崇拜与怀疑、“混杂性”便利与非结构化数据难题、“相关关系”的因果基础抽离、“预测”与算法模型背后的权力实在四个方面对“大数据”迷思进行剖析,以期在“大数据迷思”强势渗透的现实语境下提供一种批判性的思考维度。

大数据;迷思;数据驱动

[作者]赵利利,中国传媒大学。

“迷思”一词起源于希腊语单词μ θ ο(mythos),是指“一种纯粹虚构性的叙事,通常涉及超自然的人物、行动或事件,体现了一些与自然或历史现象有关的流行观念”。①《牛津英语词典》,牛津大学出版社,1989年。迷思包含着承诺,这种承诺在未来解决了现在的困境,是对未来或想象图景的美好建构。迷思一旦出现,其本身就成为现实的组成部分,它将消耗人力、物力、财力或者其他资源维持自身的物质实在性。

大数据话语体系的建构正在超越技术和数据本身的社会功能形成自身的话语场。“人类行为93%是可以预测的”,“我们到底有多好预测?我们终于能够为这个一直困扰我们的问题给出一个定量的答案了”。②艾伯特-拉斯洛·巴拉巴西著,马慧译:《爆发——大数据时代预见未来的新思维》,中国人民大学出版社,2012年,第217页。“当世界开始迈向大数据时代时,社会也将经历类似的地壳运动”,“大数据早已在推动人类信息管理准则的重新定位”。③维克托·迈尔-舍恩伯格肯尼斯·库克耶著,盛杨燕、周涛译:《大数据时代——生活、工作与思维的大变革》,浙江人民出版社,2013年,第V页。这套话语的强势正愈来愈显著地渗透包括计算机、商业、传媒甚至政治、经济等多个领域,形成一种即将发生广泛的本源性颠覆的假象。这种话语的建构已然形成迷思。理性看待迷思,厘清“大数据”迷思建构背后的主导要素,有助于我们合理选择路径,避免社会资源的浪费。

一、“全体数据”的崇拜与怀疑

在有关大数据特性的描述中,全数据模式是大数据话语体系中最具诱惑力的内容之一。全部数据意味着样本等于总体,从某种意义上说,全数据模式终结了随机抽样。公众对于大数据的狂热追捧正是因为这种颠覆性的解放。但是,从哲学的角度来说,自从爱因斯坦的相对论打破西方绝对主义科学观之后,要求某一理论、研究成果或者技术达到全部数据的采集本身就是一件有悖自然规律的事情。除非所讨论的范畴是形而上的,要不然以全体数据作为逻辑或者现实起点的探讨本身就是诡辩术。“大数据”迷思的建构者们一方面自豪地标榜大数据应用的实操性,另一方面又为它的绝对性正名,这本身就是悖论。就目前和可预见的未来来看,“大数据”全数据模式的迷思意味显而易见。且不说信息基础设施在世界范围内的普及存在严重的不平衡性,即便未来实现了信息基础设施的全部平等准入,不同种族之间的文化冲突、商业力量对技术的利用和政治权力对技术化现实的规制都对数据资源的分配带来了强烈的不可预知性,全数据模式带有明显的理想主义色彩。

目前,全体数据采集在现实中遇到的最大阻碍是个人信息泄露引发的侵权问题和冗余数据的低价值附加问题。私密信息的获取难度降低了全数据采集的可行性,而大部分数据的低可利用性实际上拉低了整体数据的质量,即使所谓的全体数据(实质上是可得到的巨大数据,做不到全数据获取)能够作为分析对象,但大部分数据不具有代表性会导致分析结果严重偏颇,其价值甚至比不上随机抽样获得的结论价值。

二、“混杂性”便利与非结构化数据难题

大数据另外一个突出的特点是:不追求精确性,拥抱混杂性。从表面上看,如果相关分析技术能够保证所有格式的数据均能被统一体系的分析标准所提取并剥离出有效信息进行分析的话,那么,对数据混杂性的宽容的确能够节省大量的人力物力,提高效率。但是,现实并非如此简单。有业界人士撰文指出:数据和信息正呈现出爆炸性的增长,巨大的数据量已经从TB级跃升至PB级,数据结构也更加复杂,大部分数据信息都属于非结构化数据,各种数据格式之间互不兼容,而且人们对数据的访问和使用更具随机性,这些特点给数据的提取、存储、管理和应用带来了很大困难。①王琛:《大数据时代如何应对非结构化信息狂潮》,泡泡网,www.pcpop.com,2014年8月7日。此外,随着传统产业网络化程度的提高,互联网企业之间的竞争日趋激烈,企业的版权意识也不断强化。互联网不再是知识免费共享的乌托邦,越来越多的企业为了保护知识产权纷纷通过使用不同的程序语言、加密技术或者权限设置等措施加强对自身产品的保护,这让数据的采集和挖掘变的愈发困难。

三、“相关关系”的因果基础抽离

大数据第三个为人熟知的特性是:不再是因果关系而是相关关系。相关关系是一种相对低级的关系分析。因为拥有庞大的数据基础,相关关系在商业领域上发挥着“小数据时代”意想不到的作用,商家可以在不关心为什么啤酒和纸尿布的销售情况呈正相关只需把这两件商品摆在相近位置的情况下就赢得高额利润,但是,这种以经济目标为准则的短期利益对于推进人类对客观世界的认识和人类知识体系的深化来说并没有直接意义上的好处,顶多是提供了新的研究线索。大数据追捧的“相关关系”跟所有其他通过数学模型或量化研究得出来的相关关系一样体现出解决问题时的相对性和局限性,并不具有颠覆意义。大数据的思维和技术方法更像是一种助推科学研究多面向发展的手段,它的工具性价值大于它的世界观价值。

如果从逻辑推理的角度关照,大数据所谓的相关关系根本上还是一个个具体的碎片化的因果关系复杂综合后的结果。把相关关系从因果关系中抽离出来禁不起推敲理论的推敲,在现实关系的重构上表现出脆弱性。

四、“预测”与算法模型的符号实在

预测是被大数据建构者们公认的核心功能。“大数据的核心就是预测。大数据不是要像机器人一样思考。它是把数据算法运用到海量的数据上来预测事情发生的可能性。”②维克托·迈尔-舍恩伯格肯尼斯·库克耶著,盛杨燕、周涛译:《大数据时代——生活、工作与思维的大变革》,浙江人民出版社,2013年,第16页。维克托对大数据预测功能的阐述明确区分了大数据预测和人工智能学习之间的不同,与人工智能主要依托于神经网络等新科学技术不同,大数据预测的主要工具是算法模型。

算法模型不是与生俱来的,它建立在总结归纳经验的基础之上。算法所遵循的仍然是建立在因果思维和因果链条上的经验模式。因此,以它为模型演绎所得的结论很难脱离因果逻辑的窠臼。从符号学的角度来讲,算法本身是一套具有一定规则的符号体系。算法模型是多元的,它随着变量和参数的改变具有一定的弹性和可调试性,因此,不同的算法有时候会得出不同的结果,而算法的可靠性则需要通过实践的检验来不断修正。算法模型的多元性决定了出于预测目的的大数据分析必然面对模型的选择。什么样的算法模型应该被用于预测什么样的事件趋势掌握在大数据分析师的手中,关乎资源配置的权力,而有权力的地方则往往埋藏着政治经济关系的伏笔。

五、结语

互联网为迷思的建构提供了便携的物质基础,从作为互联网基础语言的程序语言到作为互联网内容支撑的线下现实文化迁移后的文本呈现,再到作为人的延伸的多媒体网络生态元素,互联网无时无处不体现为符合系统的综合。大数据作为具有创造力的技术实在参与现实建构以及作为现实建构话语维度的话语实践本身具有积极意义,“大数据”话语体系的秩序性建构也理应得到现实语境的拥护,毕竟海量数据废气占用大量存储资源限制并不是数据经济的最优选择,事实上,泛滥的数据垃圾已经成为摆在数据生产者和消费者面前的巨大难题。只是,网络社会与现实社会的选择性互动使得这一困境在公众头脑中形成弱势存在,当技术的可供性有可能解决这一现实困境时,迷思的建立便拥有了庞大的群众基础。网络社会与现实社会的同根性(决定了公众头脑中网络拯救的可能性)和异质性(决定了拯救失败的可原谅性)共同促成了公众对于互联网技术癫狂般的迷思性崇拜。正如文森特·莫斯可所说,网络空间不仅是迷思上演的地方,它同时也促进了今天的迷思性思维方式,因为它体现了一种模糊意识。迷思依赖于这样一种意识:我们正在远离一个时代——工业时代,并正在进入一个新的时代——拥有许多与电脑相关的名字的时代,例如“信息时代”“数字时代”③文森特·莫斯可著,黄典林译:《数字化崇拜——迷思、权力与赛博空间》,北京大学出版社,2010年,第29页。,当然,也包括所谓的“大数据时代”。

猜你喜欢
话语现实建构
消解、建构以及新的可能——阿来文学创作论
现代美术批评及其话语表达
我对诗与现实的见解
残酷青春中的自我建构和救赎
漫画:现实背后(下)
建构游戏玩不够
紧抓十进制 建构数的认知体系——以《亿以内数的认识》例谈
一种基于Unity3D+Vuforia的增强现实交互App的开发
现实的困惑
话语新闻