大数据分析的困境及语境论视域下的解决思路

2020-09-22 09:52吴泽鹏
学理论·下 2020年3期
关键词:大数据分析困境

吴泽鹏

摘 要:本文分析了全数据模式的实现困难、相关性结果的认识论困境、数据操纵背后带来的大众焦虑三个大数据分析目前面临的困境及其原因,从语境论的角度下提出了应当基于限定语境下的“全数据”概念、接纳处于语境递进链上的相关性结论、重视社会语境对数据操纵的制约作用以解决面临的困境的思路。

关键词:大数据分析;困境;语境论

中图分类号:B15   文献标志码:A   文章编号:1002-2589(2020)03-0060-02

大数据分析作为一种研究方法,目前已经广泛应用于科学研究与社会服务,以及商业竞争中。而随着方法和思维的实践,也逐渐开始暴露出一些问题,需要从哲学层面去分析和尝试解决。

一、大数据分析当前遇到的困境

目前来看,大数据分析继续应用和发展所面临的主要困境来源于理想全数据模式实现困难、相关性结果带来的反认识性质和大众对数据操纵的顾虑三个方面。

1.全数据模式的实现困难。大数据分析的出现已经在诸多领域改变人们的日常生活和人类认识世界的方式,“用数据来说话”也已经成为人们在研究分析问题时最常用的口号。究其源头,大数据分析方法仍然是一种统计学方法,而其颠覆传统抽样统计思维的收集和分析全體样本数据以实现全样分析的全数据思维,是大数据分析得以应用的预设思维前提。

然而,这种全数据思维下的全样分析,从技术实践的角度来看,也更多的是一种理想状态。具体原因有:第一,受限于当前技术语境,一些本应该收集到的数据样本并不能全部收集到。例如在对量子对撞机的微观高能粒子对撞的实验进行数据结果收集时,实际收集到的数据可能只占到产生数据的1%,一方面是由于数据量过于庞大无法全面收集,另一方面尺寸小于一个普朗克长度的粒子并不能被当前人类所拥有的观测设备所探测到而无法被收集。第二,受限于法律和伦理道德对数据隐私的保护,例如欧盟近来颁布了《一般数据保护条例》来保护互联网用户个人数据隐私,学界对数据隐私的类似问题也一直讨论不休。第三,“数据孤岛”的存在。“数据孤岛”的产生一方面是信息共享意识的不普及,数据信息之间的共享不及时、不通畅;更多的原因是来自于团体、企业,甚至国家对数据潜在价值的保护,这种“保护”随着大数据技术的不断发展而不断加强。

由此可见,全数据“理想”的实现困难重重,甚至难以实现,而随之出现的则是对大数据分析结果的不信任和对这种研究方法本身的质疑,急需回应。

2.相关性结果的认识论困境。舍恩伯格谈到过“大数据的核心是预测,而此预测是基于相关关系分析法基础上的”[1]78“我们知道是什么就够了,没有必要知道为什么”[1]67。大数据分析的结果强调相关关系而忽视因果关系,重视实用效果而无法做出理论性的原因解释。由此可见,这种伴随着大数据分析的应用而产生的相关性思维具有一定的反认识性质,与传统认识论的目的相悖。大数据经验主义者甚至提出了“要相关不要因果”的口号,认为在大数据时代下的分析研究,只需要通过对数据的分析得到包含相关关系的结果,知道应该怎么去做、怎么去有效利用就可以了,而对于“为什么”这样的因果性解释,则完全可以绕过去甚至消除掉。

齐磊磊回应了这种大数据经验主义者的极端观点,他认为“消除因果关系”的想法是片面的,相关性的结果中隐含了因果性的解释,只不过是我们先通过大数据分析知道了“是什么”[2]。很多学者也持类似意见,例如贾向桐批评大数据经验主义者的极端观点,虽然对大数据分析本身持一种实用和可用的态度,但质疑所谓基于大数据分析的“第四范式”和“数据驱动研究模型”能否对目前的科学研究,特别是理论向的自然科学研究提供支持[3]。这种认识论上的质疑,可能是大数据分析当前面临的最大困境。

3.数据操纵背后带来的大众焦虑。这种大众焦虑来自于大数据分析的过度商业化。“用数据来说话”的口号已经耳熟能详,“大数据”的一连串相关术语伴随着其商业化迅速被大众熟知。与此同时,大众对数据背后可能存在的企业、资本和组织的操纵行为则产生了深深的反感和焦虑情绪,认为其可能剥夺人类的批判性思考和认识能力。

各种互联网媒体和应用程序选择性向用户推送用户愿意看到的信息,而过滤掉用户不愿意看到的相反意见,让用户更容易偏执地相信自己是正确的。2016年的美国大选就是一个很好的例子,支持不同候选人的选民,很多都坚信自己的支持者会从中胜出,因为他们接触到的都是支持者的正面消息,而最终的结果让很多人大跌眼镜。这种选择性推送的例子数不胜数,自亚马逊公司开此先河起,已被无数互联网公司视作一种经典的商业模式。另一种操纵行为是借助大众对数据的盲目信任,投机资本造假数据的统计结果而谋取“注意力经济”下的暴利。这种模式在过去几年的中国影视圈屡见不鲜,资本只简单选取长相姣好的“小鲜肉”打造“流量明星”,用造假的点击数据骗取更高的曝光率以变相强迫消费者买单。但随着消费大众的日益清醒,对数据的信任大幅度降低。2019年年初央视以“惊人数据的秘密”为专题,曝光了流量明星数据造假比例竟高达80%的真相。同年上映的电影《上海堡垒》被网评“流量明星的末路”和“市场对投机资本的‘报复”,最终黯然收场。

“大数据”过度商业化使大众产生的反感和焦虑情绪,显然已经成为大数据分析所面临的困境之一,一方面是“数据”的可信力下降带来的可能性问题,另一方面是大众如何面对可能被操纵的数据、如何接受真假难辨的信息。

二、语境论视域下可能的解决思路

大数据分析作为一种研究方法,其本身是中性的,也具有自身的局限性,需要理性地被看待。在使用大数据分析作为方法的研究行为中,人的思维可能会体现出来一种“数据万能论”和“一切皆可数据化”的世界观和方法论思维倾向,而这种倾向已经成为当前人类科学语境和社会语境的一部分,而在此“语境”概念上对大数据分析的理性审视将为解决大数据分析当前遇到的困境提供从哲学层面上的指导。

1.应当基于限定语境下的“全数据”概念。首先,完全实现全样分析的全数据理想并不现实,这在上文中已经讨论过,而过于广泛没有限制的“全数据”概念才是产生这种现实落差的原因。事实上,“全”只是在思维层面的一种追求,是对增加收集数据量的技术进步的要求,同时这也是提升分析精确性的重要途径,并不是实现大数据分析的必要条件。然后,不论是何种研究方法,对一个具体问题的分析总是会在一个相对确定的语境中进行,而分析的结果在这个语境中也是能达到相对的确定性的,而这种相对的确定性显然不是能够质疑大数据分析科学性的充足理由。最后,虽然我们否定实现“全数据”理想的可能性,在具体的实践和操作中接受“非全部”的实际情况,但其理想性依然有其他方面的价值存在:全数据理想和全数据思维应当被视为一种对大数据技术的追求和分析问题时的整体论态度,而涉及具体问题时,数据的“非全部”也是人的认识能力局限于当前认知语境的一种无奈现实,两者之间并不矛盾。

2.接納处于语境递进链上的相关性结论。相对于传统的认识论来说,大数据分析得到的相关性结论确实不能被称为认识的结果,因为抛弃了确定性的大数据知识并不具有解释事实的功能。但从语境实在论的科学观来看,知识是一种语境关系,也随着语境层次递进而展现出不同的形态[4]。这意味着,一方面寻求传统认识论要求的单一且确定的因果性必然解释没有可能也没有必要,接纳类似于量子力学哥本哈根这样的概率解释并非不可,大数据分析得到的相关性结论也应被宽容对待。另一方面这种相关性结论和当前层次的语境相关,随着语境的改变甚至递进,将会发生改变,理论和技术层面上的突飞猛进必然会产生对旧有知识的“新认识”,而大数据分析带来相关性结论也可能会带来新的因果性解释,只不过是超前于当前的科学语境而无法给出而已。从这个角度看,保持一种实用的态度,宽容对待大数据分析相关性结论的不确定性,是对现代科学发展趋势的顺应。更进一步来看,整个科学语境的层次递进也不是只靠一个研究方法带来的改变就能完成的,大数据分析也仅是众多研究方法的一种,研究者应该根据不同方法的特点和优势来相应地选择适合方法,万能的研究方法并不存在。

3.重视社会语境对数据操纵的制约作用。我们需要在当下的大数据思维热潮中保持理性,辩证看待其带来的思维转变,认真对待其存在的局限性,探寻互补之道,从而在思维层面上更好地适应大数据时代的生存和发展[5]。数据操纵带来的巨大负面影响是大数据分析商业化过程中不可避免的,但这种不正当手段正在被其恶劣影响所制裁。辩证来看,大数据分析作为一种研究方法其本身也脱离不开所处的社会语境,一方面是其发展的动力是技术革新和社会需求推动,另一方面也处在社会语境之中,受到政治因素、经济利益、军事目标、社会文化等影响和制约。数据操纵产生的负面影响已经反馈到了其所处的社会语境之中,投机者自食恶果,社会舆论和政府监管作用也开始体现,社会语境的影响和制约反倒会减少对数据的盲目追捧,有利于大数据分析作为一种研究方法的良性发展。对于处于数据劣势方的个人来说,适应当前的社会环境也是必要的,一方面不能掉入“唯数据论”的舆论陷阱,另一方面学会用批判性思维来审视包含数据在内的所有知识和结论,提升自我认知和判断的能力。

总而言之,对大数据分析这种研究方法进行理性的审视,需要结合当前的科学技术语境和社会语境,对人和技术与研究行为之间的互相作用进行综合性判断。而其在应用中所面临的困难,一方面来自于这种分析方法和方法论倾向本身的局限性,不可能有一种万能且没有负面性的研究方法存在;另一方面,这种已发现的困难也会促进大数据分析这一新兴研究方法的良性发展。

参考文献:

[1][英]维克托·迈尔-舍恩伯格,肯尼斯·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[2]齐磊磊.大数据经验主义——如何看待理论、因果与规律[J].哲学动态,2015(7):89-95.

[3]贾向桐.大数据背景下“第四范式”的双重逻辑及其问题[J].江苏行政学院学报,2017(6):14-20.

[4]殷杰.语境主义世界观的特征[J].哲学研究,2006(5):94-99.

[5]刁生富,姚志颖.论大数据思维的局限性及其超越[J].自然辩证法研究,2017,33(5):87-91.

猜你喜欢
大数据分析困境
跟踪导练(三)
跟踪导练(一)
大数据分析对提高教学管理质量的作用
基于大数据分析的电力通信设备检修影响业务自动分析平台研究与应用
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
神奇的设计师
安吉拉·默克尔能否解救欧洲的困境
A Boy and His Tree