赵毅 郑保章
【摘要】数据的真假之辨是大数据伦理的根本问题。数据是一种符号,具有符号的三分结构。数据作假是一种能指作假,是使数据的再现体和其对象无法对应的行为。数据作假的前提在于能指可控且易于被控制,而人的主观因素在作假过程中发挥了重要作用,让数据成为满足人类过度欲望的有效工具。数据作假不仅会毁掉数据世界自身,还会使数据世界的失真波及现实世界,进而毁掉人类的现实根基。
【关键词】数据作假 能指转向 数据环境 诚信
【中图分类号】B82 【文献标识码】A
【DOI】10.16619/j.cnki.rmltxsqy.2021.03.014
真与假是一个影响深远的伦理议题,人们现在所讨论的诸多大数据应用问题,都建立在数据为真的前提下。如果数据并非真实,那么一切问题都不再成为问题,一切数据应用也都沦为虚幻。因此,大数据的真假之辨可以称得上是大数据伦理的根本问题。目前学界对于数据作假的研究和关注较少,笔者尝试从符号学角度入手,理清数据作假问题的文化根源,指出其可能造成的危害,以期规正大数据的发展路径。
数据作为符号的三分结构
索绪尔提出了符号“能指”与“所指”的二分结构,皮尔斯则对符号结构进行了三分。“皮尔斯把符号的可感知部分,称为‘再现体(representamen),这相当于索绪尔所说的能指;但皮尔斯将索绪尔的所指分成了两个部分:‘符号所替代的,是对象(object),而‘符号引发的思想称为符号的‘解释项(interpretant)。”[1]具体而言,皮尔斯指出:“一个符号(再现体)代表着思想所产生或修饰的某物。或者,符号是一个从外界传递事物进思想的工具。符号所代表的东西叫做它的对象;符号所传递的是它的意义;符号所引起的思想是它的解释项。”[2]解释项是理解意指活动的主观过程,亦是促使意指活动发生的主观力量。
数据的本质是一种符号,按照符号三分关系对应的数据结构来看,数据的再现体是数据世界中的数据形式,数据的对象是原子世界中的本体,解释项是促使数据生成的主观力量。
对于再现体与对象的关系,皮尔斯反复指出:“符号(再现体)必须在某些方面被它所意指的对象所影响,或者至少它在某些方面的变化,应当被视为其对象的某些变化所造成的结果,也即其对象的变化与符号某方面的变化存在着一种实在的因果关系”,“符号不能够影响对象而是被对象所影响”。[3]皮尔斯在此指出了对象对再现体的决定作用,数据的生成也应遵循这一路径,即由原子世界的对象决定数据世界的再现体。然而,符号的这种二元路径只是一种理想的发生方式,它必然要受到解释项的挑战。数据的生成、存在过程亦然,人在数据世界的构造过程中占据主导位置,因为数据技术在本质上是一种记录技术,记录是人为的记录,记录什么、如何记录等都由人决定。因此,数据技术先天就含有主观基因,一定存在价值问题,数据作假就是典型的体现。
数据作假是数据的一种能指转向
数据作假是指数据无法在现实世界中找到对应本体的现象。数据作假主要是针对数据的能指部分作假,实质是使数据的再现体和其对象无法相对应,再现体无法指出對象,最终,作假的数据成为无根无据的“符号”。这种现象是由能指至上造成的,进行数据作假的人期望通过能指来创造或推动事物。不可否认,通过能指可以创制事物,然而,数据作假往往是名头先行,至于能否达到名实相符,不是作假群体所关心的。作假群体通常不会依据编造的数据再创造出对应的本体对象,因为通过作假的名,就已经可以获取他们想要的事物。这种通过数据作假创制事物的行为是有违道德的,其所产生的结果并非数据能够对应的本体对象。它不是在完成数据世界与现实世界之间名与实的对应,而是在利用数据满足欲望。
能指至上带来的是数据的能指转向,作假行为使数据的能指部分由真实向虚假转移。数据作为符号的产生过程依托于对象对再现体的决定,人类在这一过程中的意指作用要遵守诚信原则,这是出于对真实的尊重。数据作假就是在改变这一关系,即偏向于正确。由真实到正确的解释过程是由人们的主观意愿推动的,这种主观意愿被视为一种文化力量的驱动。诚然,真实只是符号的一个对象,但数据产生的本体论路径应该遵循对真实的坚守。何为真实?海德格尔认为:“真实就是与实在相符。”[4]
数据作假源于主观因素的过度干预
数据作假的前提在于再现体的可控性。相较于对象,再现体是可以被操控的,而且易于被操控。求名比求实易,不论是耗费的时间,还是付出的努力,求名的途径都比求实的道路更容易。通过求名来达到目的,就可以不用经历更为辛苦的求实途径,但捷径并不是一条实在之路。换言之,如果以真为标准,作假就是在以低于真的标准来替代真,或将假的东西掺入真中以取代部分真。这种做法的成本和代价一定会比实实在在达到真要低。时下流行的各类网上投票打榜活动,充斥着数据作假行为。通过机器、程序刷数据打榜的方式显然要比真的找来数量相当的粉丝、支持者进行手动投票容易很多,这就是数据作假这一捷径效果的体现。
促使数据产生能指转向的主要动因在于解释项在意指过程中的过度干预。人类主观因素在数据作假行为中主要是通过解释项来发挥作用的。解释项与心灵相关。皮尔斯认为:“解释项产生于一个心灵之中”,“有关何谓心智概念的‘意义这一问题,我们只有通过对符号解释项的研究才能解决”。[5]对心灵问题研究的一个落脚点是习惯的作用,对此,诸多符号学家都持赞同态度。索绪尔指出:“符号具有任意性。能指和所指间的联结是任意的。”他认为符号的这种任意性是由背后的习惯力量决定的。“实际上,社会中使用的每一种表达方式,原则上都是基于集体行为,或者惯例而建立的。”[6]皮亚杰则提出:“符号永远是社会性的(在习惯上明确地或不明确地约定俗成的)。”[7]促成解释项发挥作用的习惯力量,其实是人性的本质体现。求权、谋利都是人类的一种意愿,人们很难在意愿上判断善恶,而通过实现意愿的行为和后果来判断则比较容易。数据作假就是数据操作者希望通过数据来谋取权力和利益的一种非道德做法,甚至妄图通过作假来达到求实所不能达到的更大目的。
在数据真假之辨上,真是客观的代表,而这种真有时并不能符合人类的希冀;假是主观的代表,这种假常出自人类的意欲,因此更容易达成。作假减小了主观与客观的差距,甚至使所想即所是,人们不再需要认真求实来达成目标,所需要的只是努力作假。在科学研究领域也存在这样的主观干预,美国统计学家达莱尔·哈夫指出:“甚至就连学术界的人在搞研究时都会带有一定的偏好(也许是无意识的),他们有想要证明的观点,或是有自己想达到的目的。”[8]近现代科学是一种验证科学,科研人员常常带着假设去研究问题,当得出的结论与假设不符时,不道德的做法之一就是进行数据的修改,使数据与假设相符。
通往成功的道路有多条,有实至名归的途径,也有名副其实的路径。我们不能完全否定“名创实”的方法,否则就是在否定人类的目标、计划、意愿乃至主观能动性的作用;但数据应遵循“实创名”的路径,因为这是数据产生的方式,是数据存在的本旨。数据作假趋向于由物质实在决定数据生成,偏向于完全由人类主观因素来决定,这有违数据的本质,亦是省却努力实践环节的不诚实行为。
数据作假反致现实失真
验证是破解“名创实”的方法。如果假可以一直维持能指先行,也可能不会带来负面影响。但当假被拆穿时,其危害就会尽显。同样,如果名和实各自存在,不相联系,问题并不会显露。当名不副实时,作假的后果就会体现出来。数据作假的危害主要在于伤害了事物的实质,即在“名”上的作假影响了“实”的真实。当数据作假的破坏力渗透到现实中,就会动摇现实世界的根基。
数据世界来源于天然自然和人工自然,其真实性的依托就是现实的原子世界,数据真实的理想状态等同于原子世界的真实。然而,数据作假行为使得数据世界开始失真,并将数据世界与原子世界割裂开来,使数据真实不再依托于原子世界的本体真实。这就使得数据世界可以独立建立自己的参照系,以数据为真的依据进行意义创造。对于没有接触过天然自然和人工自然的人们来说,直接接触数据世界是很危险的,因为他们会将数据世界的一切当作原子世界中的真实,这就如同柏拉图“洞穴隐喻”中所描绘的情景。
美国著名传播学家沃尔特·李普曼在20世纪20年代提出了“拟态环境”理论。李普曼提示人们:“对于我们生存的环境我们了解得多么间接。我们看到新闻传递给我们有时快,有时慢;但是只要我们相信是真实的图景,我们就把它当作环境本身来看待”,“我们假设每个人做什么不是基于直接的和确定的知识,而是基于自己制造的或被给予的图景”。[9]李普曼认为,人类认识世界是基于信息流动而产生的“拟态环境”,并且这种环境是可以被营造的。恩斯特·卡西尔在《人论》中也曾提出类似的观点,他认为人是符号的动物。“人们不再能直接面对现实;人们不能像过去那样面对面地看到现实。当人们的符号活动进步时,物理现实似乎成比例地后退。人们没有处理事物本身,而是在某种意义上,经常和自身对话。人们已经如此沉浸在语言形式、艺术图像、神话符号或者宗教仪式中,以至于除非通过这种人工媒介的介入,他就不能看见或知道任何事情。”[10]更重要的是,拟态环境对于现实环境具有反作用,人们对拟态环境认知后作出的行为会反作用于现实环境,使现实环境发生改变。李普曼指出:“对于拟态环境而言,人的行为是一种反应。因为这是一种行为,如果是实际行动,结果是并不作用于刺激该行为产生的拟态环境,而是作用于行动发生的真实环境。如果不是实际行动,而是我们大致称作的想法和情绪,结果可能在虚拟世界中有任何显著的断裂前会经过很长一段时间。但是当拟态事实的刺激作用于事物或者其他人时,矛盾会迅速发展。”[11]
李普曼的“拟态环境”理论描绘了这样一种情形,媒介机构在人与客观世界之间形成了一个信息场域,人们逐渐认为这种环境就是客观环境,并以此作为依据来展开行动。这就类似于人们所说的模型,模型是介于人与要创造的物体之间的中介环境,模型做得越真,造就的物体就越真。数据就是介于人与客观世界的中介物,即数据的拟态环境。数据真实,才能使人认识真实的世界,并切实地反作用于世界。然而,当前的数据作假问题,就是人出于求权、谋利等主观目的,干预数据生成与存在的“客观性”。数据环境不真实,人们以掺假的数据来认识世界,所得出的认知自然也不真实,以这种不实的认知来指导实践,就会产生偏差,造成客观世界的谬误。要警惕如今这种数据环境的环境化(数据的物化),人为掺假的数据正在被人们认知,并逐渐演变为新的数据环境,即“数据真实”开始影响本质真实,甚至直接生成新的“真实世界”。
此外,数据作假还会对人们固有的常识进行干扰和误导。常識代表着现实中已经存在的确定因素,而通过对大数据的应用会产生一条新的认知路径,当数据与常识相冲突时,信奉数据产生的认知结果是当前的主流趋势。因为数据身披科学的外衣,具备改变人们认知的能力,普通人对科学不具备质疑的态度与能力。“不少统计材料从表面上看就能知道是假的。这些材料之所以能敷衍了事完全是因为数据的神奇力量使常识暂时失效。”[12]此过程的往复最终会导致已有确定性的不断消逝。此外,人类的各种美德、品行也会被作假的行为影响。这些既成的价值观念也是人工自然的一部分,是需要珍视的财富。数据作假是人类主观意愿的过度发挥,是人类欲望的极度膨胀,会对优秀的价值观念造成冲击和破坏。作假是欲望的外放,坚守诚信则是对欲望的克制。
数据作假一直都是在“名”上做文章,并没有在“实”上付出应有的努力。这样做最终只会把人类引向虚妄的境界,使原本真实的世界变得虚空。然而,我们需要活得足够真实,这种真实体现在人类对物质实在性的需求。人类仍需要活在现实世界(天然自然和人工自然)中,依旧需要穿戴原子器物,吃喝原子食物。人们无法将一切完全数据化,也无法完全生活在数据世界中,至少目前及未来相当长一段时间内还不可以。这就是数据作假的矛盾所在,一方面要在作假中满足欲望的膨胀,一方面又不能完全剥离现实世界而存在。
概言之,作假意味着欺骗,是不诚信的行为,诚信的缺失将是现代社会的极大损失。数据作假不但会破坏数据世界自身,让人类创造数据世界的诸多努力都付诸东流,也会破坏现实世界的根基。
(本文系国家社科基金项目“大数据应用中的信息流动与伦理问题研究”的阶段性成果,项目编号:19BXW116)
注释
[1]赵毅衡:《符号学:原理与推演(修订本)》,南京大学出版社,2016年,第95页。
[2]Charles Sanders Peirce, Collected Papers of Charles Sanders Peirce, Volume I, Edited by Charles Hartshorne, Paul Weiss, Cambridge, MA: Harvard University Press, 1931, p. 171.
[3][美]皮尔斯:《皮尔斯:论符号》,赵星植译,成都:四川大学出版社,2014年,第34、43页。
[4][德]马丁·海德格尔:《林中路(修订本)》,孙周兴译,上海译文出版社,2008年,第31页。
[5][美]皮尔斯:《皮尔斯:论符号》,第43、45页。
[6]Ferdinand de Saussure, Course in General Linguistics, Trans. Wade Baskin, New York: Philosophical Library, 1959, pp. 67, 68.
[7][瑞士]皮亚杰:《结构主义》,倪连生、王琳译,北京:商务印书馆,1984年,第55页。
[8][12][美]达莱尔·哈夫:《统计数据会说谎》,靳琰、武钰璟译,北京:中信出版社,2018年,第135、156页。
[9][11]Walter Lippmann, Public Opinion, New York: Free Press Paperbacks, 1997, pp. 4, 16, 10.
[10]Ernst Cassirer, An Essay on Man: An Introduction to a Philosophy of Human Culture, New York: Doubleday Anchor Books, 1944, p. 43.
责 编∕陈璐颖