凡景强 邢思聪
(1.东南大学 南京 211100; 2.西安音乐学院 西安 710061)
随着大数据技术与人工智能的不断发展,在给社会生活带来便利体验的同时,也给社会伦理和价值规范提供了全新场域。大数据的本质在于数据化的世界观和思维方式[1],构建了一种大数据时代新的认知系统,而且以“数据+算法”为手段愈发深入地定义社会生活。“每一种技术或科学的馈赠都有其黑暗面。数字化生存也不例外”[2]。大数据的发展引发了相应的伦理问题而受到社会的广泛关注,这已成为我国学界关注的前沿问题。对此,为了解大数据伦理的研究概况,可对大数据伦理的相关研究进行文献分析,以期勾勒出研究现状并据此展望未来的研究方向,逐步完善大数据伦理的理论体系建设。
现有大数据伦理发展动态的研究大多是局限于较为宽泛的会议论文。例如,每届的全国赛博伦理学研讨会都会有关于大数据伦理方面的会议研讨,至今已连续五届根据会议主题进行了总结分析[3-6]。除了伦理学会议外,一些信息学领域会议也涉猎部分大数据伦理问题。赵发珍等人[7]在对第九届“信息资本、产权与伦理国际学术交流研讨会”进行评析的“信息与数据伦理研究”部分,认为大数据伦理问题需搭建多学科交叉研究和交流的平台,要引导广泛参与和多方共治。囿于分析对象为主题报告和会议论文,而且大数据伦理还只是这些会议中的专题之一,造成这些研究缺乏对现有大数据伦理研究状况的深度梳理。而在中国知网(CNKI)数据库中,目前非会议类的对大数据伦理进行梳理分析仅有1篇,即宋吉鑫等人[8]对大数据伦理研究进行了简单评析,缺乏对相关文献的计量分析和深入阐释。因此,本文将从量化统计和质性分析两个方面对大数据伦理研究进展进行分析。
大数据时代知识的爆炸性增长使得文献分析难以建立在对所有文献的完全阅读分析基础上,亟需以问题为导向并标准化地筛选出高质量的文献进行精准透彻分析的研究。鉴于传统文献分析会存在主观偏见的问题,难以满足大数据时代的需要,可以在传统文献分析的基础上融合实证研究方法,较为科学客观地反映文献对象。如此,更适合大数据时代对海量文献的“拆解”与“重构”分析。大数据伦理研究分析的关键问题是大数据伦理研究状况及其在实践中的问题。为了梳理清楚这些问题,本文遵循提出问题、检索文献、选择文献、分析文献和结果展示的文献分析步骤,进行描述性分析、文献重点分析和评述与展望等研究。
本研究的文献检索范围限定为收录在CNKI学术期刊库内的CSSCI来源期刊为分析对象,具体检索过程如下。在检索时间上,虽然我国媒体一般都把2013年视为“大数据元年”,但在《2014年中国政府工作报告》中首次写入大数据,这才真正标志着“大数据政策元年”的到来。因此,为了准确梳理大数据伦理的最新研究情况,以最近8年多的时间即2014年3月政府工作报告发布开始至今(2022年10月)为检索时间段。为了方便进行重点文献分析,确保纳入的文献样本必须是主要聚焦大数据伦理研究的文献,而不是在研究其他大数据相关问题的过程中略有涉及伦理问题,通过对大数据伦理问题的文献阅读和学术研讨,再经评估实验性检索结果后,确定以篇名“数据”AND“伦理”(144篇),以关键词“大数据伦理”OR“数据伦理”(35篇)为检索逻辑,文献类型选择期刊论文,语言为中文,时间跨度为2014-2022年。为确保文献质量,文献来源选择CSSCI源刊,检索时间为2022年10月。为进一步确保检索结果的准确性,根据文献分析需要设定入选标准:a.只关注我国大数据伦理的研究内容,剔除单独介绍国外及启示和国内外比较的大数据伦理研究状况的文献;b.纳入的文献中主体内容必须是聚焦研究大数据伦理的文献;c.仅限CSSCI期刊论文,排除与大数据伦理相关的书评、人物思想、会议文献和报纸。
在此基础上,按照入选标准对文献进行初步筛选后共获得163篇核心文献,然后通过阅读摘要后,再筛选掉含有“数据”和“伦理”字眼而与大数据伦理毫不相干的文献,例如只是基于调查数据而对某种伦理问题进行实证研究的文献,再剩下155篇。最后,通过精读全文重新检查样本文献,除了发现有重复的20篇文献外均符合入选标准,筛选掉重复文献后,最终确定135篇文献符合要求。
学界对大数据伦理的关注也就是最近8年的事情,从文献样本的统计情况来看大数据伦理研究还处于新兴阶段。在文献样本中,大多文献是对大数据的伦理内容(135篇)、伦理问题表现分析(106篇)和伦理治理路径进行分析(103篇),其次是对其背景分析(56篇)、主要原因分析(25篇),而由于有些文献同时包含了多个研究视角,所以各研究视角的总篇数会大于样本文献总篇数。总体而言,我国大数据伦理研究视角还不够开阔,主要集中在对具体伦理失范问题的探讨,缺乏与相关理论资源如技术哲学、数据科学、信息伦理等深度结合,对大数据环境下人、技术、社会之间伦理道德关系的重构展开深层次分析。
在图1中,统计了最近8年来我国大数据伦理相关研究的CSSCI文献数量,发现大数据伦理研究近年来总体呈现出由逐步上升到平稳下降的趋势。值得关注的是,2016年开始,大数据伦理研究相关文献的发文数量明显增加,可能的原因是随着2016年人工智能、VR、AR等产业的起步,在驱动大数据得到广泛应用发展的同时,也引发了人们对相关数据伦理问题的担忧。从2014年至今,大数据伦理研究出现了3个阶段:a.起步期(2014-2015年),这一阶段的大数据伦理研究每年发文量均未超过10篇,主要关注大数据伦理的理论问题,相关CSSCI期刊文章主要发表在图书情报类、伦理哲学类的专业期刊上。2015年党的十八届五中全会确定实施“国家大数据战略”,这一年大数据伦理研究出现了一个小高潮。b.爆发期(2016-2019年),这一阶段的大数据伦理研究着重关注具体领域大数据伦理的应用问题。除了图书情报和伦理哲学领域,其他学科的学者从各自专长出发,加入到大数据伦理研究中来,导致对大数据伦理研究的发文量持续上升,相关研究也发表在了不同学科的高质量刊物上。而且,2019年对大数据伦理研究的发文量达到了27篇的高峰,是其前5年年均发文量的2.5倍,这说明大数据伦理研究已成为学界研究热潮。c.降温期(2020-至今),这一阶段在大数据伦理研究成为热点后开始进入常态,相关高质量的研究也能保持每年发文17篇以上,虽有所下降趋势但年均发文数量仍是起步期的2.5倍。可见,大数据伦理研究仍处于新兴状态,开始进入较为平稳的持续性研究阶段。
图1 2014-2022年期刊发文总体趋势图
本文通过对135篇文献主题进行统计分析,从数量最多的5个研究视角出发,对当前大数据伦理的研究现状进行全面回顾与总结。
当前,大数据正发展成为新一轮技术革命的制高点,社会对大数据产业发展有着极高的热情。大数据伦理正是在大数据产业兴起的热潮中,人们对创造、开发和应用大数据的伦理思考。通过阅读所选样本文献全文后发现,其中56篇文献涉及大数据伦理的一个或多个背景视角,并从中确定了3个最主要的背景视角。
首先,数据强国战略的国内背景。国内大数据产业的蓬勃发展冲击了各行各业故有的伦理价值体系,造成了一些新的伦理问题而必须予以应对。比如,周晓冬从国内吹响数据产权化号角的背景出发研究相关伦理问题[9]。赵磊磊等在国内智能技术发展时代背景下探究教育数据伦理问题[10]。我国正全力推进实施“数据强国”建设,大数据伦理服务于国家大数据战略而被提出。其次,数据主权博弈的国际背景。“棱镜门事件”使数据主权问题白热化,个别数据强国基于大数据技术及管理体系上的优势推行数据霸权主义,致使数据的跨国安全威胁严峻。大数据伦理需注入国家数据安全的意蕴。最后,大数据发展的技术背景。大数据技术在给社会治理产生积极影响的同时也引发了其负面效应。一些学者基于大数据本身的技术背景研究了其引发的伦理问题。比如,杨建国立足于大数据技术给人带来利弊影响的背景下分析了大数据时代的隐私伦理[11]。邱仁宗等人基于大数据技术的双刃性分析了大数据伦理问题[12]。新技术的出现推动传统伦理革新,大数据技术重构着人—技术—社会之间的伦理关系。
大数据伦理问题研究比较丰富,阅读完全部所选文献后发现,106篇研究大数据伦理问题的文献中研究最多的问题是隐私(82篇)、安全(39篇)和异化(15篇)问题,其他问题类型比较分散但总量达到了50篇,可见还有许多新的大数据伦理问题没有得到关注。由于有些文献涉及多个伦理问题,所以各问题的篇数总和会大于样本文献总数。现就国内学者探讨得最多的个人隐私、信息安全、数据异化的伦理问题进行分析。
首先,关于大数据的个人隐私问题。许多看似杂乱无章的数据信息经过大数据技术的复合运算后,能够轻易地获取个人的隐私数据,引发对隐私安全的担忧。薛孚等对全景监控现象的分析[13]、蒋洁等对大数据预测功能的探究[14]、陈仕伟等对被设计的大数据选择的剖析[15],都表明了大数据收集分析隐私记录并精准地“投其所好”,既袭扰个人生活也易暴露个人隐私。其次,关于大数据的信息安全问题。大数据的可信性必须建基于客观真实的数据信息分析。然而,海量芜杂的数据信息中总会充斥着各种“数据乱象”。冯登国等提出了大数据可信性的两个威胁即伪造或刻意制造的数据和数据在传播中的逐步失真[16]。罗弦分析了在大数据运用过程中的数据残缺、数据污染、数据窃取等伦理问题[17]。无可信不安全,“数据乱象”降低了数据可信度,动摇了数据安全的基石。最后,关于大数据的伦理异化问题。在“数据崇拜”的裹挟之下,人的自由意志让渡给了数据与算法,使人笃信“价值与智慧隐藏在数据之中”[18],而对数据的追踪与运用极易越界,造成数据“物”性压制人的主体性。在实践中,具体的异化表现为掩盖个性数据意义的“数据暴力”、剥夺人自由意志的“数据独裁”等问题冲击着伦理价值体系。
大数据伦理问题的产生原因多种多样,对其原因的准确把握有利于在实践中有效地展开伦理治理。通过对所选研究文献的全文阅读后发现,有25篇文献介绍了造成大数据伦理问题的一个或多个原因,大多都是从主体原因(23篇)、客观原因(25篇)和社会原因(18篇)3个方面来分析了产生大数据伦理问题的原因,其他方面的原因较为小众未引起学界关注。
学界将大数据伦理失范主要归因为3个方面。一是,大数据伦理问题根源于人的主体能动性弱化。大数据问题的关键在于如何正确地使用数据。自律自控能力不足就易使人的虚拟人格异化,形成被大数据奴役的“单纯的数字人类”。此外,宋振超等将网络当作情绪垃圾场的现象归因为“主体身份异变”[19],网民的不良习惯与纵容给大数据伦理造成诸多隐患。二是,大数据伦理问题是大数据技术发展的客观结果。一方面,大数据时代的伦理情景颠覆了以往的教导方式和习惯养成,开放性和不确定性成为伦理世界的新特征。朱锋刚等认为大数据改变了人们的生存经验模式和思维模式,该以何种方式使人融入新的伦理情景充满不确定性[20]。另一方面,滥用大数据技术激化了其负效应。李飞翔从技术角度分析了“大数据杀熟”的原因,认为滥用大数据加速数据垄断、加剧信息不平等,使人难以甄别价格歧视[21]。技术激进主义只会导致冰冷的数字化生存,助长在技术的伪装下行不义之事。三是,大数据伦理问题是受到社会导向影响而衍生的社会问题。在大数据伦理的社会根源上,学界主要有以“伦理规制缺失论”“大数据权力扩张论”[22]“不良社会思潮论”为代表观点。综合来说,不良社会思潮与大数据的社会规约机制不健全的叠加效应,加剧资本通过大数据扩张权力,这是导致大数据伦理问题的社会原因。
在阅读完所选研究文献后发现,在135篇文献中按内容统计,研究大数据的应用伦理内容的65篇,研究大数据技术的伦理反思内容的57篇,研究大数据的伦理进步意义内容的3篇,研究其他方面的内容类型均不足3篇。因此,这3个最主要的研究内容代表了学界关于大数据伦理研究内容的典型方向。
就目前的研究来看,大数据伦理研究的具体内容相对集中。一是,具体领域的大数据应用伦理研究。这类研究主要是大数据在公共管理领域的智慧治理、专业技术领域对大数据的运用,还有如精准扶贫、精准治骗、精准防疫等对大数据的特殊利用,在这些领域大数据在带来颠覆性的便利体验时,也让人反思其弊端并开展相应的伦理批判。二是,对大数据技术本身的伦理反思研究。这类研究从大数据技术角度来思考其对人与社会造成的伦理变化,探讨大数据时代的心理绘相技术、数字身份、数据权利等技术伦理内容,为制定大数据政策进行伦理考量。三是,对大数据促进伦理进步的研究。有少量学者以大数据为契机关注传统伦理复兴或发掘大数据的积极伦理效应。比如,陈代波研究了大数据时代的儒家伦理复兴[23],黄欣荣等研究了大数据的积极伦理[24]。学界对大数据的伦理批判与伦理意义探索都有其价值,保持必要的张力关系才是建设性研究大数据伦理的正确路径。
通过文献梳理,有103篇文献对大数据伦理治理路径有所介绍,其中完善大数据的社会治理机制出现的频数最高,有70篇文献。其后依次为确立大数据伦理原则(60篇)、大数据伦理主体的能动性建设(51篇),其他方面的治理路径(29篇)。从发文量来看,学界对大数据伦理治理路径的研究较受关注。
首先,确立大数据的伦理原则。一是,科技向善需以人为本,“大数据技术的应用、创新和研发必须以促进人类的幸福和提高人类生活的质量为最终目的”[25]。张燕南也提出了利用大数据技术的“善意原则”[26]。二是,义利结合、权责相依,大数据利益相关各方在享受大数据红利的同时要承担相应的责任,应各得其利、各尽其能地维护大数据良性发展。三是,隐私保护与开放共享的平衡原则。大数据既具隐私性又具开放性,是一个矛盾综合体。田贤鹏认为,“需要动态平衡隐私保护与开放共享的对立统一关系”[27]。刘云雷等则主张建立基于人本主义数据伦理的共享机制[28]。大数据的开放共享需有保护隐私的边界。其次,加强大数据主体伦理的能动性建设。个体要提高自身的数据素养和数据权利意识,大数据经营主体要推动科学的大数据伦理观念融入生产生活。比如,唐凯麟等提倡大数据应用组织开展大数据伦理道德教育和开发宣传大数据伦理的软件[29]。李飞翔指出大数据企业、算法工程师、科研工作者群体要“负责任创新”[210]。最后,全面完善对大数据伦理的社会治理制度机制。刘岩等认为“法律是解决大数据伦理问题的重要途经”[30]。安宝洋等主张应建立和完善大数据法治监管与行业自律机制[31]。学者们普遍认为应做好大数据伦理治理的顶层设计,完善大数据制度规约体系和算法审查机制。
本文通过对大数据伦理研究的文献分析,实现了对当前大数据伦理研究现状的梳理,根据梳理结果可较为清晰地描绘出学界对大数据伦理的研究概貌,初步构建起大数据伦理研究的建构假设图(见图2)。
就时代背景而言,大数据伦理研究必须服务于时代背景的实践需求。现目前关于大数据伦理背景的研究主要还是立足于当前国内大数据技术的发展形势,并没有从数据的发展历史即“数—数值—数据”进程中深究大数据伦理产生的背景根源。在数据主权博弈背景方面,大数据革命加剧了国家间的科技竞争从而使大数据伦理被上升到了国家伦理的高度,而目前关于大数据伦理的数据主权斗争背景研究也较为缺乏。未来研究应该重视背景溯源分析,需加强大数据发展的历史背景和数据竞争背景研究。
图2 大数据伦理理论研究建构图
就问题表现而言,目前国内的研究大都侧重于对大数据伦理的具体问题研究。这些研究重问题阐释,少根源探究,主要以“问题—原因—对策”为研究框架,对大数据背景下各领域的伦理问题进行研究,缺少对大数据伦理框架问题的整体思考和深层论证,少有从本体论高度关照大数据伦理失范问题,欠缺技术哲学、数据哲学、信息伦理学等视角的根源性研究。这就造成了对体系性的大数据伦理建设问题的探究不足。随着大数据技术的深入发展越来越有构建出新型社会关系的倾向,迫切需要创新发展原有的伦理道德体系或者重新构建数据社会的新型伦理道德秩序。
就产生原因而言,学界对大数据伦理失范进行了多因探究。在大数据主体伦理的能动性原因方面,现有研究比较重视个体的大数据主体伦理研究,而对大数据企业、行业组织和国家(或政府)等大数据主体的伦理因素研究不够充分。在大数据技术的客观原因方面,主要探讨了大数据的技术特性和技术滥用如何引发伦理问题。现阶段人类还远未到完全掌握大数据技术的地步,仍存在因大数据失控而遭致伦理失范问题,对大数据伦理风险防控方面的原因分析还十分稀缺。在社会问题衍生因素方面,大多学者将大数据伦理问题归咎于不良社会思潮的影响和制度规约的缺失,而对不良社会思潮在大数据环境下表现出新的伦理危害却着墨不多,对大数据伦理制度建设滞后原因缺乏进一步的深层思考。
就具体内容而言,大数据伦理内容研究既涉及具体领域,及时为各自行业的大数据伦理建设提供指导,也关照了大数据技术自身的伦理内容,但在研究思路上存在一些“伦理”与“技术”维度的割裂问题。比起从大数据技术驱动社会进步角度研究其伦理价值,不少学者更执着于从大数据技术的社会批判角度研究大数据伦理问题,相关研究主要聚焦于大数据技术应用带来的伦理风险,而对大数据技术内在的伦理诉求鲜有关注,对大数据技术发展给道德带来的积极意义也未做充分探讨。“伦理维度是研究的出发点和目的所在,技术维度是研究的前提和基础”[32]。既应从技术视角发掘大数据本身的伦理价值与诉求,又要从人的伦理视角审视大数据技术的发展,使伦理既成为大数据发展的内在需要也是规制其发展的约束力。
就治理路径而言,学界在推进大数据伦理治理研究的同时也展现了下一步需跟进解决的问题。在大数据伦理的治理原则方面,如何正确贯彻大数据的伦理原则?应结合大数据伦理主体的实践行为,将公认的伦理原则进一步细化为可操作的伦理细则。在主体性伦理建设方面,关于大数据伦理的国家主体性建设研究不足。在大数据时代,数据霸权与大数据权力的扩张性愈发明显,使得数据主权和数据公平成为国家伦理的新内涵。因此,应该加强大数据的国家伦理治理研究。在大数据伦理的社会治理方面,学界大都认同制度规约对大数据伦理问题的治理作用,并从顶层设计到具体的自律机制进行了研究。但是,刚性的制度治理还需柔性的社会引导才能标本兼治。在大数据时代,人的欲望、情绪和劳动易被大数据“牵着鼻子走”而被“困在系统里”。应该加强对算法伦理治理和大数据伦理精神的普及,优化算法生态,防止“算法利维坦”[33]从认知和行动机制方面侵犯人的权利。
本研究基于从CNKI数据库筛选出的近8年以来关于大数据伦理研究的135篇CSSCI高质量文献进行文献分析,得到以下研究结论。
首先,近年来国内学者对大数据伦理领域的研究关注度颇高。但目前学界关于大数据伦理的研究视角仍需开拓,亟需运用更多元的或者更新的研究视角,产生更有深度和前瞻性的高质量成果。其次,本研究通过对大数据伦理的重点文献分析,梳理分析了现有各主要视角下的研究现状,发现目前学界大多是从大数据的应用伦理及其反思性研究角度来审视人—大数据技术—社会之间的伦理关系,需在此基础上进一步加强对大数据伦理的本体论追问。最后,在借鉴整合已有研究的基础上,探索性地构建了大数据伦理研究的建构假设框架图,并根据文献分析结果对其各构成部分进行了评析,从而发现了进一步完善的思路。在时代背景方面,需重视从数据的发展历史根源和国家伦理的高度进行背景溯源。在问题表现方面,不应拘泥于具体问题,还应从整体思考和深层论证数据社会的大数据伦理体系建设。在产生原因方面,在揭示大数据个人主体的伦理动因时,更需侧重综合探究大数据伦理失范的根源。在具体内容方面,促进大数据伦理研究中“伦理”与“技术”维度融合,兼顾从技术视角发掘其伦理价值和从伦理视角审视技术发展。在治理路径方面,加强发挥国家的主体性作用,将大数据制度建设与普及大数据伦理精神结合,积极优化大数据伦理环境。
本研究结果对推动大数据伦理领域相关研究的完善与发展,具有一定学术贡献。第一,本文是首次较为全面地对国内大数据伦理核心文献进行分析的论文,系统化地回顾了CSSCI文献大数据伦理研究中最主要的5个基本问题,即大数据伦理问题产生的时代背景,主要面临的大数据伦理问题,导致大数据伦理问题的主要因素,大数据伦理的主要研究内容和大数据伦理治理的路径,总结勾勒出了大数据伦理的研究进展。第二,尝试性地构建了大数据伦理研究的理论框架,分析了其中各部分的研究不足之处并提供了相应的改进思路,为深化该领域的研究提供了阶段性的理论参考。第三,本文重点掌握了最新的大数据伦理研究动态,对未来开展大数据伦理研究提供了学术情报方便和重要的基础知识。
现目前大数据伦理研究仍然处于成长期,还存在巨大的学术推进空间。本研究对以后开展大数据伦理研究可具有以下启示。一是,重视对大数据技术自身的伦理价值研究,发扬与时俱进的伦理观念。大数据技术内含着道德意义[34],具有自由性、社会性的伦理属性[35],但现有的大数据伦理研究缺乏相关的深入分析。数据革命呼唤新的伦理价值观念,在完成大数据伦理体系构建之前,用传统伦理审视大数据发展只是必要的权宜之计,未来还是需要重构数据时代的伦理体系或者推进传统伦理体系与时俱进发展。二是,在夯实大数据伦理理论的基础上,积极构建面向未来数字社会的大数据伦理体系。总体来看,现阶段关于大数据伦理的研究,救济式的对策型研究多,引领式的前瞻型研究少。启示我们要继续加强和深化计算机学、数据科学与技术伦理学、信息伦理学等学科的交叉研究,搭建跨学科、跨领域、跨部门的协作平台,提高大数据实务部门与大数据科研单位的协作水平,不断丰富大数据伦理理论与制度建设,开拓大数据伦理发展的新境界,共建大数据伦理体系。
本文研究也存在一定局限性。首先,在文献检索与筛选过程中,主要遴选聚焦以大数据伦理为主体内容的研究文献,而对以大数据其他方面的问题为主体内容的研究文献中,其中有些对大数据伦理略有涉及的文献可能未被纳入进样本文献,可能存在一定的文献遗漏问题;其次,本研究整合提出的大数据伦理研究的建构假设图仅是基于样本文献梳理分析出的结果,并非是成熟的关于大数据伦理研究的理论框架。最后,本文仅是对大数据伦理研究的概况分析,并非是针对大数据伦理中某个具体问题的深入分析,限于篇幅和自身学术能力暂无法穷尽大数据伦理研究文献作出具有深度学术说服力的系统性分析成果。
通过对相关文献的梳理和评析可知,大数据伦理作为一个新兴的研究领域,当前研究还存在需深化研究的空间。在未来的研究中仍需结合大数据实践充分发掘各相关学科的理论资源,进一步拓展和完善未来构建大数据伦理体系的发展空间。一方面,理论成果要在现实应用中落地落实才能产生指导力,应积极落实落细大数据伦理理论指导实践研究。另一方面,大数据技术促使数据密集型科研范式的崛起,可以合理引入大数据实证研究方法,推进大数据技术在伦理研究方面的学术应用。“人类社会活动的数字化,为大数据方法的形成和应用创造了条件”[36]。但目前关于大数据伦理的研究大多还是以定性研究为主,未来研究可以结合数据科学与大数据技术方面的实证方法,合理收集、利用大数据利益相关主体的伦理数据,通过大数据的实证方法来科学分析大数据伦理问题。总之,未来应该探究在数据社会条件下人的数据化生存引发的伦理关系嬗变和发掘新道德价值的问题。要拓展研究视野,集各种伦理理论与实践资源,蓄力完成构建数据社会的大数据伦理体系。