大数据政策制定中的认知偏差与伦理靶标

2018-04-11 08:29李格菲

伦理学研究 2018年2期

李侠，李格菲

以互联网、大数据、云计算与人工智能为代表的新科技革命正在迅速地改变整个社会的存在形态以及我们的生活方式，而其中大数据又是其他新技术得以有效运行的基础，大数据在此次科技革命中处于绝对的基础性地位，基于此，任何事关大数据的政策制定都必须辅以伦理约束，否则，人的存在境况会发生不可逆的转变，尤其是人类的权益可能会呈现出高度不确定的损失风险。为了阻止这种现象的发生，就必须在政策制定层面加以防范。

一、关于大数据存在的认知偏差

很多学者针对大数据的特点，对于大数据的本质提出如下一些具有共性的看法，如有学者认为：“大数据也存在一个五V空间：第一个维度是数量（Volume），主要表现为数据量的快速增长；第二个维度是速度（Velocity），主要表现在数据增长的速度在加快；第三个维度是多样性（Variety），即数据的来源和新的种类的增加；第四个维度是价值（Value），即对这些数据的使用和挖掘产生价值；第五个维度是数聚（Variable），让数据实现从量变到质变的飞跃。”[1]（Pxxvi）关于大数据的这个五V模型中，前三个维度主要关注大数据的物理特性，后两项则是与人和机构有关，因此，关于大数据政策制定中的伦理考量也多发生在后两维中。众所周知，任何政策的制定在目标集里都包含如下三种政策子目标：国家意志、资源配置与对受众的激励机制。高质量的政策一定会尽量在政策的各项子目标与政策受众的偏好之间达成最大限度上的一致，具体而言：国家意志与受众认同有最大的交集，在资源的分配上体现公平，在激励层面与受众的偏好、动机高度匹配，只有政策制定者与受众在这三个子目标之间形成最大限度上的共识，政策的效率才能体现出来，即“状态—结构—绩效”符合预期，究其原因在于，政策被受众群体高度接受并在社会中以低阻力状态运行。为了实现这种效果，在政策制定者与受众之间需要解决两个认知上的共识问题：知识共识与价值共识。

由于大数据的兴起是很晚近的事情，早期的关注者大多集中在学术界与企业界，真正进入公众视野的时间也就是最近3-5年的事情，公众对其了解并不深入。然而，由于中国文化的高度实用主义取向，导致整个社会关于大数据在知识层面上，依旧延续了中国人百年来一贯的对于科学的高度认可的态度，这就意味着公众与决策者在大数据的知识层面是达成共识的：即大数据对于个人与社会来说总体上是好东西，也许在对大数据本质的理解上存在千差万别的差异，但是至少这种知识层面的共识对于一项新事业的推动与政策的制定至关重要。现在的问题是，在大数据价值层面上的认知仍然存在严重的信息不对称现象，导致大数据政策的制定缺少直接推动力，即公众不清楚大数据会给自己带来什么样的益处？以及由于数据的共享导致的成本-收益是否符合经济原则，正是由于缺少价值层面的利益分配结构的明确化，导致公众对于大数据的态度处于不抵触、默认与观望态度，这种认知上的分布格局，导致大数据战略的社会运行远没有达到理想状态。基于这种认知差异，可以把当下大数据政策的制定模式梳理出来：C型和解性政策：所谓C型政策制定模式是指，社会在大数据的知识层面有高度共识，而在价值层面则处于缺乏共识的状态。和解的本意就在于明确对于大数据价值的社会分配方案，以此推动大数据战略的落地生根以及提升其运行效率。见表1：

表1　基于大数据知识与价值认知差异基础上的政策类型（根据马西斯·西舍姆勒的表格改造而来[2]）

为实现政策目的，任何政策的制定在其起始阶段都要对其未来发展做出研判，大数据政策的制定同样遵循这个路径，这个前提判断就是政策制定中的预防原则。任何一项新技术都潜在具有“双刃剑”效应，尤其是对其负面效应还没有完全展现的技术必须预先做出研判，否则会导致灾难性的后果。仅就大数据的运行而言，由于缺少严格的约束，其副作用已经很明显，这些副作用归纳起来包含三个层面的危害：个人隐私的泄露造成的诸多危害、企业信息泄露带来的商业利益损失以及国家信息的泄露造成的安全隐患等等。K·米歇尔与K·W·米勒在研究中指出：“从个人层面，大数据正逐渐演变成个人用户的数字化基因（digital DNA），且呈现出比我们自己更了解自己的习惯与需求的趋势。从企业与国家层面，对用户／公民信息的过度监管一方面帮助企业／国家机器做出符合利益需求的决策，一方面也面临着关于碾压人文精神的苛责。”[3]那么，大数据政策制定的预防原则应该采取什么形式呢？按照美国法学家凯斯·R·桑斯坦的观点：“当风险具有巨灾性最差情形时，就可以采取特定措施消除这些风险，即便现有信息不足以使规制者对最差情形发生的可能性做出一个可靠判断。”[4]（P116）在实践中，基于具体情况，预防原则还有强弱之分，即强势形式与弱势形式。强势形式是指：“只要是损害可能会发生，而非等损害已经发生之后，就应当采取那样的行动以纠正这个问题。”[4]（P121）从而达到决策过程的安全边际。对于大数据相关政策的制定不宜于采取强势预防原则，毕竟其风险还是可控的，因噎废食的做法很容易阻碍新生的大数据事业的快速发展。为了使大数据产业获得整个社会的认同，需要把影响政策运行效率与表现滞后的相关认知差异以及承载伦理约束功能的政策工具挑选出来，基于此，才能制定出具有前瞻引领作用的高质量政策。

二、大数据政策制定中的伦理靶标与关切

任何政策都是制度的产品，而制度则是一个国家在特定条件下形成的一系列指导行为的规则与准则等的集合。在实践层面任何政策都要体现出对政策受众的公平对待，这就是政策制定的伦理关切。一项政策要获得政策受众的接受与认同，必须确定恰当的伦理靶标，通过伦理靶标把政策理念与目标传达出去。所谓伦理靶标是指通过政策工具的选择把政策的伦理关切传递出去，并与政策受众的内在偏好与动机达成最大限度上的匹配，从而可以使伦理价值随附在政策工具上，这时承载价值诉求的政策工具就是伦理靶标。任何高质量的政策必须提供明确的伦理靶标。通常在政策生命周期内，伦理靶标比较恒定。一旦政策的伦理靶标发生偏转，也就意味着原有政策的终结。这里需要提及的一点是：一旦靶标与受众偏好不一致，不一定意味着靶标选择错了，有时候也许是其超前于受众的认知水平。因此，两者不匹配时，需要仔细分析问题到底出在哪一方？而不能武断地把板子都打在政策的屁股上。结合上面的分析，可以清晰发现大数据政策制定的伦理靶标取向有两个：其一是形而上层面的自由与安全；其二是形而下层面的价值分配。由于大数据政策涉及三类政策受众：个人、企业与政府，基于此，形而上层面的伦理靶标根据受众的差异可以分为三类：对个人而言，人们关心的是自由与安全（现实中以隐私保护为代表）；企业则关心商业利益垄断；政府关心的则是国家安全。因此，大数据政策制定在形而上层面的伦理约束就必须把这三方面的关切结合起来，然而这三种关切很多时候是存在严重冲突的，总体而言，由于三类主体在力量方面存在的完全不对称性，导致个人层面的伦理关切很难被合理考虑，换言之，个人在大数据时代是庞大的、分散的弱势群体，这就需要政策在制定之初就必须对三者之间的平衡给予充分考虑，下面是三种伦理靶标关系的示意图：

从图1可以清晰发现：三类政策受众的伦理靶标的实际关注度是明显不同的，而且各自集中在不同的行动空间内：政府的伦理靶标集中在公共领域，因此国家安全受到高度关注，企业的伦理靶标集中在社会领域，商业利益受到的关注度次之；个人的伦理靶标位于私人领域，隐私受到的关注度最低（保护力度很差），这也直接说明了为什么个体对于大数据的发展充满担忧的深层原因。另外，随着大数据挖掘技术的发展以及算法的改进，一个可以预见的未来就是：私人领域会被社会领域与公共领域逐渐压缩与侵占，这就不可避免地导致隐私的终结与个人自由的丧失，出现英国作家奥威尔在小说《1984》中所描述的被无处不在的老大哥实时监视的社会境况将不再是预言，这才是个体层面对于大数据发展的形而上之忧。为了剖析大数据背景下私人领域的嬗变，需要对两者的结构与功能做些简单的剖析。

图1　三类政策受众的活动空间

按照哲学家阿伦特的说法：“公共这个词表示内在紧密联系但并不完全一致的现象。首先，它意味着，任何在公共场合出现的东西能被所有人看到和听到，有最大程度的公开性。对我们来说，显现——不仅被他人而且被我们自己看到和听到——构成着实在……不过，还有许多东西无法经受在公共场合中他人始终在场而带来的喧闹、刺眼光芒；这样，只有那些被认为与公共领域相关的，值得被看和值得被听的东西，才是公共领域能够容许的东西，从而与他无关的东西就自动变成了一个私人的事情。”[5]（P32-33）人的自由一个重要方面就是那些与公共事务无关的方面，应该被有效地保护起来，否则，个人的生活将被彻底透明化，这是人作为存在者无法承受的：私密性恰恰是自由的一个重要子集。

正是基于这种考量，发达国家的大数据政策往往非常重视对于私人领域的保护。纵观以美国为代表的大多发达国家的大数据政策，有一个共同的伦理取向，即最大限度上开放政府数据，严格保护私人数据（以隐私为代表的）。如美国于2002年颁布的数字政府法案（The E-government Act of 2002）明确指出，政府信息公开可获得性在大数据时代享有最高优先权，而联邦政府在通过网页获取公民个人信息时，则需要事先进行隐私影响评估，在每个网页公开标准可视化的隐私管理条例，且非特殊情况，禁止使用一切信息追踪手段（如cookies）[6]。这与我国的大数据政策的伦理取向刚好相反，我们的大数据政策严格保护政府数据，导致政府数据对社会和公众的开放程度严重不足，造成社会治理中的反馈与监督机制形同虚设。相反，对于私人数据的保护大多还停留在纸面上或者口头上。试问当下哪个中国人没有接收到骚扰电话，更有无数私人信息泄露酿成的悲剧。如果私人信息保护真正被重视哪里会有这么多电信诈骗和骚扰电话呢？由此，可见一斑，这就是国内公众对于大数据政策在形而上层面面临的普遍担忧。

数据是有价值的。数据价值的实现需要流动起来，借助于互联网、物联网以及云计算等的普及，大数据时代数据的价值已经从隐性转为显性。诚如欧盟消费者保障专员梅格雷纳·库内瓦（Meglena Kuneva）所言：个人数据是互联网时代的新石油，数字世界的新货币。为了简化起见，可以把数据的来源粗略划分成两类：来自个人的数据与来自政府与机构的数据（把所有非个人的数据都放到机构这个类别里），那么，对于来自个人的数据，个人拥有完全的产权；来自政府的数据，由于政府是由纳税人供养的，因此，政府仅具有部分产权，所以政府要最大限度上公开政府信息；来自私人机构的信息，私人机构拥有产权。这样就出现一个问题：任何信息如果不被挖掘与运用，其价值就无法实现。对于分散的个体而言，要实现个人数据的价值就更为艰难，再加上单个人的数据信息的价值微小，所以，个体对于自己的数据信息的价值也无法给予有效关注，只有当相应的损失发生时才会意识到这种个人信息的价值。简而言之，当下的个体作为私人信息的拥有者，并没有获得相应的收益，这部分收益被企业与政府分享了，作为相应的回报，企业则很少与公众分享其获取的信息，政府也没有达到合理的公开信息的程度，这样一来，在大数据时代，个体成为数据收益的最大输家。因此，在大数据政策制定时必须合理保证个人信息的权益与收益，否则，政策的制定就是缺乏正义的，也是不道德的。诚如美国大数据专家阿莱克斯·彭特兰所言：“企业和政府拥有的计算能力远超过个体，这种不平衡将很快成为导致社会不平等的一个主要原因。更多的数据获取和更高的计算能力，这两种趋势的结合使得权力高度集中在政府和大型企业中。”[7]（P196）这种可怕境况，在现实生活中已经呈现，它造成对作为个体的消费者剩余的完全剥夺。比如通过对源于个人的大数据信息的挖掘，保险业几乎可以做到只赚不赔，而个体原本用于防范风险与不确定性的保险制度已经名存实亡。英国数学家托马斯·克伦普在其《数字人类学》一书中指出：“数字的本质是人，分析数据就是在分析人类族群自身。大数据能够对用户行为的追踪和理解更加具象，数据能够多维度地关注人、洞察人。”[1]（P43）另外，大数据运行的一个特点就是用相关性代替因果性，谁的计算能力强，拥有的数据越多，谁防范不确定性的能力也就越强。未来两种能力之间的差距的价值，将被政府与企业完全占有。因此，大数据政策作为针对数据产业发展的政策，必须在政策受众的多元主体之间形成利益均衡分配原则，只有这样，大数据产业才能真正造福社会，并提升整个社会的福祉。否则数据鸿沟带来的社会分裂远比传统的有形资产的差异所导致的分裂还要严重，而且更难消除。遗憾的是，我们以往的政策制定模式，往往把政策的收益完全垄断或者占有绝大部分，导致政策受众接受一项新政策的收益与付出的成本严重不成比例，这也就是我们的很多政策一出台就处于失灵状态的深层原因所在。就大数据政策的收益而言，政策受众能够在需要的时候获得相应的、公开的与真实可靠的数据，他基于此做出相应的正确决策，这就是一项大数据政策带给他的收益。

遗憾的是，在这方面我们尚存在很大差距。据学者研究，“我国的政府数据开放共享政策始于1994年由国家测绘局发布的《行政法规、规章和我国重要地理信息数据发布办法》。此后，政策经历了漫长的发展过程……在《政府信息公开条例》（2007）和国家信息化政策的推动下，数据管理和共享政策有了进一步的发展……并且从2012年开始政策数量呈现小幅上涨……2015年国务院将政府数据开放共享上升为国家战略，使国家的相关政策迅猛增长。2015年后发布的政策几乎占样本总量的一半以上……而且政策发布的主体绝大多数来自国务院各部委，占样本总量的76.8%”[8]。这组数据反映了我国大规模开放政府数据是很晚近的事情，换言之，2015年出台的《促进大数据发展行动纲要》的颁布是我国大数据共享事业的里程碑式的事件。另外，在政府数据开放的结构上存在一个倒金字塔结构，即越是处于治理结构顶层的中央部委的信息开放程度越高，越是位于底层治理结构的政府数据开放程度越低。随着治理层级的逐渐降低，信息开放的意愿也随之快速下降。根据社会分层理论可知，政策受众大多处于社会底层，他们最想了解的信息也多是与生活密切相关的所在地的基层信息。这就导致信息供需（共享）的结构出现严重不对称现象。造成这种结构性不对称局面的原因有三个：其一，基层治理结构对于大数据的意义存在认知差异（知识层面与价值层面），是广大基层能力不足的体现；其二，高度中央集权造成基层治理结构信息生产空间有限，没有多少属地信息可以公开；第三，基层通过限制政府信息的公开，为自由裁量权留有空间。所有这一切都侵占了政策受众本应获得的政策收益，也因此降低了政策的运行效率。

那么，如何通过政策制定的方式，让政策受众更多地分享大数据的价值呢？建立由国家组织的数据公地（data commons）应该是一个可行的选择。众所周知，大数据的盈利模式大多是基于共享与合作实现的，没有共享就没有公平，也没有收益。彭特兰在提出“数据新政”时指出：“数据在共享时的价值更大，因为它们能够告诉我们公共卫生、交通和政府等系统可以有多大改进……遗憾的是，今天绝大部分个人数据都储存在私营企业里，因而大都是无法提取的。这些数据不能一直由私营企业独自享有，因为这样的话他们就不太可能对公共产品有所贡献。同样的，这些数据也不能由政府独自享有，因为这有悖于公众的知情权。因此，‘数据新政’的核心是必须能够同时提供监管标准和经济激励以引导数据所有者共享数据，并同时服务于个体和整个社会的利益。我们必须促进个体之间，而不仅是企业之间或政府部门之间的更大的想法流。”[7]（P171-173）彭特兰的“数据新政”框架的主旨在于：使公共产品所需要的数据既易于获得，又能有效保障公平权利。

三、结语

大数据产业是新兴的高科技产业，其对未来的影响深远且广泛，大数据、云计算以及互联网的进一步整合，无异于一场新的科技革命。因此，对于大数据的健康发展必须通过政策来引导与规范，从预防原则的角度来讲，政策制定的绩效最终要体现在更大程度上造福社会，并最大限度上减少其副作用。为实现此目的，大数据政策在制定之初就应考虑到两个问题：其一，消除政策制定者与受众之间在认知上存在的差异，基于特定的政策地基，寻找相应的主导政策制定模式；其二，要形成高质量的大数据政策，必须找到合适的政策工具来充当伦理靶标，对于大数据政策制定而言，伦理靶标的选择有两个维度：形而上维度的伦理靶标与形而下层面的伦理靶标，只有两者合理兼顾，才能助推大数据产业的发展与造福社会。

[参考文献]

[1]大数据战略重点实验室.DT时代：从“互联网＋”到“大数据×”[M].北京：中信出版社，2015.

[2]萨拜因·马森，彼德·魏因加.专业知识的民主化：探求科学咨询的新模式[M].姜江，马晓坤，秦兰珺，译.上海：上海交通大学出版社，2010.250.

[3]Michael，K.，&Mil ler，K.W.2013.Big data：New oppor tunities and new chal lenges[guest editors'int roduction].Computer（6）.

[4]凯斯R桑斯坦.最差的情形[M].刘坤轮，译.北京：中国人民大学出版社，2010.

[5]汉娜·阿伦特.人的境况[M].王寅丽，译.上海：上海人民出版社，2013.32-33.

[6]Ber tot，J.C.，Gorham，U.，Jaeger，P.T.，Sarin，L.C.，&Choi，H.2014.Big data，open government and e-government：Issues，pol icies and recommendations.Information Pol ity，19（1，2），5-16.

[7]阿莱克斯·彭特兰.智慧社会——大数据与社会物理学[M].汪小帆，汪容，译.杭州：浙江人民出版社，2015.

[8]黄如花，温芳芳.我国政府数据开放共享的政策框架分析与内容：国家层面政策文本的内容分析[J].图书情报工作，2017（10）.

大数据政策制定中的认知偏差与伦理靶标

一、关于大数据存在的认知偏差

二、大数据政策制定中的伦理靶标与关切

三、结 语

三、结语