数据保护的集体维度

2022-02-17 18:30戴艺晗华东政法大学国际法学院

图书馆理论与实践 2022年2期

戴艺晗（华东政法大学国际法学院）

20世纪70年代，随着计算机技术的兴起，法律越来越关注个人隐私保护。1980年，经济发展与合作组织（Organization for Economic Cooperation and Development，OECD）发布的《隐私保护与个人数据跨境流通指南》普及了这样一种观念，即个人应该对任何用于自己和关于自己的信息拥有知情同意权［1］。1978年，法国颁布了数据保护法，规定必须为了特定、明确和合法的目的，在本人（“数据主体”）同意的情况下，以公平、合法的方式收集和处理个人数据［2］。受法国数据保护法等相关法律的启发，欧盟分别于1995年和2018年颁布《个人数据保护指令》［3］和《通用数据保护条例》（General Data Protection Regulation，GDPR）［4］。如今数据权利被视为“个人权利”，数据权利的个体化已成为世界各国数据保护法的基石。当政府和法律将重点放在保护个人数据权利时，科技公司却从分析个人行为转向分析群体行为，有效地让个人的拒绝或同意变得毫无意义：即使某人拒绝使用Facebook、Twitter或亚马逊的服务，但其周围的每个人都加入并使用，意味着此人的目标数据点和没有拒绝使用服务的人一样多。

1 数据侵权的集体维度

数据和信息基于个人或者单位产生，兼具私人与公共属性，是数字经济时代维持运转不可或缺的资源［5］。以海量数据为基础的大数据算法分析能洞察市场的新兴趋势，指导新产品和服务的开发，预测个体偏好，为消费者提供个性化的产品和服务。大数据的生命周期可以分为收集、编制与整理、数据挖掘与分析和使用四个阶段［6］。

在大数据生命周期的编制、整理阶段，不同来源的数据被组合起来，用于构建单个消费者的画像［7］。大数据分析将具有某方面共同特征的人归结到一个群组中，如，每周去三次西式快餐店的人、一周有三次以上晨间运动习惯的人。在市场环境下，数据挖掘与分析的共同目的之一是预测消费者的选择。利用数据预测事件或行为是机器学习和人工智能发展的结果，随着数据可用性和使用范围的扩大，做决策变得越来越容易，人类传统做决策的过程有时甚至会完全被所谓的预测建模方法（通常称为“算法的使用”）所取代。正如一个硬币有两面，大数据算法分析带来便利性的同时，也可能会合并甚至强化歧视性的刻板印象，从而损害用户和系统本身的效率。牛津词典将歧视定义为不公平对待社会中某个人或某一群体的行为［8］。歧视有三个特点：存在非合理的不公平对待，此种不公平对待是法律所禁止的，会造成不公平、不公正的后果［9］。现代社会的一个核心原则是，按照某种类型的标准对不同群体的人进行歧视在道德上是错误的［10］。歧视可能有意，也可能无意。机器学习系统依靠人类创造的算法处理来自人类的数据，因此这种数据处理的最终结果会带有人类固有的偏见。联合国《世界人权宣言》第2条明确规定：“人人有资格享有本宣言所载的一切权利和自由，不分种族、肤色、性别、语言、宗教、政治或其他见解、国籍或社会出身、财产、出生或其他身份等任何区别。并且不得因一人所属的国家或领土的政治的、行政的或者国际的地位之不同而有所区别，无论该领土是独立领土、托管领土、非自治领土或者处于其他任何主权受限制的情况之下。”［11］由此可见，歧视基于的要素不仅包括种族、性别等客观要素，还包括政治见解等主观要素，不论是对个体的歧视还是对集体的歧视皆违反现代法律精神。

当今社会，数据和信息已经成为每个人不可分割的组成部分，它描绘和构建了人的自然本性、社会角色和个性特征，表现了人的人格尊严和主体价值［5］。随着人工智能技术的进一步发展及运用，算法带来的歧视已经不限于传统的种族、性别等人口统计因素，而是渗透到日常生活和社会事务中，并开始以越来越隐蔽的方式逐步影响人类社会制度和经济发展的方方面面［12］。算法歧视可以分为偏见代理的算法歧视，即客观中立的基础性数据组合产生了歧视性的后果；特征选择的算法歧视，即输入系统本身带有偏见，从而构成歧视性的看法；大数据杀熟，即同一时段提供的商品或者服务，面对不同的客户采取不同的对待模式［13］。大数据算法歧视和一般歧视相比，所依据的因素更为多样化和不确定，如对消费者信用的评估不是基于将消费者的已知信用特征（如过去的逾期付款记录）与历史数据进行比较，而是基于这些客户的邮政编码、社交媒体的使用情况或购物历史。

如果数据收集的过程反映了个人偏好或者受到了某种客观条件的限制，那么由数据揭示的一些统计关系可能会产生偏见，导致不准确的预测和分析。如，美国波士顿市开发了一款名为Street Bump的手机应用程序，利用智能手机的一些功能来采集和发送道路情况，因为低收入人群携带智能手机的比例较低，所以这些数据不能完全代表所有的道路状况，偏差的数据有可能使道路服务向高收入社区倾斜［6］。歧视一般源于主观偏见或偏好，但更看重客观所造成的不良社会影响［12］。2017年，斯坦福大学的研究人员详细介绍了一种人脸识别算法，该算法能够以惊人的准确性预测一个人的性取向［14］。这项研究受到了广泛批评，理由是其创造了一个收集数据的工具从而根据性取向对个体进行分类，分类结果有可能被用来排除或歧视整个阶级的个体。

数据是数据主体的“生命密码”，与数据主体的隐私、情感以及社会评价息息相关［15］。大数据分析被广泛用于理解用户通过与网络设备、平台和组织互动而产生的数据轨迹。大数据算法分析将个人归结到不同的群体中，归类到一个群体中的数据并不一定涉及能识别到特定个人的事实或信息；由于不具有可识别性，不一定构成对个人隐私和个人数据保护的违反。保险公司在提供汽车、健康、家庭或人寿保险之前，可能会根据目标客户对生活方式的选择、阅读的期刊、居住地、未决或已了结的刑事或民事诉讼、教育水平和就业情况来提取与客户细分相关的风险预测信息，如，住在高档社区A的住户与住在普通小区B的住户在同一时期购买同一种保险，前者所支付的保费比后者要低得多，保险公司对应缴保费的评估和判断不是基于个人，而是基于个人作为该小区的一分子。

随着网络和智能技术的飞速发展，企业和政府将收集更多个人信息并可能倾向于使用自动化决策方法，随着自动化程度的提高，对公平的影响将会更大。在大数据时代，数据交易和生产过程呈现出“参与主体多元化、权利归属复杂化”的特点［16］。被归类到一个群体中的数据涉及多个个体作为一个整体的利益，而不仅仅是许多单个个体利益的总和以及简单叠加。集体维度的重要性取决于这样一个事实，即用现代算法进行分类的方法不仅关注个人，还关注具有某些共同行为特征（如，十一点以前上床睡觉、每天乘坐地铁上班、每周喝咖啡超过三杯）的群体。大数据收集者从研究和预测群体行为的层面出发，而非对单个用户进行分析，在此种情况下，基于相关关系的预测不仅会影响个体，而且还会影响整个群体，使其有别于社会的其他群体［17］。数据驱动的决策涉及由单个个体组成的集群，并且直接地影响这些群组里的成员，这就需要在集体层面保护群体以及群体中的个体免受侵入性和歧视性数据处理造成的潜在伤害。

2 个人采取救济的困难性

相对于侵犯个人隐私而言，个人为集体损害寻求救济非常困难。目前的数据保护框架以数据控制者、数据处理者和数据主体之间的关系为前提，随着技术的发展，这些关系变得越来越复杂和不稳定：很难分清楚谁是数据控制者，谁的数据权利受到了伤害。

21世纪的数据隐私和歧视问题在于公众不再知道自己属于或不属于哪个群体，只有算法知道。数据主体不了解数据处理的具体运作与过程。个人和使用个人数据的组织之间经常存在信息不对称现象，用户可能知道他的数据被收集和存储，但却不知道这些数据将被如何使用［18］，也不清楚经营者和网络提供者实行的政策可能对其数据或者隐私造成的影响，如网络用户浏览网页时勾选Cookies同意的预选框可能产生什么样的具体后果。在大数据背景下，单个数据主体对集体的认知有限，他们可能并不知道自己已经被大数据归类到某个群体中，或对群体中其他成员的身份一无所知［19］,数据主体也很难意识到可能存在的潜在集体偏见［20］。在大数据分析领域，数据集体侵权事件由于流程的部分隐蔽性和复杂性更难被察觉，如数据挖掘使那些希望对受保护阶层采取歧视措施的雇主可以在第一时间否认对受保护阶层的任何了解［21］，这使得及时地发起诉讼十分困难。另外，网络提供者与作为消费者的用户之间权利悬殊，个人信息的价值包括自主价值和使用价值，以确保个人信息的独立使用，信息劣势方（网络用户）的自由意志和自由发展很可能受到信息优势方（网络提供者）的影响，最终导致损害［22］。

数据侵权行为不仅可能构成指向性侵害，即某一民事主体指向性地侵害其他民事主体（可以是一人也可以是多人）的人身、财产权利或者法益；还可能构成社会侵害，即对特定集体（又被称为“社会共同体”“集团”或“群”）的社会权益即集体权益形成发散性侵害［23］。数据保护司法困难重重的根源在于传统赋权模式过于笼统、抽象，数据权利缺乏制衡导致数据主体处于弱势地位，只能被动地承受数据被分析、被使用甚至被披露等一系列后果，在维权时，由于证据收集能力有限，容易陷入证据不能或证据不足的困境［23-24］。如今政府—平台—商户（消费者）、公权利—社会权利—私权利的三元结构和公、私并存的双重权利生态的生成，面对技术霸权和算法决策，私权利更为弱势，被困于“数字鸿沟”、算法霸权和监控社会中［5］。这就要求在数据和信息在公共性与私密性之间，在政府部门、业务平台、技术公司与消费者之间，在公法保护与私法保护之间，形成多元、平衡、互动、共享的数字人权保护机制［5］。个人寻求救济的前提是数据集体利益的确立。

3 数据集体利益权利化的提出

大数据滋生了三个悖论：①透明度悖论，即大数据广泛收集各种私人信息的同时，大数据本身的运作几乎完全被法律和商业秘密所掩盖；②同一性悖论，即大数据试图以牺牲个人和集体身份为代价进行识别；③权利悖论，即大数据以牺牲普通个人为代价，为大型政府和企业提供特权［25］。同时，大数据具有四大特点：大量（Volume）、高速（Velocity）、多样性（Variety）、价值性（Value）［26］。在大数据时代，单个自然人的个人数据本身没有价值，真正蕴含巨大经济价值的是政府和数据从业者收集、存储的海量个人数据［27］。大数据中的大多数人不是被描述为个体，而是被描述为一个特定群体的成员，因此数据主体不再是一个特定的个人或少数群体，而是数量庞大的未定义群体［28］。

牛津互联网研究所研究员Brent Mittelstadt将群体分为三种形式：①集体群体，即因集体利益、共同背景或其他明确的共同特征和目的而有意加入的群体（如工会）；②先赋性群体，即由遗传或偶然发展的特征所决定的群体，此群体通常不能在不重新定义群体边界的情况下被有意加入或离开（如种族群体、遗传病群体）；③特别小组，即根据成员之间的联系，为第三方利益而组织成立的团体，通常在一段时间或基于特定目的而组成，成员资格要求不稳定［29］。从Brent Mittelstadt的研究可以得知，前两种形式已经得到法律认可，而特别小组还未被法律承认为合法的权利拥有者，群组用户画像是特别小组的典型代表［29］。GDPR将画像定义为为了评估自然人的某些条件，通过自动化方式对个人数据进行处理，特别是为了评估自然人的工作表现、经济状况、健康、个人偏好、兴趣、可靠性、行为方式、位置或行踪而进行的处理［4］。我国法律尚未对用户画像进行明确的定义，但在《信息安全技术个人信息安全规范》（GB/T 35273-2020）中将用户画像定义为“通过收集、汇聚、分析个人信息，对某特定自然人个人特征，如其职业、经济、健康、教育、个人喜好、信用、行为等方面作出分析或预测，形成其个人特征模型的过程”［30］。并且在注解中还进一步将用户画像分为直接用户画像和间接用户画像：直接用户画像是指直接使用特定自然人的个人信息形成该自然人的特征模型；间接用户画像是指使用来源于特定自然人以外的信息，如所在群体的数据从而形成该自然人的特征模型［30］。画像是一个模式识别问题，与分类、概括和刻板印象相似［31］。画像不限于收集个人数据，还包括利用这些数据来评估与个人有关的某些方面，其目的是识别和预测客户的行为并据此做出决策。具体而言，画像包括三个元素：①一种自动化的处理形式；②针对个人数据进行；③目的是评估自然人的某些个人方面，预测他们的行为并就此作出决定。根据GDPR，如数据当事人要求停止画像，处理工作必须停止，除非数据控制者证明该反对凌驾于数据当事人的利益、权利及自由之上［4］。

企业为了自身发展越来越注重为客户提供个性化的定制服务，科技的进步和廉价的数据存储更是使得这一目标具有前所未有的可能性。从零售到出版、从公共服务到健康，我们在与组织互动的任何地方都留下了数字指纹和活动痕迹。这些组织热衷于利用这些信息，通过创建用户画像为我们提供更好的服务，或者为我们提供对他们而言更有利的服务。如，仲量联行公司与亚历山大·巴贝奇公司曾合作开发了一款名为Pinpoint的新工具来监控购物中心内的消费者，并向百货公司业主和零售商提供购物者的相关信息，包括客户来自哪里、他们习惯去什么样的商店以及他们会在那里停留多长时间等，以方便零售商进一步挖掘那些频繁到访的客户［32］。这些信息可被用于多种目的，包括评估广告是否有效地定位到目标客户，预测客户的未来购买行为等。画像可以通过描绘一个人的外在形象和内在偏好从而将其归入算法所创造的数字范畴中［5］，即使跟踪和描述的是个体消费者的行为，这些组织也会将其推广到多个个体，并将多个个体看作一个整体，如“商店顾客”这一群体从而进行预测。这刚好印证了信息哲学家卢西亚诺·弗洛里迪的说法，即大多数画像不是基于个体，而是基于个体作为一个特定群体的成员［33］。

群组用户画像被定义为“对个体用户画像进行聚类分析，采用不同的模型、算法与技术，从多个维度发现规模较大的用户群体，或将特征类似的用户归为一类，从而在提供服务时可以优先满足核心群体的需求”［34］。大数据分析所运用的数字集体标识符破坏了个人、身份和隐私之间长期存在的联系，被算法分组的个人在描述所在群体的信息如何生成和使用方面拥有共同利益［29］。这类分组方法的特点在于决策者对属于同一个由分析生成的群组里的个体采取通用的解决方案，决策过程并不考虑个体本身，而是将其作为具有一些共同定性因素的一群人或一个群组的一部分，并由此产生了社会中以前不存在的新群体，即各种个体的可变集合，这些群体的不同起源和形态使得有必要从集体维度对隐私和数据保护权利进行考察［17］。大数据时代的关注点不能只放在单个个体的隐私保护上，也要重视大数据分析技术带来的群体隐私威胁和保护问题［35］。

卢西亚诺·弗洛里迪认为，只要群体本身被视为一个个体（参见法人），那么按照权利归属于个人的逻辑，群体也可以成为权利所有者，如民族自决权就是由国家作为一个整体享有［33］。按照他的说法，在涉及信息交换的互动中，群体扮演着与个体相同的角色，权利可以同时由个人和个人组成的群体持有，只要在这两个层面上都存在形成身份的互动且这些相互作用构成了群体的身份（与个人情况一致），那么群体就可以被认为对控制这种身份感兴趣，这种利益就可以被正式承认为一个群体身份不受侵犯的权利［36］。因此，在评估分析平台的伦理可接受性时，“群体隐私”概念作为“平衡个人隐私和社会、商业以及认知利益”的第三个利益被提出［28］。卢西亚诺·弗洛里迪将群体隐私定义为作为一个群体整体持有的权利，而不是由其成员各自持有的权利［33］。群体隐私的概念挑战了社会、法律和伦理实践的基本基础，也挑战了传统的以个人为中心构建的隐私理论体系和实践［26］。

虽然法律致力于使个人权利和权利的补救措施更有效，但却忽视了保护个人信息的集体利益和确保这些利益之间的相互协作［37］。集体权利的主体不能被简单定义为个体的简单联合，集体权利的前提条件是必须适用于作为整体的集体。数据保护不仅关乎个人利益，而且影响整个社会的质量以及民主和多元主义等价值观，如限制不成比例的监视行为、防止基于敏感个人数据的歧视等［17］。然而，在相关权利被侵犯时，法院只有接收到权利所有者的投诉时才能处理案件，权利人可能对将这些问题诉诸法庭并不感兴趣，抑或压根不知道自己拥有的权益，抑或由于数据所有者和使用者权利的不平衡，无力对其利益可能受到的威胁作出有力的回击与反应。被大数据归类的群组由于缺乏集体代理和自我意识，无法采取行动保护自己的利益，因此，相关法律和监管制度应该作出相应改变，以符合市场的逻辑。

4 改变法律以符合市场逻辑

20世纪70年代发展起来的法律和思想已不再适合处理今天的现实。这里的问题是市场逻辑和法律逻辑之间根本不匹配。当代技术市场从集体数据中提取价值，然而我们的法律只对个人受到的伤害作出反应，并没有随着技术的变化而改变。伤害越是集体性，人们受到的保护就越少，也就越不明显；个人受害越多，其影响就越明显，受到法律保护的人也就越多。如果一个人因其年龄、性别或族裔等遭受歧视，他们本人非常清楚并且能够寻求法律补救；当一个人由于算法决策而受到歧视时，这种歧视很可能不那么明显，而且目前很难寻求法律补救。其解决方案在于为代表集体利益的群体赋权、推行严格的问责制以及制定算法影响评估机制。

（1）权利的悬殊在大数据环境中表现得尤为明显，数据主体很难反对数据收集者对其信息的歧视性使用以及针对其数据的非法处理，而代表集体利益的实体（如消费者权益保护协会）不太容易受到权利不平衡的影响。消费者协会作为联系广大消费者的纽带，能够将单个的用户连接起来，消除搭便车心理［38］，还能够在核实事实的基础上，努力解决纠纷，纠正互联网企业威胁或损害数据主体利益的行为［39］。在环境保护、劳动等其他领域，基于权利不平衡影响直接相关一方如雇员或公民的现实，也都采用了这种共同利益的集体代表方式。最后，基于个体的法律补救措施可能面临因赔偿数额低而导致缺乏起诉动力的问题。单个的信息可能不具备足够的诉讼价值，使得具备有限理性的互联网用户缺乏诉讼的动力［40］。此外，由大数据算法塑造的群体具有可变的几何形状，个体可以是多个群体的成员，个体也可以从一个群体转移到另一个群体，这种原子性的维度使得对集体表征的需求更为迫切［17］。

（2）要确保严格的问责制，需要具备以下要素。①确保关于大数据自动决策发生的地点和时间及其对个人和群体的影响是清晰以及透明的；②广泛听取公众意见和要求当权者为公众决定辩护的权利；③执行制裁的能力［41］。首先，政策制定者不应该只监管人们为了保护隐私而同意如何使用他们的数据，而是应该监管自动化决策，从收集、排序和分类数据的黑盒算法开始。这需要一种全新的监管方法，重点应该放在对自动决策的公众监督和透明度的类型上，包括揭示算法背后的现有数据和源代码、训练数据的目的以及对哪些群体产生哪些具体影响，这些操作需要确保在高危人工智能部署之前进行并定期更新。其次，明确而有针对性的透明度有助于揭示算法的影响和评估部署算法的机构是否正确使用数据，并清楚地说明由谁来收集使用数据并用于评估什么。此外，公众有基本权利要求当权者为他们的决定辩护，包括授权参与。最后，制裁权利是这些改革取得成功和实现问责制的关键，需要用法律来限制数据的使用和自动化，而不仅仅是对个人数据使用的限制。为此，社会还需要更新相关法律，如劳动法、未成年人保护法、生物安全法、环境法等，使其与社会发展相适应。

（3）企业和政府要制定算法影响评估机制，评估算法对群体的处理结果以及任何由数据驱动的集体伤害，确保这些评估的结果公开公布，并使公众有可能对自动决策的使用提供有意义的投入，将这种评估扩展为社区驱动决策的工具［41］。

大数据算法造就的歧视和差异性的影响越来越普遍，保护大数据环境下的数据利益，需要制定原则、规则和针对其损害性质的特别补救措施，关键的一步是将关注的焦点从对个人的侵犯和伤害转向对集体的侵犯和伤害。个人信息受隐私和数据相关法律法规的规制和保护。隐私权和个人数据得到保护的权利作为个人权利，无法覆盖数据集体维度的保护。解决方案在于为代表集体利益的群体赋权、推行严格的问责制以及制定算法影响评估机制。