大数据时代群体维度的数据利益保护路径研究
——以“用户标签”为中心

2022-03-25 09:40牛彬彬
关键词:群组数据处理标签

牛彬彬

引言:数据分析对象的基本单位转向——从个体到群体

个人信息保护法强调个体的不可识别性,侧重于在个体维度保护数据主体的隐私利益。这也符合大多数人的心理预期,认为自己只要不被他人不法识别,就可以保障自己的数据隐私利益不受侵犯。随着用户数量的不断增多和用户数据体量的不断庞大化,数据处理者的分析和学习对象也不再局限于个体,“不问因果,只问相关;只做归纳,不做演绎”[1]的大数据运作逻辑,使数据处理者的兴趣逐渐转移到学习并预测群体的行为上。此举可谓“一箭双雕”,群组级别的分析和处理,既可以避免精确识别个体,又可以极大提高数据处理和分析的效率。这也直接促进了群组推荐系统的出现和应用[2]11,数据分析的对象也从单个数据个体转变为具有共同特征的数据集群。以群体作为基本单位的数据分析与决策行为越来越普遍,数据驱动的决策程序从过去的“识别+分析”模式演变为“通过影响由个体组成的数据集群,并间接作用于个体”的过程(1)以数据群组为基本单位的数据分析以及个性化推荐的方法在数据分析和应用中的作用,可以在避免识别个体的前提下,实现群体化的个性推荐和定向营销,借以影响单个数据主体的行为。。

然而,群组化分类技术却对数据隐私保护提出新问题:在群组画像与决策中,越来越少地用到传统意义上的身份标识,在这一过程中创建了不能还原到个体的身份标识,个体在保持匿名的前提下,可以根据自身的行为、倾向和其他的特征被分类到一起,组成一个个单体式的群组。数据控制者通过作用于这些单体式的群组进而影响群组内的个体行为。由此,原本属于个体的、孤立的隐私利益彼此关联,同时也生发出群体层面的隐私形态,数据主体的数据隐私利益面临新风险:借助于算法模型通过分组方式进行的个体解析,使得公共组织或者商业机构能够以单体化的方式对分析或者决策对象进行完美歧视,并在这一过程中破坏甚至消解个人的完整性[3],导致算法世界中的歧视变得越来越普遍。不仅如此,通过对群体的解析,数据处理者还能够实现对群体行为的监视,并识别特定群组的性质甚至反向识别个体身份。由此,对于数据隐私的侵犯也开始从个体的窥探向群体的规模化影响转变。本文试图从超个体的“群体”视角发现新的个人信息侵犯风险以及其背后的因果逻辑。

一、数据驱动的群组形成机理及其作用机制

(一)以共同标签作为分类基础

数据和算法驱动所形成的群组并非杂乱无章,Floridi用极其浅显直白的语言说明了群组的形成逻辑:目的(为什么进行分组)——抽象方法(怎样分组)——结果(得到的组)[4]88。由此可知,发现和分析数据主体之间的共同特征是群组形成过程中最为关键的部分,此即Floridi所称的抽象方法,通过汇总展示个体成员偏好的共同标签,形成群组偏好模型,并将其输出为整体的偏好模型。因此,共同标签是生成一个群组的基本前提。

描述群组之内共同特征的标签可以称为共同标签,也有学者将其称为共享标签(shared lebel)[5]。共同标签是形成群组的一个关键元素,相当于一组数据的最大公约数,描述一个群组之内的数据主体共同拥有的属性或者行为倾向。标签是划分数据群组的一项重要参考,根据不同数据主体之间所拥有的共同标签,数据处理能够拥有一个个基于系统识别而获得的、以数据主体的行为或者属性以及其他因素为内容的、群组内各个数据主体相互联系的“画像”,或者称其为“群组画像”。这种画像是由成百上千个具有共同行为倾向的个体共同组建而成的,在一定程度上失去了个体指向性。而群组之内,一个个标签共同构成了群组的“身份画像”,数据只需要识别出具有特定行为特征或者属性特征的群组,即可通过算法间接实现个体控制。以差异化定价为例,数据处理者会根据消费者购买次数、浏览次数对网页浏览者进行分组,第一次购买或者浏览的会分在同一群组,而浏览多次的又会被分在一个群组,随后使用差异化定价算法,对不同群组内的成员做出不同的价格决策。正如某些学者所言,“从前粗放式的歧视定价行为已经演化为更为精准的消费者分组。在这一过程中,商家会为我们贴上一个个标签”[6]。这些标签成为数据处理者进行定价决策的重要参考。例如,某些专门为商业数据平台提供个性化推送服务的平台(如个推学院等),即在用户群中大规模提取用户的行为标签、场景标签、属性标签、兴趣标签以及针对特殊行业设置的定制化标签,并将其应用于商业领域中。

共同标签的形成有两种方式,一种是用户在接受服务注册信息时主动提供给数据控制者的,这也被称为显式的偏好获取;一种是数据控制者或者数据处理者在数据处理过程中,从已有数据中推断出的,这也被称为隐式的偏好获取[7]。前者是数据主体将自己的偏好或者兴趣主动提供给数据控制者,以便于获取平台提供的自动化推送服务。例如,在注册微博或者小红书等APP时,此类应用APP一般都会要求用户选择自己感兴趣的项目,便于其向用户提供信息推送服务。但是也有一些应用则并不要求用户提供相关的信息,而是通过用户的操作来推断其可能的爱好和行为倾向,最为典型的就是淘宝等购物APP网站,其根据用户的浏览、点击情况,推断用户的喜好,并进行相应的自动化推送。在这种操作模式下,数据处理者大多使用群组发现技术(2)群组发现技术是通过分析用户的历史偏好数据,然后将获取的用户的历史偏好信息结合聚类算法来构建群组。[2]12发现和甄别对数据处理者而言较有意义的数据群组。在此种群组内,共享标签的生成是自动化算法进行规模化运算后的结果。数据主体主动向数据处理者提供自己的行为倾向或者爱好等个人信息,在某种程度上是数据主体主动加入某群组的表现,数据主体虽然没有明确表示自己同意被划入某特定群体中,但是其主动提供自己信息的行为实际上就是以默示的方式表明允许数据控制者对自己进行划分。因为其相当于告诉信息处理者自己欲被划入哪一小组,并希望在向数据处理者提供标签之后获得更多的信息便利。但是第二种分组的方式是在个体不知情的前提下分析获得的,尤其是“算法黑箱”的存在导致数据处理者难以预料算法以何种方式对数据主体进行分组,数据主体也根本无法知晓数据处理者在数据分析过程中又被贴上何种标签。由于这种事前的不知情,第二种被动型分组方式将面临更大的歧视或者差别化待遇等信息侵权风险。

群组的“共同标签”使得特定数据集合具备了价值增量[8]229。在数据交易中,数据需求方根据数据标签可以被快速地确定购买对象,而数据供给方也可以根据群组的“标签”获得议价能力,能够极大地提升数据要素市场的活力,然而这也更容易引发跨场景分析和应用中的算法歧视风险,特定的群组可能成为算法歧视的对象。例如,数据交易平台中有一组经常寻找无糖食品的、被标注为“糖尿病倾向”的数据集合,如果被保险公司购买,这些用户可能会被标注为“高风险群体”,进而提高他们的保费[9]。在数据交易中,数据集群上的标签是数据的供给方和需求方确定是否就该特定数据进行数据交易的重要参考依据。线上的数据交易总是经过数据交易平台进行的,数据交易平台会将供给方提供的数据规格(规模、数量、格式、大小)、数据字段等基本信息和数据样例发送给需求方,需求方根据用户标签以及其他信息决定是否参与数据的竞价与购买[8]233。可见,具有共同标签的数据群组是确定数据价格的重要参考依据,是数据资产化的重要条件。

(二)以算法作为内在驱动

共享标签的生成与群组的创建是在算法的驱动下完成的,算法对于数字世界中群体的形成与创建起到决定性的作用。利用算法进行群组化计算(group computation),数据处理者在海量数据中寻找数据与数据之间的微妙关联,发现数据主体之间甚至数据群组之间的相关关系,具有相同或者相似行为倾向的个体经由算法的作用形成一个个群组化单体。群组之间的关联分析能够发现数据之间最为潜在和微妙的关联关系,由此生成连算法设计者都无法知晓系统生成的标签类型,由此形成新的群组[10],此即标签挖掘技术[11]。

目前的个性化推荐主要是通过群组化数据分析挖掘实现的,此种算法类型又被称为群组推荐算法。这种群组推荐算法是为了满足群体中所有成员共同爱好或者共同行为倾向而设计的算法系统,其涉及群组用户偏好获取、群组发现、群组偏好融合和群组推荐等几个方面。具体而言,群组推荐算法的工作原理主要分为以下三步:第一步,在对成员的共同属性或者行为偏好进行分析汇总的基础上形成用户群组;第二步,群组预测推荐,并对项目预测评分;第三步,推荐结果[2]12-13。目前,这种组推荐系统已经广泛应用于视频服务、购物、旅行、学习和餐饮等诸多领域,与传统的个性化推荐不同,群组推荐的对象是在用户的属性或者行为倾向上具有一定相似性的群组用户。由此可见,数据群组的发现,是数据时代算法发现并解析个体的重要路径,数据处理者按照自己的目的和方法将个人数据集群分门别类,并在此基础上实现对个体的支配。

具体而言,群组发现和群组偏好融合是群组推荐算法构建群组的两种主要方式。其中,群组发现是指通过分析用户的偏好数据,通过个体之间的相似度高低来划分群组。此种划分方式是针对显式的群组偏好获取。群组偏好融合是数据处理者使用偏好融合算法将所有用户的偏好转变为单个的群组偏好,然后推荐系统根据群组的偏好进行推荐[10]。后者主要用于用户隐式偏好的发现和获取,即通过用户在互联网中的行为推断用户的可能偏好,并在此基础上进行群组构建。在技术角度,偏好融合又包括模型融合群组推荐结构和推荐融合群组推荐结构两种[2]11。两种算法结构如图1、图2所示。

图1 模型融合群组推荐结构

图2 推荐融合群组推荐结构

程序之间合纵连横,极大提升了计算力,在大数据持续供给下,算法也具备了高效的分类筛选能力和超乎想象的预测能力[12]。以数据群组作为基本的数据分析处理基本单位的情况也变得越来越普遍,聚类分析、关联分析和预测分析等群组化分析模式得到广泛的运用,由此也推动数字社会中的数据分析进入超越个体的“群体化个性预测”时代。这种群组化、规模化的分析预测技术有意或者无意地增强了数字对人的干预能力,数据处理者依靠算法不断进行数据分类与社会分选,针对群体的歧视与差别待遇悄然发生,数据侵权的风险轮廓也随之改变。

二、“群体化个性预测时代”:潜在风险、利益分布与制度困局

(一)“群体化个性预测时代”的潜在风险

“群体化个性预测”中的数据处理活动呈现出处理批量化、群组行为同质化和部分群体边缘化三个特征。所谓处理批量化,是指数据分析对象不再是单独的个体,而是具有相同或相似特征的数据群组。群组的同质化,是指在规模化数据处理的背景下,群组内数据主体的行为可能会趋于同质化。数据处理者在进行规模化的数据处理过程中,通过持续监测组内用户并对用户不断扩大的数据配置文件并进行算法分析后,将数据反馈给系统的设计人员,算法设计者根据数据处理者的利益诉求重新配置算法应用程序,从而不断改变群组内个人的选择环境,使组内个别成员适应群组整体的行为模式[13]。通过“助推(nudge)”(3)“助推”是由桑斯坦和泰勒提出的概念,它涉及利用行为科学的洞察力来建构和选择架构,以“推动”人们采取福利最大化或服务于公共利益的行动。轻推式干预旨在通过优化人的选择架构,让人们的行为朝着预期的方向改变,以此帮助人自由地做出最佳选择。参见:贾浩然.助推及其对技术设计的启示[J].自然辩证法研究,2018(6):44-50.的方式,以数据处理者利润最大化为目的,并结合组内数据主体的倾向,针对性、目的性地修改组内数据主体的选择环境,潜移默化地影响数据主体的认知框架和价值选择,达到数据处理者所欲实现的商业目的,由此导致群组内个体的行为不断趋同。与此同时,算法系统也会自动将无法获得高额利润的数据群组排除在进一步影响的范围之外,系统性地边缘化那些对数据控制者而言低价值的数据群组、或者被潜在歧视的群组[13]。

然而风险也由此产生。算法是设计者按照一定规则解决某一类问题的、明确且有限的步骤[14],其往往从“最少努力”原则出发;同样算法设计者在进行算法设计时,共同标签就理所当然地成为数据处理者对数据进行分组的依据。长期以数据群组作为分析和处理对象,也会导致算法认知的范畴化和刻板化,范畴内部的相似性和范畴之间的差异性也随之被夸大[15],由此也就产生了同一数据在应用场景内群组内部的同质化和异质群组的边缘化,并进一步夸大甚至扭曲既定的偏见。由此观之,群组化分析技术虽具有诸多技术优势,但同时却削减个体主体性,个体成为混杂于群体之中的渺小颗粒,沦为数据处理者分析与控制的对象,其可能引起的负外部性社会效应不容小觑。

(二)群组数据的数据利益分布及其形态

新的风险催生新的利益形态。从“数据隐私”概念提出以来,传统的隐私概念一直经历着不断瓦解与重塑的过程,并形成以“对信息进行数字化或其他形式的收集、储存、流通、分享中产生的隐私期待”[16]为内容的数据化隐私理念[17],这也就意味着,数据时代的“数据隐私”概念已经超脱于传统私法概念上的以保持生活空间私密性或者以个人事务自决为基础的隐私形态[17],而更加注重具体应用场景中的隐私期待。群组化便是数据应用中的一种特殊场景,在由数据驱动所形成的群组中,不当的数据分析和处理方式诱发群组之内新的利益形态。

群组数据都是由单个数据构成的,所以在群组数据之上,个体利益是极为重要的利益内容。具体而言,群组数据中的个体大致享有如下利益。第一,接受适当推送的权利。利用大数据分析技术生成信息算法,极大增加了数据群组被攻击的可能性。以群组为单位的规模化用户画像并非是一种描述性事务,更多的是一种设计式的事务,群组的共同标签可能并不能完全反映组内数据主体的真实喜好。数据处理中的群组划分一般会使用偏好融合算法,这种算法都会经过一个取均值的过程。例如使用群组推荐算法所生成的关联推断,群组内用户的偏好可能存在差异,加之诸如随机化扰动等隐私保护技术可能导致自动化推荐的准确性下降,此时便不能保障群组内每个个体都能够接收到适当的推送。由此可见,以群组为单位的数据分析和推送模式,实质上增加了个体被侵扰的概率。因此,接收适当推送的权利有必要成为群组的一种特定利益,这在某种程度上与群组成员的安宁利益有相似之处。第二,避免被再识别的权利。群组之内的成员个体可能面临着被再次精准识别的风险,例如,如若一个群组是由“驾驶红色汽车”“住在某特定街区”“长头发”等特征组成,那么群组之内的个体很可能面临着被再次识别的风险。如果某数据群组中的共同标签越来越多,但是成员却越来越少,此时数据主体可能面临着被精准识别的风险。群体维度下,如何应对再识别风险,是制度设计过程中需要面对的问题。另外,群组与群组之间的重叠也可能会对隐私构成侵害。由于群组和群组之间存在成员的重合,群组和群组重叠交合也可能会加大反向识别和隐私暴露的风险。群组和群组进行合并时,同样需要评估样本的重叠情况,如果数据样本发生大规模的重叠,此时需要注意对再识别风险或者隐私泄露风险重新进行评估。

大数据分析对象从个体转变为群体之后,群组内的数据主体日渐形成利益统一体,具有相对统一的利益形态。第一,群体免受歧视的权利。数据群组内的成员是基于各个成员间所具有的共同特征作为聚类基础的,如果群组的生成以某些敏感的数据信息作为聚类基础,如种族或者宗教信息等,一旦经过算法分析,则可能会产生带有歧视性色彩的自动化决策。例如,美国信贷公司经常会采用社区整体评分的方式,对居住在特定区域的人的总体信用状况进行评估,如果某地区居住着大量低收入人群,则居住在该地区的所有人都有可能遭到信贷公司的负面评价[18]。数字环境下针对个体的歧视或者不公平待遇在很多情形下是由于某些敏感性信息的使用所导致。当群体分析用于政治营销目的时,通过群体的细分可以帮助竞选活动确定目标受众,这种细分正是根据选民的宗教、种族、民族、收入、教育水平、政党认同等敏感信息进行分组,敏感信息标签化后果的严重性程度由此可见一斑[19]。可能会有学者认为,如若避免用户敏感信息被收集,在数据收集阶段拒绝数据收集者收集自己的敏感信息即可实现[20],但知情同意框架仅在数据收集阶段能够发挥其相应的作用,某些敏感性信息标签的产生是经过数据处理者的数据分析之后得出的,事前的知情同意在避免数据处理过程中的标签化问题上很难发挥制度功能。第二,群体的隐私利益。例如,通过数据分析技术,可以轻易地分析出在互联网上匿名发表言论的人可能持有的政见,这些人可能被算法进行分类识别,进而受到政府或相关机关团体的监视(4)Jennifer Jiyoung Suh et.Distinguishing Group Privacy From Personal Privacy: The Effect of Group Inference Technologies on Privacy Perceptions and Behaviors Proceedings of the ACM on Human-Computer Interaction,2018,2(CSCW):1-22。例如,某些少数群体共同组成的线上讨论群,或者豆瓣小组,这些小组成员大部分没有办法在现实社会中找到相应倾诉渠道,如果类似于该群组被非法公开,其可能会侵犯小组整体的利益[21]。第三,群组成员的安宁利益。由于数据处理者使用偏好融合算法将用户的偏好转变为单个的群组偏好,所以系统一旦被攻击,整个群组之内所有成员的权益都有可能受到影响。算法错误自然可能会导致群组之内的利益受到影响,例如算法内部错误导致澳大利亚中央福利系统错误地向数千名公民发送债务催收通知,民众也因此感到不安(5)Karps P, Knous C.“Centre-link robot-debt program accused of enforcing ‘Illegal debt ‘”,The Guardian(4 April 2018).;除此之外,恶意的算法技术也可能会导致数据群组成员安宁利益受到侵犯,如数据伪装技术可以通过添加噪声的方法,将用户原生的数据进行变换处理,再将处理后的数据作为用户数据,并应用到数据处理过程中,由此一来,攻击者可能会向群组内的数据主体推送其不需要的内容,群组内数据主体可能会受到不必要定向广告的侵扰。

个人信息的双重性质[22]决定作为个人信息数据集合的数据群组的利益内容可能会超越个体私益,向公共利益领域弥散。利用算法进行的分组化技术对数据主体进行社会分类或者社会信誉评分,可能导致社会阶层的固化。例如,根据卡内基梅隆大学研究者的研究发现,某自动化算法决策系统给男性工作者高薪广告推广的概率是女性的六倍,其原因在于,自动化算法根据以往历史分析,发现很少有女性在高薪职位任职,因此得出“大多数女性对高薪职位并不感兴趣”的结论[16]。这一结论显然不合理,因为没有人不会对高薪职位感兴趣,这显然是对旧有的、带有歧视性的数据信息进行分析后得出的错误结论。由此可见,算法会根据带有偏见的数据或者数据集合,得出带有偏见的结论。从系统设计者的视角,其首要的目标仍然在于将用户的行为引到系统设计者首选的方向中,利用算法对大数据进行“分组化”“模块化”的分析,数据控制者能够发现并掌握不断多元化的社会中的一系列规律,将数字世界中的“算法分组”投射于现实世界中,形成“社会分组”;同时,算法系统性地排斥那些对其而言低价值的、不太可能为其带来高利润的群体,或者直接剥夺他们平等获得社会资源的机会,并将其进一步边缘化。由此,以群组化为基本模式的规模化数据分析的净累计效应不断蚕食人类已经形成的价值观体系,进而系统性、永久性地固化社会歧视类型以及既定的社会分层[19]。

数据群组之内可能潜藏着相应的国家利益,而且在某些情形下可能会有损国家利益。例如Strava是一个健身应用程序,该应用的用途是使用“热图”(heat map)来发现用户在何处运动,其通过匿名的方式收集用户的数据,以避免识别到个体、避免个人被追踪,然而该软件却能够轻松地展示出用户经常进行锻炼的地点,这是在对匿名用户的数据进行分类、聚合,并建构用户群组的基础上对所得出的结论。然而吊诡的是,美国通过这一方式发现了在阿富汗和伊朗地区的几个秘密军事基地,直接侵害了相关国家的军事秘密,严重威胁其国家安全以及士兵的生命安全。由此观之,虽然匿名化在很大程度上保护了个人信息不被泄露、个人身份不被识别,但是这些数据仍然对被描述的群体造成一定威胁。另外,发生在20世纪的哈佛大学在我国安徽偏远农村进行大规模的血液、基因样本筛选和采集的行为,以及2015年华大基因科技有限服务公司未经许可将部分人类遗传资源信息从网上传递给英国牛津大学的行为(6)中华人民共和国科学技术部,国科罚(2015)2号。,这些行为不仅威胁到社群隐私利益,甚至可能会影侵害国家层面的利益[16]。这种对于国家利益的侵犯,在较为贫困和经常发生动乱的发展中国家表现得尤为突出,在那里,行为人以特定的群体作为攻击目标,发送威胁性短信,目的在于对特定群体传播恐惧,进而威胁这些国家公民的生命财产及健康[23]。

群体维度下数据利益形态使得数据隐私的概念进一步向纵深延展,其一方面对个体数据隐私利益的保护具有补充意义,另一方面它也具有超脱个体的政治或者社会意义,这些都是大数据时代“数据隐私”概念的应有之义。

(三)“群组化个性预测”中数据利益保护之制度性缺失

《个人信息保护法》在一定程度上体现了群体利益保护的内容。例如,针对敏感信息的使用做出严格规定,数据主体如若收集并利用数据主体的敏感信息,需要经过数据主体的单独同意。这在一定程度上限制了数据处理者肆意利用敏感信息进行分组的行为。另外,自动化决策的反对权貌似在一定程度上可以对抗群组决策所带来的诸如刻板印象、反向识别风险等一系列问题,但是它仍然无法完全对抗大数据时代的群组化所带来的一系列风险。

第一,被虚置的匿名化规则。根据《个人信息保护法》的规定,个人信息在经过匿名化程序之后就不再是个人信息,如此一来在法律上数据的处理行为就与个人没有任何联系,然而事实是,通过数据分类、分组和标签化,数据处理的结果可能仍然影响到个体,数据主体还是避免不了“被标签化”的命运。群组化数据分析技术完美地绕开匿名化的影响,以群组为单位发现、分析与作用于对象,并借此对个体的行为产生影响。

第二,形式大于内容的自动化决策反对权。有学者认为,反对权或者《个人信息保护法》中所规定的“要求数据处理者为数据主体提供不针对其个人特征的选项”,赋予数据主体对抗算法权力的重要武器,数据主体可以此直接排除算法对个体的影响和支配。但在“算法歧视”“算法暴政”等舆论影响下,数据公司可能会因为人们大规模拒绝自动决策算法的应用而彻底失去享受大数据红利的可能,数据主体也可能因此难以提升互联网的使用体验[24]。另外,利用自动化决策的反对权来保护数据群组内的利益,仅仅能够有限对抗决策类算法应用,反对自动化决策仅仅是在结果层面对歧视性算法的一种事后规制,很难满足人们对于透明度的要求,因此也难以对抗隐蔽的群体性分析和监视行为。

第三,标签化管理制度未尽完善。《互联网信息服务算法推荐管理规定》中第一次提出数据处理者的标签化义务,并要求数据处理者加强对用户的标签化管理,并向用户提供修改、删除用于算法推荐服务的用户标签的功能。这在很大程度上补足匿名化与反对权等保护制度的局限,但仍面临如下问题:第一,标签化实际上是数据处理者在处理用户数据过程中产生的,从根本上看,此为数据处理者的劳动所得,其缘何之故赋予数据主体以修改、删除等一系列等同于个人信息处理的操作,用户标签在何种意义上等同于个人信息,这些恐怕仍然需要在理论层面一一予以探讨。第二,标签化的通知局限于存在算法推荐的应用场景下,但是在其他场景下,标签化似乎也存在应用之必要。利用Strava软件发现秘密军事基地即为一例;在很多并不明显的系统性决策中,被算法系统性地排除在某种机会之外的人,根本无法发现这一现象,也无从反对。例如,上文中女性很难发现自己获得高薪工作的机会早就被算法系统性地排除[13]。实际上,数据处理者对数据主体的标签化管理,不仅仅局限于算法推荐的场合,在算法决策中,标签化的告知与管理似乎更加必要。

三、数据群组的法律性质争议及其保护路径选择

(一)概念争议——“群体性隐私利益”

学界对是否存在群体性隐私利益存在分歧。第一种观点否定群体性隐私利益的存在,目前也没有哪个国家的立法承认这种群体性隐私利益。第二种观点认为,群体性隐私毋宁是个体性隐私利益的集合,保护群体性隐私的目的仍然在于保护群组之内组成人员的个人隐私[25]。群体性隐私利益是每一个个体在经过妥协之后所形成的一种隐私利益形态,如自己通过与他人分享自己的隐私,从而与他人形成一种隐私利益的共同体,在这样一个隐私利益共同体内,大家各自都可能会对自己的隐私利益加以妥协,并在此基础上形成隐私共同体。当群体的隐私利益遭受侵害与威胁之后,个体的隐私利益也会随之遭受侵害。第三种观点认为,群体隐私利益是一种独特的利益形态,其并不是个体隐私利益的集合,第三方对群体隐私的揭示可能并不必然伴随着个体隐私利益的侵害,因此应当设立一种独立的群体隐私权,并赋予符合法定条件的群体以法定权利[25]。群体隐私的构想,旨在保护群体身份的完整性,因为群体身份的共享对于个体的隐私利益也存在重大影响[26]。第四种观点认为,群体隐私利益的确是一种较为特殊利益形态,但其并非一种特别权利,而是作为一种利益形态出现[16]。数据群组之上存在的私人利益和公共利益证明第一种观点显然不能成立,而数据群组之上所具有的公共利益和国家利益,则说明群组维度的数据隐私利益不可简单地认为是个体隐私利益的集合[23],所以问题的关键在于能否赋予特定数据群组以独立隐私权。

一般而言,社会交往活动中群体的形成是基于一定的社会单元、一定的活动场域或者一定的身份关系,即某种特定的社会关系。群体中的每一个个体对于自己所属的群体性组织具有一定意识。美国的Edward Bloustein首次提出“群体隐私”(group privacy)的概念便是基于这一场景,在他看来,群体隐私是“一种人们在寻求与他人联系时的隐私形式。群体隐私是个人与群体中其他人发生联系的属性,而不是群体本身的属性”(7)Edward J. Bloustein,Individual and Group Privacy,New Brunswick: Transaction Books,1978,p.124.[16],如针对某个群体所形成的隐私利益。显然,Bloustein并不认为“群体隐私”作为一种独立权利,其仍然停留于个体维度讨论隐私利益的保护;将隐私权概念真正推进到群体层面的则是Floridi,其认为数据驱动形成的群组具有独特的隐私利益形态并应受特殊保护[27]。数据群组之内的个体之间联系十分紧密,在属性层面具有高度相关性,如某个群组之内的数据主体具有相似的性格特征、行为倾向或者爱好,进而导致隐私利益具有高度一致性;而分散的、无规律的数据,在以属性或者行为倾向加以抽象之后,其可被再识别的风险更高。由于这种个体与个体之间的共同特征,群组之内的个体成为一个“一荣俱荣、一损俱损”的利益共同体。

(二)概念驳斥——中国法语境下难以接受群体隐私概念

首先,我国私法理论中并没有群体隐私的概念,虽然曾有学者提出过类似于“群体性隐私”的概念。杨立新提出“人格利益准共有”概念以保护特定群体内部共同的隐私利益,认为人格利益准共有的典型表现就是相关隐私,它指的是民事主体之间有着共同内容的隐私[28]。例如,家庭成员之间所共同保有的隐私利益内容,各权利人对此种隐私利益享有共同的支配权,应当注意对共有成员的保护义务;在遭受侵害之后,群组之内的每个成员都可以提起诉讼,且诉讼结果给予群组之内的每个成员。但是杨立新认为,家庭等社会群体并非民事主体,所以也不存在“集体隐私权”,不过是一种相关隐私。我国主流学界至今也不承认“集体隐私权”或者“群体隐私权”的相关理论。

其次,数据群组缺少主体性特征,难以赋予其独立的权利。传统私法理论下,独立的主体地位是特定组织或者共同体享有私法权利的前提,但数据和算法驱动形成的数据群组与现实社会交往语境中的群组具有以下不同特征,这使得我们很难赋予特定数据群组以相应权利:(1)动态性和临时性。在现实的社会交往活动中所形成的群体更加稳定,由于一个个社会群体的形成总是基于个体之间存在的社会关系,因此群体的各个成员之间的联系更加稳定和紧密,在此基础上所形成的社会群体关系也较为稳定。但是数据应用场域中,数据群组的形成是基于数据主体之间的某种关联关系,利用算法临时性地将代表特定数据主体的数据集划拨为一个群组。由于大数据的种类繁多、处理速度快,导致群组之内成员更新换代的周期较短。所以在数字世界中,数字群组在形态上并没有一般社会群体那样稳定,群组成员也并不固定。(2)不可感知性。大数据分析中的数据群组不同于一般性社会群体的另一个不同之处在于群体组织生成的消极被动性。在社会交往活动中,在特定的社会群体内部,无论群组内成员的加入方式为主动抑或被动,其组成人员一般都能够意识到自己成为或者将要成为群组内成员的事实,但在数字世界中,数据主体无意识地被算法汇聚到一个群组中。(3)隐秘性。数据环境下的群组具有隐秘性,现实社会交往中形成的群组具有相对公开性。一个社群或者组织,社会公众总是能够通过各种方式发现这一社群的存在,但是在数据环境下,很难了解一个通过自动化算法组合到一起的群体组织,不仅社群成员自己没有意识到自己被划归到特定群组中,就连算法设计者或者数据处理者都不知道某特定群体的形成,遑论赋予群组以权利。(4)存在的利他性。现实物理环境下所形成的群组总是存有特定的目标,这种目标或者是为获得情感上的慰藉,或者是为了更好地实现自己的诉求,或者是为了共同营利的目标;在数据环境中形成的群体,尤其是在自动化算法驱动下所生成的群组,其存在的根本目的在于提升数据控制者的利益,例如通过群组细分提高信息推送的效率以攫取更多利润,在数据处理者达成目的之后该数据群组也就无存在价值了。

最后,数据群组之上的隐私利益呈现出随机性和不确定性。数据信息具有的公共性和共享性导致数据隐私利益形态处于一种不甚清晰的状态。所谓随机性,是指数据之上的隐私利益形态是随着技术应用场景和数据处理阶段的不同而有所变化;所谓不确定性,是指数据隐私利益可能会因人而异,即数据隐私的异质性[29]。由此观之,由数据和算法驱动形成的群组同人们在社会交往关系中所形成的群组并不相同。这种数据群组之上的利益主体与利益形态均不稳定,不具备群体层面身份的独立性与完整性,也很难将数据群组作为一种特殊的利益主体进行保护。

(三)另辟蹊径——用户标签化管理与保护

《互联网信息服务算法推荐管理规定》或许为保护群体维度的数据利益提供了新的思路,其中第十五条第二款规定:算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能。此处用户标签之法律性质为何?用户标签由数据处理者所发现和挖掘,为何允许用户修改、删除?其规范基础在何处?用户标签是一种超越个人信息的形态,由数据处理者利用算法进行大数据挖掘之后所获得的、关于用户属性或者分类的重要信息,因此,用户标签在本质上是数据主体在对个人信息进行分析基础上所得出的“衍生数据”或者“推论数据”。

推论数据究竟是否属于个人数据?这一问题目前学界存在三种观点:否定说、肯定说和折中说。否定说的主要理由是,推论数据的读取难度较大(8)在卷积神经网络中,算法决策所依赖的机器学习模型群,对应着不同层级的信息簇,除直接来源于信息主体的初始信息之外,其余所有层级的信息簇都是数据主体所难以理解的推论信息。参见:唐林垚.《个人信息保护法》语境下“免受算法支配权”的实现路径与内涵辨析[J].湖北社会科学,2021(2).,因而讨论推论数据的规范意义微乎其微。也有学者认为,分析数据并非个人数据,因为其已失去了个体指向性,是数据处理者进行数据分析后的结果,其权利属于数据处理者。肯定说则认为,推断数据虽然并非对物理世界中数字主体的数字化复刻,但即便如此,推论数据仍然具有一定程度的可识别性,且个人对推断数据仍然享有一定程度的合理期待[30]。持折中说的学者认为,并非所有数据都属于个人,如果在第一个步骤中所处理的是非个人数据,那后续步骤自然不涉及个人数据的使用问题。如果画像是在匿名画像的基础上作出的,则这一过程并不涉及数据主体个人信息的使用,即便是能够据此推断相应数据,也并非对个人数据的使用或者处理,但是如若在画像过程中使用的是未经处理的个人数据,则应当属于对个人数据的处理[31]。更有学者对个人信息的定义提出质疑:个人数据应当摒弃以“识别”(包括“已识别”或者“可识别”)为核心的个人数据定义,转而应当强调数据使用过程中的“可及性”,因为“识别”早已经不是数据处理的核心或者必要步骤,在数据处理实践中,完全可以越过这一步骤,直接实现对个人的影响或者控制,而对于数据主体的控制或者影响才应当成为信息保护规范着重规制的内容。

从目的论角度看,推断数据在某些情形下仍然应当纳入个人数据的范畴。诚然,推断数据并非物理世界中的主体在数字世界中的映射,而仅仅表示一种可能性或者倾向性,通过该种推断数据单独或者与其他数据结合可能也无法识别到特定的个人。由此观之,推论数据的确在某种程度上失去了个体指向性,但我们不能就此绝对否认推断数据与个体的关联性,因为数据主体仍然会因推断数据而被数据处理者所控制或者影响。我国《个人信息保护法》第四条对“个人信息”的定义采取“识别+关联”说,这一界定方式在某种程度上扩大了个人数据的范围,即便是不具备识别性的个人数据信息,由于其仍可在某种程度上影响数据主体,故而仍然建议将其作为个人数据的范畴。从规范保护目的角度看,用户标签由于其同个人的关联性,同样应当纳入个人数据的范畴。

至此,数据处理者的告知义务,其合法性源于推论信息与个人信息之间的密切关系,用户标签作为基于用户个人数据的推论数据,由于其仍然可能会对用户的行为产生影响,故仍属于个人信息的范畴,因此在某种意义上,标签化告知是“知情同意”义务的一种形式。

四、“群组化个性预测时代”的数据利益保护措施——用户标签化管理

(一)完善数据权利体系——标签化告知义务

1.数据处理者履行标签化的告知义务

数据处理者的数据标签化行为使数据主体的个人信息与隐私保护面临更加严重的威胁[32]。数据处理者应当履行更加严格的告知义务,尤其是在数据处理之前或者数据处理过程中,应当及时告知群组内用户的标签化情况。由此一来,个人信息主体能够大概知晓其在数据处理者处的分组情况。如果发现数据处理者推送的标签对个人信息主体而言具有一定的敏感性,数据处理者可以及时采取措施。为了对抗数据分组对公民个人信息带来的安全和隐私侵犯威胁,美国的信息委员会办公室要求数据处理者增加“监控和评估表现”这一项目,告知数据主体以“标签化”“隐私泄露的风险评估”等分组,以及其面临歧视与识别风险等情况,以此来增加数据处理过程中的透明度。

标签化的告知义务在技术层面是可行的。机器学习是数据分析技术的主要应用方式,其中包括监督学习、无监督学习和强化学习三种主要学习方式。其中,监督学习由数据处理者自行对数据类型设置标签,在此基础上发现数量相关关系;无监督学习是由算法自行发现数量相关关系,但是只要数据处理者及时进行监督,依然可以发现算法分类的形式并进行标签化的操作;唯一存在问题的可能是强化学习技术,这种机器学习形式由于是自行发现数据处理结果的最优路径,因此其运作逻辑相对而言一直处于技术黑箱之中,很难为他人知晓。对采取第三种算法运作逻辑的数据处理者,要求其承担标签化告知义务似乎较为苛刻,但是仍然需要尽最大可能揭示算法运行过程中可能应用到的重要参数,并告知数据主体。这种标签化的告知义务目前已经应用于某些数据处理者的数据治理实践中。在2020年11月8日,苹果公司强制性要求各个APP 添加“隐私营养标签”,就像普通营养标签上列出的成分和卡路里含量一样,用户在应用商店中下载相关的应用程序之前,就需要就收集信息的类型,对可能进行的处理和操作进行说明。这些隐私标签,能够帮助用户更好地了解应用程序内部的情况(9)何渊,突发!苹果要求APP添加隐私“营养标签”,从12月8日开始,载“数据法盟”公众号,2020.11.8。另外,苹果的开发者网站也要求开发者公开他们和第三方合作伙伴收集的所有信息,并使这些“标签”保持实时更新。

根据分组方式的不同,同意可以分为明示的同意和默示的同意两种。数据主体向数据控制者提供自己的信息时,应当推定数据主体同意以被分组和标签化为代价换取更加便利的服务,此时,我们可以默认数据主体是同意自己被标签化的。但是,对第二种分组方式,也就是通过数据分析的方式获取用户标签并在此基础上进行分组的,则必须采取明示的方式,需要向用户明确可能面临的分组以及相应的变量参数,并赋予其随时退出的权利。正如某些学者所言,应当设立民主化的数据收集和选择退出机制,指定算法考量的数据点及其意义[33],而标签化信息正是重要的数据点,应当纳入数据处理者告知义务的范围内。域外也有学者提出,对于某些结构化的数据群组,可以考虑为此类群组设置一个代表人(representative),其可以监督群组之内的标签化情况,一旦群组之内出现敏感信息标签,代表人及时通知组内的相关成员[34]。可能的办法是,通过算法审计的方法,事先识别并发现群组之内的潜在的利益集群,并在此基础上增加群组内成员的自我意识,并赋予其管理群组的权利。但是这种方式是否可行,笔者仍然对此持有疑问(10)此种观点认为,应当赋予数据群体参与数据治理,但是被动形成的群组成员应当如何实现自治,某个群组成员在多大程度上能够代表小组之内所有成员?这些问题仍需进一步讨论。。

2.增加限制处理权

拒绝自动化分析的权利,为我们对抗数据主体的自动化分析行为提供了相对有力的权利武器,但是需要明确的是,这种自动化分析仍然局限于个体的识别层面[35],而现在的用户画像大多是在群组层面进行的,直接绕开了识别的过程,所以在应对这种新类型用户画像技术时,反对权的作用必然是有限的;我国《个人信息保护法》中所规定的不针对其个人的个性化选项,仅仅局限于结果层面,并不包括数据处理过程中的数据分析行为。正如上文所述,数据主体的隐私利益在数据处理过程中即已存在,限制处理权可以将限制的范围扩展至算法监视层,直接针对数据处理者利用分组算法进行监视的行为。配合标签化告知义务,数据主体能够及时了解被标签化的情况,更加积极地应对算法反向识别、隐私泄露等风险,与此同时,也可以更加放心地接受以群组化分析为基础的数据服务。另外,限制处理权也可以发挥自力救济的功能[36],在数据主体根据标签化的情况及时感知数据利益被侵犯的风险,在数据主体来不及使用算法解释权请求数据处理者解释算法运行逻辑时,或者仅仅希望维持数据处理的现状时,可以通过限制处理权限制数据处理者的数据处理行为。通过“限制处理权+反对权+算法解释权”三权配合,辅之以标签化告知义务,真正实现透明度原则的要求。

(二)强化数据处理中的义务——用户标签管理义务

强化对数据处理全过程的监管,需要在我国全面确立“算法影响评估”制度[3]。在技术领域中,算法影响评估是指对自动化决策系统的稳健性、公平性和可解释性等特征进行的评估(11)参见张欣.个人信息保护法(草案),载“网络法理论与实务课程”公众号,2020.10.22.。我国的算法风险评估,尤其是《个人信息保护法》中所规定的风险评估,更多地集中于事前,如第五十四条仅仅要求数据处理者事前的风险评估义务,但是对于事中的风险评估问题却没有提及。而数据处理者大规模地应用算法进行分组处理和分析数据的做法,导致自动化算法产生突发性的风险隐患成为可能,数据处理者不仅应当重视事前的风险评估,而且也需要关注数据处理过程中的风险评估。数据处理者应当及时地将分组和聚类的情况告知数据主体,确保算法的可解释性,重视组内群体成员的反馈情况。使用数据群组发现技术(group-inference technology)的数据处理者,应当及时向监管部门报备,并在数据处理过程中接受审查部门的评估和监管。监管部门应当注意数据处理者对共同标签的设置与挖掘,具体包括以下几点。

第一,应当注意数据处理过程中敏感性标签的设置,如以性别、民族、职业等用户的敏感信息作为标签进行处理时,除非数据处理者希望通过敏感标签的使用以促进结果的公平,否则算法得出歧视性结果的可能性也就大为增加。这种评估不仅仅限于事前的风险评估,也包括在数据处理过程中,利用自动处理系统所生成的一些反映敏感性信息的参数,这些都可能导致歧视性分析结果产生。因此,监管机构应当注意在评估利用算法进行数据处理过程中产生的参数或标签类型,并进行实时预警。

第二,应当注意标签数量和复杂程度的设置。一般而言,数据群组内标签越丰富,造成歧视性结果或者差别性待遇的可能性就越小,而算法运算标签或者参数越少,由于评价标准单一,造成歧视的可能性也就越高。例如,在算法设计中,仅仅按照性别进行简单的分组,可能会导致以模块化为目标的简化思维[37],由此极大地增加算法歧视发生的风险。为应对这一问题,一方面,需要数据控制者全方位地搜集数据,提高数据样本完备性,避免在简单分组基础上的片面化分析与决策。优化数据群组内的参数设置,尽最大可能地解构并消融群组内的利益内容和比重,将权益侵害的风险降到最低,这样既可以相对简化保护策略,也可以尽量避免单向化思维和简单策略造成的刻板印象,防止群组之内的歧视。所以,在数据分析和处理过程中,可以将标签参数的复杂程度作为风险评估的一项重要标准。需要注意的是,标签参数设置过多,也可能导致个体的精准识别,如若享有共同标签群组内的个体数量较少时,需要严格评估其再识别风险,防止数据利用侵犯个体的信息隐私利益。

第三,审核标签设置的方法。分组标签的设置方式主要有两种:一种是基于经验的标签设置,一种是基于数据模型的标签设置。对于前者而言,数据群组的标签设置本身带有数据处理者的先验预设,如在求职者数据中设置性别分组,对女性可能会存在较高的歧视风险。此类未经过数学逻辑证明的、带有数据处理者或者算法设计者先验预设的标签类型,监管部门应当加大审查力度,要求数据处理者或者算法设计者在进行算法报备义务时,说明标签设置的原因、目的、必要性等理由。例如,美国证监会要求所有人工智能投资顾问的底层算法必须嵌入“法律识别标识符”,防止算法设计者在算法中预设有损投资者利益的代码[38],以明确的方式在其底层代码中加以标注,并报监管部门审核。另一种标签类型则是在数据处理过程中使用群组发现技术和偏好推荐算法等技术手段发现或者生成的标签类型。此种标签虽然通过数据分析技术获得,但如若作为训练样本的数据本身带有偏见,则数字歧视仍然无法避免。对此,数据处理者应将数据预处理和产品内测作为前置程序[39],并将某些数据主体的敏感特征设置为算法学习禁止学习并使用的特征参数,如若通过数据预处理发现算法特别善于对特定特征进行预测或推断,则可以预先设置禁止算法推断的内容标签,或者通过其他技术手段降低其特征预测性能(12)系统不仅要学会预测结果,也要学会禁止预测特定的信息。见:Blass J. Algorithmic advertising discrimination[J]. Northwestern university law review, 114(2019).,以此防止算法的隐私侵犯和特征歧视风险。

第四,数据群组的利用应符合目的限制原则,且尽量避免群组数据作为整体的多次利用[25]。正如前文所述,规模化歧视形成的一个重要原因在于可能存在歧视风险的历史性组群的重复利用。这也就要求数据控制者在实现特定目的之后,充分评估某些历史性群组存在的必要性与合理性。如果允许某些具有歧视风险群组的反复、多次利用,可能会造成群组内数据主体陷入长期的歧视风险。数据处理者应当充分衡量数据分组的必要性,在实现特定的数据分析目标后,及时清除某些可能导致歧视的群组。笔者建议由独立的第三方机构预先对数据群组之内的利益内容进行充分评估,并进行平衡性测试,协调数据处理过程中多元利益主体的利益平衡。

(三)完善事后救济体系——基于用户标签的个人信息侵权认定

《个人信息保护法》第七十条规定:个人信息处理者违反本法规定处理个人信息,侵害众多个人的权益的,人民检察院、法律规定的消费者组织和由国家网信部门确定的组织可以依法向人民法院提起诉讼。由于个人信息的匿名化、信息侵权的隐蔽性等诸多原因,个人信息侵权的认定往往面临诸多困难。而用户标签化的告知义务,不仅能够增加数据处理过程的透明度,而且也可以借此判断自己的数据信息有无被过度或者错误分析。具体而言,基于用户标签的个人信息侵权主要又可以分为以下三种情况:(1)用户标签内容错误,或者带有贬低人格的价值色彩,如用户标签中出现“拖延症”“色情”等有辱人格的内容标签,用户可以此要求纠正违法标签信息。(2)超出用户授权范围和使用目的,此时用户标签本身并无主观价值倾向,但实际的数据分析过程可能会超出实际授权范围,如在购物应用中,如果数据主体明确不同意平台收集使用自己的性别信息,但是用户标签中却显示了诸如“时尚杂志”“化妆品”等具有性别倾向性的标签时,则足以认定数据处理者存在过度分析用户数据之嫌疑。对数据主体造成损失的,应当承担相应的侵权责任。(3)存在基于用户标签的歧视。用户标签也可作为判断算法歧视的一项重要因素,用户标签在某种程度上可作为算法参数可视化的手段,借此判断算法决策是否存在歧视嫌疑。如在商业贷款场景下,数据处理者通过数据分析与挖掘之后得出“居住于城市郊区”的标签,通过测试,如若发现该标签同算法作出的拒绝该群体向银行贷款的算法决策之间存在高度关联性,则可能因“居住地区”与“用户的信用状况”之间无直接的、合理的关联而存在歧视之嫌疑。

五、结语

用户标签化告知与管理是应对“群组化个性预测”时代个人信息保护问题的新思路,其补足了以“算法解释”和“自动化决策反对权”构建起来的、针对“算法权力”的对抗式权利救济体系,提高了数据处理过程中的透明度。其试图建构一种数据主体同数据控制者之间的“对话与协商机制”[9],在兼顾数据处理与利用效率的同时,也加强对用户数据利益的保护。但是,用户标签管理制度仍然处于尝试设置阶段,存在诸多有待解决的问题,如用户标签的告知内容与范围、人工智能深度学习中的标签挖掘与告知义务,等等,皆有待进一步探索。

猜你喜欢
群组数据处理标签
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
Boids算法在Unity3D开发平台中模拟生物群组行为中的应用研究
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于MATLAB语言的物理实验数据处理探讨
让衣柜摆脱“杂乱无章”的标签
科学家的标签