论智能裁判中的个人信息保护

2021-12-03 12:38李忠颖陶彦伶温州大学法学院浙江温州35035北京德恒温州律师事务所浙江温州35000
关键词:裁判个人信息当事人

李忠颖 陶彦伶(.温州大学法学院,浙江 温州 35035;.北京德恒温州律师事务所,浙江温州 35000)

世界经济论坛于2018年1月发布报告并指出,我们已处于第四次工业革命之时期,科技演进已涵盖数字化平台、区块链、大数据分析、人工智能等多个方面,多种技术全面与社会生活产生联系,任何领域都无法避免①。有学者指出,未来的发展将成为“连接一切到智能系统的数据主义[1]”。因此,人工智能与司法相结合,探索人工智能在司法裁判下的运用与发展已成为当务之急。

我国各地司法实践也已经对此展开积极探索。浙江省高院发布AI 法官助理“小智”参与民间借贷庭审活动,并根据庭审进程同步生成判决书[2];河北高院研发“智慧审判支持”系统,通过对电子卷宗的编辑处理,辅助法官撰写相应法律文书;北京法院的“睿法官”系统依托审判信息资源库,为法官判案提供审理规范和办案指引[3]。此外,上海刑事案件人工智能辅助办案“206”系统、广州中院“智审辅助量刑裁决系统”、江苏法院“同案不同判预警平台”等,都充分展现出各地法院积极改革、拥抱现代化、加速朝技术创新迈进的风向。

就目前的立法规制及行政举措而言,智能裁判的发展势必带来对传统个人信息保护的冲击,并给裁判的公平公正性提出了新的难题。因此,本文试从智能裁判运行的维度进行讨论,并提出在智能裁判中所存在的隐私泄露的风险及歧视性裁判的风险,并从技术、法律层面提出对个人信息的保护建议。

一、个人信息采集和智能裁判的运行

人工智能裁判,其含义为利用计算机系统对人类思维模式进行模拟,通过采集现有的判例数据以归纳法院的判案模式,从而进行法律推理,最终仿造法官针对具体案件做出的裁判模式。人工智能裁判的程序运作相对稳定、统一,比之人类,可以更少受到外界因素的干扰,从而做出具有一贯性的判决[4]。

论及人工智能的基础,均是围绕着机器对于海量数据的采集与辨识做出。虽然并非所有的人工智能系统在数据收集中都涉及个人信息,但司法裁判中,由于参与者均属于“人”这一角色,即使是作为公司方的拟制化“法人”,应诉出席的法人代表也当然具备“自然人”的一般属性。故此,无论是从裁判立案程序中的当事人身份信息、联系方式②,还是从具体案例中所提取出的当事人多次诉讼记录、某类案件的群体画像、累犯的再犯性风险评估等,都需要用到对个体信息的采集和使用。

那么,智能裁判系统中的这些个人信息又是从何处而来呢?可将其分为两部分:个案裁判中直接向当事人收集,或通过与本案无关的其他渠道收集获得。例如智能裁判系统中此前存有的数字化信息并不会被删除,而且会被系统留档存储并将裁判内容上网公开③;或者是通过追踪当事人在其他平台、系统所留下的个人印记,由人工智能自主进行匹配等。而这些信息,就可能对个人隐私造成侵害,或带来歧视性的裁判结果。

二、个人信息采集及使用中的隐私风险

智能裁判的搭建,本质上可以理解为是一种对个人信息有着高度依赖性的智能系统,例如以对当事人的人脸识别取代传统的身份证查验,裁判系统中直接搜索到当事人的其他诉讼活动记录,或者是针对犯罪嫌疑人的行为轨迹签发逮捕令等。但反过来说,这样的数据收集,则可能又成为对个人行动的监控,甚至是对个人隐私的侵犯。“你可能没有任何不法行为,但也因关联被带到法律实施的聚光灯下。这种情况下,他们可以检查所储存的关于你的一切数据[5]”。

(一)个人信息采集中的隐私风险

对数据采集中隐私风险的预防性措施,目前存在着大概三种解决方案:1.取得当事人事前同意,2.遵守行政法比例原则限制采集,3.对个人信息进行匿名化处理。其中,第三种方案因其历史沿革最久而积累了大量实践经验④。但这三种方案都存在不同程度之瑕疵。

首先,取得当事人事前同意这项,因为智能裁判本身属于国家司法活动,其对信息采集应认定为一种司法行政行为,具有单方性及行政强制性,并不以当事人同意为原则,而是作为法定职权而实施[6]。例如,裁判过程中,当事人必须告知个人身份信息,且该信息必须由司法人员进行审查核验,以确认其主体适格。因此,实践中对于司法数据的收集,既没有明确的程序要求,也缺乏规范的适用范围。

其次,既然当事人信息采集属于司法行政行为,对个人信息数据的采集可依据行政法的比例原则进行约束,即从比例原则中适当性原则、必要性原则、均衡性原则三个子原则[7]进行综合考量。但对于比例原则的判断需要考虑如下因素,如合法利益、可采取的替代方案、对案件利益及个人信息利益的平衡等等,还需要考虑对这些因素所占权重如何进行分配等问题。

关于个人信息的匿名化处理,当前主要是通过对数据进行加密或者重新编排,免除个人信息具有的个体性特征,将其转成统计数据而使用。但也有学者提出,个人资料已经无法真正识别化:首先,随着人工智能不断学习的加强,反解码原始数据相对容易;其次,匿名化处理后的数据仍可以与其他数据相结合,综合识别某特定人之身份信息[8]。因此,个人信息与匿名信息的区分随着技术的进步将失去意义,接受个人信息匿名化的相对性,并从合法规制的角度去限制其使用范围,或成为更好的解决方式。

(二)个人信息使用中的隐私风险

除对个人数据的采集之外,在对个人数据使用过程中,同样存在着甚至更大的隐私风险。人工智能运作的核心在于对海量数据的迅速转化分析,而对于已经采集完毕的数据,则可能从数据泄露、数据滥用、数据过度公开等多方面存在着侵犯个人隐私之风险。

关于数据泄露。近年来,各种网站上关于用户数据泄露事故不断发生,引发人们对于网络安全事件的重点关注。据软件安全公司InfoWatch 发布的报告摘要显示,仅在2019年第二季度,就有2.16 亿用户数据被泄露,其中,23.8%的数据泄密源于公共和市政机构[9]。究其原因,黑客非法入侵、系统故障、系统安全漏洞均可能造成数据泄露后果,而目前,国内尚无行之有效的隐私泄露救济措施。智能裁判运用情境下,除了要求加强对数据的处理和学习,也应当重视其可能带来的安全挑战。

数据过度公开,指对于已经采集的司法数据,超越知情权的边界而过度公开,从而对公民个人隐私权造成伤害。诚然,在响应“阳光司法”的大前提下,构建智能司法裁判系统离不开对于司法数据的登记、管理及公开,这既有助于提高司法效率、及时响应监督,也有助于促进司法公正。但同样地,在公开过程中,涉及当事人的个人敏感信息则处于被过度曝光、甚至被永久过度曝光的风险之下。针对业已公开的相应数据,如果没有进行有效的匿名或者删除,或对于已经涉嫌侵害的数据及时更正或者撤销,那么个人的隐私风险便进化为使其成为不会被智能系统“所忘记的人”,甚至成为被智能系统“决定未来的人”[10]。

三、个人信息采集及使用中的歧视风险

个人数据的采集及使用,除会导致隐私风险之外,智能裁判系统对数据的一系列处理过程,亦可能存在着算法上对当事人双方的歧视风险。早在1992年,Peter Wahlgren 教授便明确提出法律推理模型需以道义为基础[4](17)。受此启发,后续关于人工智能的系统研发,也开始尝试从判例中去提取价值偏好因素[11],将获取的数据来源拆分为案例、事实、结果、事实描述、基于事实的案例描述及价值偏好。但我们依旧疑惑:基于此种逻辑环境所产生的“价值偏好”,是否仅仅只是算法创造者个人的价值偏好呢?

(一)个人信息采集中的歧视风险

智能裁判中可能存在的歧视风险,从数据输入而言,数据采集不充足、数据与抽象规则不完整对应、对于个人数据有选择性地采集等,均可能导致后续对案件当事人的歧视评价。例如人工智能对某一类人群数据广泛采集而对另一类人群数据采集严重缺失,从而忽视了某类少数群体的意见。对采集数据的不当归因也可能导致歧视风险,例如在智能裁判过程中,人工智能将当事人的方言发音对应为其他语句从而产生曲解。有选择性地采集,即智能裁判系统受指定算法规则的要求,仅对当事人的特定信息予以提取,并最终产生歧视。具体表现为从数据采集的前期,便对某类个人信息打上标签,例如艾滋病患者、文化程度低下、失信被执行人、有过违法犯罪记录或受过行政处罚记录等。

(二)个人信息使用中的歧视风险

而数据处理方面,智能裁判所导致的歧视风险,主要包括算法开发者的偏见、训练数据的偏见及算法学习偏差三个方面。从开发者的偏见角度,智能裁判要求开发人员除了具有代码编程能力,对于法律规范及规范背后的价值判断也需具备专业认知。但有学者指出,预测性算法很难具有准确性并构成特别风险,当算法被不当开发和运用时,其准确程度不会高于一个政府官员给出的医学临床诊断。同时,算法还将合理化并努力掩饰那些植入到其训练资料中的偏见[12]。

即使前述算法创制者的偏见问题已经解决,但由于机器学习的数据库并不完整、不正确,则输出的结果仍有可能与原本预期存在显著差异。以美国威斯康星州诉卢米斯一案(Wisconsin vs. Loomis) 为例,庭审中威斯康星州法院通过COMPAS 系统,对犯罪嫌疑人埃里克·卢米斯进行一系列提问,并通过对这些提问获得的数据进行测算,最终得出犯罪嫌疑人存在“高风险”的判断。此案中引发的巨大争论主要在于对COMPAS 系统算法的质疑,但美国联邦最高法院最终认定,该算法具有中立性和客观性[13],并未将算法予以公开。这样的输出后果,被认为仅仅是对客观社会既存种族歧视的加强,隐含着对黑人族群的差别待遇。

智能裁判系统所获取的学习资料,本身亦带着裁判者的个人意图及价值判断。例如某位裁判人员因自由心证所持的观点,在人工智能的学习下,则很可能被识别为某种共识从而广泛复制,又由于算法本身的不透明度难以被察觉,最终成为一种“自我实现的歧视性反馈循环”[14]。

四、智能裁判下个人信息保障方案

综上所述,智能裁判所带来的种种挑战及风险,远不止对于裁判过程中当事人合法权益之侵害;还有使个人信息被过度曝光,或者在裁判中被迫承受来自算法的歧视筛选;还包括整个司法系统所受到的秩序冲击和权威质疑,因为司法权本质是人民公共授权的结果,其关系到民众对社会正能量的内心向往和对国家秩序的信赖遵从[15]。如果裁判过程完全被冰冷的机器所取代,司法也将因为丧失亲历性而背离正义,民众对政府的公权力也会丧失信任、心怀恐惧。因此,提出行之有效的个人信息保障方案,既能对公民个人权利予以切实保护,也是对裁判公正的维护,以树立智能高效、公正权威的公权力形象。

讨论智能裁判下对于个人信息的保障,应当从技术层面和法律层面两个部分联合进行,并从人文关怀出发,强调“人”在新兴技术运行环境下所起到的关键性作用。

(一)技术层面保障方案

首先,需要从技术层面加强人工智能安全分析与防护研究工作。常见的保护方法依旧为主要通过信息匿名化处理和数据加密流通两种手段。鉴于智能裁判本身即带着公权力强势介入之色彩,我们认为,两种常规的处理手段应当更加精细并严格控管其流通范围,确保个人敏感信息和影响具体案件的关键信息以密文形式存储,并对内部人员使用细粒度的访问控制策略,确保不同的人或群组拥有不同的访问权限,并通过日志可以跟踪到具体人员的操作行为[16]。

同时,针对上述手段,主要是针对单一数据的处理,可考虑“差分隐私”和“联合学习”两种新技术方向。“差分隐私”最早于2006年由计算机科学家Cynthia Dwork 提出[17]。该保护模型的基本思想是对原始数据进行转换或者是对统计结果添加噪音,从而确保在某一数据集中插入或者删除一条记录的操作,不会影响任何计算的输出结果,即使攻击者已经掌握除某一条记录之外的所有记录的信息,该记录的隐私也无法被披露[18]。联合学习最早于2017年由Google提出,即利用单个设备下载模型,并在独立设备中学习,并将学习成果更改汇总为模型的一个更新节点,然后再将此更新节点加密后回传给云服务器,与其他用户共享。这样所有的训练数据都依旧保留在本地设备中,并没有单独被云服务器所提取[19]。在此基础上,Osia 等科学家更提出将孪生神经网络用于人工智能的深度学习中,对本地移动资源提取的敏感数据预处理,再送入云端进行预测,既能利用云端资源的高效运算力,又避免直接暴露自身数据内容[20]。

针对算法歧视的问题,需利用行业自律予以约束。美国计算机协会和欧洲计算机协会共同发布的算法透明度和问责制七原则[21],为算法歧视的事前预防和事后救济提供了宏观方向。同时,应要求算法设计者为智能裁判系统注入“反歧视意识”,包括:在算法的各阶段融入研发人员及采集数据的多样性,使得研发人员的潜在价值观得以被考虑,并从训练内容上减少歧视诱发因子[22];在数据采集上,开发有反歧视意识的数据挖掘技术,并利用探索性的反歧视数据挖掘,对数据中已经存在的歧视性倾向进行标注[23];在数据使用上,结合无监督学习理论和可解释模型理论预先建立算法不公平的假设,并进行分析验证[24]。最后,将法律化的伦理和善良道德内化于算法技术,注重算法价值序列的设定,以唤醒算法良知。

(二)法律层面保障方案

参考国外经验,在世界范围内,虽然目前尚未形成一套完整的法律制度,但欧美各国已从单行条例、法案对人工智能下的信息保障予以规制。2016年欧盟议会通过《通用数据保护条例》[25],并于2018年正式生效。条例对个人数据保护权有了明确定义,摒除了传统意义上将个人信息权等同于隐私权的理念,为其引入访问权、纠正权、删除权(被遗忘权)、数据携带权等新兴内容[26],使其成为大数据时代一项重要的独立权利。2018年,美国加利福尼亚州通过《加州消费者隐私保护法案》,该法案对于采集个人信息的企业提出更高的义务要求,包括披露收集的个人信息的类别、具体内容、来源,说明收集或出售信息的目的,以及与之共享信息的第三方的类别,并就信息的采集及使用行为为个人提供财务激励等[27]。而美国正在研议中的《2019年算法责任法案》,则要求联邦贸易委员会对掌握个人数据的大型公司或者数据代理人进行影响评估,并着重考虑算法的自动决策系统及其培训数据对“准确性,公平性,偏见,歧视,隐私和安全性的影响”[28]。

域外个人信息立法的演进对我国相应立法进程也起到了推动作用。2020年10月21日,全国人大法工委公开就《中华人民共和国个人信息保护法(草案)》征求意见。在信息采集上,草案第十三条、第十四条明确要求对个人信息严守知情同意原则;在信息的处理利用上,借鉴境外的先进做法,为个人增加了“撤销权”和“删除权”等新兴的权利形式。

智能裁判下,对于个人信息的采集和使用属于公权力的实施。司法机关在履行法定职责的范围内,可以自行对个人信息进行调查和使用,但不得超越其职权范围;应当向当事人明确其收集和使用个人信息的法律依据、范围、目的,以及告知当事人享有的权利及不提供对应信息的后果。以目前民事要素式裁判智能系统为例,法院要求当事人在庭前预先填写裁判要素表,以利后续对数据进行归类分析,却未明确对于当事人填写内容的用途及法院对于保护当事人信息安全所做出的承诺,这部分需要进行更为精细化处理。例如载明采集使用个人信息所依据的法律条文,将裁判要素进行“必须填写”和“选择填写”的分类,并且详细向当事人罗列信息采集将可能被用于哪些技术处理、哪些信息需要被法定公开等等。同时,法院还应当承担起主动提高智能裁判透明度之义务,除了庭审直播公开、裁判文书网上公开之外,还应当公开有关个人信息的收集、处理和利用的相应规范政策,并通过公开对应算法技术的运行原理或者对处理结果进行算法审查,以促进民众信任。此外,需赋予当事人对于个人信息的救济权利,如针对已经被采集或使用的个人敏感数据,赋予当事人向采集的法院请求撤销或者恢复原状的权利;针对不完整采集个人数据或者出现数据对应、分析错误时,赋予当事人请求删除或者予以更正的权利[29];在法院内部制定一套完整的流程以接受和回应当事人的申请,简化维权程序,并从投诉质疑、行政救济、诉讼手段等多角度为个人维权行为提供方便。

最后,应当重视人的价值,保证人在智能裁判中的参与度。这既包括系统开发者对于算法注入法律伦理思维,也包含司法裁判人员对于最终输出成果的把控。“人必须是算法的立法者和控制者,法律的算法与算法的法律不应成为一个闭环,它们中间必须有人作为起点和终点”[30]。理论上,智能裁判的个人信息权利可以有多重保障,但所有的技术手段或者法律手段,核心保护的还是人本身的价值。如古希腊哲学家普罗泰戈拉所言,“人是万物的尺度”。智能裁判建设最终会走向怎样的结局,依旧需要依赖人去进行论断。因此,算法的创立者和司法的决策者都应该加强自身素养,树立个人信息保护意识,培养平等、公正的价值理念,让技术与法治结合,让创新与秩序并进,让科技与人文融合辉映于人工智能的璀璨星河。

①White Paper: Technology and Innovation-The Next Economic Growth Engine [R].World Economic Forum,2018。

②参见《电信和互联网用户个人信息保护规定》(工业和信息化部令第24 号)第四条:“本规定所称用户个人信息,是指电信业务经营者和互联网信息服务提供者在提供服务的过程中收集的用户姓名、出生日期、身份证件号码、住址、电话号码、账号和密码等能够单独或者与其他信息结合识别用户的信息以及用户使用服务的时间、地点等信息”。

③参见2016年8月29日由最高人民法院发布并实施的《关于人民法院在互联网公布裁判文书的规定》,其中已要求在互联网公布裁判文书时, 需对个人信息部分进行隐名化信息处理. 2019-10-31.http://rmfyb.chinacourt.org/paper/html/2016 -08/31/content_115935.htm。

④参见欧盟《数据保护指令》及《一般数据保护条例》中关于个人信息匿名化的相应规定,之后大多数国家的相应规制规则也都借鉴于此。

⑤MCMAHAN B, RAMAGE D. Federated learning:collaborative machine learning without centralized training data[J]. Google AI Blog, 2017-04-06[2020-02-12].https://ai.googleblog.com/2017/04/federated-learning-collaborative.html。

猜你喜欢
裁判个人信息当事人
个人信息保护进入“法时代”
牙医跨界冬奥会裁判
我不喜欢你
敏感个人信息保护:我国《个人信息保护法》的重要内容
法官如此裁判
法官如此裁判
主题语境九:个人信息(1)
民法典应进一步完善侵害个人信息责任规定
中西方饮酒文化大对比
当事人