张静芝
(中共中央党校(国家行政学院) 政治和法律教研部,北京 海淀 100089)
在大数据时代,以科学计算为中心的认知理念逐渐转变为以数据为中心的认知理念,人类由此形成了第四种认知方式即数据思维方式,为数据共享创造了良好的条件。信息技术进步不断推动司法数据提升司法管理质效,拓展司法工作参与社会治理的维度,实现了法院信息化的价值目标,在数据共享实践应用中取得了重大成效。
司法的本质决定了其有自己的运行原理,法院获取司法数据的便捷性、准确性等特点决定了司法数据与一般政务数据的不同。本文所述的司法数据是指各级人民法院在依法履行职责获取、加工、处理、保管形成的有价值的各类数据资源,是法院重要的信息资产。加强和深化司法数据共享和运用,是人民法院适应信息化时代趋势的必然要求,更是推动人民法院审判管理能力提升、促进审判管理科学化的现实需要。司法数据共享在发挥积极作用的同时,也带来一系列潜在风险和挑战,如侵害个人信息权益、侵犯个人隐私、人性尊严等。若司法数据共享与个人信息保护无法有效平衡,将导致司法权威受到损害、社会信任感缺失等。
司法数据共享中个人信息保护的既有范式为提高司法效益兼顾保护个人信息。从逻辑角度出发,法院作为国家权威裁判机关,在主观意图上不存在任何偏见和歧视,而以赢利为目的的资本却在主观上有偏见和歧视的动机。从事实情况来看,资本为了获取更多利益,利用数据算法运算进行针对性赢利的例证屡见不鲜。从理论视角分析,部分数据企业通过算法运算,影响决策和支配行为的数据分析能力,成为一种实在的权力。那么理论界应将司法数据共享中个人信息保护的关注点由法院内转向法院与法院外的二元结构,审视可能出现的个人信息风险。基于此,至关重要的是厘清司法数据共享中个人信息保护深层次的价值立场,对司法数据共享中个人信息保护的范式转变进行剖析,以期达到司法数据共享和个人信息保护的平衡。
根据数据生命周期理论[1]将司法数据共享分为收集、处理、存储、分析、使用五个阶段[2],每个阶段个人信息均面临风险,主要体现在如下几个方面。
1.个人信息被非法他用
案件当事人为了维护自己的合法权益诉至法院,并主动向法院提交必要案件材料或提交来源于第三方平台的资料①,主要通过线下(通过向法院业务窗口工作人员)和线上(电子诉讼小程序、APP等方式)两种方式提交案件材料,通过法定程序聚合的每件案件数据具有良好的社会价值与公共价值。但收集的案件除所需的身份信息外,还包含较多敏感个人信息,如身份证号码、手机号码、婚姻登记信息、房产信息、银行账号等,及因在线方式进行身份验证的指纹信息或人脸信息等[3]。若出现收集规范标准不一、数据存储存在安全隐患、处理技术不彻底、“算法黑箱”、获取认证不完善等不利情形,会导致个人信息被非法他用。
2.“数据画像”侵害法官、代理人个人信息权益
律师或者数据企业为了预测案件结果而将公开的裁判文书中法官数据进行比对、参照,以此来预测案件结果并调整诉讼策略。在诉讼案件中,当事人在委托诉讼代理人时基于案情需要,期望能够通过胜诉率高的诉讼代理人为其诉讼案件以取得胜诉结果或者被诉答辩理由成立,甚至是无罪辩护,并以此作为依据来委托律师。通过此类算法对作出公开判决的专业人员、诉讼代理人进行评价,这种类似“贴标签”的行为也是对法官、代理人个人信息权益的侵害。
1.技术存在漏洞
司法数据的处理方式包括脱敏②、清洗③、加工等。由于司法数据的特殊性,公开前的司法数据处理主体主要是法院或者法院委托的第三方平台机构,而数据处理者需要被授权或取得相关资质。公开后的司法数据处理主体不仅包括数据企业还涉及其他的不特定的社会主体。若出现公开前资质条件不够、前期脱敏、清洗程度不够及公开后数据企业、社会主体未遵循数据处理规则的情形,会导致侵犯个人隐私的风险。
2.审判机密泄露
现行智慧法院工程体系已经建立专有云、开放云和涉密云等信息基础设施支撑法院司法数据资源体系④,是为保存、管理和检索海量数据而专门设计的司法数据基础存储设施[4]。尽管我国《网络安全法》对网络运营者存储的个人信息的更正义务进行了详尽规定,但在实践中收效甚微。与司法数据存储相关的企业在司法信息化系统的建设和运营中,往往通过私有的数据访问API或者SDK端口来限制外部企业和部门对其数据库的访问⑤,通常依托大数据服务平台或者某个具体业务应用系统。若相应的司法数据被海外“黑客”恶意攻击,利用钓鱼软件破除信息系统,及存储设备故障、软件错误、操作失误、安全事故或自然灾害等造成数据缺损、差错、丢失及毁坏,则会导致审判机密泄露[5],存在侵害个人隐私的风险。
司法数据准确性较高,包含金融信息、医疗健康、婚姻登记信息、宗教信仰等敏感且极具隐私性的个人信息。尽管司法数据属于“个人同意”的除外情形,但对于可识别性较强的信息主体的数据在使用前未进行标识化处理或敏感数据的脱敏处理,这些司法数据一旦被开放共享或被恶意应用,容易导致个人的人格尊严受到侵害[6]。从算法层面分析,司法本质上是基于理性和经验的结果,算法消解了法官的自主权,也无法充分保障各方当事人参与诉讼的权利。对司法数据进行算法运算是从技术上基于历史数据得出现有案件的裁判结果,尽管内置嵌入了算法伦理,但算法仍然无法进行全面的价值判断,且信息主体无法针对算法进行法律救济。过度依赖司法数据算法决策,会出现对个人信息权益的忽略,导致侵犯人权、人格尊严的后果。
司法数据共享的出发点就是发挥数据优势和价值,实现司法公正的目标。如何最大化发挥司法数据的共享优势,又能达到个人信息保护的目的,从道德哲学的角度分析应该有利于解决这个问题。
司法数据共享价值基础,首先考察的是功利论,即价值内在地具有整体利益的倾向(如快乐、向善)。而功利或后果是一个带有评价性质的规范性概念,那么在司法数据共享中要面临的困境是共享价值估算的实践困境和个体幸福与整体幸福的道德难题。目前,国内学者认为,当事人之间的纠纷进入诉讼程序后形成的数据,就应转变为司法公共资源。而法院对司法公共资源的运用,不应受到当事人意志的影响[7]。从国外实践来看,瑞士通过立法强制参与方使用司法机关的电子诉讼数据档案和无纸化记录系统[8];吉尔吉斯斯坦法院可以直接将法院系统中的数据与国家登记处的个人数据进行比较,从而快速核验诉讼参与人身份、开展执行查控等司法程序[9]。关于司法数据共享中个人信息保护的范式的思路仍然建立在司法效益优先兼顾个人信息保护的基础上。
法院司法数据不断累积,达到一定的数量后,就成为一个庞大的数据库。这其中的价值不言而喻。根据功利论,如果允许最大化的共享,只能是因为共享的价值远大于损害利益带来的恶。功利主义的特点就是设定一个独立目的,只有独立的行为或者决策实现了这个目的,那这个行为才是有价值的。若论证司法数据共享中个人信息保护的正当性,必须要证明司法数据共享中进行个人信息保护可以促进社会功利,并且对个人信息保护的行为是其他行为无法替代的。那我们就应该证明我们为什么需要进行个人信息保护。
边沁认为,立法者谋求的是大多数人的幸福,并且应当一视同仁的为个人谋求利益[10],立法要求承认每个公民的权利,那秉持总体幸福对所有人的集合都是善的看法,在司法数据共享中是不是会侵害案涉当事人的隐私?可以看出,若在司法数据共享中适用边沁的功利主义,则仅是一个框架性的描述,只是整体体现现行司法数据共享追求整体最大幸福价值作为价值追求。那么,司法数据共享过程中可能存在的个人信息风险被忽略,司法数据主体(如当事人、代理人、法官等)个人信息权益、人格权益或人格尊严可能被侵犯。但在侵犯程度还未能衡量的情况下,对于司法数据共享者在扩大共享该数据范围与可能造成权利侵害这两个并行问题时,是不是掌握了司法数据共享的最大价值,就使得所有人都得到了他们渴求的幸福。根据罗尔斯的最小受惠者应当优先受益的原则⑥,产生司法数据的这些数据主体本身的权利应该得到优先保护。但是从建设智慧法院的初衷来说,通过司法数据共享发挥功利主义原则效用的目的就被滞后实现。这样的例子并不是要否定罗尔斯的最少受惠者应得益的原则,只能说这就产生了当这个原则和功利主义原则发生冲突时,我们应当在司法数据共享过程中更好地把握好司法数据权利的边界,理性的共享。
当前,司法数据共享中个人信息保护的范式倾向于以功利论为价值基础,更多体现的是司法效益优先的功利价值,从利于社会基本善的后果来看,容易陷入司法数据共享与个人信息保护的两难困境。如何辨识以及客观性评价其价值基础,还必须引入“道义论”。
基于司法效益优先兼顾个人信息保护的范式虽然有一定的优势,但不足以应对司法数据共享中个人信息保护风险。根据国外实践,美国最新《联邦司法机构战略规划》规定司法系统数据存储库的需求描述、开发系统的技术利用方法以及案件管理文件(或司法数据)的描述均是以强调信息安全为前提,同时满足公众知情权[11]。法国禁止披露司法判决数据, 2019年3月法国颁布的《司法改革法》第33条规定,任何可以识别的当事人、第三人、法官、书记员身份信息亦需保密。不得为了评价、分析、比较或预测法官和司法行政人员的职业行为而重复使用其身份数据⑦。因此,司法数据共享中个人信息保护的范式要做出更为审慎的道德哲学反思,也更符合司法数据共享的价值理念。
那么,从道义论角度分析,道义论并不否定功利原则。康德道义论坚持正当或正义独立并优先于善,崇尚道德的内在价值,强调道德对利益的优先性,但康德并不反对功利。有观点认为,“正是它所弘扬的这种道德理想,漠视人的现实诉求,将道德价值与功利价值相对立,这导致不仅道义论主张的道德价值难以实现,而且其道德原则也可能沦为空洞枯燥的形式信条”[12]。事实上,康德仅仅是强调正当对于善的优先性,在正当前提下,他并不反对善,而是正当优先,兼顾善。也就是说,人不能仅仅是手段,人应该首先是目的。罗尔斯的正义与效益的兼顾正是康德道义论的体现[13]。威廉·弗兰肯纳明确指出,善行原则和某种公正的分配原则是两条自明的义务原则,主张任何时候都不涉及善恶与利害的行为在道德意义上是不正当的[14]。他表明,虽然康德赋予道德原则以绝对地位,但他并没有考虑到各原则之间的可能性冲突,也即其道德行为的内在性特点严重脱离现实的道德生活,而真正服务于人的现实生活的道德,应该将善超过恶的最大盈余作为道德行为选择的重要考虑。为此,我们的义务之一就是要增加更多的善或减少尽可能多的恶。但弗兰肯纳又认为,善行原则预先假定了一条更为基本的原则即公正原则,只有在公正分配善恶的基础上才能追求非道德善的最大化,即在价值冲突的情况下,规定权利与义务之间合理状态的公正原则具有优先性地位,这一点决定了混合道义论在根本性质上是一种道义论[15]。因此,康德道义论并不否定功利,而是道义优先,兼顾功利。
我们必须看到,数据可以辅助人类决策,人类可以通过获得的数据来认识世界、分析世界、改造世界,但并不意味着数据没有风险,更不意味着数据获取和分析就一定是道德的。数据技术赋予人类力量,也束缚着人类的身体和意识空间,限制了人类作用的发挥,从而限制人类发展。数据技术发展的隐忧,可能导致人的独立性和主体性地位的丧失,以及人对自由解放的美好生活目标的放弃。我们在数据面前,应该保持人的独立性,提高人的自觉性,发挥人的能动性,确保人的主体性地位。“大数据涉及太多的认识论问题,也就是认识相关性问题,而现在更多的是我们使用数据应该基于怎样的价值基础问题:解决这些认识论问题需要技术性方法,即用更多更好的技巧与技术将大数据筛减到一个可控的规模。”[16]
基于康德道义论的探讨和司法数据共享中个人信息保护既有范式的分析,我们应该对司法共享中个人信息保护范式做如下转变,即[17]建立在道义论这样的价值基础上,才能将人格独立、自由理性的存在表现为行为的规则,更大程度上体现人类尊严原理,本质就是司法数据共享应当采取哪种范式进行个人信息保护。在司法数据共享的过程中,体现提升司法效率、促进司法公正以及科技在司法领域带来的其他价值,要体现以人为目的。但同时,也要有一定的功利目标,即“个人信息保护优先,兼顾司法效益”。
根据上述论证,我国司法数据共享中个人信息保护应当采取尊严保障范式应对风险,并遵循以下四项基本原则,即人性尊严原则、程序公正原则、社会效益原则、国家安全原则。这四者之间的关系如何?这是需要进一步关注的问题。首先这四者的关系不是各自独立的,而是相互联系构成司法数据共享的原则。这四者之间也不是相互平行、价值相等的原则。应当认为,司法数据共享应当以保护人性尊严为首要原则,这是根据康德道义论立场推导出来的。基于该原则,司法数据共享应当以促进人类向善为目的。在坚持人性尊严原则为司法数据共享的首要原则的基础上,必须优先考虑的是程序公正原则,离开程序公正原则,司法数据共享就存在无序的情形。因此,社会效益原则和国家安全原则相对于人性尊严原则、程序公正原则,起到附从、辅助的作用,并且根据司法数据共享的情况区分适用。一般情形下,因社会效益针对的是一般情况,而国家安全针对较为特殊的情况,则社会效益原则优先于国家安全原则。在司法数据共享的实践中,应当在坚持人性尊严原则的前提下,兼顾程序公正原则、社会效益原则、国家安全原则,这才是对司法数据共享的正确把握。
上述原则虽然融合了不同的价值目标,但可以看出仍是有取舍与权衡,故有必要从机制层面落到实处。因此,从人民法院与数据企业作为个人信息责任主体的角度出发,结合司法数据共享生命周期的每个阶段,完善技术、程序、救济等方面的规定,平衡司法数据共享与个人信息保护。
司法数据收集阶段对个人信息的收集主要表现为:各级法院在收取案件材料中涉及的个人信息,以及被公开、被处理后的司法数据被数据企业获取的个人信息。
法院可以采取如下保护手段:一是完善数据收集规范。将保护人性尊严贯穿规范始终,严格遵循限于处理数据的最小范围收集个人信息,注重隐私和个人信息权益保护。厘清法院获取个人信息的知情同意边界,设专章规定司法数据收集的知情同意制度。二是建立多维度数据质检指标体系。注重把握收集质量[18]。要在数据收集各环节严格执行数据质量标准,从源头保证司法数据准确,并定期进行数据质量检验,形成闭合的数据质量实时监测体系。三是细化敏感数据加密制度。根据司法数据采集的系统、架构、网络结构和接口不同,分技术体系分层分级分类型设置数据安全加密制度[19]。对司法工作人员及技术人员进行保密培训,签署保密承诺书。四是建立申诉机制。若因法院的收集行为导致个人信息权益受损,规定由专门机构受理,细化申诉所需材料、时限、办理人员、被申诉主体、权益受损事实认定、申诉不成立与成立的后果认定等规定,为损害个人信息权益的救济行为提供制度保障。
数据企业可以采取如下手段:一是制定数据管理规则。数据企业分级分层制定不同的收集规则[20]。将个人信息保护要求嵌入产品与服务中,并对收集的数据中含有的个人信息进行安全保护,将个人数据安全纳入整体安全防范体系中[21],以数据伦理理念审视获取的流程,避免侵犯个人信息权益的情形。二是收集程序合法。数据企业获取司法数据的手段必须合法,且公开披露数据收集规范、作出相应的说明,充分保障信息主体知情权与隐私权。三是扩大责任边界。通过建立信息业行业协会,提升数据企业在收集过程中对个人信息的整体保护水平,明确数据企业的行为规范和法律责任。
司法数据处理决定司法数据的使用,主要表现在数据公开前各级法院的内部处理及公开前的技术处理;数据公开后由数据企业作为数据控制者处理的情形。
法院可以采取如下手段:一是统一处理规范和指南。将人的根本利益原则和责任原则融入其中⑧,明确数据处理的目的、方式和范围。除法律法规明确规定外,授权的数据处理机构应取得相关资质,并履行告知义务。二是强化技术升级。建立多层级安全防护,避免因数据处理行为造成个人信息泄露与数据缺失等。完善敏感数据脱敏的评估机制,区分司法数据不同的共享场景进行脱敏处理[22]和清洗处理,对处理行为进行分级分类评估,避免数据处理后对敏感个人信息的可识别性,节约再次技术处理的成本。三是建立数据还原机制。对数据还原的条件、方式、救济程序进行明确,保证司法数据具有一定的还原能力,探索将个人信息主体行使“被遗忘权”的价值理念融入数据还原机制建设中,保障各数据主体能有效行使更正权和访问权。
数据企业要保障数据主体的人格尊严。处理个人信息要取得信息主体的知情同意,未经授权不得处理。在数据处理过程中,加强对个人信息的隐私保护,将伦理道德责任与合理实施权利结合起来,确保数据处理阶段严格按照数据处理规范进行数据处理行为[23]。
司法数据存储随着数字存储方式的多样化,表现为不同数据集的存储,主要表现为法院对司法数据的存储、数据企业对司法数据的存储。
法院可以采取如下手段:一是完善存储机制。对司法数据进行科学分类,分级制定清单目录,标注司法数据的来源、出处、收集时间、备注等,结合《人民法院诉讼档案管理办法》,明确个人信息存储期限对应分层存储。统一敏感个人信息认定标准,健全个人信息管理制度,采取技术措施建立安全、稳健的数据存储系统。二是编制专项数据安全应急预案。修订符合司法数据共享的实用性、可操作性的应急预案,并预设负责个人信息的单位和负责人。聘请专家团定期就应急预案予以论证,形成与数据共享单位、数据企业、社会公众有机衔接的预案体系,对数据存储中存在的个人信息风险及时整改,并将整改结果纳入法院信息化建设的考核指标,将可能发生的个人信息泄露风险降至最低。三是优化数据企业准入机制。通过司法数据类型分级目录,划分不同信用等级,简化准入备案登记流程,完善数据存储授权许可协议,在风险可控的情况下,多元化引入数据企业分级存储。
数据企业可以采取如下手段:一是建立数字证书验证机制。搭配双层密匙进行数字证书安全验证,保障司法数据从收集、传输到使用各个环节存储的安全性和完整性,并定期进行风险评估。二是救济机制。细分存储机构因存储行为造成个人信息权益受损的情形,完善信息主体可以要求存储机构或牵头机构承担责任分担的规定,若达到赔偿的限度,则明确赔偿认定、程序、金额等。
司法数据分析主要体现在法院通过司法数据算法运算辅助办案、数据企业从事对司法数据算法分析的经营性行为。
法院可以采取如下手段:一是设专章对法院算法决策行为目的、方式、范围进行完善规定,并对算法记录分阶段进行标识审查,通过数据机器学习的手段对司法数据进行自然语言处理,进行数据归一⑨和结构化处理⑩,从而提升司法数据算法的透明度和限度。同时,对个人敏感信息进行算法运算要实施风险评估,降低算法标签侵害个人信息权益的风险。二是科学配置算法模型的人工干预权[24]。设置独立专家对算法决策中涉及的对个人信息权益产生影响的行为执行人工干预,并对各阶段出现的情况进行标记和记录,其可对决策结果提出质疑,并通过算法系统论证后投入使用,保证算法的公正性。三是建立全流程算法监管和问责机制。从算法模型建立、受算法决策影响的个人查看、纠正[25]的权利与实现途径、算法侵害个人信息后的救济机制等指标进行监管,并区分算法导致的损害个人信息权益的不同结果类型,设置不同类型的救济手段。
数据企业可以采取如下手段:一是完善数据伦理审查。数据企业应当制定伦理方案,结合算法系统的开发认证和部署,及时发布算法透明度报告,并加强数据的合规审查。二是加强数据评估。尤其是评估处理个人敏感信息的影响力程度,完善算法机理中对个人信息、隐私的影响的评估程序,注重个人数据的安全。三是加强算法监督。遵循加密和安全的行业标准,通过纳入外部问责和力量确保监督程序正当,通过与其他团体协作,制定服务和执行机制应对算法侵害个人信息权益的风险。
司法数据使用主要指法院通过人工智能算法对司法数据的使用以及数据企业将司法数据作为商品的经营性行为。
法院可以采取如下手段:一是完善技术措施。通过自动化审查与技术手段相结合,区分不同的数据类型,设置不同等级访问权限和公开程度,制定司法数据公开目录,构建统一规范、互联互通、安全可控的数据开放平台。建立数据泄露通知与动态敏感个人信息被识别或被关联的删除机制。二是建立数据信托平台。涉及符合司法数据特点的信托方案,确保数据信托保障数据信息价值的共享[26]。通过签订数据使用协议对后续数据的目的、范围、法律责任进行约定来保护个人信息。三是探索建立区块链分布对等式平台和“共票”机制,构建司法数据共享的信用机制。在数据流程中嵌入伦理审视,避免算法歧视和算法依赖。四是建立问责与救济机制。细化法院进行司法数据使用的责任规定,为司法数据共享提供规则指引,区分个人信息权益损害结果类型,明确司法数据共享中责任人及涉及的工作人员具体的惩戒情形。同时,内设专门部门受理侵权救济事宜。
数据企业可以采取如下手段:一是资质条件。数据企业取得数据监管机构的认证授权是开展司法数据使用活动的前提,认证的程序和内容要确保透明,将司法数据认证机制和数据保护标识收集在一个登记册内[27],并及时更新相关信息。二是将个人信息保护理念嵌入到司法数据商品中,并前置启动可能侵害个人信息的尽职调查。加强司法数据使用合规审查,与用户、专家、监管机构积极沟通,将达到企业数据风险管理、个人数据权益保护和国家数据资源安全的复合目标作为企业经营理念。
尽管司法数据的共享对于提升司法效率、促进司法公正具有十分重要的意义。但司法数据共享中的个人信息保护问题值得重点关注。司法的特点决定了其运行原理,因此,要在个人信息保护与司法数据共享之间达到平衡。从法院、数据企业二元角度,从机制、技术、程序等方面出发,在司法数据共享各阶段有针对性地减少侵害个人信息权益风险,形成全生命周期的个人信息保护机制。但可以看出的是,就智慧法院本身而言,还缺乏深厚的理论基础反思,针对司法数据共享这一体系的特殊性,需要完整地进行评价,那么是否可以通过道德哲学方法分析司法数据共享的思考还将继续。
注释:
①如从公安机关身份数据库中获取的个人信息等。
②数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、银行卡号、客户号等个人信息都需要进行数据脱敏。
③数据清洗主要指将大量原始数据中“脏”的数据“洗掉”,主要是发现并纠正数据文件中可识别错误的一道程序,包括检查数据一致性、处理无效值和缺失值等。
④现行智慧法院工程体系将存储数据类型分为结构化数据与非结构化数据,且内置完整的权限管理功能,确保数据安全。结构化数据主要由通用数据库实现存取,非结构化数据的存取一般由文件服务器或中间件实现。
⑤《网络安全法》第43条规定:个人发现网络运营者违反法律、行政法规的规定或者双方的约定收集、使用其个人信息的,有权要求网络运营者删除其个人信息;发现网络运营者收集、存储的其个人信息有错误的,有权要求网络运营者予以更正。网络运营者应当采取措施予以删除或者更正。
⑥罗尔斯不仅提出了自由原则,还提出了差别原则,对于差别原则,可分为两层来理解,一是真正的差别原则。还有一层则表现为适合于最小受惠者的最大利益。参见[美]约翰·罗尔斯著,何怀宏等译:《正义论》第1版,中国社会科学出版社1998年出版,第85页。
⑦《司法改革法》第33条规定:在不违反有关查阅和公布司法判决的特别规定的情况下,法院作出的判决应以电子的形式免费提供给公众。作为对前一款的限制,判决中提及的自然人姓名,无论是当事人还是第三方,在向公众公开之前需要进行隐名处理。如果披露相关资料会损害相关人士或身边人士的安全或隐私,任何可以识别当事人、第三人、法官、书记员身份的信息亦需保密。不得为了评价、分析、比较或预测法官和司法行政人员的职业行为而重复使用其身份数据。
⑧我国标准化委员会在人工智能的伦理标准制定中提出的两个基本原则是人的根本利益原则和责任原则。目前司法数据脱敏包括动态脱敏和静态脱敏两种技术手段,常见的脱敏手段包括替代、混洗、数值变换、加密、遮挡、空置插入和删除等。
⑨数据归一是指将数据中因各种历史原因或不明原因导致的不规范、错误的字段信息,通过自然语义的同义词表、关联词表等,在数据挖掘的算法指导下,对文字表达不同但含义相对一致的字段信息进行归一,为后续的应用提供正确且统一的信息表达。
⑩数据结构化处理是利用自然语言处理技术,实现人与计算机之间用自然语言进行有效通信,实现非结构化文本自动结构化。