(四川大学,四川成都 610207)
内容提要:风险社会背景下随着信息网络的广泛运用,算法成为了连通风险社会和数据的重要防控节点。一方面算法作为工具被广泛运用于风险的预测与防控,另一方面因为算法程序客观性、智能性以及可解释性的不足,算法本身也成为了风险源头的一部分,并贯穿始终。尤其在法律领域,算法在缓解司法压力的同时,更滋生出如算法损害、技术黑箱、算法权力操纵与算法歧视等多重问题。对此,如何科学地选择锚点和基础算法来设计搭建算法模型,通过数据训练并成功运用到实务操作,在规避减弱风险的同时满足任务需求,消减算法伤害,最终达到风险预警与防控,便是算法研究的关键问题。
“风险社会”这一概念最初由德国学者乌尔利希·贝克提出,核心观点在于风险由人而生,并相较以往带有更大的不确定性和偶然性。当前社会也由于人为危险的广泛存在而成为具有多类型风险的不安定环境,譬如群体性医闹为代表的公共安全事件、传染性疫病为代表的公共卫生事件、类型犯为代表的特征性犯罪等,其风险源头都跟人本身紧密关联。在基于犯罪防控目的的刑事司法领域,则因为由危险向风险的关注转变,即将对犯罪人个人人身危险性的处遇与矫正移向事前的犯罪风险预警、事中的风险应急处理及事后的风险控制,从而实现刑罚个别化和犯罪行为中心论之间逻辑的协调。而更高层面来讲,在大数据时代背景下,基于效益主义和精算司法思想的传播,无论从侵权违约风险、犯罪风险的发现,分类及排序到最终的控制矫正,还是人工智能司法科技等防控关节点的研究完善,都需要借助信息技术来达成数据的处理与运用。而其中技术难点之一便在于算法的构建及运用,并且基于算法本身的特性,从算法的设计、选择、组合、训练到最后的实务运用,如何做到“既回应社会效益之要求,又一并消减风险”便是算法设计研究中值得思考的问题。
如前所述,对科技的过度迷恋为风险之肇始,风险社会背景下的风险实质上是一种“人造”风险,而人作为源头蕴含着关于诸多不确定性,不同个体、群体甚至人造物也关联着不同的风险类型和烈度,数据时代下与算法结合其影响范围更是涉及社会伦理[1]、金融商务[2]、信息网络[3]、教育医疗[4]和行政法制等诸多领域。如法律领域中,民事领域因食品、医疗等问题产生的侵权风险,因债权引发的失信与违约风险;刑事领域中则表现以人身危险性为要素的犯罪风险,以及恢复社会关系与信任的矫正修复风险等;而在司法科技领域更多的是算法本身缺陷带来的系统性歧视和司法信任等风险。就犯罪而言,侵权与犯罪风险无法量化和类型化,但是促成人身危险性较高的背后却是可被分解量化的具体风险因素,如行为暴力程度(1~10级)、社会征信评级、反社会化程度等等,这也符合安塞尔(MarcAncel)的新社会防卫思想的观点——“行为人格是可以被抽象化从而分级分类量化评估的”。所以从某种程度上来讲,风险在具备多元化的同时也具备了可解释性,可以通过风险类型和程度的差异来进行分析比较。
而在如今大数据时代的背景下,面对包括类型化犯罪、重大疫情在内的公共安全事件时,我们往往具备两双眼睛,一双是生理上的眼睛,用肉眼观察人的行为;另一双则是数据之眼,以个人数据为例,包含身份信息、身体信息、社会关系、行为轨迹以及物流信息等个人信息以音频图像、表格数字等方式来展现,汇总之后通过算法处理,便是被量化的社会风险和群体反应。通过对这些数据的分析,更进一步便可以防患于未然,及时控制治理,甚至达到准确预测。就如同侦探福尔摩斯那般,能从烟叶的成色状态及当事人的外观语言推测出人物的籍贯来历甚至职业,他能做到并非神机妙算,而在于掌握大量的信息,足够串联起平常不起眼事物间的联系。而法律部门作为国家机关,在掌握着诸多公民信息的同时,更享有依法取得境内其他机构与个人数据的权力,天然具有信息话语权的优势。同时,有限司法资源和诉讼压力的矛盾也驱使着法律部门进行大数据处理的尝试与优化。
而在留痕性和证据法定主义的要求下,司法执法过程中获取、保存数据后,还需要将其转化成满足证据能力与证明力的法定证据或辅助性证据,譬如网络空间行为轨迹、电子录音转化后文本、未成年犯调查报告等。线下的数据汇总与线上实时产生的数据洪流,超过了人脑处理速度,就为算法流水处理提供了空间。凡是接触必留下痕迹(Everycontactleavestrace),不同于线下信息的庞杂性,反映在网络空间的行为痕迹,更存在着大量冗余噪声,很多时候以二进制式数据的机器语言的形式存在,我们可以感知到它,却无法直接理解它的意思,更不必谈去解读其背后蕴含的风险意义。要打破此中关节,实现风险数据可视化的关键桥梁便是算法的运用。在掌握足够全面的数据后,分类别和烈度列出风险项并计算出其发生的概率,建立对应的决策树后形成合理风险预案,从而达到防范风险的效果,这些都可以通过算法实现。
所以总的来说,社会主体产生数据,但数据已经产生却往往不再掌握在个人手中,形成最初的隐私泄露风险。而数据通过算法进行处理分析,算法在数据训练喂养后反馈修正,自身让数据“开口讲话”的同时强化学习并升级,从而更有效地抓取数据并识别风险,实现有效风险防控。而在此过程中,算法处理、学习和结果应用的阶段则分别联系不透明与权利操纵风险、系统性偏见与歧视风险、权利侵害与权力异化风险以及责任主体模糊等。就此,从图1我们可以较清晰地看到三者形成了一个基本循环,而如何以算法为切入点,深入了解挖掘后进行针对性风险防控,从而实现风险、数据与算法的有序衔接,也成为了下一步要解决的问题。
图1 司法数据、算法与风险关系图
目前的算法主要有符号学派、联结学派、进化学派、贝叶斯学派及类推学派,[5]而算法也因为功能和用途的不同,被分为顺序、平行、互动、分布式、实时、混合和量子等算法,[6]同时在经典算法基础上又衍生出诸多子类及其他新型算法,如支持向量机算法、流形学习算法等。还有学者认为可分为宏观的两大类,分别是以专家系统为代表的“知识图谱”类算法,以逻辑推理为基础,特征也倾向于符号算法和决策树算法,以符号和推理方式模拟人脑思考,实务中在智能辅助量刑系统、类案检索系统上多有运用;以 “深度学习”“强化学习”为代表的统计算法,以数据概率为基础,在统计学原理上结合神经网络技术建立算法模型,[7]特征类似贝叶斯学派中概率论的分析表达,在确定维度锚点和特征标签后通过数据拟合来实现识别和预测,实践中在美国COMPAS犯罪风险评估系统、讯飞语音文字转换系统等上多有运用。而第二类统计概率型算法因为潜力空间巨大、可操作性更强的优点,也是实务研究的重点突破口。
算法由于类型和功能的不断发展,本身无法严格被定义,但其本质基本可被界定为人为设计来完成特定指令目的任务的系统性代码,也就是通常被大众认为的计算机程序。[8]其构建、调试到实务运用过程如图2所示,算法基本遵循 “特定目的需求→算法选择→代码设计→模型搭建及组合→数据训练→反馈修正→实务运用”的道路,从而完成虚拟到实践的转化,实现算法目的。
图2 算法构建与运用的路径
关于算法的风险分类,有学者基于算法规制设想的角度,按照算法的可解释性和自主性将其划分为白箱、灰箱、黑箱、感知与奇异算法[9],其透明程序依次由低到高,甚至奇异算法已经产生了实质意义上的AI(Artificial Intelligence的缩写,译为人工智能)生命。此外有外国学者从可控性的角度,认为可将其分为政策中立性算法(Policy-neutral lgorithm)与政策导向性算法(Policy-oriented Algorithm)两类,并分别结合与之匹配的机器学习类型,比如政策导向性算法一般与监督、半监督学习相联系,可控性更强,算法风险多发于算法过程和后端,出现算法权力操纵和人为歧视等问题;而政策中立性算法更多的运用无监督学习方法进行数据训练,风险源多集中于算法程序前端,对数据源的纯度和算法程序的可解释性要求更高。
就算法及其风险的理论研究而言,法学界更多集中在算法应用层面的大数据处理、人工智能以及算法黑箱问题,近两年才转向算法风险层面,观察算法歧视与权力操纵问题,但都集中在设计理念跟应用层面,针对其具体的算法搭建则一直作为技术“黑箱”被对待,例如分别有基于算法智能推荐的伦理风险研究(2018年,胡万鹏),针对算法权力异化风险的限权与赋权研究(2019年,张凌寒),基于算法隐私侵害风险的用户画像和个人信息保护研究(2019年,丁晓东)等。可以看到多是尝试以打开“黑箱”提升透明度的路径进行改善,因为黑箱本身信息披露的成本较高,算法的搭建更涉及计算机学、数学等众多学科,专业性较强,单纯的源代码披露并不能帮助解决实际社会问题,反而可能引发类似于谷歌公司搜索引擎算法披露后被恶意商业操纵的算法推荐风险。但同时也有学者提出可以采用事后问责结合有限制披露的方法,侧重事后救济的方式进行风险防范的新思路。[10]所以结合已有研究成果,文章采用风险防控的思路,以应用问题反观算法具体设计搭建的角度进行探索规制。
而针对算法及其风险的法律规制,欧盟与美国发展水平处于前列,故选取与我国情况对比参考。欧盟更加注重对信息相对人的权利侵害风险防范,强调公民个人信息权隐私设计保护,在可视透明的基础上保障信息生命周期里端到端的安全,2018年5月于欧洲颁布并生效的《数据保护通例》,即GDPR(General Data Protection Regulation)也在其序言第71条及正文第13条、14条、15条和22条对算法的解释权加以规定,相比于原有的《欧盟数据保护指令》中“算法相对人有权拒绝基于数据的自动化处理编队某些个人方面作出的可能产生法律后果或重要影响的评价”的规定,进一步保障算法相对人“要求算法使用者向其提供与非完全自动化算法决策的目的、处理逻辑以及可能产生的影响及相关信息”的权利,[11]再结合已确立的数据领域的知情与访问权、更正擦除权、携带权以及《隐私设计保护意见》(简称EDPS)等,从而初步明确了欧盟在法律领域关于算法解释权的保护与救济。[12]美国则是更加关注算法开发创新与监管审查的平衡,鼓励公众参与,私营企业建议、行业自律和行政律令三方携手打造风控机制。就法律规范上,其政府也继2016年发布 《人工智能报告和战略规划》后于2020年发布《人工智能应用监管指南》,列举细化了需要在假定人工智能并不完善的前提下理解、分类和防范人工智能系统产生的风险内容。[13]纽约市政府更是于2017年出台了《算法问责法》,在公用事业领域进行算法问责,并确立算法的一应评估标准、救济程序与权利等要求。
而我国更多地通过宏观法律的架构对算法及其风险进行原则性的规制与防范,目前虽尚无关于具体算法风险的专门法律规制,但在十九大报告上强调统筹 “传统安全与非传统安全”的同时,相关国家机构也分别于2016年、2018年、2019年出台了 《网络安全法》《电子商务法》《中国证监会监管科技总体建设方案》《金融科技发展规划》等法律条例,在宏观上确立了对算法进行初步的监管。
作为风险社会理论探寻风险社会出路的两条路径,制度主义和文化主义暗自指向弥合“工具理性”与“价值理性”之间的鸿沟,在风险意识启蒙后从人性角度去审视当代风险问题。其中尤其要做到风险治理主体上的多元性与参与度,风险治理过程的开放透明性;以及风险治理责任的清晰明确[14]。算法作为处理数据的基站,是数据被正式汇总后所将面对的核心分流器,而算法程序的运行结果则在很大程度上决定了数据下一步的用途,承接了来自数据及应用的部分社会风险之外,作为风控工具的本身人们对此也有失控之虞。所以作为一道目的导向型的实现程序,从设计理念、基础算法选择到最后的算法模型搭建也就将遵循着智能、高效、精准、客观四大原则展开,同时为实现真正意义上的风险管理,在结合特定任务需求进行的算法对比筛选环节,最后的大量数据训练环节,都应结合风控理念进行完善和修正,将科技研发和实务反馈结合,将技术手段约束与社会层面规律结合,多层面进行过程透视与责任分流,使得算法与任务目的尽可能匹配的情况下消减风险与伤害。
1.科学性原则。面对科学造成的风险,贝克曾提出 “在反思性科学化条件下将风险转化为机会的路径”的观点。科学理性作为风险治理的一大原则,同样适用于算法演进的风控。因为算法程序本质是一道计算机运行的程序,始终遵循着程序语言的规则,稳定性、安全性以及简练性便是检验程序是否科学可信的三大标准。算法程序的稳定性在于多种软硬件环境下保持持续稳定的运行工作,不会产生较多的程序漏洞与不必要的冗余值溢出,程序漏洞即BUG会直接破坏程序的稳定,造成算法程序的卡顿甚至崩溃,并为计算机蠕虫等病毒留下缝隙通道,直接影响到算法本身的安全。当然安全性要求不仅包括对木马程序等病毒的防御能力,还包括对算法本身后门的设置。设置程序后门虽是当下业界的一条不成文习惯,但亦应以不危害用户本身信息安全及利益为限,不得人为非法地截取转存和扩散。
其次,简练性则要求算法设计之初便要考虑程序运行时所占的内存容量,达到尽可能的“轻便”,这也与稳定性要求相符合,稳定性较高的算法程序大多具备最简练的底层逻辑架构,不冗长的代码也具备更小的BUG产生几率,不会产生太多的错误结果和冗余值,并将其算法“噪声”降至最低,从而提升程序的效度。同时简练性并不是简单纯粹的追求代码的“短”和空间占比的“小”,而是通过构建稳定的框架和洗练科学的锚点来达成简约而有效的任务需求。以设计以人脸识别的算法模型为例,在构建此算法时会以面部要素为锚点,分类建立起参考坐标,并对锚点进行分别评估赋值。五官为基础锚点,发型、眉毛、瞳色、眼睑、肤色、胡须等则为次级锚点,而对基础锚点和次锚点如何进行选择与取舍,并对应赋予恰当的数值的过程则成为算法设计的关键点。因为此时锚点的数量、数值或占比则决定了算法结果是否可以比较准确而快捷地对人脸加以匹配识别,锚点数量越多,赋值越精准,其参考体系无疑会更加全面而准确,容错率也进一步提升,但牵一发动全身,由于引入的要素数量上升,随之而来算法程序需要更大的可供内存消耗空间,BUG检测调试的工作量激升,现实数据的收集分类工作的任务也更重。
实务中亦有对此的相关研究,在面对数据量较大的情况,生成锚点并计算样本点和锚点之间的相似度矩阵是关键步骤,而锚点的选择一般有随机选择方法和K-means方法两种。对此罗晓慧等人提出了计算复杂度更小的,采用平衡二叉树结构的层次平衡K-means(BKHK)方法,简称 BKHK,[15]效果如图 3 所示。
图3 层次平衡K-means(BKHK)方法下的锚点生成
2.客观中立原则。坚持客观中立是破除极化信息茧房悖论的有效方法,因为算法个性化推荐被人诟病的一点便在于会加重信息极化,久而久之形成堪比阶级封锁的信息封闭,从“人常常选择使自己愉悦的信息”到“人只选择喜欢使自己愉悦的信息”。[16]但已有研究表明,形成茧房的根本原因在于人天生就具有偏爱喜恶的区分,算法智能化推荐只是加速了它的形成,但同时算法真正意义上的客观中立设计原则会基于用户兴趣推移、水平与垂直媒体的共存交织、数据源内容与层次的增加等因素对信息偏差极化进行矫正,从而帮助打破信息茧房,促进信息偶遇,进行更广意义的构建。
此外,算法的客观中立性因为契合司法独立的理念,被引入司法实务进行程序辅助乃至实体裁量的参考,而客观中立原则也随之内化成为其法理基础的一部分。算法的客观中立性一部分来源于机器语言的最底层逻辑无法更改,会永远恪守其设计之初的“底层原则”按既定程序运行,不会像人被情绪所干扰。所以保证客观中立的第一步确保便是设计理念的中立客观,不存在恶意的后门可供操纵,也不存在先天的算法漏洞导致算法歧视的风险。后门可以通过风险调试和木马攻击进行测试检查,而先天算法歧视因为原因的复杂而需要区分对待。
刨除算法设计者本身能力的不足,一般来说,设计阶段时算法锚点设置和赋值,模型搭建阶段时算法组合的衔接,训练阶段时数据样本的选择出现偏颇失误都可能引起算法歧视,锚点、标签赋值的错误会直接产生升维时的偏差,而数据“喂养”时失误因为“深度学习”的存在则会扩大这种偏差形成歧视,就如同一名问题儿童在出生之时便有缺陷,在青少年时期的成长又受到社会的不良影响,从问题儿童变成了不良少年甚至走向犯罪。以美国COMPAS系统为例,已被其本国调查性新闻机构ProPublica调查证实,依据COMPAS系统算法会导致更可能将黑人列入 “高犯罪风险及犯罪潜力人群”,其概率接近将白人列入此选项的两倍。而讽刺的是,实证研究却发现被COMPAS系统认定相同风险等级时,白人在被假释后却更容易再次犯罪,从而证实了该系统对黑人所构成的系统性歧视。[17]造成这般算法偏见甚至的歧视的原因便是数据“训练”和算法设计的失误。所以坚持客观中立原则必须贯穿始终,从算法设计时参考因素与变量统计的取舍(针对性别、取向、肤色种族、宗教信仰等的非回避化与匿名化处理,但应警惕为消除政治或道德风险而在算法中故意排除统计学意义上重要因素的做法,从而妨碍到预测指标在统计学上的显著性检测),到结合个性化与社会均值的合理锚点赋值,再到数据源与样本事前选择的全面客观(代表性、层次性、全面性和个别非典型性),都应该有所体现。
而客观中立的另一部分则来源于算法计算过程的可解释性,可解释性是指整套算法模型的关键步骤是透明的,并且有足够的理由支撑解释为何会得出这样的计算结果。算法中深度学习的存在导致技术“黑箱”出现,可解释性便成为算法设计的一大难题。因为机器语言无法被人类直接所理解,而算法的基础逻辑和语言便是由其构成。尤其是以“深度学习”“强化学习”为代表的概率统计类算法,采用了一种“端到端”(end-to-end)的运行模式,所以在设定好算法后输入数据到获得结果的过程是不透明的,甚至大部分情况下算法的源代码和数据也是不为外界所知,人们也无法得知计算结果的如何得出与为何得出。但实务中仍坚持着对算法进行解释的可视化探索,并取得了一定成效。谷歌大脑计划研究员Cheis Olah完成了一项名为 “可解释性的基础构件”(The Building Block of Interpretability)的研究成果,该成果可以对算法程序的运作状态“翻译”成人类可以理解的形式,从而一定程度上揭开“黑箱”的神秘面纱[18]。学界还提出了如升维可视化等解决设想,比如将原有锚点维度划分并扩展为多个新维度,并使用邓恩指数和正确率来量化评估Radviz(径向可视化技术)的可视化聚类效果,对原有维度,尤其是与真实分类结果相关性高的维度进行进一步的合理升维处理,可以较大幅度地提高Radviz的最佳可视化聚类效果,从而在总体上改善不同维度锚点排序情况下的数据投影结果。[19]
3.智能性原则。就如同法国学者伽洛曼·屈秀所言,智能化是21世纪后无主机械发展的终点。虽有夸大成分,但智能性的确已经与高效性、精准性、便捷性发生交叉重叠甚至将其涵盖,也代表着当下信息科技发展的主流方向。作为采用机器语言的算法程序也不例外,人工智能作为当下法律领域研究的热门方向,从公安系统里以PGIS为代表的犯罪情报研判体系构建[20],到法院体系中的智慧法院建设工作以及红圈律所开发的工作协助系统,也都未放弃对智能化的研究。以四川省为例,四川省高级人民法院牵头组织研发的道路交通事故纠纷要素式审判信息系统,通过对内部算法程序的合理构建组合,可对交通事故一类案件进行要素识别后分类整理,结合既定裁判规则对庭审笔录文本智能识别后抓取整理,并自动形成裁判文书,关于事故造成的损失在确认既定数据无误后也可一键生成。[21]在规范了案件处理流程的同时,也极大地提升原有司法裁判文书制作的效率,缓解了诉讼爆炸带来的诉累压力。
其次我们可以看到,网站人流量数据量的长期满额运行或者过载运行,会造成反应迟滞卡顿甚至崩溃。以中国裁判文书网为例,由于长期被诸多社会机构以数据爬虫的形式占领用于实时抓取案例数据,导致网站因此不堪重负,极其卡顿,这就提示着算法的智能化还需要包括优化其对外部的负载能力和对内的推荐优化能力。因为算法推荐技术一方面拥有强化信息茧房的风险,可能造成信息控制与技术依赖的负面影响,但另一方面却能够有效解决信息过载的问题,在结合人工推送和内容审核后,达到“以技制技”的效果,而精准的内容推荐和类案推送也无疑会受到广大法律从业者的青睐。所以总的来说,法律领域的人工智能的发展方向是突破简单的“数学+科技+法律”组合,在概率统计的数据基础上结合“专家知识图谱”,在数据流的压力测试下适应完善,达到“超级人脑”的思考效果。
最后,由于法律视角和价值选择的差异,不同的立场和法律条文带来的是对同一案件事实的不同解读,加上算法不像人类具备“常识”,无法完全理解语言的丰富涵义,[22]导致生成“符号接地问题”甚至陷入语境悖论。所以如何贯彻社会风控的沟通理念,打破机器语言与人类语言的圈层壁垒,实现一定程度上的对话互通,便成为破解算法智能化难题的关键环节。实现一定程度语义互通后,才能进而制定一套相对权威完善的专家评价体系,对法律原则和价值位阶等要素进行梳理整合,并分别提炼赋值,从而为算法在法律判定评价上的智能化飞跃奠定基础。
事实上,在接触到具体任务需求之后,我们往往并不需要再设计一套全新的算法。因为基于风险测试和现实成本的考量,一套全新的相对完善的算法除了前期设计构建外还需要通过反复的数据训练和调试才能逐步被采用,其间需要人物财力不间断投入打磨。而在市面上已经存在许多已经被验证过,风险系数较低且相对成熟的算法,所以我们组建自己算法模型的第一步则是先在这类算法中比较挑选,再加以改良完善甚至重造,从而设计出自己需要的算法。
具体到算法,以为不同场景算法应用为例,面对支持算法程序的硬件要求,选择SVM训练算法时,Chunking算法因可以通过某种迭代方式逐步排除非支持向量,从而满足降低训练过程对存储器容量的要求;而分解算法(decomposition algorithm)是目前有效解决大规模数据问题的主要方法,分解算法衍生出的特例序列最小优化算法(sequential minimal optimization)更是优化了其迭代过程中循环策略与判优条件,满足了任务算法速度的要求;而增量算法(incremental algorithm)增量学习是机器学习系统在新增样本时逐一进行后续优化,并能够只就原学习结果中与新样本有关的部分进行增删修改,与之无关的部分则不被触及,从而考虑到了算法初期草创时需要频繁修改优化的灵活性需求。[23]
而具体场景适用的算法优劣,比如两种同为针对证明力评估的概率统计型算法,一种采用比例算法,一种采用基于贝叶斯公式或莫兰系数的盖然性算法,我们更多的会考虑后者。简单的比例方法用于评价证明存在很大缺陷,同时因为赋值的粗糙和风险阻断的缺少,往往结果并不尽如人意,而基于贝叶斯公式的似然率被广泛用于司法实务中,如法庭科学中经常运用数值概率的DNA证据;统计学方面的专家受邀就给定案件情况发生某种犯罪的概率进行作证,以及犯罪矫正学方面以传统多道仪测试技术为基础的品性评估 (CDA,Credibility and Disposition Assessment)。这种方法为刻画和量化证据与待证事实之间的推论关系提供形式框架,并在法庭科学领域获得显著效果。
再比如说,在犯罪矫正领域,入矫人员的人物画像工作因为标签锚点的缺失或不够合理,往往导致下一步的分类分级评估工作难以展开。因此有学者提出了堆找泛化(Stacking)模型融合方法,因为采用树行计算方法的集成学习方法,与人类解决问题的大脑思维模式相接近,而且模型树行化符合问题本身的逻辑,精确率和召回率呈稳态正相关。因此采用树行计算方法的Stacking方法可以整合不同模型的最好表现,贴近算法意义上的帕累托最优点,使模型融合更加科学化,最终提升模型的预测准确率和泛化能力。[24]
如前所述,算法程序可分为专家型“知识图谱”算法和统计概率型的“深度学习”算法两大类,两类算法各有优缺点。“知识图谱”算法前期由对应的专业领域人士打底进行知识塑造,帮助机器识别与使用来自不同数据源的数据,并以符号图标的方式对符号逻辑进行半自动地编排,具有较高的透明性和逻辑性,但技术和人力成本较高,难度更大,适用领域专业化的同时也消解了普适性。“强化学习”“深度学习”类的概率性算法具有较高的通用性和可预测性,奖励函数的存在也使得算法本身在“纠正—激励—行动提升”的模式下拥有极大的上升潜力,锚点的设置和调整也更加灵活,但另一方面此类算法解决人文社科类问题的智能化程度较低,中期数据训练环节对数据源的纯净度、样本选择和结构、样本数量都有较高要求,技术黑箱的风险也使得人类对其保有极大的警惕。所以在单个或单类算法无法更好现实解决问题的情况下,结合多个算法进行组合搭配构成一套相对完整的算法模型也就势在必行。事实上,众多已经平稳进入实务适用阶段的算法程序,也大多是多个算法组合而成,比如类案推送系统、再犯罪风险评估系统等等。
而在法律运用领域,算法模型的搭建要兼顾法律实务的需求,实现司法的程序正当与可预测性,降低公民对司法不信任的风险。这就要在前文所述权重赋值的基础上,设置一定比例透明度更高、解释性更好的算法模块,需要在模块搭建时留出一定可审计空间,并对关键模块进行信息和主体标注,因为算法披露牵扯到用户权利保护尺度、知识产权纠纷与商业秘密等众多问题,法律规制尚不完善,披露范围难以把握,目前只能依照“有限事前披露+事中审计监督+事后问责救济”的模式进行透明化处理。同时留有学习型算法进行锚点处理和强化学习,理顺算法模型对事实认知和法律解释之间的路径,并不断反馈、修正、递进,最终提升算法程序的智能性,形成算法解释、法律决定和社会反应的良性循环。
最后,算法模型构建还必须要处理好算法衔接的问题。沟通作为社会风控的重要概念,是维持各个社会子系统间动态稳定的重要阀门。而具体到算法衔接,则主要分成数据统一转化、算法兼容性问题以及数据库衔接问题的解决。一方面,由于大数据时代下数据类型的多样化,结构格式不一,异种算法对待数据处理的方式和口径也参差不齐。要做好算法衔接,就必须要在数据汇总后进行口径的统一化处理,并洗掉数据中的错误、冗余信息。另一方面对算法兼容性进行测试调整以及针对性修复,而这个环节将经历设计理念考量环节、数据训练环节和实际调试操作,并一直持续到外部专家审查,从而确保模型没有超出预设的偏离度。而在此过程中,算法数据库的衔接也需要引起重视。通常对算法是“喂养”以数据,即手动或半自动的方式开启数据库权限,但不同算法所对应的数据库权限以及类型也不一致,尤其是针对包含个人敏感信息的数据库,在算法衔接时并不意味着数据库衔接,否则容易引发数据泄露的“撞库”风险以及算法样本的混乱,进一步导致算法训练方向的偏离。
以当下的法律大数据为例,其中算法应用主要集中在云计算、人工智能、区块链三大方面。[25]简单来讲,云计算起步最早,广泛运用于司法辅助系统中,并多侧重于处理海量数据,进行筛选归类和统计,并进行针对性的用户推荐,比如司法自主统计、中国裁判文书网上的案由分类、共同主体检索以及类案指引与智能推送系统等,算法的选择上注重高效便捷和数据抓取的精准全面,很大程度上缓解了司法资源不足的压力。但同时实证调查发现,一线法官使用类似系统时,也存在因为数据库的不完整、类案分类的不合理以及算法推荐的不满意而导致使用率不高的现象,可见负责数据分类的“强化及深度学习”仍有较长一段路要走。即便是人工操作下针对电子数据的算法取证,基于犯罪防控的考量,存在难以公开的数据清洗和筛选环节,导致取证的可信性上存在缺陷。
另一方面,人工智能在基础的数据处理上提出了更高要求,通过数据训练反馈来完成对算法模型中锚点标签的修正,从而达到模拟人脑思考的效果,运用在实务中的例如我国的智慧法院建设中出现的AI虚拟导诉法官和智能辅助量刑系统,公安系统的智能巡逻机器人等,算法的构建上对数据的深度学习和拟人化能力都有较高要求。
最后,区块链技术运用则由于自身去中心化的特征,更多运用在公证、证据领域,尤其是在电子数据的提取、运输和固定保全的过程中,区块链潜力巨大,其算法选择也多注重保密性和稳定性。其次区块链技术中涉及的加密、解密算法也是算法发展的一个应用分支,首先使用非对称加密算法对交易进行确认和验证,从而确保不会有人为伪造的交易数据被写入;同时采用哈希函数并将区块链各部分联接在一起,在保持同步更新的情况下可以保证交易数据不被篡改,并保证历史数据的可追溯性可去中心化。
在科技与网络的催化下,算法的广泛应用是通过机器解放人力的必然趋势。除开智能化和客观中立的大方向,此外由于任务需求的多元化以及针对风险种类的不同,算法在扩大化运用的基础上也将出现更加适配性的专业分工。因算法本身逻辑既定的特征,不同的任务需求而回流反推到算法设计,从而应更加注重算法的初始的设计区别,做到面对不同风险情形,追求在渐近性能和现有信息条件下取得数据挖掘的最优结果,从而为事物识别、评价和预测提供参考。
以支持向量机算法 (Support Vector Machines,简称SVM)为例,虽同为作为建立在统计理论学习基础上的算法,在针对精细化的风险种类和“小”“微”数据的运用需求,应对其锚点设置难题时,可以尝试粒度支持向量机算法(GSVM)的信息粒构建获得灵感方向;在预防算法抓取精度不足导致偏见风险和“大”数据的任务需求下,破解算法推荐和信息检索问题则可以选择排序支持向量机(RSVM),在数据“降噪”的要求下更倾向选择模糊支持向量机(FSVM)[26]。
其次,算法应用将更加注重对算法权力和风险的防范。算法本身作为解放人力规避风险的工具,却由于本身的发展上限而成为风险的一部分,甚至是风险转为实害的一大节点。因此,针对算法应用的自身风险管控也是题中之义。
毕竟算法秉承人的意志而生,为的是弥补人脑和人力的缺点,从诞生起便可见其具备的巨大潜力和利好。但凡事皆有两面,一方面算法发展迅速并在社会风险防控中起到了关键节点作用,另一方面其自身也分担着来自人的风险,自然也对应着许多或不可知的风险。
算法的作用巨大,在掌握足够全面数据后其运算结果可以影响甚至决定一个人的社会对待和资源分配。在信息社会和风险社会中,信息数据的获取与分析都十分重要,而算法便是其数据抓取和理解的重要工具,对应产生的便是算法权力。但算法权力的神秘更多的体现在技术黑箱上,其本质并不神秘。权力的本质在多数状态下体现为话语权,如封建社会中的王权、信息社会下的信息获取与独占权。而公民在物理电子设备(手机、相机、录音笔、监控器等)和网络平台(博客空间、APP后台数据、出行起居记录等)上的数据逸散后,被个人、社会团体或国家机构收集以算法模型进行分析,从而进行针对性反应,所以从这个角度讲,算法权力本质来源亦是公民个人信息权利的集合。但个人权利到算法权力的让渡过程中,个人同意和权力边界却是仍需要研究关注的两大方向。个人对算法的选择权、知情权如何保障?社会机构利用网络空间的半公开信息数据进行算法判定是否构成侵权?国家机构是否能无需前置许可便依据算法结果对公民采取风险评级并纳入包含征信机制的预警观察体系?诸此种种,目前都是尚待研究的问题。
封建社会时代,人们会建造木像石像作为神灵来祭祀信仰,甚至王权也会借助这类“神”的名义来帮助统治百姓。而某种意义上,算法亦可以看作是当下科技创造出的 “神像”,代表着AI浪漫主义里对科技万能的一种极端想象。算法由于技术黑箱的缘故不被人所直接感知,在保持神秘的同时也被人们神化,但在体验到算法的强悍功能的同时也应该感受到其解释分析复杂对象的不足和失真,以及背后潜在的算法歧视、算法权力与操纵和责任主体模糊等诸多风险。因为究其深层原因,算法本身也只是风险构成的一部分。在未出现真正意义上的人工AI生命之前,作为社会的客体映射,算法也仍遵循着程序运行的基本路径,代表着设计者与操作者的价值取向和社会选择,而这些社会问题并不能完全通过科技去解答。
科技并非万能,并非所有的东西都可以被数据量化代替,将人完全交于人造物来统治管理无疑走向了另一段深渊。我们应该警惕着这种失去对人性和生命敬畏的风险,生命不是一串简单的阿拉伯数字。同样,法律的生命力也在于经验与逻辑而非机械与科技。感性的经验与理性的逻辑才是构成“人”的一体两面,当主要依靠甚至完全交由算法来施行法律时,法律也就将失去它本身的温度。而这样的直接结果便是算法公正与“人道公正”冲突,算法持续“失温”,并引发后续一系列的算法伤害和风险。
算法伤害主要包括四个层面:用户画像、算法黑箱、算法歧视、算法操纵[27]。分别涉及用户的个人信息数据的隐私保护问题,算法的不透明性和不易解释性问题,算法设计缺陷或数据训练环节的污染导致用户被不公正的区别对待问题以及对人为操纵算法权力问题的担忧。
算法黑箱的存在,可以通过保障算法相对人的算法解释请求权来进行规制。对算法源代码和核心数据的披露存在一定风险,但坚持对算法决策过程进行法定披露,事前算法信息公示,事后算法问责[28],尤其是发生算法损害后算法的设计者与运营主体应当对争议和关注点进行有效解释并接受审查,以及对相对人进行补偿性、惩罚性的双重损害赔偿等法律制裁,最后在技术上加以针对性的更正优化,多重手段制约下,算法不透明性导致的恶性后果便能得到一定改善。其次,剩余三种情况同样值得注意,首先关于用户画像风险,个人隐私老生常谈,但司法工作人员的画像却鲜有提及,尤其是判例法国家中法官的裁量权极大,根据历史判例和相关公开半公开资料对其画像后采取针对性的诉讼策略和外部施压,同样有违司法公正精神,2019年法国出台的 《2018-2020年规划与司法改革法》便禁止了对司法人员进行类型化画像的行为。
其次关于算法歧视风险,社会环境导致设计者认知的歧视已经超出算法设计层面,更多的是属于对网络空间对现实社会的一种反照,但类似的如谷歌的职位推送广告和犯罪矫正的品性评估,确是因为算法因为深度学习会深化标签效应,导致歧视进一步固化,不同的学历、肤色、性别、年龄甚至犯罪类型和喜好都被数据要素化分类,如同现实中的抖音、今日头条等APP的算法推荐,使用的时间越长,数据处理量越大,越会产生私人定制般的效果。因为算法在信息科技中的广泛应用,经历了两个时代积淀发展的机械和信息科技,会引发一道比阶级迁跃更难跨过的社会鸿沟。尤其是在司法领域,由于身体刑、自由刑的强制性和不可逆性,相对人因算法歧视所遭受的损失更严重。一旦受到类似伤害,在信息舆论环境下渲染传播,对司法信任破坏很大,这无疑与时下的恢复性司法的理念相背离。
最后是关于人为算法操纵导致的风险,除了上文提过的算法歧视和诱导,还包括算法损害和人为信息茧房效应,网络服务提供者可以通过多种途径获得用户相关数据后,进行大数据“杀熟”,或通过对其需求预测和信息过滤性封锁,从而利用算法对用户进行决策甚至代替用户进行决策,导致用户本身利益受损。
总的来说,文章尝试从法律领域中算法运用的角度倒流反哺算法的构架设计,以实践循证促进算法理论完善提升,其中众多设想因为学科类别的跨越可能存在大量的疏漏和偏差,在实践操作起来具备较高的挑战性,也还待进一步的验证。但不可否认的是,算法的发展应用之路虽然充满风险,但将风险转为实害还是利好却是“人”的要素起到核心作用,因为风险本质就是多种可能性的集合。我们要对算法进行去魅,防止其滥权,对技术黑箱进行进一步“洗白”,并在量化调整方面进行升温,但同时也不应该因噎废食,将其看作洪水猛兽,从而浪费了算法本身在诸多社会领域方面的巨大潜力。