嵇红涛
(厦门大学 法学院,福建 厦门 361005)
大数据和计算机技术的快速发展推动着时代社会转型。随着数学、统计学、计算机科学等学科方法日益成熟,越来越多的学者开始将目光聚焦于探索数据的隐匿规律,逐步将数据分析、数据挖掘、人工智能等方法与各学科交叉运用,探索不同学科视角下所关注数据的深层规律,诸多法学研究者也纷纷加入其中。本文立足于计算法学这一新兴主题,尝试厘清计算法学概念中的基础法学理论,探究构成计算法学方法的核心要素,并在此基础上分析计算法学方法的运用规则。
计算法学是在法学实证研究融合计算机数据分析技术后不断发展演变出来的概念,这一词汇并非由国内研究者创制,而是始见于英美学者的法学成果文献。早在20世纪80年代,瑞典的法学研究者皮特·塞佩尔已经在自己的研究成果中使用“计算法学”这一词汇,他认为计算法学在未来或许会发展成为一门全新的学科,并指出计算法学是以计算机科学技术为基础的法学研究方法,其研究的内容主要为法律信息检索方向、法律数据库建设、法律信息安全保护及与此有关的个人权利保护等问题。[1]其后的一段时间里,计算法学多次在法学研究范式、信息法学和法学实证分析等研究主题的文献中被引用。尽管如此,计算法学在后续很长一段时间内并未得到学界专家的足够重视。直至2005年,斯坦福大学的研究者迈克·吉乐塞瑞斯撰写了一篇标题带有“计算法学”的研究论文,成功发表在第十届人工智能与法律国际研讨会上[2],加之其本人极力推动计算法学学科的研究与发展,因而在斯坦福大学引起了一定的反响。自此,围绕计算法学这一主题的国际学术会议、高校课程、研究论坛在世界各地纷纷出现。计算法学也引起越来越多法学研究者的兴趣,越来越多的专家学者将其确定为自己的主要研究领域,并取得了一定的研究成果。欧盟在制定《“欧洲2020”战略》中大力支持以计算法学为主题的两个研究项目,这也成为计算法学发展的重要里程碑,标志着欧美国家开始大力推进计算法学学科发展,掀起一股以计算法学为主题的法学研究国际潮流。21世纪初,随着计算机技术和大数据研究在国内兴起,计算法学开始被国内部分学者关注,越来越多的国内学者也加入“数据+法学”这一研究浪潮中,产出了一系列“数据法学”“信息法学”“计量法学”等主题的研究成果。
我国已有部分学者前瞻性地提出了“数据+法学”的研究新方向为计算法学,并就其研究范围展开了讨论。有学者指出法学学科在大数据背景下会逐渐向社会计算的研究方向迈进,可将这种研究主题称为“计算法学”,其包含的研究范畴为法律数据的动态汇总分析,以及以大数据为基础的法社会学分析和预测研究。[3]也有学者提出计算法学是传统的法学实证研究进入大数据时代的新型表现形式,本质上依然归属于法学实证研究,计算法学方法融合了传统的定性与定量方法,兼具规范研究与实证研究的部分特征,最终以复合型、开放式的样态,展现了复合研究方法与众不同的意义。[4]新型计算法学方法的研究内容主要聚焦于对法律信息的数据挖掘,具备英美国家曾出现过的法律计量学、法律信息学等法学实证研究主题的内涵。还有学者认为,计算法学方法的出发点是具有数量变化关系的法律现象,主要采用现代数学、计算智能方法对特定的法律数据进行深入研究,未来研究者及公权力企业单位也可以基于此方法评估司法运行的效果,审视立法合理性,借此来探寻法律规范与经济社会的潜在关联。[5]
由此可见,计算法学是依托法学、统计学、计算机科学等学科理论,利用计算机数据处理分析方法在特定主题的法律大数据中寻求变量之间隐性规律的法学研究方法,其主要被运用于评估司法实践效果、法治舆情分析、立法科学性评估、裁判文书信息挖掘、热点研究趋势分析以及司法裁决预测等研究领域。
学界少有人去厘清同为“数据+法学”实证研究的数据法学、计量法学、信息法学与计算法学之间的区别。为此,需要对这几个概念做如下讨论。
1.计算法学与数据法学
国内有学者提出,数据法学研究的内容主要有三个方面[6]:第一是技术研究,技术层面研究的是代码算法对法律运行机制的影响,具体来说可以涵盖立法、执法、司法、守法四个方面,此外还包括对法治评估结果的影响;第二是实体研究,主要研究大数据在被收集分析过程中法律是否对其有一套配套的保护规则,以及借助大数据是否能实现社会治理;第三是方法研究,即研究怎样利用大数据技术促进法学研究自身,这里面包含信息时代对传统法学研究方法相关概念与既有原理的冲击与回应。就此看来,数据法学的概念与本文所提的计算法学概念相差甚远。数据法学的研究选择了更为宏观的视角,将大数据时代法学发展的可能性做了长远展望,而计算法学则是一种聚焦于具体问题的法律实证研究方法,侧重于数据分析技术在法学问题研究中的特殊价值以及如何确保计算法学方法的实现。
2.计算法学与计量法学
计量法学曾经有“legal statistics”“forensic statistics”“jurimetrics”等对应的英文词汇,从这些词源搭配可以看出,计量法学强调的是“法律+统计”的相关关系,其中无涉计算机科学中较为前沿的数据挖掘、建模分析等技术。计量法学不是研究一种特定的计量单位、计量标准的法制化、规范化问题,而是突出法理学测量技术,包括检验、分析、试验技术所运用的方法。显然,计量法学将定量和计量的方法引入法学研究领域,对传统以定性分析为主的法学研究方法和法学研究视角造成了巨大的冲击,对传统法理学(Jurisprudence)研究方法同样也是一种很大的挑战。也可看出,计量法学的内核是一种法律现实主义理念,倡导结合经验分析和科学严谨的实证分析方法来研究法学问题。由此可见,计量法学的概念较计算法学而言提出较早,囿于早期数据分析方法难以超越当时的技术水平,更难以预知计算机科学的发展是否会给数据研究带来更深层次的机遇,因而计量法学所提供的方法具有时代局限性,其倡导以统计学的分析方法作为研究法律数据的主要工具已经不足以融合新型数据分析方法。统计学或计量学的研究方法现今为许多法学实证研究者运用,计算机技术也为统计学数据分析提供了极大便利,因而计量法学作为早期法学实证方法应当被计算法学的概念吸纳。
3.计算法学与信息法学
有学者认为法律信息学也是由法律计量学发展而来,二者可以视为一个发展脉络上先后出现的两处节点。[7]有学者认为法律信息学具备两个本质特征,首先法律信息学赖以存在的基础理论是信息学,其次法律信息学研究的对象必然是法律领域与信息有关的问题,进而提出法律信息学是借助信息科学的研究方法对法律信息进行二次运用研究的科学。而信息法学则不同,信息法学的理论依托是法学学科,研究对象是信息学科关注的领域内的法律问题。[8]显而易见,此处的信息法学将所研究的对象限定在了信息学科之下,其所指向的更像是“商业秘密保护”“个人信息保护”这样的研究主题。诚然,信息法学并不是信息学所涉领域内法律问题的研究,更不是实体法层面上所要讨论的“信息时代面临哪些新的法律挑战”的问题。虽然信息法学的精确定义以及所研究的范围很难厘清,但这并不影响我们找出计算法学与其之间的区别。不可否认的是,法律信息学与信息法学始终与“信息”这一概念紧密联系,而计算法学是基于“数据+法学”的研究模式建构而成,二者的本质不同最终会回归到研究“信息”与“数据”的区别之上。通常认为,信息要具备可识别性,数据则是一种实现信息传递功能的载体。基于此,计算法学和信息法学在选取研究对象上已有较大差异,信息法学关注有效的、已经初具价值、能反映一定内容的数据,而计算法学的直接研究对象是还未成型、尚待挖掘出一定规律的离散数据。
作为一种较新的法学实证研究方法,计算法学的实现离不开诸多要素相互支持,研究范式也应当区别于传统的规范分析、价值分析方法。有学者曾提出法律实证分析由三个要素组成,分别是程序、经验、量化。[9]其中,程序要素涵盖确定研究问题、假设理论命题、数据分析处理以及得出最终结论四个实证研究步骤。经验因素之所以能占据一席之地,是学者抓住了实证研究与其说是对数据案例进行分析,不如说是对司法经验进行二次分析这一本质。[10]而量化因素指的是数据分析方法,以特定的方法研究数据,包括统计学的描述和运动趋势的预测。计算法学专注于法律大数据处理分析,已不再是传统的统计学假设命题检验,其方法的实现更多依赖于新型多元的计算机数据分析技术,计算法学方法的三个核心要素是数据、算法和专家。
首先,法律数据是计算法学方法的研究基石。大数据方法之所以能为诸多学科专家学者关注运用,其根本原因在于各学科差异虽大,但研究对象大多都以数据的形式被记录保存在服务器中。数据研究方法有特定的适用对象范围,但不严格区分数据来源或者要求数据属于某一具体学科。数据自身的属性使其摆脱了各个学科之间原有的知识障碍,这也是大数据方法得以跨学科应用的根本原因。此外,计算法学方法的最终结果完全取决于数据,数据的规模、数据的质量等会从根本上影响最后结论的正确与否以及可信程度。比如某位研究者想要研究“合伙企业作为原告的胜诉率”问题,选取的裁判案例均为原告败诉的案例,最终得出的结论一定是“合伙企业作为原告必然败诉”,这显然是一个错误结论。然而,研究者在对该问题进行实证分析时,选用的计算法学方法未必是错的,结论也是“有效的”,但是基于偏颇的数据产生的“有效”结论未必是正确的。
其次,计算机算法为计算法学方法实现提供保障。法律实证研究由来已久,虽然早期的实证方法与文中的计算法学方法相差甚远,但皆属于实证研究。同为实证研究方法,计算法学方法的不同之处在于融入了现代计算机数据分析技术。人工智能发展得益于计算机算法日益成熟,计算法学可以说是人工智能在法学研究方面的一个应用。计算法学方法之所以不再局限于简单地实现法学关键词词频统计、频次排序、分类汇总等基础统计功能,是由于计算机代码模型可以多样化、多元化地处理海量的法律大数据。由此可见,计算机算法是区别早期法律实证研究和当下法律实证研究的关键,计算机算法为计算法学方法的实现提供了最根本的方法保障。面对同样的法律数据,选择不同的计算机算法数据分析模型,结果未必是相同的。因此,计算机算法是原始数据到分析结果之间的“加工厂”,对于计算法学方法的实现至关重要。
从事计算法学研究的专家学者是计算法学方法的第三个要素,是架起数据与算法之间的重要桥梁。有学者认为计算法学方法的难点在于数据质量无法保证,还有人认为现在的计算机数据分析技术还不够智能化。[11]实则不然,相比于过去司法数据获取渠道困难、裁判文书获取方式不易等问题,现在的法学实证研究已经在数据获取便利性上有了极大的突破,再加之现有信息科技的发展,数据处理分析技术日益成熟,数据获取和处理分析条件较以往均有了根本性变化。当前,计算法学方法能否实现的关键已经转移到了法学研究者身上。使用计算法学方法进行实证研究要求学者同时具备计算机和法学双专业基本素养,在具有足够法律知识储备的同时能够熟练运用具体的计算机数据分析模型。因此,在大力发展计算法学的今天,还需着眼于计算法学人才的培养,这才是破除当下计算法学研究瓶颈的关键一环。
计算法学聚焦于存在数量或者具有数学关系的法律现象,从现象中提炼研究问题,在此基础上运用计算机数据分析的方法寻求结论,而数据、算法、专家构成计算法学方法的三大要素。不同的法律大数据来源代表着不同的数据源格式,也直接决定了基于此种数据源可使用的计算机数据分析方法的范围。法律数据是计算法学方法的直接运用对象,运用计算法学方法前,学者有必要对法律数据做出细致考察。
计算法学方法作为一种实证研究方法,直接分析对象就是带有法律含义的数据。专家学者使用计算方法时,首先需要对研究的法律数据作细致考察。庞德认为,法学是一门以社会统计学为目的的应用科学。[12]9而与统计密切相关的法学实证研究结论可靠程度,在一定程度上依赖于选用的法律数据质量。实证研究与定性研究的重要区别就在于实证研究追求在研究过程中尽可能排除主观因素,而数据作为计算法学的直接研究对象,其真实性、有效性和一般性(也可称为普遍性)是达成这一研究目的的重要基础,从事计算法学研究的学者也应当从这三个方面考察研究数据的质量。
所谓真实性,是指法学实证研究基于的法律大数据必须真实可靠,真实可信的法律数据是得出正确研究结论的基础保障。数据来源的真实性对于各学科大数据研究者及各行业数据工作人员都至关重要。而基于不真实的数据得出的结论必然错误,利用造假数据得出“完美结论”的危害比学术不端严重百倍。肇始于自然科学方法的实证研究方法为社会科学研究注入了新的活力,这在某种程度上就是一种社会科学研究方法向自然科学研究方法倾斜的表现,而自然科学以其充分尊重研究对象数据的客观真实为原则,结合归纳、总结方法探索出了诸多定律和公理,为人类不断点亮未知领域。社会科学研究虽然总是夹带着视角多元、学派纷争、结论不唯一等主观因素,但这并不影响我们尊重社会客观事实,选用非经验化的方法重新研究来源于社会的真实数据。因此,专家学者应对研究数据的真实性持审慎态度,避免数据造假,除此之外,还应留意一些数据中的不真实因素。譬如有些研究人员在法检部门门户网站或公共社交平台获取法律数据,此类数据本身可能带有一定的偏向性,有可能是数据公示人员筛选符合一定特征或喜好的偏颇数据,这也会在一定程度上影响法律数据的真实性。
专家学者除了确保研究数据的真实性,还应当确保数据的有效性,并非所有满足真实性的法律数据都能成为有效的研究数据[13],法律数据由于“过期”等原因也会导致数据失效。以刑法数据研究为例,我国不同时期的刑法及司法解释对同一罪名犯罪的构成要件、量刑情节、赔偿金数额规定可能截然不同,还存在罪名变更、罪名增减等情况,直接以某一罪名作为关键词检索出来的裁判文书可能是在不同时期刑法及司法解释下生成的,其中有些文书案例可能并不符合研究主题的要求,进而成为无效数据。时间及其他因素对法律数据有效性的影响皆属于运用计算法学研究问题的数据考察阶段必须考虑的问题。或许有学者会质疑,数据的有效性要求足以吸收真实性要求,理由在于非真实的数据自然都是无效的。从结论来看,此观点并无不妥,真实的数据未必有效,不真实的数据必然无效,但笔者认为仍然要将二者区分对待。数据真实性是对数据本身真伪属性的判断,是一种客观真伪认定,而有效性是强调数据是否有助于研究问题的解决,是一种“贡献度”认定,两种属性的判断立场不同,应单列区分。
在数据考察阶段,研究人员还应当注意法律数据来源的一般性,这是指在法律数据的选择上要避免特定倾向,选取的研究数据无论是来源于研究机构的案例数据库,还是各级法院出版的案例以及研究者著作中的案例,抑或来源于裁判文书网的数据,选择过程需要具有随机性。如果所涉研究局限于某地域或区域,那在此限定范围内的案例选择也需要具有随机性。以裁判文书数据研究为例,研究者在选取研究案例时,应当考虑选择非典型性案例,注意分析数据来源的一般性、普遍性。例如要选取一批司法裁判案例来研究国内民事赔偿金问题,研究人员就不得不考虑我国幅员辽阔的客观情况,法院最终认定的赔偿金额会因各地区经济发展水平不同、地域文化多样等因素导致数额相差甚远;倘若只选择某一地区的民事赔偿金案件做数据分析,得出的结论又势必会有管中窥豹之嫌。因此,从事法学实证研究的工作者,应当充分考虑自己研究的问题需要何种范围、何种类型的数据,确保选取的法律数据置于研究问题下具有一般性。研究人员选取数据时不妨参考统计学的经验,采用随机抽样方式选取数据,确定研究问题下数据来源的场域,可以在场域内尽可能随机抽取案例来源,也可以在某一场域内采用全样本研究,有效避免选取法律研究数据片面的问题,确保法律研究数据的一般性。
综上所述,专家学者在计算法学研究问题的数据考察阶段应重点对研究数据的真实性、有效性、一般性做出考察。具体来说,有以下几点需要注意:第一,在案例数据的选择上注重抽样调查的原则,尽可能采用大样本法律数据,以便减少错误样本对结论的影响;第二,选取案例数据时尽可能通过多种渠道收集,单一渠道可能会带有数据发布者倾向,影响研究结果;第三,要对数据进行初步筛选,排除不符合研究主题或明显偏离研究主题的数据;第四,保留好原始数据来源,最好在研究分析报告中加以说明,以供其他研究者交流学习。
基于法律数据的法学实证研究或多或少会给坚持从事经验分析的研究人员带来一些冲击。需要说明的是,专家学者应正视法律数据量大幅增长和大数据背后的价值这一事实,以开放的态度面对法律数据研究才是正确选择。法律数据是开展法学实证研究的基础和依托,并不是法学实证研究的最终目的。法律大数据研究在某些方面是实证研究和经验分析融合的结果,尤其在海量裁判文书挖掘的运用场景下,一份文书就包含了一次完整的经验分析过程,此时法学实证所要做的就是对大量的经验分析数据进行二次分析,探究不局限于个案经验集合数据中的规律。
在数据考察阶段,除了上文提及的数据质量,研究人员还需注意数据的结构化清洗问题。计算法学方法是计算机数据处理技术与法学实证研究融合的最新成果。计算机科学从20世纪发展到今天,在人机交互、人工智能、深度学习等方面取得了显著进展,但其能直接处理的基础数据格式依然是二进制0、1字符,而计算法学方法最终在模型中分析的也只能是结构化数据。结构化数据是指由多条包含既定的标准字段(也可称为指标、变量)值的记录组成且具备一定格式的二维表。将其类比到裁判文书中作进一步说明,每份裁判文书就是一条记录,我们可选择以审理法院、原告所在地、被告所在地、诉讼案由、是否上诉等作为字段,每条记录对应到字段就会有具体的数值,这就是一份标准的结构化裁判文书数据表,计算机数据挖掘就是基于结构化数据去寻求字段间的规律关系。自然语言处理技术和文本挖掘技术使得研究者借助代码程序可以自动提取文本中的有效字段,但这种技术并不能直接生成准确无误的结构化数据供计算机模型进行分析,为确保数据分析结果的可靠性,仍需要研究人员对自动抓取的数据修正清洗。
计算法学方法直接处理结构化数据,专家学者在数据源选择变量时要充分考虑指标结构化的难度。法律数据中有大量定性指标,如何将其转化为定量指标是进行数据结构化表达最为关键的问题之一。比如法院导诉服务满意度调查研究势必会涉及定性评价指标,调研人员收集到的指标值往往是不满意、一般满意、较为满意、非常满意等,这显然是一种定性表达。研究者在对数据结构化处理时可以将上述指标值对应赋具体数值为2分、4分、6分、8分,如此一来,数值越大代表群众对该项指标越满意,定性表达就转化为定量表达。为了便捷操作,调查研究人员也可以让群众直接对某项指标进行满意度打分,在收集数据时完成定性字段的定量转化。裁判文书有诸多定性描述指标,比如犯罪的既遂未遂、是否构成累犯、是否存在认罪认罚情节等,此类指标属于定性分类指标,结构化方法较为简单,符合情形就赋值为0,不符合赋值为1。相比于定性字段的结构化过程,定量字段的结构化则较为简单,比如年龄、罚金、刑期(需要统一单位)等,研究者可直接以原有数值作为指标值,还可以根据研究需要做出适当调整。比如将连续数值型指标划分段表达,将年龄值这一指标转为定性分类指标,以成年、未成年作为指标值。再比如将量刑刑期按区间划分为3年以下、3年到10年、10年到无期、死刑四种类别。法律数据具体处理方法因人而异,将离散数据重新整合成标准的、可供计算机处理的数据二维表,在一定程度上体现了法学实证研究人员的业务水准。[14]
在数据的结构化表达过程中,研究人员应对综合字段的选取持审慎态度。所谓综合字段指的是那些“容量较大”的指标,简单的赋值并不能准确有效地反映指标情况,比如被告人的心理素质、人格特征、人身危险性、社会环境、生理条件等[15]136。如果选取被告人心理素质作为字段,对其赋予良好、一般、较差等描述值意义甚微,良好的心理素质可能包含了很多二级评价指标,诸多的二级评价指标值合力作用指向一个综合指标值,因此,对综合性指标进行简单赋值需要其他研究辅助论证。研究者在运用计算法学方法时,应尽可能选用能被清晰准确描述的无争议变量,避免选取的变量由于赋值模糊不清或缺少理论支撑导致整个法学实证研究的结论可靠性不足。
运用计算法学方法研究法律问题应遵循法律实证方法的基本步骤,全过程由问题选取、数据收集、实证分析、得出结论四步组成,这也是统计学研究的一般步骤。计算法学方法由于运用场景学科化、多样化和模型技术多元化、复杂化等原因,整体虽遵循实证研究的一般步骤,但实现方法和运用规则较传统实证研究相差甚远。本部分将对计算法学的运用规则作进一步阐述。
运用计算法学方法研究法律数据首先需要构建问题。从前文可看出,计算法学方法与统计学方法有着较大联系,但计算法学所涉问题的表达方式与统计学“假设-检验”表达明显不同。假设检验是对关于变量之间未知关系预设的可检验命题,或者理解为对变量之间关系的试探性说明。[16]假设就是研究人员预先设定“未知”变量之间关系,形成标准命题的过程。此处的假设不是学者进行规范分析时可能带入的价值假设,也不是存在于研究问题前的潜在假设。比如“犯罪本质上是自然现象”就是“天生犯罪人论”的潜在假定,假设检验中关于命题的假设是一种实实在在的变量关系设想,其命题形式是“若A,则B”,A、B均是陈述性表述。假设检验分为理论假设和工作假设,与定性研究不同,实证分析中的任何理论陈述,最终都要变为可检验的工作假设,只有工作假设才能被研究者实际检验。譬如,“犯罪越严重,社会反应就越严厉”就是个理论假设,无法直接进行检验,需要将其转换为工作假设,如“犯罪率越高,则死刑的适用和严打的次数就越多”等。研究人员进行命题建构,完成理论假设到工作假设的转化,建立何种假设命题及命题的可信度,取决于实证研究人员自身的业务水平及选取研究数据的质量,需要注意的是,假设的命题还是一种未经检验的理论,建立假设、检验假设的本质就是在理论命题与实践数据、抽象与具体之间不停交互往返,这是实证分析通往研究结论的必经之路。
计算法学方法研究的问题形式是一种更加开放的表达方式,专家学者先基于研究兴趣或可获得的法律数据确定研究主题,对样本法律数据进行初步评估后,再明确要设定的变量,构建一个适用计算法学技术的开放性问题。问题表达的开放性是计算法学方法研究的一大特征,也是计算机数据建模分析技术进步的重要表现。构建表达一个有效的计算法学问题是专家学者们运用计算法学方法进行法学实证研究的前提,计算法学方法的问题表达与运用场景和实现技术紧密相关,专家学者们应综合衡量来源数据情况、研究主题、可使用平台技术来构建表达计算法学问题,这也是大数据处理技术多样化的必然要求。
总的来说,研究人员在构建计算法学问题时,要综合来源数据、运用场景、技术类型等因素,尽可能采用开放式问题表达,研究者可以表达为“基于某技术对某法律数据进行某种研究”,或“从某数据中研究A、B、C、D、E五个变量的关系”,又或“基于某数据研究A、B、C、D变量对E的影响”,诸如此类的问题表达有助于快速明晰研究中的数据来源、研究方法、运用场景等。当然,此处所说的问题表达只是为了给研究人员提供更清晰的研究思路,并不是在框定最后研究报告或成果的标题范围。当专家学者明晰法学研究问题归属并完成问题表达后,才能使其更好地完成计算法学研究任务。
计算模型为计算法学方法的实现提供技术基础,也是计算法学不同于传统计量法学的根本原因。在法律数据收集与结构化表达阶段,研究人员对选用何种计算法学分析模型应有基本判断,完成数据的收集和结构化表达后,计算法学的研究进入计算机模型分析数据的阶段。在这一过程中,研究人员的工作量显著降低,计算模型会在最大程度上排除研究者干预完成自动识别、自动分析、自动挖掘、结果导出等工作[17],最后经由计算模型处理运作呈现数据分析结果。研究人员可以基于数据分析结果对模型参数做出调整,让计算机重新分析数据,也可以基于数据分析结果对所研究问题做出解释说明。当然,如果结论明显有违法律常理,可以放弃这组数据的分析结果,对研究数据做出适当调整或者重新选择计算模型后重复这一过程。
具体分析模型的选择对于计算法学方法的实现极为重要,数据类型、指标数量、研究目标等都会影响计算模型的选择。专家学者选择计算模型可以以数据变量类型为出发点确定可用分析模型范围,比如在比较分组数据样本研究中,数据指标层次包括连续指标和分类指标,同时供研究人员选择使用的有均值比较和交互分析两种计算模型。以刑法案例数据研究为例,有学者在观察法院刑事案件判决时注意到这样一批案例[18]:判决书中也有“盗窃数额较大”的情形,最终判处的刑罚在三到十年之间;判决书中也有“盗窃数额巨大”的情形,最终被告人被判处的刑罚在十年以上。按照《刑法》第264条规定,这两种情形都超出了法定的量刑幅度,显然存在有悖刑法规定的可能。面对上述问题,研究人员势必会收集符合对应情形的两组案例数据,简单分析可知,该问题数据中的“盗窃数额较大”“盗窃数额巨大”及被告人判处的刑罚区间均属于分类型指标。确定数据类型和指标特征后,研究人员应将目光转向不同计算模型的特征区别上。经分析可知,均值比较模型适用于两组数据组间对比,主要适用于连续数值型变量,而交互分析模型则适用于离散非连续型变量。将两种分析模型所适用的变量类型与案例数据情况稍加比较后,研究者就可确定该研究问题选用的计算模型为交互分析模型。
研究人员应熟练掌握计算分析模型特点,除掌握计算模型适用何种变量外,也要了解每种计算模型的局限性。仍以交互分析模型为例,其本质是对一个自变量与一个因变量之间关系的交叉分析。如是否构成重伤与正当防卫是否成立的关系,这种分析以假定其他关系不存在为前提,因变量只受自变量影响。[19]而因变量正当防卫是否成立与是否具有紧迫性、是否超过必要限度等许多因素有关。[20]当研究者发现交互分析模型难以发挥作用时,可从其他计算法学模型中寻找出路。比如数据挖掘中的关联规则模型就可以摆脱双变量关系研究的局限[21],适用于离散型变量,无差别地利用置信度(Confidence)和支持度(Support)算法来挖掘任意变量之间隐含的强弱关系,更好地为计算法学探索多变量关系提供模型支持。计算法学还给研究者提供预测研究的模型,适用于多个自变量作用于一个因变量(结果)的法律实证问题,比如学者从事的刑事量刑预测[22]、知识产权赔偿金预测[23]研究均属此类。计算法学中针对多个自变量与单一因变量间的关系研究可以采用多元线性回归、人工神经网络等分析模型。Logistic回归和人工神经网络模型都可以同时展开多个、多种自变量对一个因变量的建模分析,需要注意的是,法律数据中除涉案金额、人数、时间、刑期这样定距的连续变量以外,还有很多例如是否撤诉、是否上诉、是否存在违法阻却事由等分类变量,这些变量的值可能会直接影响因变量的结果,换言之,此类变量对分析模型的选择往往有较大影响。
由此可见,在法律大数据研究中选用何种计算模型依赖于研究人员对研究数据和计算模型的熟识程度。一方面,研究人员选取的研究数据来源决定了可提取的变量个数以及每种变量的类型,不仅影响了依托这些变量可构建的研究问题,还极大地限缩了能够同时满足所研究变量与问题情形的计算模型。另一方面,研究人员掌握了何种计算模型以及掌握到何种程度,也决定了自身能研究何种计算法学问题以及开展具体研究的顺利程度。
实证检验是实证研究是否成功有效的“质检员”,计算法学是一种针对法律大数据的法学实证研究方法,检验评估的重要性不言而喻。在此阶段,研究人员可以依据计算模型本身提供的检验参数对数据分析的有效性做出评估,也可以通过考察模型分析结果来优化模型中的参数,重新导入数据分析模型,直至获得满意的结果。若是模型分析结果检验无效或者优化后仍得不到任何规律,研究人员就要重新考虑数据质量、问题表达、模型选择是否存在较大问题。
计算法学模型由于技术代码复杂、技术类型多样、变量类型繁杂、分析结果格式不一等原因,并不存在一种统一可套用的检验方法。专家学者应结合运用的计算模型特点,有针对性地对计算模型进行如下两个方面的有效性检验。其一是模型自带指标检验。研究者首先要确认计算模型本身自带检验指标值是否在有效范围内。一般来说,任何一个较为成熟的数据分析平台或数据分析技术都已经包含了一些结果评价指标,比如前文提及的适用多自变量对单一因变量研究的Logistic回归分析就包含着t检验和F检验[24],前者用来检验单个变量的显著性,后者则是检验多个自变量对因变量影响的显著性。诸如此类,研究人员需要先关注计算模型中自带的检验指标,确保基本模型分析无误。其二是模型运行效果检验。计算模型技术繁杂,同一功能的实现代码也有所区别,某代码运行有效意味着数据分析过程顺利,但这并不一定代表基于此种代码的运算法则得到的模型运算结果是最佳的。比如实现多变量关联规则分析的典型算法是Apriori算法,但已有不少研究者对其进行多次改进[25],使数据挖掘效果更加理想,研究人员应尝试不同算法选择最佳模型。
除此之外,学者还需要对计算模型给出的结果进行价值评估。计算法学方法是利用海量的客观法律数据,挖掘潜藏在数据表象下或利用规范经验分析不易发现的规律,但法律数据无非来源于司法实践活动、法院裁判案例、学者研究文献等,其背后蕴含了社会大众对于法律的价值认知,基于计算法学方法得出的结论应符合社会大众、专家学者主流价值判断,绝不可能得出“杀人者无罪”这种结论。因此,专家学者有必要在模型检验后,对模型分析结果进行价值评估,分享正确的法学研究成果,以免有些别有用心的研究者借由计算法学方法的外衣在学界博取眼球,哗众取宠。
鉴于计算法学方法的相关内容尚未在学界获得统一认识,对其进行概念界定、相近概念甄别有助于专家学者厘清计算法学方法的本质属性。不同于传统的规范分析,计算法学是一种抛除经验预设,完全依托客观存在的有效文本数据,在“海量经验”中寻求新知的实证研究方法。又不同于计量法学、数据法学、信息法学等其他法学实证研究主题,计算法学方法具备多场景、多技术、复合型的特征,数据、算法、专家构成了计算法学方法的三大核心要素。计算法学方法的实现难点在于专家学者能否对运用场景、数据来源、数据变量特征、分析模型四个方面准确把握,应从真实性、有效性、客观性三个维度考察数据质量,明晰变量类型,对研究数据进行结构化表达,进而结合分析模型的特征构建研究问题。完成数据分析后,研究者还需从模型指标、模型效果、内容价值对分析结果进行检验评估。
信息化社会为法学研究带来了计算法学方法,同时也给学界带来了全新挑战。国内亟须建立一个法学家和计算科学家的交流平台,使两大学科相互赋权,进而培养一批杰出的学科交叉型人才。此外,计算法学方法的研究和发展始终建立在法律大数据之上,互联网平台对大数据进行集成与转换是否会导致个人或企业的隐私数据泄露,如何配备完整的信息保护制度,怎样平衡推进大数据研究工作和信息数据保护二者的关系,需要学界及相关人士共同研究。唯有如此,法学大数据研究才能以稳固的姿态持续向前,推动法学学科良性发展。