所谓大数据,有三个特征:全样本、混杂性、相关性。其中,最重要的就是全样本。但是,由于财力、人力、分析技术等条件的限制,人们很难拿到全样本。基于这种全样本,人们可能更好地了解现实社会中的各种真实。于是,根据这些真实去预测某种现象的发生概率,就更可靠了。
作为社会现象的一部分,法律现象与自然现象之间有着显著区别。法是由人制定的,法是由人实施的,法是由人违反的。所以,法律现象有着太多的异质性和不确定性。但另一方面,法律现象的总体又往往巨大无比,每年法院处理的各类案件几百万件,每个达到一定责任年龄的公民都是潜在的违法者,所有公民都是潜在的被害人。那么,法学研究该如何迎接大数据的到来,至少做出一些像样的大样本研究呢?
首先,全样本选题。在法律现象的研究中,并不是所有问题的对象总体都是十三亿人或者百万、千万计的案件。比如,截止到2006年6月《刑法》修正案(六)通过颁布以前,中国《刑法》规定有425个罪名,截止到2003年12月23日,最高司法当局发布的刑事司法解释共有1233个,某一笔专项资金总额400亿元,涉及该项资金的全部职务犯罪案件共几百件。这些,都是力所能及的全样本选题。此外,某个行业的行业性规范、某个部门的执法活动等,也都可以成为全样本研究的选题。除了这些以全国范围为总体的选题以外,还可以将有代表性的某个省、某个市、某个地区,甚至某个县、乡的全部某类案件、某些司法文书、判决结果、政策文件等确定为全样本研究的对象。为什么学术活动一定要左右于一个中心才算是触摸到了真理呢?其实,这本身就是一种关于学术研究的误解,一种盲目追求宏大叙事而不屑于细微具体研究的浮躁。既然如此,法律实证研究中丰富的全样本选题,是尽可能降低抽样误差的一个较好对策。
其次,合理确定抽样框架。所谓抽样框架,就是一份与总体非常相似的用来选取具体样本的名单。关键不在于样本的数量大小,也不在于抽样框架是出于何种目的确定的,而在于根据某个框架所获得的样本与总体之间是否相似。只要对既定研究目的而言,抽样框架与总体之间具有相似性即可,而两者不可能在所有方面都满足相似性要求。
例如,我们不可能首先获得全国所有刑事案件的名单,然后据此进行随机抽样,但我们可以把来自最高法院各业务庭、研究机构、出版单位、网站等权威机构公开发布、发表的全部真实判决设定为抽样框架,并称其为“示范性案例”,然后抽取其中的某类案件进行全样本研究。这种案例的代表性在于:第一,由于这些案件来自全国各地,由各地各级法院选送,具有对全国总体的代表性;第二,由于是最高法院各权威机构认可并公开的案件,因而具有对司法实践的指导性;第三,由于其中绝大部分案件属于生效判决,因而具有一定的有效性;第四,各地选送案件以及最高法院各单位选取案件时充分考虑到案件类型和性质的多样化;第五,由于是公开发布的案件,因而对公民行为而言具有相当的规范性、模范性和可预测性;第六,由于提取了这个范围内的几乎全部某类案例,将抽样误差降低为零,因而具有研究依据上的准确性。其实,如果可能将总体的所有特征一模一样地微缩到某个随手可得的抽样框架中的话,无异于对总体完成了一次严格的随机抽样,并以其结果为抽样框架进行二次抽样,其实这已经不是在选择抽样框架而是进行多段抽样了。
再次,避免盲目放大样本容量。一般而言,研究总体本身的异质性程度越大,需要分析的变量的个数越多,则所需要的样本规模就越大。但是,一个占总体5%的样本,未必要比一个只占总体1%的样本要好上5倍。样本规模绝对数值的重要性大大超过样本占总体比例的重要性。
最后需要说明,最高法院已经从2013年起开通了裁判文书网,公开了几乎全部司法判决文书。尽管在技术上还有待改进,但这件事的意义之大,超出了许多人的想象。至少今后我们不能再说,拿不到全样本,所以无法做大数据。现在的问题是,司法当局已经为法律大数据研究提供了相应的条件,学界能跟上吗?(来源/《中外法学》 文/白建军 有删节)