陈家琪
(中国刑事警察学院,辽宁·沈阳 110854)
现代社会犯罪形势依然严峻,每个人似乎都有遭受形形色色违法犯罪行为侵害的风险和可能性,甚至公安机关的破案技术和方法都难以应对犯罪行为的“创新”。公安机关负有预防和打击违法犯罪行为,保护公民人身财产安全的任务,犯罪研究和犯罪预测是公安机关及时预防和有效打击的基础。世界各国都不同程度地重视犯罪预测工作,有些国家甚至建立有专门的犯罪预测机构。但是,犯罪侵害是犯罪人和被害人之间的一种互动模式,两者各自以其加害原因或被害原因为作用力,相互影响,彼此互动,共同推动着侵害与受侵害的动态变化。
无论是理论还是实践层面,犯罪预测领域的研究都较为丰富,但是“受侵害”预测领域的研究相对不足。从相互作用的关系上来看,对“受侵害”因素进行及时预测、预警和预防,就相应减少了“侵害”的发生。在这个过程中,受侵害诱发因素分析和预测是针对易受侵害公民预警、预防的前提。
任何现象都是质和量的统一,受侵害现象也不例外,定性和定量相结合会使受侵害预测更加准确。定性是根据受侵害对象的受害情况,确定高相关性的诱发因素;定量则是通过建立数学模型,应用统计方法,利用电脑技术,对诱发因素进行量化分析。具体到二元Logistics回归分析预测之中,定性和定量分析能够对受侵害情态和趋势有一个直观、量化的描述(1)陈广,陈晶武.logistics回归分析的判别预测功能及其应用[J].数理医药学杂志,2007,20(03).。
二元Logistics回归是logistics回归中的一类数学模型,SPSS(2)SPSS全称为“Statistical Product and Service Solutions”,中文名为统计产品与服务解决方案。是基于电脑技术的一种统计学分析运算、数据挖掘和预测分析软件。通过利用SPSS软件对受害者的受害诱发因素进行二元logistics回归运算,能分析出诱发因素与受侵害之间的关联度,并根据已建立的模型进行个体分析,从而有针对性地、高效率地对可能受侵害对象进行预测、预警以及预防受害。
logistics回归又称logistics回归分析,是一种广义的回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域(3)https://baike.baidu.com/item/logistic%E5%9B%9E%E5%BD%92/2981575?fr=aladdin.。随着模型的适用性得到一定认可,在犯罪预测领域有所应用,受侵害预测层面则有待开发。基于因变量的不同又分为二元和多元logistics回归,犯罪侵害中受侵害预测层面的因变量为“受侵害”和“不受侵害”二分类变量,因此采用二元logistics回归分析(以下统称为二元逻辑回归分析)。
犯罪预测侦查是针对已确定的侦查对象,在其正在进行或者将要实施犯罪行为之时,根据所获取的情报信息和预测分析结论,在公安机关的精心部署和周密计划的基础上查缉犯罪嫌疑人。犯罪预测主要针对有行为迹象且暂未既遂的犯罪,而受侵害预测主要针对未有犯罪行为发生且有受侵害可能的情况(4)丁小巍,徐胜,朱飞.大数据背景下的犯罪预测侦查[J].广西警察学院学报,2019,32(05).。从时间上看,受侵害预测比犯罪预测更具有超前性,侦查机关更能预先介入;从空间上看,各地公安机关结合该地犯罪热点,筛选受侵害诱发因素并进行个体分析,预警、预防的区域性更强;从效果上看,实时感知风险并及时预防受害,对公民人身财产安全的保护更加显著。
大数据背景下的犯罪预测侦查比较成熟,主要有智慧警务数据分析、K-means算法犯罪预测(5)K-means算法犯罪预测:是通过数据模型确定犯罪热点数量并进行聚类分析的一种犯罪预测方法。、风险地域分析(6)王鑫,单丽清.犯罪预测模型在机动车盗窃案中的应用[J].警察技术,2021,(01).、logistics回归分析等犯罪预测方法。同样,二元logistics回归应用于受侵害预测之中更加适合。以电信诈骗为例,电信网络诈骗铺天盖地,呈现出智能化、多样化、高科技化、组织性等特征,现阶段,我国电信网络诈骗案件破案率不足5%,案件侦查和打击存在较大困难(7)魏克强,宋梅琼.电信网络诈骗案件的侦查困境及其破解[J].犯罪研究,2020,(01).。若从犯罪预测层面,难以有效实现公安机关预防打击犯罪、保护公民财产安全的职能;而根据受电信网络诈骗案件侵害诱发因素,进行二元逻辑回归分析并建立预测模型,再针对特定人群和个体进行受侵害预测并做到及时预警预防,从而能够突破当前泛式宣传、国家反诈中心APP非全面检测等局限,防范和减少电信网络诈骗犯罪的发生 。
具有典型意义的“广东高考录取新生蔡淑研案”“山东高考录取新生徐玉玉案”“山东理工大学学生宋振宁案”三起因受电信诈骗致死案中,犯罪分子通过非接触的方式杀人于无形,对公民人身财产安全构成严重威胁,难以通过犯罪预测及时有效打击犯罪行为,因此从潜在受害者的角度进行受侵害预测显得更加必要。
如下图1所示,基于二元逻辑回归构建受侵害预测模型。首先,根据受电信诈骗犯罪侵害热点区域(8)受电信诈骗犯罪侵害热点区域:这里指采集样本数据和采集个体数据两个阶段,具体如三(一)。,运用数理统计法收集、统计犯罪侵害信息,并确定受侵害诱发因素;其次,通过数据处理,并对数据集进行模型前提假设的检验,保证样本、参数、自变量、因变量的准确度;最后,利用SPSS软件进行二元逻辑回归分析并建立受害预测模型,根据该模型对重点个体进行受侵害预测,并对受侵害高危个体及时预警和受害预防(9)丁欣荣,夏军,孙树峰.智慧公安视域下运用大数据进行犯罪分析与犯罪预测研究[J].上海公安学院学报,2020,30(03).。
图1 受侵害预测模型构建及预测流程
受侵害热点区域确定主要指两个阶段:一是在采集样本数据时,指在某个时期易受电信诈骗侵害的多个区域,某一种犯罪侵害对象的受侵害诱发因素具有共性,可从中确定受侵害诱发因素指标;二是在采集个体数据时,指受侵害热点区域的某一地,例如a、b、c三个热点区域,a地以白领为主,b地以大学生为主,c地以底层劳动者为主。在采集样本数据时,将白领的“有强烈投资理财意向”、大学生的“缺乏社会经历”、底层劳动者的“渴望发大财”共同设为自变量;而在采集个体数据时,a地公安机关仅需从受侵害的a地热点区域作出考虑,采集是否“有强烈投资理财意向”。
一旦某一地点出现某种犯罪,从统计上看,该地及其附近区域在短期内很可能会发生类似的犯罪侵害事件,这即为“近重复理论”,它旨在解释某些犯罪在某一地点出现重复犯罪活动的现象(10)Andrew Guthrie Ferguson.Predictive Policing and Reasonable Suspicion[J]. Emory Law Journal,2012,Vol.62,Issue 2,259-325.。换句话说,在某个时期受某种犯罪侵害的地点并不是随机分布的,而存在有一定的规律性,集中在小范围的“热点区域”。这种时空聚集模式反映了与重复受害之间的关联。
之所以确定受侵害热点区域,是因为在采集样本数据时,收集的受侵害诱发因素具有普遍性和代表性;在采集个体数据时,该地公安机关在数据采集或是预警预防上,都更具有针对性和及时性,有助于快速采、预、判、防。
这是指针对易受电信诈骗侵害区域所进行的样本数据采集阶段。
每一起刑事案件事实内容都是有一定的横向和纵向构成要素组成,犯罪主体针对何种对象,在何种思想诱因下并出于何种动机,在何时何地使用何种工具和手段实施犯罪,都有其微妙的规律(11)许昆.侦查学[M].北京:高等教育出版社,2016.。反观,犯罪侵害对象也有其规律性,即为受侵害诱发因素内部相互关系和排列状况产生的结果。被害人受侵害诱发因素具有以下六类特征:致害性、诱发性、条件性、可防控性、易感性、互动性。具体来讲,致害性是指被害人之所以受害,是因为其身上具有某些致害因素,而非随机被害;诱发性是指被害人自身致害因素,诱发并驱动犯罪人实施犯罪行为,甚至强化犯罪人犯罪意图;条件性是指被害人在特定时间到达特定地点,维持了特定状态,为犯罪人实施犯罪创造了一定条件;可防控性是指在多数情况下,被害人为保护个体人身财产安全,对致害因素的产生可防可控但无所防控;易感性是指受害人易于接受犯罪人的诱导而步入受害情境,最终被选择为侵害对象;互动性指犯罪侵害的成立是犯罪人和受害人两者之间互动的结果,揭示被害人在犯罪侵害中的辩证角色,说明犯罪侵害诱发背后深层次的发生机制。
现实生活中,十有八九的人都收到过电信网络诈骗电话、短信或者陌生“好友”发送的消息,但只有部分人真正遭受侵害。究其原因,离不开警惕性差、防范意识淡薄、辨别能力弱等侵害诱发因素。在受侵害热点区域A地和B地,根据电信网络诈骗受害者笔录和未受诈骗人员调查,筛选出100个有效样本,从性别、年龄、学历、职业、收入、警惕防范意识差或分辨力弱、具备高危因素是否在2项及以上这几个因素范围内,确定四个相关性较强的因素指标,并将其作为二元逻辑回归分析的自变量,如表1所示。
表1 受侵害诱发因素及其参数一览表
本模型数据集共选择样本数量100个,自变量4个,因变量为二分类变量,其中“受侵害”样本量85个,“未受侵害”样本量15个。经过模型前提假设的测算和分析,满足以下条件:自变量和因变量为分类变量;样本之间相互独立,且分类变量的分类全面且互斥;样本数量是自变量数目的25倍;自变量之间不存在多重共线性;没有明显的离群点、杠杆点和强影响点。可对该模型数据集进一步分析并建立预测模型。
在上述工作完备的基础上,使用SPSS统计分析软件添加样本数据并设置相关参数,而后进行二元逻辑回归分析并保存模型。根据二元逻辑回归分析结果,可作出如下分析:
1.由表2可知,显著性为0.962远大于0.05,说明该模型与真实数据的拟合状况良好,具有统计意义,可以用作预测;
表2 霍斯默-莱梅肖检验
2.由表3可知,该预测模型对没遭受侵害的样本进行预测的正确率为86.7%,对遭受侵害的样本进行预测的正确率为96.5%,该模型总的正确预测率为95%,预测准确率较高;
表3 分类表
3.由表4可知,“警惕防范意识差和分辨力弱”“具备高危因素是否在两项及以上”这两项因素的显著性值分别为0.013和0.020,值小于0.05,且Exp(B)值分别为51.059和130.380,说明对受电信诈骗侵害有极其显著的影响;而“年龄”“职业”为非独立影响因素,从一定意义上讲,对是否遭受电信网络诈骗侵害,无显著但又有着一定的影响,与其他诱因指标相互组合的结果影响着受侵害的可能性。
表4 方程中的变量
在上一步进行二元逻辑回归分析的过程中,将设定好的参数及数值进行保存,生成受侵害预测模型,以对下一步的个体数据进行分析和预测。
在该预测模型中,并非所有被选中的受侵害诱发因素都展新出了显著的影响,有些则影响甚微,所显示的预测概率值看似也较为偏颇,但这些因素的有无仍影响预测概率的准确性。实际上,在受侵害预测模型的建立和运用过程中,必须认识到现有的判别预测不是绝对准确和完美适用的,因为任何一种预测方法,所选样本数据集必然有一定的局限性,并不能完全准确地反应总体情况,所以,判别预测效能的提升也是与时俱进、不断调整的过程。
因此,在具体实践过程中,应坚持因地制宜,根据本地区有待进行受侵害预测的犯罪类型和受害者情况等,形成针对性较强的预测方案并实际操作,如此才能提升判别预测效果的精准性和准确度。首先,应增加样本量的选取,尽可能保证样本覆盖的层次范围合理均衡,保证所选样本数据集的代表性,数据集应最大限度代表受侵害诱发因素对受侵害影响的总体情况;其次是受侵害诱发因素的精准选定,通过逐步回归过程对因素指标进行筛选,并将相关性较高的指标作为自变量,增强模型的稳定性;最后,如果条件足够,可以选择更为适合的判别预测方法。
相对犯罪预测而言,对潜在受害个体进行受害预测,在案件侦办领域的应用并不普遍。在预测的方式方法上,受害预测与犯罪预测有所异同,本质上都是依赖于日益完善的数据信息和分析技术,通过一定的理论模型和实践样态进行预测;而不同的是受害预测的对象是潜在受害人而非潜在犯罪人,预测方式是对受侵害诱发因素相关信息进行个体采集并进行组合分析,而非对潜在犯罪人的犯罪诱因、犯罪动机等进行分析。
重点人群信息(包括受侵害诱发因素)采集应在该犯罪热点地区范围内,根据已知被害人的信息的总体情况,确定某些易受害人群,并在该部分人群中进行个体信息采集。例如,在电信诈骗案件高发区域的A地,根据被害人总体数据分析得知,近期该地介于18至25岁的大学生易受网络刷单诈骗,则对该部分人群进行信息采集,根据基本信息和受侵害诱发因素的涵盖情况,通过已建立的受侵害预测模型进行预测。
如下表5,采集了10名不同年龄段和不同职业组合的个体信息,其中包括所涉及的受侵害诱发因素。因为数据集中100个样本所涉及的年龄和职业基本涵盖了因素指标的全部范围,并未具体到某一年龄或个别职业,所以在采集个体数据时,所选取个体的年龄或职业也相应较为广泛和随机,如此更能体现所设计的受侵害预测模型的强适用性。
表5 个体受害预测表
如上表5,在受侵害预测模型已建立的基础上,将10名电信诈骗潜在受害个体数据代入模型进行分析,得出可能受侵害的预测概率值,其中大于95%的有3个,介于90%至95%(包含95%)的有1个,结合实际情况,可将概率值大于95%的作为一级高危潜在受害者,将概率值为90%至95%的作为二级高危潜在受害者,分区划片负责的公安机关民警,按照优先级别及时对具体人进行教育、预警,避免潜在受害者遭受侵害,及时有效地预防犯罪侵害结果的发生。
随着信息化技术的发展,动态交互网络技术和数据库信息的发展以及人们获取数据手段的多样化,以海量数据利用和技术开发为支撑的时代愈加兴盛,各种判别预测方法在犯罪侵害领域的应用前景和发展空间更加广泛。在这样具有高效性的时代背景下,预测警务使犯罪预测与受侵害预测相结合,齐头并进。利用公安情报数据和社会数据,在大样本、全样本的基础上进行算法分析并建立预测模型,将会对犯罪打击和受侵害预防的高效性、精准性起着推动作用。
暂且不论其他类型的犯罪侵害,电信网络诈骗是使公民遭受侵害最为普遍的一种犯罪形式。由于预防难、打击难、侦办难等众多难题,我国也推出了诸如国家反诈中心APP、96110预警劝阻专线、12381涉诈预警劝阻短信系统等反诈利器,不断加强对潜在受害者的预警预防工作,为广大群众构筑防诈反诈“防火墙”。根据公安部数据,国家反诈中心APP正式上线一年左右即向群众提供预警2.3亿次;12381涉诈预警劝阻短信系统自上线近10个月以来,成功发送预警信息1.49亿条,预警劝阻准确率达60%以上,预警效果明显。国家反诈中心APP通过手机用户收到涉诈电话、短信或登录涉诈网址时,进行预警提示。12381系统根据公安机关提供的涉案号码,利用大数据、人工智能等技术自动分析发现潜在被害用户,并通过12381短信端口第一时间向用户发送预警短信,提示用户可能面临“虚假贷款”“刷单返利”“冒充公检法”“杀猪盘”等9类高发电信网络诈骗情况(12)http://cpc.people.com.cn/n1/2022/0513/c64387-32420748.html.。
这些系统的预警方式是建立在用户已经接收到诈骗短信、电话或网址的前提下,与用户的手机号码相关联。而根据受侵害诱发因素建立模型进行预测,是从潜在受害者的受害诱因上进行分析拦截的,在预防阶段上更为提前;在预防纬度上,是从更为深层次的思想动机上进行阻断的;在预防范围上,能够避免潜在受害者遭受接收手机电话、短信或网址以外,如“要求下载来路不明APP或转账”“网上裸聊”等其他途径的诈骗。相比而言,两者各有优势,应当充分发挥不同预测预警方式的合力。而对于其他类型的犯罪侵害也同样如此,以受侵害诱发因素为指标,可以借助更加便利的易受害群体信息采集平台,利用更先进的判别预测方法和技术对易受害群体进行受侵害预测,使之能与犯罪预测以及现使用的反侵害预警系统起到互为补充的功能。
当然,相比预测、预警和预防犯罪侵害,最有效的方式还是对公民进行法治意识和安全意识的引导教育。公安机关及有关部门应以“关联人员全覆盖、服务对象不遗漏”为标准,坚持打防并举,防范为先,精准施策。应针对犯罪侵害手段的变化,扩大预测预警范围,盘活数据信息资源,进一步提升根源预警、及时劝阻、拦截止损和打击惩处的能力水平,更好地保障公民人身财产安全。