李 满(中央司法警官学院)
夏 琳(司法部燕城监狱)
朱 杰(中央司法警官学院)
吴树芳(河北大学管理学院)
基于大数据的强制隔离戒毒解除人员行为分析
李 满(中央司法警官学院)
夏 琳(司法部燕城监狱)
朱 杰(中央司法警官学院)
吴树芳(河北大学管理学院)
注:本文为2015年度全国司法行政系统理论研究规划课题《基于大数据的强戒解除人员行为分析》阶段性成果,课题编号:15GH011。
毒品是一种全人类共同面对的公害,吸食毒品会对吸毒者本人的身心健康产生巨大影响,而且会给社会带来极大危害。大力开展戒毒禁毒工作是国家和社会赋予我们的职责,帮助吸毒人员戒除毒瘾是戒毒工作的目的,但高复吸率一直是戒毒工作面临的一个重大难题。
复吸也称复发吸毒,是指吸毒者在经过戒毒治疗后,又开始使用脱毒前所依赖的毒品的行为。根据一组数据统计①刘金鹏:《戒毒人员高复吸率问题研究》,《中国刑事法》,2004 年第5期。,全球戒毒的巩固率只有9%,即使戒毒技术比较先进的美国等发达国家,其戒毒人员的复吸率也高达90%以上,在戒毒工作颇有成效的新加坡,其复吸率也为70~80%。我国戒毒人员的复吸率问题同样不容乐观。
如何做好对强制隔离戒毒解除人员(以下简称强戒解除人员)的帮扶救助,使得这个特殊群体能够尽快融入社会,被家人和朋友所接纳,是巩固戒毒成果、有效降低复吸率的需要,也是保障社会稳定、预防和减少违法犯罪的一项重要工作。
传统的针对强戒解除人员的帮教方法对于防止复吸有一定的帮助,但是不可否认的是同样存在着许多问题。
(一)传统的帮教方法
为了最大限度地降低复吸率,传统的方式通过如下几方面对强戒解除人员进行再教育。
1.认知训练
通过授课和谈心等多种多样的方式使吸毒者能够深刻认识毒品的危害性,教会他们预防复吸技巧和经验,在思想上能够对预防复吸有所警觉。
2.康复训练
开展多种多样的康复活动和体育锻炼,在科学方式下正确使用药物辅助治疗,恢复吸毒者身体机能,缓解或消除戒毒的各种不良症状,养成良好的行为习惯,达到生理上有效预防复吸的目的。
3.心理训练
通过开展心理健康教育授课和宣传、心理咨询和心理治疗达到心理上有效预防复吸的目的。
4.社会功能恢复
吸毒者通过强制的隔离封闭戒毒后,要回归社会进行生活。增强吸毒者社会适应能力,修复家庭正常功能,对于吸毒者强制隔离戒毒解除后尽快融入社会进行正常的生活有着重大意义。
(二)传统方式的弊端
强戒解除人员回归社会后面临许多问题,但传统的帮教方法拥有其自身不可克服的缺点。
1.难以掌握强戒解除人员在一段时间内的全部个人信息。传统的帮教方式只能了解强戒解除人员的一些基本信息,如:性别、年龄、曾经吸食毒品种类等,并没有综合多方面的个人数据信息。不同种类的强戒解除人员行为数据信息能够反映出他们在一段时间内的生活状况。强戒解除人员行为信息包括工作情况、家庭状况、银行账户变化规律、每天的活动路线和浏览网络信息的内容等。其中工作情况能够反映出强戒解除人员的生活稳定情况,稳定的经济来源意味着生活进入平稳期,并且能够得到大众和社会的认可,此时,强戒解除人员的情况相对稳定。反之,没有稳定的收入来源则可能带来一系列的负面结果。稳定的家庭关系能够有效降低复吸的可能。银行账户变化规律能够体现出个人的经济状况,有规律的活动路线能够体现出生活的稳定状况,浏览网络信息的内容能够体现出兴趣点和精神追求等。这些纷繁复杂的数据描述了一个强戒解除人员的总体状况,而且数据会随着时间的变化而变化,分析如此复杂且庞大的数据是人为处理不了的。
2.难以在正确的时间作出正确的引导。根据统计,回归社会的3~12月时间里是戒毒人员复吸的高危期。传统的方法无法准确估计出复吸可能出现的时间点,而现有的物力财力又没有办法保证在如此长的时间内对这些人员一直进行帮教。
3.难以根据不同强戒解除人员的不同特点作出具有针对性的帮教。一成不变的帮教手段和方法不能够针对个体的不同而作出相应的改变,不利于降低复吸率。个体不同,对应的个体性格、家庭因素、财力状况等也不相同。明确当前个体生活中出现了哪些状况以及成因对于有针对性地开展帮教有着重要的意义。
4.没有考虑到某一区域内的强戒解除人员之间的关联性问题。传统的方法只能通过人为的方式获取不同强戒解除人员之间的关联性,比如是否频繁接触有吸毒史的人群,是否有非正常的聚会等。把个体看成是群体当中的某一个个例,个例和群体之间有着千丝万缕的联系,以一个整体的角度来观察个体更能够准确分析出个体当前的状况。
5.没有提出有理论支持的复吸预警机制。目前,没有一套强有力的理论用于支持强戒解除人员复吸的预测。一切的判断均取决于人为的判断,缺乏理论知识容易导致错误的判断。
针对强戒解除人员的大数据收集的最终目的是为了能够准确地预测到他们复吸的可能性,并有针对性地加以帮教。首先,人为地凭借经验处理的方式难于综合各方面的数据信息并且作出准确的判断。其次,人脑对于海量数据的处理没有成功的先例。如何让计算机去代替人脑来解决更加复杂的问题一直以来是人类的梦想。
在强制隔离戒毒所戒毒成功后,为了降低强戒解除人员的复吸率,而对他们在一段时间内的行为进行有效的监控和分析是必要的。包括其工作情况、家庭状况、银行账户变化规律、每天的活动路线和浏览网络信息的内容等。这些信息可以通过联合街道、银行、移动运营商和网络运营商等多个部门来获取。所有强戒解除人员在戒毒所期间的个人情况信息和一段时间内的行为记录构成了海量信息,有效地分析这些信息能够及时发现这些强戒解除人员的复吸趋势并采用相应的措施加以防范。
首先来介绍一下本文所提出的基于大数据的强戒解除人员复吸预测分析框架。如图1所示,最底层为数据的采集,在这层当中,需要自动或者人为地采集强戒解除人员的很多数据,人为采集的数据如强戒解除人员的工作情况的数据,家庭状况的数据,自动采集的数据如他们的银行账户数据、活动路线数据和浏览网络信息数据等。倒数第二层为数据存储和分析层,这些数据通过网络传输到远端数据库或者云当中,利用不同算法对不同种类的数据进行分析。例如深度学习用于分析视频图像,时间序列用于分析银行账户和浏览网络信息等,分类用于对不同数据是否正常的判断等。在大数据处理算法对数据进行分析之后,对于所有的数据给出一个可能性分析的结果,即分类结果。但是单独地依靠某一方面的数据得出的结论都是片面的。在底层中,采用了集成学习的方法对之前得到的各种结果进行综合性的分析,最后给出是否存在复吸趋势的预测结论。
需要注意的是,文中提出的方法框架所得到的数据是在不断增加的,即所有的强戒解除人员数据都在随着时间的变化而不断变化,能够及时通过得到的反馈信息作出正确的判断是本文提出的分析方法的优势之一。
图1 基于大数据的强戒解除人员复吸预测分析框架
(一)基于数据挖掘的解决方法
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。我们可以把强戒解除人员的行为分析看做是一个分类问题。首先,我们把问题简单地理解为一个二类分类问题,即安全行为(无复吸趋势)和危险行为(有复吸趋势)两类。我们借助已有的分类器如决策树、SVM、贝叶斯网络等等,实时输入当前追踪人员的个人信息,这些分类器会把此问题当做一个二类分类问题,要么判断当前追踪人员的情况是安全的,要么判断是不安全的。
我们可以把强戒解除人员的行为分析看作是一个回归问题。首先把之前提到的工作情况、家庭状况、银行账户变化规律、每天的活动路线和浏览网络信息的内容等作为向量进行输入。在不失一般性的情况下,当我们考虑N个属性的时候,强戒解除人员的信息可以被理解为一个N维空间上的点,用于回归分析。当所有的特征符合之前回归得到的规律的时候,即为正常,否则可能出现复吸趋势。
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。关联规则可以用于发现行为分析中那些关联性很强的特征,这些特征对于行为分析和最终行为的判断有着非常重要的作用。比如:工作是否稳定与银行存款之间的关系。强戒解除人员如果有着稳定的经济来源,那么存款会呈现一个稳步增长的趋势,如果两者不相匹配,说明出现了异常,这个时候就要进行更深一步的分析。
特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。提取出最关键的特征对于行为的表示有着非常重要的作用,特征当中有一些是对于行为的表示有作用的,比如路途、银行消费情况、工资等。有一些是没有作用的,比如血型、姓名等。单独地依靠人为选取特征进行表示是不科学的,利用现有的特征选取方法进行主特征选择如PCA等是必要的。
(二)基于机器学习的解决方法
用以往的知识来预测未来是机器学习的重要任务之一,学习是其主要特征,原有数据的完备性是学习知识成效的一个重要因素。大数据为数据的完备性提供了良好的基础。当给定了复吸人员的数据和无复吸情况下的个人数据,利用决策树、贝叶斯、SVM分类器就可以判断出在下一刻数据的类别,即会复吸或不会。
(三)基于时间序列的解决方法
银行账户的时间序列分析方法。图2中为模拟的强戒解除人员的银行存款数据的时间序列。其中横轴代表月份,纵轴代表银行存款的情况。A时间段为正常的序列,在同一个月内随着时间的推移,由于正常生活的需要,账户余额会不断降低,但是到了月底,由于发了工资,银行的存款余额会上升。A时间段内的点代表在月中消费后的银行最低余额和发工资之后的最高余额。由于人本身的生活节奏特点,每个月的生活应该存在一定的规律性,可能会偶尔产生一些波动,但大体上是遵循一定规律的。
B时间段的部分为有可能产生了不正常的情况。从图中可以很容易地发现,经济上出现了入不敷出的情况,与往月数据相比,消费明显增加,但收入却没有明显的变化。不正常的情况并不一定说明产生了复吸的情况,也有可能是由于疾病原因产生了额外负担或者家庭生活发生变化导致额外消费比如结婚、生子等。是否产生了复吸趋势要结合其他数据分析。
图2 强戒解除人员银行存款数据的时间序列
C时间段的部分显示银行账户突然产生了很大的波动,收入和支出有了明显的变化。此时要考虑的因素很多,有可能是因为事业上的成功导致了收入状况有了很大改善,也有可能是因为出现了以毒养毒的情况。同样,不能够根据数据给出合理的判断,结合多种因素多种数据综合考虑才能得出正确的结论。
基于时间序列的解决方法可以认为是一个时间序列的分类问题,可以用很多现有的技术来进行解决。
行动路线的时间序列分析。由于工作和生活原因,大部分人的生活是有规律地进行的。生活中一天内所经过的路线也比较固定,随着视频技术和移动通讯技术的发展,人们几乎无时无刻不暴露在视频监控中,GPS定位也能够准确提供位置。这些为时间序列分析提供了必要的基础。此时的时间序列主要用于记录在不同的时间点强戒解除人员所在的地理位置、行动路线等。通过在很长一段时间内的比较,跟踪判断强戒解除人员的路线是否发生了很大的变化,以此作为依据判断是否有复吸趋势。
本文提出了一种基于大数据分析的强戒解除人员行为分析技术,这种技术以机器学习数据挖掘技术为背景,在多领域数据收集的基础上,对强戒解除人员的行为进行有效的分类,用于监管和帮教,这为解决复吸问题提供了一种新思路。但是,目前还存在一些问题,如怎样运用这项技术分析复吸趋势,如银行账户和工作情况等的采集还需联合很多相关部门合作,如何界定安全级别等。在今后的工作中,我们将进一步研究如何解决这些问题。
(责任编辑 张文静)