群体性突发事件特征要素的关联规则挖掘分析

2021-03-30 06:55孙小芳
关键词:项集数据表群体性

孙小芳,陈 鹏,于 越

(1.中国人民公安大学信息网络安全学院, 北京 102600; 2.北京市公安局, 北京 100020)

0 引言

自2008年瓮安事件[1]和2011年乌坎事件[2]以来,我国加大了对大规模群体性突发事件的预防和处置力度,群体性突发事件高发的态势从一定程度上得到了有效控制,但在一些地区,由经济、环境等问题引发的小规模群体性突发事件仍然频繁发生,如2019年南阳市社旗县群体围堵县委事件,2018年禹州市群体围堵市党政大楼事件等。这些事件虽然参与人数不多、事件规模不大,但由于参与人群采取的是极端的围堵政府机关等行为,对基层公共秩序产生了巨大的冲击,仍具有较大的危害性。

从群体性突发事件应对的角度,事前预警的重要性远远大于事后的处置[3]。在过去十几年间,人们根据对历史群体性事件原因和特征的分析,总结并提出了一些预防群体性事件的对策[4-6],包括从数据的角度开展群体性事件的预测研究,如胡诗妍[7]利用数据分析方法提出了一些关于群体性事件风险的定量化评估方法;辛越等人[8]利用灰色预测理论提出了一种基于灰色理论的群体性事件分析模型构想;石拓等人[9]利用改进后的决策树方法,构建了群体性事件预警模型等。但从这些研究所侧重的方向来看,这些研究大都偏重于从事件发生数量的角度对一定范围内的群体性事件未来发生趋势的预测,对特定场景下群体性突发事件的精准预警预防指导性比较有限。相比之下,近年来一些工作开始尝试从系统模型构建和趋势演化分析的角度来推导各类环境特征对群体性事件演化的影响[10],但是缺乏对影响群体性事件各个要素之间关联性的深入研究。

作为一类典型的公共安全事件,突然性是群体性突发事件的重要特征[11],同时也给这一类事件的预警预测带来了极大的挑战。随着近年来视频监控工程[12-13]建设的不断推进,利用物联感知技术对特定场景下群体性突发事件进行预测推理成为了一种新的手段,但这种手段的应用需要一定的群体性突发事件的知识来进行牵引和引导,尤其是针对一些频发的与时间、地点、场景等特征具有强关联的群体性活动和行为,如何从中准确的分辨和发现群体性突发事件的前兆因素成为了群体性突发事件预警的关键。对此,本文拟对近年来发生的典型群体性突发事件案例建立要素特征数据表,通过数据挖掘方法探索事件各类要素特征之间的关联规则[14],为群体性突发事件的有效预警和精准防控提供支撑。

1 群体性突发事件要素特征关联规则挖掘流程

群体性突发事件要素特征关联规则挖掘的目的是通过处理群体性突发事件历史数据,获取以群体性突发事件的要素特征为前提和事件后果为结论的强关联规则。通过分析强关联规则,进而发现群体性突发事件要素特征和后果之间所蕴含的关联关系。这一工作的具体流程如图1所示。

图1 群体性突发事件要素特征关联规则挖掘流程

(1)建立群体性突发事件案例数据表。通过网络论坛、新闻、BBS等渠道查阅筛选出近十年来发生的一些典型群体性突发事件,建立事件案例数据表。数据表中的每一条记录为一件具体的群体性突发事件,原始记录为文本类格式,其中包含了事件的发生时间、发生地点、场景结构、事件起因、场景经过、场景后果、参与人数等描述。

(2)群体性突发事件案例数据预处理。为了保证后续的挖掘分析,需要对数据进行预处理,即通过合并、分类、结构化和概化等方法将不完整、不一致、冗余的数据进行标准化,获得群体性突发事件要素特征事务表。

(3)建立群体性突发事件多维要素数据集。由于群体性突发事件的发生、扩散和产生的后果与多方面要素有关,因此,建立事件的多维要素数据集是对事件进行多维关联挖掘的基础。通过定义事件的要素数据特征,建立事件的结构化多维要素数据集合。结构化数据特征包括了每一个群体性突发事件的发生时间、发生地点、参与人数、诱发因素等关键信息,这些关键信息均由统一字段来表示。

(4)群体性突发事件要素特征的频繁项集挖掘。在挖掘算法上采用Apriori算法,该算法为数据挖掘中的经典关联规则方法。令L为频繁项集,C为候选项集,Apriori算法是通过迭代检索的方式来从C中寻找频繁集L,主要有以下两个步骤:

①连接:为找出频繁集Lk,通过将Lk-1(所有的频繁k-1项集的集合)与自身连接产生候选项集的集合,候选集合记作Ck[13],l1和l2是Lk-1中的成员,对事务集或项集中的项按字典次序排序,即对于(k-1)项集l1,l1[1]

②修剪:扫描数据表,确定Ck中每个候选的计数,从而确定Lk。为压缩Ck,可以使用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-1)-子集不在Ck-1中,则该候选集也不可能是频繁的,从而可以从Ck中删除。这种子集测试可以使所有频繁项集的散列树快速完成[15]。

(5)群体性突发事件要素特征强关联规则生成。在生成的频繁k-项集[16]的基础上,输出强关联规则。由于在构建和挖掘散列树过程中,已经有了满足最小支持度阈值的前提条件,所以在进行强关联规则生成中,只需要满足最小可信度阈值就可确定为强关联规则。关联规则的挖掘结果性能主要由支持度[17]、置信度[17]等指标来进行衡量。

2 群体性突发事件案例数据集构建

2.1 群体性突发事件案例数据表

为建立群体性突发事件事务数据表,通过网络检索的方式获取近年来发生的典型群体性突发事件案例及信息,共得到139个群体性突发事件案例。

2.2 群体性突发事件要素特征的结构化处理

将这139个群体性突发事件案件进行信息简化及预处理,其中预处理包括对事件发生时间、发生地点、事件性质、涉及人数以及事件结果进行结构化处理,从而获得群体性突发事件事务数据简化表,如表1所示。

(1)群体性事件时间特征结构化处理。按照每一起群体性事件发生的时间特征将其分为发生日期和发生时段两类,其中发生日期可分为节假日和工作日两类,节假日包括了国家法定节假日和周末双休日;而发生时段则按照事件发生的具体时间段分为上午、下午、晚上。

(2)群体性事件诱发因素结构化处理。按照每一群体性事件的前兆性因素,整体上可以将其分为4种类型,分别是涉众型经济或社会问题的利益诉求(利益诉求)、普通治安执法事件(治安事件)、不同社会群体之间的冲突和纠纷(群体纠纷)、公民个人之间的矛盾和冲突(个人冲突)等。

(3)群体性事件场景特征结构化处理。按照每一起群体性事件发生的地点场景,可将其分为政府单位、企业场所、公共场所,其中企业场所主要包括企业内部区域及其周边相邻,政府单位则包括政府内部区域及其周边相邻区域,公共场所为开放式的社会公共区域,包括广场、路口、火车站等。

(4)群体性事件参与人数特征结构化处理。考虑到群体性突发事件有着数量不同的参与人数,按照公安机关对群体性突发事件的处置级别可将其分为3级:10~200人、200~500人、500人以上。

对群体性突发事件事务数据表中的所有关键要素特征进行结构化处理后,得到群体性突发事件事务数据简化表。

表1 群体性事件简化表(部分)

2.3 群体性突发事件数据表抽象化

通过对群体性突发事件事务数据表进行预处理简化,可以将事件进行简要概括。为了提高关联规则数据挖掘的有效性和便于机器识别,进一步对简化表中的数据进行抽象化和符号化处理,经过抽象处理,群体性突发事件的关键要素全部转化为机器可以识别的抽象符号。通过以上的数据处理,可以建立多维度数据特征维度分层结构,如图2所示。

图2 多维度数据特征分层结构图

3 群体性突发事件案例要素特征的关联规则挖掘

3.1 基于频繁项集的强关联规则生成

对输入的群体性突发事件事务数据概化表中所有事务进行扫描,对每个项进行计数得到候选1-项集。设支持度阈值为1,剔除小于支持度阈值的项集,并按支持度计数降序排列得到频繁1-项集。剪掉项集中包含不频繁项的项集,得到候选2-项集,剔除小于支持度阈值的项集,得到频繁2-项集。将频繁1-项集与频繁2-项集进行连接并剪去项集中包含的不频繁项集,得到候选3-项集,剔除小于支持度阈值的项集得到频繁3-项集,迭代此过程直到得到的候选集为空,算法到此结束,找出了所有频繁项集。计算出各个频繁项集的置信度,生成关联规则,该过程的流程图如图3所示。

图3 Apiori算法挖掘关联规则流程图

3.2 强关联规则结果分析

预设最小支持度为0.07,置信度为0.9,对群体性突发事件案例要素数据集进行挖掘,得到有意义的几个强关联规则结果如下:

①强关联规则一:{Ta,La}→Q

该结果表明发生日期为工作日并且发生地点在政府单位的群体性突发事件一般发生在下午,可信度达到了92%。该关联规则表明群体性突发事件的发生日期、发生地点和发生时段之间存在较强的关联性,即一些与政府单位存在相关性或以政府单位为目标的群体性突发事件一般更容易在工作日的下午时段集中发生。

②强关联规则二:{Ta,Lb}→Qb

该结果表明发生日期在工作日并且发生地点在企业场所的群体性事件一般发生在下午,可信度达到了90%。该规则与规则一较为相似,即群体性突发事件的发生日期、发生地点和发生时段之间存在着较强的关联性,但发生地点从政府单位变为了企业单位,反映出一些与企业单位存在相关性或以企业单位为目标的群体性突发事件一般更容易在工作日的下午时段集中发生。

③强关联规则三:{Tb,Lc,Ra}→Qa

该结果表明发生日期为节假日、发生地点为公共场所并且诱发因素为利益诉求的群体性突发事件一般发生在上午,可信度达到了90%。该结果较规则一和规则二进一步关联了与事件性质相关的特征。结合具体案例来看,2011年的安阳群体性突发事件中,非法集资受损群众为了表达要求政府治理非法集资现象的诉求,选择在一个周末的上午在火车站举行了群体集会;而四川邻水县群体性突发事件中,表达达渝城际铁路过境邻水集体诉求的人群选择在沪蓉高速公路邻水西出口的交通要道举行集会表达诉求。该结果证明群体性突发事件中的人群在时间和地点上有一定的选择性。

④强关联规则四:{La,Ta,Nc}→Ra

该结果表明发生地点为政府单位、发生日期为工作日并且参与人数在500人以上的大规模群体性突发事件的诱发因素为利益诉求,该规则的可信度达到了93%。与规则三相比,该结果进一步关联了参与人数的特征性,其反映了在政府单位工作日期间发生大规模人群聚集行为主要为表达群体的利益诉求这一客观事实,但同时也传递出了在政府单位门前发生突发性的人群集会其主要原因很可能为表达群体诉求这一推理依据。

根据以上得到的几个强关联规则可简单总结出群体性突发事件诸多要素之间存在着的一些内在的规则性。

首先,群体性突发事件的发生地点和发生日期、发生时段有着较强的关联性,如规则一和规则二表明政府单位和企业场所在工作日的下午时段具有较高的群体性突发事件风险,该结果实际反映了群体性突发事件的一个隐含现象,即政府和企业单位人员在工作日下午的在岗率相对较高,群众在工作日下午前往企业和政府单位进行诉求表达会有着较高的期望,由此两者之间存在着较强的关联性。

其次,一些群体性突发事件的发生地点、发生时间和诱发因素之间也存在较强的关联性,如规则三表明,一些发生在公共场所和节假日期间,并且以利益诉求为主的群体性突发事件主要集中在上午时段发生,实际上,对期望引起社会关注来表达诉求的群体而言,节假日期间上午时段的公共场所往往人流较为密集,选择在这一时间和地点进行集会来进行诉求表达容易造成更大的社会影响。

此外,一些群体性突发事件也反映出了参与人群规模性的关联特征,如从规则四来看,诱发因素为利益诉求的群体性突发事件与政府单位和事件参与人数以及发生的日期之间具有较强的关联性,而相比之下,治安事件、个人冲突和群体纠纷等诱发因素与其他要素之间的关联特征就不显著。实际上,与利益诉求相比,治安事件、个人冲突和群体纠纷本身具有较强的偶发性,在发生地点和发生时段等特征方面的随机性较强,不容易形成强关联规则,但利益诉求由于具备一定的前期酝酿和准备过程,其目标性更为具体,因此在事件的发生过程中会更具有明确的时间和地点指向性。

4 结论

通过对群体性突发事件的要素进行特征定义,利用数据挖掘关联规则方法对其进行分析,得到了事件发生地点、发生日期、发生时段、人群数量、诱发因素等不同要素之间的关联性。这些要素的关联性对实施群体性突发事件的精准预警和预防有着重要的意义。首先,事件的发生地点与发生日期、发生时段之间的关联性反映出了参与群体性突发事件人群的行为选择性,其在地点和时间上的关联模式能够有效揭示群体性突发事件中人群的组织行为特征,即会选择能够满足其最大期望的时段和地点来表达诉求。其次,基于群体性突发事件的发生地点、发生日期、发生时段、人群数量、诱发因素等变量之间的关联性可以及时开展事件的预警和处置工作,如在特定日期内的特定地点上,若在敏感时段出现了一定数量人群的聚集,则可以根据关联规则判断极有可能存在以表达群体诉求为目标的群体性行为,对此应予以高度关注,及时开展有效的处置,防止其进一步形成大规模人群聚集,从而引起群体性突发事件的发生。此外,由于本文主要关注于群体性突发事件各要素特征关联性的挖掘,所得到的各类要素之间所内藏的强相互作用关系和机制还尚不明晰,因此,需要在未来的工作中进一步开展深入研究。

猜你喜欢
项集数据表群体性
基于哈希表与十字链表存储的Apriori算法优化
Sp-IEclat:一种大数据并行关联规则挖掘算法
群体性突发事件背景下个体参与行为的认识与反思
基于哈希树的并行关联规则挖掘算法研究∗
湖北省新冠肺炎疫情数据表(2.26-3.25)
湖北省新冠肺炎疫情数据表
湖北省新冠肺炎疫情数据表
关于群体性事件防控的思考