国内大数据侦查研究的热点及趋势——基于CiteSpace的知识图谱可视化分析

2021-10-29 12:18龙皓
网络安全技术与应用 2021年10期
关键词:图谱聚类数量

◆龙皓

国内大数据侦查研究的热点及趋势——基于CiteSpace的知识图谱可视化分析

◆龙皓

(中国人民公安大学侦查学院 北京 10038)

可视化分析国内大数据是侦查学方向研究的热点及趋势,本文旨在为该领域研究的未来发展提供有益建议。基于文献计量法,运用CiteSpace 5.7R2、Excel等软件对大数据侦查的研究热点和发展现状进行了深度剖析。结果发现,国内大数据侦查的研究仍处于发展的初级阶段,存在着研究主题集中、应用型研究较少等问题。

大数据;侦查;知识图谱

1 引言

随着网络信息技术的快速发展,“大数据”、“云计算”、“人工智能”等新兴科技融入人们的日常生活,对传统生活方式造成了冲击,逐步改变着人们的生活方式以及思想观念。其中,以“大数据”的影响为甚,很多学者都将当今所处的时代形象地称之为“大数据时代”[1]。大数据是指海量的,并且超出了传统常规的数据库工具处理能力范围的数据集[2],其具有五个方面的特征:数据大体量、多类别、数据真实性、数据处理快、价值密度低[3]。在大数据时代背景下,公安领域也引入了大数据技术,并与公安实务相结合,为新时期公安机关的实务工作带来巨大裨益,侦查领域更是如此。大数据的引入促进了传统犯罪侦查模式的转变,逐步从传统警务向现代警务、被动警务向主动警务过渡。大数据侦查成为当前侦查学界研究的热点课题,学者们积极总结当前大数据侦查的发展经验,并在多个领域探索大数据技术与侦查工作的结合,推动着大数据下侦查工作的变革。在此背景下,对中国知网中已发表的研究主题为“大数据侦查”的期刊论文,利用CiteSpace、Excel等软件进行知识图谱计量分析,梳理研究热点、预测研究趋势,为探索未来大数据侦查研究的发展方向提供有益参考。

2 研究过程

(1)研究方法

本文以CiteSpace 5.7 R2软件为主、Excel、CNKI可视化分析工具为辅,对当前“大数据侦查”研究总体情况及热点趋势进行文献计量分析,以知识图谱为基础进行可视化分析。知识图谱即指利用数据挖掘、共词分析、描绘图形等技术处理方法可视化呈现一个研究领域知识的方法,具有着知识指引和导向作用[4]。通过从发文数量、关键词等维度对国内“大数据侦查”研究的知识图谱进行直观展示,重点利用CiteSpace对研究领域的关键词、突现词进行多维度分析与解读,系统性地梳理和剖析研究现状、热点,并对未来研究趋势展开预测。

(2)数据来源

本文以中国知网期刊数据库为数据库来源,以大数据侦查相关期刊论文为研究对象,通过高级检索功能,设置检索条件,主题名设置为“大数据侦查”,检索开始日期设置为“不限”,搜索截止日期为2020年(截止时间2020.11.8),来源类别为全部期刊种类,并设定“同义词扩展”,期刊语言检索类别设置为中文文献,然后开始搜索,检索时间为 2020年11月8日,最终得到文献数量654篇,经过人工筛选剔除重复、无关文献64篇,为了保证数据的全面性,将涉及大数据与侦查主题的相关研究都纳入样本的筛选范围,因此,最终确定样本文献数量为590篇。

在有关大数据侦查研究文献中,仅有《基于中国知网123篇大数据侦查研究论文的分析》一篇期刊论文从文献计量的角度对大数据侦查相关研究进行了分析,但其所采集样本数据时间较早,大数据侦查研究正值发展初始时期,样本数量相对较少。因此在前有研究基础之上,采集更新、数量更多的样本,并且用不同的文献计量工具软件和分析维度对大数据侦查研究的热点和趋势进行再审视,是有意义的。

3 统计分析

(1)发展趋势分析

图1为“大数据侦查”研究论文的年发表数量统计图,据图可知:我国公安侦查领域结合大数据技术的研究始于2013年,论文发表数量为2篇。结合当时背景来看,该时间段正是大数据技术应用的发展初始阶段。“大数据”的概念2009年才逐步开始被人们所认知并在社会上传播,而其研究热潮是始于2012年,奥巴马时期的美国政府高调发布了关于大数据研究与开发的计划,自此“大数据研究的浪潮”开始在全球席卷[5]。习近平总书记2013年在中国科学院考察时也指出了大数据在新时代发展中的重要性,将其喻为工业社会的“石油”资源[6]。自2013年大数据相关内容引入侦查研究领域之后,2014年至2017年间大数据侦查的研究论文数量逐年增多,论文发表数量逐年稳步上升,并于2017年达至第一个顶峰增长点。这同时标志着大数据侦查研究进入到初步的大发展时期,公安学领域学者开始关注到这一新兴概念,更多学者开始加入到相关问题的研究中,不断充实领域内理论基础研究,并探索研究方向。在此期间“大数据”研究的地位也已上升到国家战略层面,在第二届互联网大会中,习近平总书记再次指出国家大数据战略是助力推进网络意识形态治理的关键之一[7]。2018年大数据侦查论文发表数量小幅度减少,较之2017年减少12篇,但在2019年论文发表数量又呈现出上涨趋势,是2018年论文发表数的两倍,根据知网预测在2020年论文发表数仍将达到204篇以上。著名文献计量学专家普莱斯曾提出过“文献增长四阶段论”[8],学科发展过程主要有四个阶段:学科诞生阶段;学科大发展阶段;学科成熟阶段;学科发展完备阶段。据此可知,我国大数据侦查研究从宏观的角度来看,仍处于研究的大发展时期,关于大数据侦查研究的数量仍将持续增加,相关理论研究也将进一步完善。

图1 2013-2020年大数据侦查文献数量年代分布情况

(2)关键词共现分析

关键词能够体现出一篇文献的核心内容和研究主题,如果关键词在研究领域的某一时间段内反复出现,那么将此关键词的出现频次进行统计,绘制成可视化图谱,同时配合突现词图谱分析,可以更有助于学者们把握学科内的研究热门及趋势的衍变规律[9]。将从中国知网所搜集的590条文献样本格式转换后导入CiteSpace中,再运行关键词共现和聚类功能,分别得到图2、图3。同时以出现频次和中心性的高低作为标准,将关键词分析结果导入Excel表格,最后利用突现词功能得到10个突现关键词,并以此对国内大数据侦查研究热点及趋势进行全面分析。

图2 关键词共现图谱

首先,在图2国内大数据侦查研究的关键词共现图中,每个关键词都用一个圆形节点表示,节点越大,表明该关键词出现频率越高,该研究热点就越具有代表性。其次,各圆形节点之间的连线颜色深浅与出现时间呈正比,颜色越深、出现时间越早,越浅则表示出现时间越晚。最后,节点间的连线紧密度代表了研究的集中程度。据图2显示,大数据、侦查、侦查模式、大数据侦查四个关键词节点明显大于其他节点,且总体上连线数量多、连线紧密,说明研究集中程度较好。最终通过软件分析得到关键词总数量为287个。下表1为共现图谱中出现频次数排名前10的详细数据情况。

表1 热点关键词表

(3)关键词聚类分析

LLR、LSI以及MI是CiteSpace软件聚类功能中所包含的三种算法,在共现关键词的基础之上,运行LLR和MI算法将关键词聚类,最终得出以下9个聚类,并用K聚类标签加以区分,聚类标签的数值越小,表明聚类关键词的数量越多,关键词之间联系程度越紧密,具体图谱信息如图3所示。然后再利用CiteSpace软件的“聚类探索”功能生成聚类分析表并导入Excel中,得到结果如表3所示。

图3 关键词聚类图谱

表3 关键词聚类分析结果表

由上述聚类分析结果可知:

#0侦查聚类,节点数量为39个,节点出现频次最高且聚类结构显著,聚类集团中包含了侦查、大数据、对策等主题词。说明在2017年国内大数据侦查以侦查相关研究为视角,重点关注的是大数据、对策,侦查运用等方面,在具体类型发犯罪中体现在杀人案件、职务犯罪方面的研究。

#1侦查思维聚类,节点词数量为27个,说明国内在2017年对大数据侦查的侦查思维方面的关注度较高。通过归纳大致可知,联系较紧密的研究主要体现在两个方面:一是侦查模式的变革,包括侦查情报;合成作战;主动侦查等方面。二是具体类型案件方面,主要针对电信网络诈骗犯罪的相关研究。

#2大数据时代聚类群组节点数为25,节点总数排第三。该聚类群组说明了在大数据时代下,国内学者较为关注犯罪侦查、侦查行为、以及大数据时代对于侦查所带来的的影响。

#3大数据侦查聚类群组中节点数量为22个,关键词最早出现时间为2018年,根据群组中关键词可知,数据安全成为学界较为关注的方面,有关个人数据保护、信息保护成为研究关注点。

#4云计算聚类群组节点个数为19,其时间为2016年,大数据的发展与云计算密不可分。云计算技术是大数据侦查的必要支撑[10]。群组中的关键词主要包括电子取证、侦查取证、情报信息,说明此阶段侦查取证是研究的热门。

#5职务犯罪侦查聚类节点个数为17,与之紧密相连的是大数据思维、信息化侦查两个关键词。利用大数据思维对职务犯罪进行侦查,有助于变革传统的职务犯罪侦查模式,信息化侦查与大数据侦查也是紧密相连的。

#6视频侦查群组节点个数为14个,由其所包含内容可以发现,视频侦查方面的研究为重要关注点,如何进行视频监控也是学界所关注的重要问题。此外从学科建设创新、侦查人员两个关键词可以看出,对于培训教育也是学界所关注的方向。

#7盗窃案件聚类群组节点个数为14,由群组具体包含词汇可以看出。首先,注重大数据侦查在盗窃案件侦查中的应用与结合,其次,对盗窃案件的大数据侦查研究已经进入到了一个较为具体的层面,侦查要素、数据挖掘、大数据方法的运用都是较贴近实战的研究对象。

#8技术聚类群组节点数为5个,研究主题主要包括技术、分歧、情报、信息、智慧侦查、数据管理。

(4)关键词时区图谱分析

CiteSpace分析软件中的时区图谱分析有两种分析模式:时区图谱(Timezone)和时间线图谱(Timeline),时区图谱主要是在时间维度上可视化知识的发展进程,时间线图谱绘制的重点是展现聚类关键词之间的关系以及时间跨度变化[11]。利用这两种功能对关键词进行时区图谱分析,时间区间为2013年至2020年,分别得到图4、图5。

图4 关键词时区图谱分析

图5 关键词时间线图谱

在关键词时区知识图谱中,每个节点所处的时区位置代表关键词最早出现的时间年份,在之后的年份中如果该关键词继续出现,则节点圆圈会相应增大,而且不会重新出现新节点,连线表示两个关键词在同一篇研究出现。通过观测时区和时间线知识图谱,可以更为直观地观察国内大数据侦查研究领域的热点以及演变趋势、规律。

在时间线图谱中,按照时间年份与关键词节点数量将大数据侦查研究的发展时期分为三个阶段:第一阶段(2013-2016年),大数据侦查研究起始阶段,从图中可以观察到此阶段关键词节点数量较多,连线数量密集,说明在该阶段各学者开始从不同维度探索大数据侦查,发现其中以宏观层面为切入点的研究较多,理论性研究成果较为丰富。可以从时间线图谱中看到:大数据、侦查模式、侦查工作、大数据侦查、侦查、侦查情报等关键词为节点形状较大的几个节点,通过观察节点的连线发现,出现时间较晚的关键词与上述关键词节点连线数量较多,说明后续研究对上述主题持续地进行了探讨。第二阶段(2016年—2019年),为大数据侦查研究大发展阶段。首先,通过观察可发现,在此阶段节点形状普遍较小,但数量相对于第一阶段明显增多,连线数量较多且密集。其次,在此阶段出现了一些新的关键词节点:模式、侦查思维、情报信息、电子数据、犯罪、经济犯罪侦查、犯罪预测。通过与第一阶段出现的关键词进行对比,可以发现该阶段研究对象更为明确具体,侦查思维、电子数据、情报信息都是大数据侦查中较为基础但又很关键的研究课题,夯实大数据侦查的基础性研究具有重要意义。犯罪预测是大数据侦查的重要功能,是从传统的被动型警务模式向主动预测型警务模式转变的必要手段。此外,经济犯罪侦查节点出现时间较晚,从另一方面也说明在经济犯罪的侦查中大数据的应用程度较低,相对滞后[12]。第三阶段(2019年—至今),通过发展趋势可以预见此阶段应为研究深化阶段,在前有研究的基础之上,学者已将关注点逐步调整到大数据技术具体应用的问题,研究对象更为细化,开始向应用型研究转变,侦查手段、电子证据、大数据证据、数据管理技术等都是与侦查实践紧密相连的研究主题,具体的应用型、技术型研究能够直接作用于侦查实践工作,针对性地解决侦查机关大数据侦查变革过程中所面临的实际问题。

图6 突现词

(5)突现词分析

CiteSpace的突现词功能够将一段时间内频数变化最高的词提炼出来,通过突现词图谱可以更直观地看到每个时间段内的热门研究以及新近研究热点的趋势变化。由图6可见,国内大数据侦查研究在2013年、2014年出现的突现词有网上作战、信息化侦查、云计算、信息化、信息。由图可知,信息化侦查在这两年的突现词中的突现强度最大,且是持续时间与“云计算”并列最长。信息化侦查与大数据侦查都有着密切的联系,信息化侦查为大数据侦查的实现奠定了基础,从另一种角度来讲,大数据侦查是社会从信息化转向数据化的必然产物[13]。2015年的突现词内容表明职务犯罪中大数据侦查的应用是学者们研究的重要课题。在2016年出现的突现词中,职务犯罪领域持续成为研究热门方向,突现数值最大。此外影响、互联网+、大数据技术、作案地点等也在为该阶段较为关注的研究对象。大数据思维、犯罪侦查、视频监控为2017年开始出现的突现词,其中大数据思维突现强度最大,思想是行动的先导,转变思维是促进侦查机关向大数据侦查模式变革的首要之务。2018年的突现词有技战法、犯罪预测以及经济犯罪侦查,到2020年这些主题仍受到持续关注,这也反映了当前研究的趋势。

5 结语

大数据对我国刑事侦查工作产生了深刻影响,大数据侦查研究也已成为侦查机关适应时代发展所必需的研究主题。通过CiteSpace、Excel等软件对中国知网国内大数据侦查研究的文献进行计量分析,可知目前国内的大数据侦查研究已取得一定的研究成效,但仍存在不足。针对当前大数据侦查的研究特点,学界应继续加大科研力量,丰富基础理论型的知识研究,为后续研究奠定理论基础;另一方面应增加应用型研究的数量,结合侦查机关的实际情况与典型案例,使大数据侦查的研究成果能够落地实施,直接运用到公安实战部门的侦查实务中,为案件侦破助力。

[1]黄欣荣.大数据技术的伦理反思[J].新疆师范大学学报(哲学社会科学版),2015,36(03):46-53+2.

[2]Manyika J,Chui M,Brown B,et al. Big Data:The nextfrontier for innovation,competition,and productivity[EB /OL].[2014-09-02]. http:∥www.mckinsey.com/insights/ business-technology/big-data-the-next-frontier-for-innovation.

[3]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报(自然科学版),2014,6(05):405-419.

[4]韩增林,李彬,张坤领,李璇.基于CiteSpace中国海洋经济研究的知识图谱分析[J].地理科学,2016,36(05):643-652.

[5]秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究,2014(06):23-28.

[6]郭华东,王力哲,陈方,梁栋.科学大数据与数字地球[J].科学通报,2014,59(12):1047-1054.

[7]付安玲,张耀灿.大数据助力网络意识形态治理及提升路径[J].马克思主义研究,2016(05):105-112.

[8]杨虎林,张磊.我国公安情报的热点主题研究——基于CNKI文献统计分析[J].软件,2020,41(06):185-191.

[9]陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(02):242-253.

[10]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.

[11]陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(02):242-253.

[12]张博睿,万金冬.论非法吸收公众存款犯罪大数据侦查系统的构建[J].净月学刊,2018(01):91-97.

[13]马方,吴桐.信息化侦查的维度冲突与法律规制[J].中国人民公安大学学报(社会科学版),2017,33(02):42-51.

猜你喜欢
图谱聚类数量
绘一张成长图谱
基于K-means聚类的车-地无线通信场强研究
统一数量再比较
补肾强身片UPLC指纹图谱
基于高斯混合聚类的阵列干涉SAR三维成像
主动对接你思维的知识图谱
头发的数量
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
我国博物馆数量达4510家