汤艳君 刘年隆 李 佳
(中国刑事警察学院网络犯罪侦查系 辽宁 沈阳 110035)
互联网涉案信息分析与碰撞系统的设计与实现
汤艳君 刘年隆 李 佳
(中国刑事警察学院网络犯罪侦查系 辽宁 沈阳 110035)
随着互联网应用的普及,涉案人员在网上的行为特征以及虚拟身份已经成为公安侦破案件重要的线索来源。目前,公安机关警务信息的处理还没有将互联网中涉案信息进行有效关联、整合。论文中涉及的系统就是在这一背景下设计开发的,系统采用基于浏览器/服务器模式的三层结构,实现了系统用户登录维护、查询检索以及系统关联分析碰撞功能。能够对爬取得到的数据及时、有效、便捷地加以查询,将涉案信息在网络上行为轨迹进行关联分析,从而扩展案件线索,深度挖掘涉案人员行为,为公安侦破案件提供数据支持。
互联网 涉案信息分析 碰撞系统
2016年2月20 日上午1点,阜新市海州区平北新居张某报案称自己在网上被人诈骗6300元。张某因在毕业后一直没有找到满意的工作,因此在互联网上海投了包含自己QQ号码的个人简历。没过几日张某收到很多陌生QQ添加好友的申请,其中一名自称为阜新市某教育机构人事招聘处的负责人员柳某,称其简历符合公司的人事招聘的条件,但需要进行3个月的培训并缴纳6800元培训费后才可入职。由于张某求职心切,与柳某交流沟通一天之后,便相信了柳某的身份,最终柳某还同意减少500元的“培训费用”。柳某得到汇款后将张某拉黑,张某便在QQ上再也联系不上柳某。被害人只能向公安机关提供曾经与犯罪嫌疑人柳某聊天时使用的QQ号码。公安民警利用信息关联系统,在系统中输入了犯罪嫌疑人的QQ号码“9657××××”,关联出了近期与该QQ号码存在关系的手机号码“138××××9757”,办案人员通过将QQ号码与手机号码相关联的方法将犯罪嫌疑人锁定,并成功侦破该案件。
警务分析平台的研发,能够帮助公安工作者在最快的时间内去解决锁定犯罪嫌疑人的问题,提高了工作效率。但是,纵观全国各地公安信息化发展情况,针对互联网涉案信息的搜集和分析相对较为薄弱,公安机关在情报信息的获取方面仍然存着一系列问题。
因此,如果能够将公安工作领域中的网络数据进行专业检索处理,减少无用信息,提高检索效率,最大限度地整合网络上的资源,在实现专业引擎搜索的同时,能够对从数据库中得到的数据及时有效的存储并加以分析,将犯罪嫌疑人在网络上行为轨迹进行关联分析,从而挖掘犯罪嫌疑人有用线索,为公安工作提供数据支持,对公安部门正在进行的信息化建设工作有着十分重要的意义。
“基于互联网涉案信息分析与碰撞系统”中系统框架采用了浏览器/服务器模式[1],即B/S模式。这种模式统一了客户端,将系统功能实现的核心部分集中到服务器上,简化了系统的开发、维护和使用。
“基于互联网涉案信息分析与碰撞系统”的逻辑结构包括数据访问层、系统应用层、业务逻辑层,具体的逻辑架构如图1所示。
图 1 系统逻辑架构图
在本系统的三层结构中,系统应用层主要是负责人机交互的用户界面,直接面向各级警务人员,将系统的不同功能模块汇集到系统信息界面门户。提供系统的各个已经建成的查询、高级检索、分析比对、关联碰撞、查询信息即时反馈等功能使用户能够灵活方便的提取到对案件侦破起到关键作用的信息。
数据处理分析层是将网络爬取的数据信息用数据库关联分析算法,对数据进行深层挖掘,从而对网络数据进行合理有效地研判分析。在系统应用层用户提出需求时,能实时调用查询、检索、分析、碰撞等模块功能,并能够及时在线上呈现反馈信息;将数据转化为公安工作情报并成为提供查询统和计分析研判的工具。
数据访问层是对网络爬取到的数据按照不同字段进行数据库表的建立和存储,利用标准的数据库语言可以对各个数据库表间进行关联关系的建立,并且能够更加深层次的对比关联提供技术支持,实现多次关联、碰撞。可以将建立完整的多个数据库表建立关系,构建出网上虚拟账户活动规律,网下团队在网上活动的关联情况。
2.2.1 系统用户登录维护功能
(1)系统登陆维护模块功能:用户采用的是使用用户名和密码直接登录系统的方式。其中已注册账号密码的用户在输入正确后进入系统。
(2)系统登录模块设计流程:用户进入登陆界面首先要输入账号和密码,如果帐号密码正确则可以直接进入系统的主页面从而可以进行查询、检索、关联分析等相关功能,而对于没有账号密码的新用户可以通过点击进入注册界面进行注册账号操作,这样能够提高系统的安全性。
2.2.2 系统查询检索功能
(1)系统查询检索模块功能:用户在登录系统之后,可以输入查询检索的关键字段,主要是QQ号码、手机号码及微信号码等,实现数据库库内信息查询检索的功能,这样创建涉网信息查询检索平台,能够节省办案民警查询信息时间,提高民警的办案效率。
(2)系统查询检索模块设计流程:用户通过输入正确的帐号密码进入搜索入口,通过向控制器发送页面请求的方式去调用要搜索的内容,控制器则向业务逻辑接口发送业务调用请求命令,在业务逻辑接口接到调用请求后会将查询数据返回给控制器,通过控制器将查询的结果反馈给用户。
2.2.3 系统关联分析碰撞功能
(1)系统关联模块功能:该功能可以分为两个模块,一方面要针对用户需求能够对库内网络大数据信息进行分析比对;另一方面,可以对数据库进行关联碰撞。对于公安部门在侦破案件的实战工作中,可以对用户输入的信息进行库内比对分析。如利用数据库内的批量比对,在网络中可以通过其固定的身份证号码、手机号码或者IP号码关联分析,得出其在网上的“行动轨迹”,同时也可以将多个数据库表进行碰撞,锁定共同点,找到办案线索。
(2)系统关联模块设计流程:当用户输入了正确帐号密码之后会成功登陆系统,界面会实时显示存储的信息。用户通过输入关键字进入系统进行关联分析,通过对比输入信息与库内信息进行分析,然后将查询结果反馈给用户。
2.2.4 信息界面显示功能
(1)界面显示模块功能:系统的界面要友好简洁,管理员或者用户查询、检索得到的数据信息应给即时反馈给用户。针对查询功能和分析功能的不同,可以将信息反馈分为两种,一种是即时的原始网页呈现方式,就是将网页的URL存至数据库中,用户查讯后可以直接链接到网页上;而另一种则是数据库[2]将关联分析、碰撞后的结果进行汇总后以关系图形式反馈给用户。
(2)界面显示模块设计流程:当用户进入系统时,需要输入正确的帐号密码进入系统,进入系统后用户可点击关联分析按钮对要进行关联的信息进行关联分析,之后系统会根据检索信息与库内信息是否存在关联反馈信息给用户,如果存在关联则会生成关系图;如果没有关联则不显示图谱。
上述各模块功能及模块之间的关系如图2所示。
图2 系统各功能模块
涉网案件信息碰撞比对是系统最核心功能,如何在已爬取到的大量网页数据中将QQ号码、手机号码等上网者身份的数字信息进行关联分析是本模块重点解决的问题,也是本系统的功能亮点。
本系统对于网络上两种数据实体之间是否存在关联关系进行分析研判,该方法设计灵感来源于信息论中一种较为直接且应用广泛的算法—互信息。
互信息在计算机语言学的模型分析中是一种常用的算法[3],它是用来度量两个对象之间的相互性。互信息本来是信息论中的一个概念,用于表示信息与信息的关系。那么在本系统关联分析的模块,这个理念对QQ号码、电话号码、微信号等信息分析研判它们之间的关联性起到了极大的作用。首先,通过了解互信息的定义来对互信息进行了解:设两个随机变量(X,Y)的联合分布为p(x,y),边际分布分别为p(x)和p(y),那么互信息I(X;Y)就是联合分布p(x,y)与乘积分布p(x)p(y)的相对熵。
在本系统中,是如何利用这个算法来研判两个信息之间的关联关系呢?通过举例的方式对这个公式在系统中的应用进行阐释:首先p(x)表示一个QQ号码在互联网中单独出现的发生概率,p(y)表示一个手机号码在互联网上单独出现的发生的概率,p(x,y)是指两者在互联网上同时出现的发生概率,那么互信息I(X;Y)就是指这个QQ号码和手机号码在互联网上发生关联的概率大小。可以设定这个互信息的比值作为一个界定其两者存在关联的阀值,在本系统中可以设定这个阀值为1,即当I(X;Y)趋近于1时,就可以知道当QQ号码在网上出现时,手机号码就会出现,这样就可以通过这个QQ号码关联出手机号码,进而可以锁定相关关系人。
将公安领域的多样化网络数据进行专业检索处理,减少垃圾信息,提高搜索效率,最大限度地整合网络痕迹,在实现一种专业的搜索引擎之后,要能够对爬取得到的数据及时、有效、简单、快捷地关联分析,将涉案嫌疑人在网络上的行为轨迹串联处理。具体的程序设计流程图如图3所示。
图3 系统关联分析模块设计流程图
本系统中,可以用号码关系图谱来对号码之间的关联进行表示,同时,在对系统的该功能模块进行设计时,可以对比值较大的、存在关联关系的两个号码之间以较粗的实线来展示,比值较小的,存在关系较弱的用较细的实线来表示。
利用互信息的这种理念,在设计关联分析算法、编写程序时可以对数据进行有效合理的统计。例如QQ号码与手机号码在一定的窗口值内多次出现,可以认定其有关联关系。
(1)系统关联模块功能:该功能可以分为两个模块,一方面要针对用户需求能够对库内网络大数据信息进行分析比对;另一方面,可以对数据库进行关联碰撞。公安部门在侦破案件的实战工作中,可以对用户输入的信息进行库内比对分析。如利用数据库内的批量比对,在网络中可以通过其固定的身份证号码、手机号码或者IP号码关联分析,得出其在网上的“行动轨迹”,同时也可以将多个数据库表进行碰撞,锁定共同点,找到办案线索。
(2)系统关联模块设计流程:当用户输入了正确帐号密码之后会成功登陆系统,界面会实时显示存储的信息。用户通过输入关键字进入系统进行关联分析,通过对比输入信息与库内信息进行对比分析,然后将查询结果反馈给用户。
用户登录维护功能模块主要实现两方面的工作,一方面是用户登录系统的实现;另一方面则是对爬取后的网络数据进行解析和导入至后台数据库,并对其维护等工作。
本系统是B/S体系结构,因此用户可以从浏览器直接点击登录,而在登录之初应该对警务人员的身份进行验证。是否是本系统内已经存有身份信息,对登录用户的身份进行验证。第一次登录的警务人员可以通过注册新账号,系统会在后台数据库中加入新用户的身份数据信息,以确保系统的安全性。
在用户登录成功之后,界面就会自动跳转至系统主页,系统主页中会实时随机展现在国内各大网站爬取到的数据信息,并且是以原始网页的链接的方式存储。
在数据解析和导入方面,对爬取得到的数据要进行分析。在成功登录系统之后,界面上方设置搜索框,用户可以输入QQ号码、手机号码、微信号码等信息进行查询检索工作。例如当用户输入一个手机号码之后,系统会调用后台的数据库,在库内进行检索与用户输入的信息进行匹配,并将出现过要查询的手机号码的网站,以网页链接的方式将结果在系统界面的右半部分予以展现,点击查询结果的网址,可以看到对网址结果的详细描述。
关联分析,就是两个或者两个以上的关键字变量存在着某种规律性,通过关联关系能够找到数据库中的关联网。在公安实际案件侦破过程中,侦查人员可能只掌握了犯罪嫌疑人的部分上网信息痕迹,例如,上述模块网页中发布消息,在城市的一定范围内寻找打手、杀手,那么仅凭出现的手机号码,如何知道在网络上的虚拟世界里都与“什么人”在“什么地方”联系过呢?这就需要系统的这个关联分析碰撞来发挥效用了。系统从关系数据库中以相应条件获取到数据,并分析相关性,把分析的结果存储到数据库中。这样系统可以对这个手机号码出现的时候被研判为存在关系的其他号码包括QQ号码、手机号码、微信号码等进行关联,实时的返回给登录点击查询的用户查看;同时,系统会对与其有关联的各个号码以关系图谱的形式进行展示。
利用互信息理念来设计的关系图谱,较粗实线体现关联程度大的号码关系,而较细的则说明两个号码之间联系程度较轻。这个关系图谱对于查找犯罪嫌人在网上的“活动伙伴”有着非比寻常的实战意义。系统的关联分析碰撞功能将犯罪行为人的线上行动轨迹扩展到线下,从虚拟世界转换为现实世界的交流,在公安工作信息化建设大发展要求和趋势下,将公安一线实战与网络科学技术相结合。
目前的工作方式已经从传统的人海战术改进为利用信息技术手段来完成,同时也改变了传统的粗放式、被动式以及人工手动式的靠体力和蛮力的工作模式。目前一些警务分析平台的研发,能够帮助公安民警解决部分在侦破案件中遇到的问题,提高工作效率。但是,从全国各地公安信息化发展建设的情况来看,针对互联网上的涉案信息的搜集和分析还是较为薄弱的。公安情报信息的获取和研判还存在着很多问题,例如信息资源不能有效整合、数据关联分析不够全面、信息共享不足等。
因此,如果能够将公安领域的多样化网络数据进行专业检索处理,减少垃圾信息,提高搜索效率,最大限度地整合网络痕迹。在实现专业的搜索引擎的同时,要能够对爬取得到的数据能够及时、有效、简单、快捷的将数据存储并加以碰撞分析,将涉案犯罪嫌疑人在网络上行为轨迹进行关联分析,从而扩展案件线索,对于全面深刻挖掘犯罪嫌疑人行为,收集重要信息,为公安司法工作提供数据支持,对公安工作的信息化建设具有非常重要的意义。
[1]徐剑安,孙志洪,孟祥波,马强.B/S模式盾构信息管理平台的应用研究[J].自动化应用,2017(2):14-16.
[2]闫旭.浅谈SQL Server数据库的特点和基本功能[J].价值工程,2012(22):229-231.
[3]陈晓琳,姬波,叶阳东.一种基于ReliefF特征加权的R-NIC算法[J].计算机工程,2015(4):161-165.
Design and Realization of Case-involved Information Analysis and Collision System Based on Internet
TANG Yan-jun LIU Nian-long LI Ja
(Economic Crime Investigation Department of Criminal Investigation Police University of China Liaoning Shenyang 110035)
With the popularity of Internet applications, the behavior characteristics on the internet of the persons involved in cases as well as the virtual identity have become important sources of clues to public security cases. At present, the police information processing of public security organs has not integrated the information involved in the network effectively.The system is developed under this background, which uses a three-tier architecture based on the browser/server model. It can be realized the system user login maintenance, query retrieval and system correlation analysis collision function. The data can be queried effectively, conveniently and in time.The behavior trace of the information on the internet is analyzed to extend the case clues, which provides data support for public security organs.
Internet Case-involved information analysis Collision system
TP274
A
2095-7939(2017)05-0113-05
10.14060/j.issn.2095-7939.2017.05.023
2017-05-19
汤艳君(1966-),女,满族,辽宁北镇人,中国刑事警察学院网络犯罪侦查系教授,主要从事电子数据取证研究。
(责任编辑:于 萍)