基于异常检测的失窃物品网络预警技术的研究

2016-02-06 09:33董翰博曹鲁喆段詠程王丁一杨煜炜
网络安全技术与应用 2016年10期
关键词:销赃离群物品

◆董翰博 季 铎 曹鲁喆 段詠程 王丁一 杨煜炜

(中国刑事警察学院网络犯罪侦查系 辽宁 110035)

基于异常检测的失窃物品网络预警技术的研究

◆董翰博 季 铎 曹鲁喆 段詠程 王丁一 杨煜炜

(中国刑事警察学院网络犯罪侦查系 辽宁 110035)

近年来,随着互联网线上交易的迅速发展,众多二手物品交易网站悄然兴起,并逐渐成为犯罪人员销赃的重要途径。因此建立针对失窃物品的网络预警平台,将为有效打击犯罪,控制犯罪分子网上销赃途径具有重要价值。本文针对上述问题,利用文本挖掘方法对交易产品的商品属性和地域属性进行了自动的识别和标注,实现了对网上二手交易商品的地理信息可视化,提高了涉案物品定位及案件线索发现的工作效率。同时创新性地引入了异常点检测分析算法,以达到对二手交易网站商品价格偏离正常时进行报警,对提高失窃案件的侦办效率提供了重要手段。

网络预警;异常点监测;二手交易平台;失窃物品

0 引言

随着计算机网络的发展,网络销赃作为一种新型的犯罪销赃方式而出现。网上销赃是指通过eBay或淘宝等网店销售盗窃物品的行为。近年来,这种犯罪层出不穷,但又极其隐蔽,不易被发现。2014年1月,重庆警方经举报抓获一名在58同城中售卖偷来的摩托车的嫌疑人,据交待,在这之前已经成功做了多起案件。2016年2月,渭南市公安局临渭分局将涉案的石某、唐某和刘某抓获,追回被盗轮胎20多个,3人将轮胎偷走后,也是通过网络进行销赃。犯罪嫌疑人利用网络销赃的问题日益突出,给人们财产安全造成威胁,并给侦查破案工作带来了巨大的困难。

网络销赃具有辐射面广、不确定性以及交易的便利性等特点,其有三点具体原因,(1)网络交易流量巨大,销赃对象遍及全国。网络交易流量巨大,销赃对象遍及全国。通过互联网销售的赃物往往遍布全国各地,查封扣押、调查取证等工作点多线长、面广量大,消耗了大量警务资源,给侦破案件、认定犯罪带来了很大难度。(2)网上开店手续简单,身份虚拟无人把关。商家上传个人有效身份证扫描件及银行卡号(两者资料需一致),网站仅对上传身份证信息与全国人口信息核对一致后,商家即能以虚拟身份在网上开设店铺。(3)信息发布管理缺位,商品来源无法核查。商家的广告真实性无法逐一审核,也无法认定销售物品来源的合法性。(4)物流快递监管失范,赃物得以顺利转手。销赃犯利用现代物流企业懒于进行核查这一漏洞,通过物流、快递公司快速运送赃物。

网络交易市场、二手买卖网站以及第三方平台的出现和发展,为犯罪行为人提供了非常方便、快捷、可靠的销赃途径。网络销赃的出现,使其犯罪活动的隐蔽性和狡诈性更加突出,加大了公安机关侦破案件难度。研究二手失窃物品的检测和预警可以了解犯罪嫌疑人通过什么途径销赃,甚至可以通过网络上进行交易的可疑人员和可疑物品实现从人到案、从物到案的破案方式。既能发现线索,又能查获证据,还可以及时追回赃物,挽回人民群众的损失,对于侦查破案有着重大意义。

1 离群点检测的相关研究

离群点检测的任务是识别特征显著不同于其他数据的观测值,这样的点成为异常点、离群点或孤立点。离群点检测算法的目标是发现真正的离群点,同时避免将正确的对象标注为离群点。

离群点检测的基本概念是:在不同的领域,离群点有不同的定义,通常情况下描述离群点检测可以定义为:给定一个有n个数据点或对象的数据集和期望的离群点数目k,找出与数据集中其余数据显著不同的、异常的或不一致的前k个对象。其中导致离群的主要原因包括:(1)数据来源于异类,如欺诈、入侵、疾病爆发、不寻常的实验结果等。(2)由数据变量固有变化引起,是自然发生的,反映了数据集的数据分布特点,如气候变化、顾客新的购买模式、基因突变等等。(3)数据测量和收集误差,主要是由于人为错误、测量设备故障或存在噪音。下面介绍两种不同的离群点检测方法:

1.1 基于统计的离群点检测

统计方法首先对一直给定的数据样本集假设一个分部或者概率模型(比如正态分布或者泊松分布),然后采用不一致性检验,结合假设模型,从而确定离群点。这种检测需要事先了解数据集的有关参数(如数据分布情况)、分布的参数(如均值和方差)以及期望离的离群点数目。

1.2 基于距离的离群点检测

基于距离的离群点检测方法是针对运用统计方法进行不一致数据的检测所存在的不足提出来的。对象o是一个基于距离的孤立点,通常用DB(p,d)表示,其中p和d为对象o的参数,它代表的意义是数据集合S中至少存在p部分对象与对象o的距离大于d。也就是说,独立于统计检验,将那些与给定对象的距离较大的对象看作是基于距离的孤立点。与运用统计的方法进行检测相比较,基于距离的不一致数据检测综合归纳了基于标准分布模型的不一致性检验。基于距离的不一致性数据检验在一定程度上降低了计算量,这些计算通常是因为检测方法的选择和标准分布的拟合等操作产生的。

2 实验验证

2.1 数据来源

本文利用网络爬虫在58同城和赶集网两个网站中进行数据的获取,数据总计8720条,并主要来自交易量较大的7个类别,具体的数据量如表1所示。

表1 系统数据分类及数量

交易数据主要来源于网站认证的商家以及个人卖家,针对本文研究内容,我们去除了商家发布的产品信息,同时我们还去除了数据中无详细描述或无法获得产品价格的交易信息。

2.2 数据处理结果

表2 产品信息标注结果

数据获取后,我们利用分词和命名实体识别工具对数据进行了商品品牌名称和型号的识别。重点标注了产品的品牌和型号,除此以外还包括商品的出卖地和相关的联系方式。具体内容如表2所示。

在数据标注过程中相关标注工具对品牌的识别准确率较低,因此在原有系统上,我们又利用品牌词表进行了二次的规则处理。识别产品的品牌名称后,本文又依据建立的商品名称的同义词表进行了品牌名称的统一标注,方便系统后期在异常点检测的处理。

3 总结

随着中国经济和虚拟网络的高速发展,各种社会问题和矛盾突出。而由于我国针对虚拟网络上的交易的管理体制还不够完善,因此网络销赃就有了一定的市场。针对这种情况,失窃物品网络预警技术可以帮助民警在追查赃物时,更加快捷高效准确,对公安工作具有重要意义。

简化监视手段,完善控制机制。传统的调查途径仅仅局限于对实体店的调查走访,而该项目的应用可以通过异常价格监测,对网上销售的物品进行价格监测,对于出现异常价格的物品,及时进行关注并在网上进行调查。这样弥补了传统的调查的不足。可以对网上销售的物品进行实时的监控和监管,对于出现异常的销售价格的商家,可以很容易地检测出,从而及时的发现一些失窃物品的线索,通过对异常价格的监测,从而加强了对网上商家的监测,完善了网上销售的环境和公安监管机制。

[1]李林涛,徐笳.网络专题地图服务平台的设计与实现[J].测绘(第33卷第4期),2010.

[2]国家地理信息公共服务平台总体技术组.电子地图数据规范(试行稿),2010.

[3]王淑清,邬应忠.电子地图专题制作数据要求与处理技巧.测绘与空间电力信息,2010.

[4]杨永铭,王喆.异常点检测算法在入侵检测中的应用研究.现代计算机(第275期).

[5]中科院深圳先进技术研究院—国泰安金融大数据研究中心大数据导论,2015.

猜你喜欢
销赃离群物品
一种基于邻域粒度熵的离群点检测算法
称物品
“双十一”,你抢到了想要的物品吗?
谁动了凡·高的物品
一种相似度剪枝的离群点检测算法
自行车失而复得太鲜艳不好销赃?
离群数据挖掘在发现房产销售潜在客户中的应用
找物品
应用相似度测量的图离群点检测方法
拾荒少年