国土行业电子监察系统分析与决策支持

2018-07-16 12:04严伟铭潘善亮
电子技术与软件工程 2018年10期
关键词:离群国土数据挖掘

文/严伟铭 潘善亮

在本文中,我们尝试着使用异常数据挖掘的方法来进行国土行业的数据分析与策略支持研究,并希望该方法可以对未来的国土行业数据处理方面提供帮助。

1 方法

在数据集中,通常会有一些不规律的数据我们称之为异常数据,在很长的时间里,大家一直把这类异常数据当做噪声或者是一些意外产生的数据;但在一些实际应用中,我们发现这些异常数据更有价值;对这些异常数据的分析被当做是异常数据挖掘。

1.1 异常数据索引

为了阐明异常数据挖掘,我们引入了一个概念:异常数据索引。

对于集合Q,有一个P属于Q,我们将点d(P,x)定义为在P和x之间的距离(x属于Q),在集合Q的这些数据点,我们将其按序列大小收集起来,即(d(p,x),d(p,x)_d(p,x))。我们把d(P,x)的距离k称为k(p)。而如果有一个点(属于集合Q),它离点p的距离小于k(P),我们称之为p点的近邻;也就是说,:

定义1:对于给定的整数k,属于集合Q的点p的可访问距离可以被定义为:

定义2:定义点p和k-邻位之间的可访问的平均距离为点p的k-邻位的分布密度,也就是:

指的是k-邻位的5个点,而Rd k(p)指的是分布密度p点周围的点。

定义3:指数的异常值。

它可以从异常值的定义中清楚地说明它提出了一个相对的异常值的定义。它利用了相邻点的密度和密度之间的比值点的密度来定义具有不同分布密度的异常值的数据组。在相邻与相邻点之间的密度和它的数据点之间的密度应该大于其他正常数据点。这就是为什么异常值可以有效的定义异常值的原因。

异常数据挖掘。该方法基于国土风险管理数据的特点,我们设计了三个关键步骤,将异常数据挖掘与土地风险管理相结合。首先,收集和整理数据。其次,挖掘异常数据。最后,分析我们从这一步得到的异常数据。

1.2 结论

最后,我们得出如下结论:

(1)每集的输入点P,获得通过k邻点斑点,并保存所有k邻点每个点和点之间的距离P;

(2)对于每一个输入集点P,K邻点获得每个景点之间的距离和点P,在序列的大小和范围;

(3)数据点p,计算它的可访问距离和密度以及它的k-邻居5;

(4)计算每个数据点的离群值,并在大小序列中进行范围;

(5)将前n的位置设置为离群值数据点集并返回集合。根据离群值的时间序列数据,该算法可以大致划分为两个部分:一个是对数据点的k-邻居的查询;另一种是对离群值的计算。对数据点的k邻居的查询是基于MDIT的,时间的复杂性基于索引的算法是O(nlgn)。然后通过定义l和定义2,获得位置5 k邻居,计算朝臣的索引,算法的时间复杂度为0(n)。

2 国土风险管理

国土行业是犯罪的高发区,主要是企业与政府内部贪腐造成的。具体表现如下:

(1)地价异常:某块区域的地价呈现过低或者过高的表现。

(2)土地用途的异常:国土用地主要分为三类:建设用地、农用地、未利用地,三类用途的土地所需缴的费用不同,很多企业利用土地用途的变化进行犯罪。

表1 

表2:异常数据点

图1:价格位置分布图

图2:聚类点

(3)招拍挂异常:土地拍卖需要进行招拍挂,而对参与招拍挂的企业国土部门可以设置各类的准入条件,这种准入条件有时会被腐败分子故意设置成筛选指定企业的工具,造成符合条件能参与招拍挂的企业只有极少数,从而造成招拍挂流程的弄虚作假。

(4)三公用费异常:这类异常主要是因为三公经费出现不符合规定的使用情况。

因此,国土部门应找到一种加强监管的正确和有效的途径,对土地系统内部的数据进行分析,对国土行业内部的各类数据进行全面的了解,再根据这些了解分析来防范土地犯罪的产生。

数据来源:本文所使用的数据是宁波某地区的土地数据,本文选取了典型的31个样本,用于模型试验。

实证结果:我们可以通过对异常数据的分析和建模来进行土地数据的风险识别和评估。

根据图1、图2和表1、表2我们可以发现,通过对土地数据进行数据挖掘,我们得到一些异常数据,而这些异常数据的分析可以很清晰帮我们发现这些数据的重点。

(1)我们选择两个风险变量作为异常数据挖掘的输出,即土地价格和土地位置。在接下来的阶段,我们需要使用异常数据挖掘技术来分析数据。

(2)首先,我们将土地的价格和位置分配到图1中,我们可以看到每块地的的分布。其次,根据这些基本数据,我们发现异常的值并不超过五个,于是我们设n=O k=3,接着再自由地选择6个没有标记的点进行数据收集,并计算它们的离群值。找出异常值的位置是最小的,并将其放入正常的数据收集中。在原始的集合中标记位置。找到在新标记的区域周围的周围区域的其他区域。同样的,把它放在非离群值的集合中,并记住标记它。最后,我们在表2中获得了4个异常值。

(3)通过数据挖掘技术,我们得到表2中的4个离群值数据点。后通过对异常数据的分析,我们发现表2中的数据1和数据2的价格太低了。

我们可以推断出他们是异常土地块,我们的国土部门应该进一步调查。因此,该模型可用于帮助风险管理确定。

3 总结

结合土地风险管理的理论与实践,全面介绍了异常值和异常数据挖掘的风险识别与评价指标。首先,我们收集并组织一些有价值的数据,为下一步的工作奠定基础。其次,我们利用离群挖掘技术找出四个异常数据。最后,我们测试上述情感作用模型实证分析。通过这种方式,可以有效的提高国土资源的监管。

猜你喜欢
离群国土数据挖掘
新时期国土空间规划编制的思考
鲜花盛开的国土
守望国土的藏族姐妹花
守望国土的藏族姐妹花
基于并行计算的大数据挖掘在电网中的应用
离群数据挖掘在发现房产销售潜在客户中的应用
一种基于Hadoop的大数据挖掘云服务及应用
离群的小鸡
应用相似度测量的图离群点检测方法
一种基于核空间局部离群因子的离群点挖掘方法