论空间数据挖掘和知识发现的理论与方法

2021-12-17 23:52陈新
电脑知识与技术 2021年33期
关键词:理论问题方法

陈新

摘要:随着经济全球化不断发展,信息化时代的不断深入,让更多的知识数据成为当下进行决策的关键条件。而目前的这种空间数据挖掘方法,在信息系统技术的各个领域都有着广泛的使用,空间数据挖掘也可以称之为空间知识发现,是从空间数据库中提取相应的数据模式和特征,通过数据分析从而得出数据的普遍关系和其内在联系的数据特征。近几年来,随着科学技术的发展,空间信息技术也取得了非常大的突破。这种对可视化的空间数据挖掘方法已经是该领域研究发展的必要手段。该文对于空间数据挖掘的问题及发展趋势也进行了深刻的讨论。

关键词:空间数据挖掘;知识发现;理论;问题;方法

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2021)33-0020-02

开放科学(资源服务)标识码(OSID):

1 前言

在大数据的影响下,空间测绘技术不断发展,空间数据库也是不断地完善和发展。这种包括资源环境、自然灾害等空间数据越发增多,而且空间数据库的数据量也成指数级增长。但是目前数据资源丰富,空间数据挖掘方式的落后成为现状。如何提高我们现在的空间数据挖掘和知识发现的理论方法便非常重要,所以关于这个热点话题,本文展开了讨论。

2 什么是空间数据挖掘

所谓的空间数据挖掘就是在空间数据库和数据仓库的基础上,通过合理利用统计学、模式识别技术、人工智能等信息技术手段,从大量的数据中不断筛选、发掘、整理、存储和输出的一个过程。最终的目的是将自己所需要的数据通过整合联系,最终得出可以理解的理论知识,从而发现出数据联系的内在关系,进而推导出客观世界的本质规律和发展趋势。

空间数据发掘目前被应用的领域非常广泛,例如地理信息系统、图像数据探测、交通、医学等领域。目前的数据库系统和数据仓库已经成为主要的信息交流平台,所以空间数据挖掘系统也应当成为当前数据库和数据仓库体系建设的必要一环。当下的空间数据挖掘技术的不断发展和突破,便成為当今社会发展决策的关键工具[1]。

空间数据挖掘系统的结构分为三层。第一层是数据源,也就是所谓的空间数据库。第二层是挖掘器,利用空间数据挖掘系统中匹配的相应算法进行数据上的提取。并且在一定程度上根据客户的需要和所涉及的领域进行系统化的筛选。第三层则是用户界面,主要将筛选的空间数据通过可视化的方式输出给用户。在整个的空间数据挖掘的过程中,总体都是由用户进行控制,通过人机交互数据最终取得用户想要的结果。而良好的算法逻辑是空间数据挖掘出知识的结果是否满意的前提。

3 空间数据挖掘中存在的问题

空间数据挖掘的发展关乎空间数据库的整理和探知,也可以在一定程度上影响决策者的决策走向。所以当前空间数据挖掘的问题研究成为当今非常热门的话题。笔者总结出了以下几点:

3.1 空间数据挖掘中算法理论并不完善

通过对于空间数据挖掘的研究,这种空间数据挖掘所涉及的学科非常多,例如计算机、网络学科、统计学等。虽然近几年的研究在这几方面都有一定的成果,但是随着各种学科地深入探索,不断推动着空间挖掘技术中算法的更新和完善,而目前随着数据挖掘技术和相关理论技术的不断突破的情况下,新的空间挖掘中的算法理论出现是肯定的,而且对于当前的知识发现技术体系也是有非常大的推动作用。所以在空间数据挖掘的算法理论上需要进一步地研究和完善。

3.2 应用研究方面的问题

当前在空间数据挖掘应用和现实相结合的问题也是目前热点讨论话题之一。主要是由于集成多的算法和知识发现系统等相互联系而形成的。所以在空间数据挖掘中,一个实用的系统都是针对性地开发,针对客户群体进行一对一的算法研究。

在这种不确定性和模糊性并存的空间数据库进行信息的匹配、分析和存储的问题上,空间数据挖掘方法还并不能满足这种不确定性的要求。而且目前也没有相应的方法进行解决,更没有谈论出一种非常好的方法来因对目前空间数据对于随机性和模糊性的问题进行解决。这种条件下的数据挖掘质量也是只能作为参考[2]。空间数据挖掘出来的知识量非常大,但挖掘出来的效益是什么样的并没有人去针对性地研究,而且评价条件也是没有相应的参考标准,所以在空间数据挖掘的发展和进步中这是一个必须解决的问题。

3.3 空间数据库类型多样性

空间数据库涉及的领域非常多,这就造成了数据类型多种多样,例如关系型数据、结构化数据等,再加上目前互联网的发展。网络连接了更多的空间数据库,所以在情况复杂上面,空间数据挖掘方面的要求更加高,而且采用单一的空间数据发掘方案确实远远不够的。而且在空间数据不稳定的这个条件下,空间数据库也是不稳定的,进而对于数据的稳定性和可靠性是影响非常大的。

4 空间数据挖掘中问题的解决办法

4.1 提高空间数据的稳定性和可控制性

空间数据库在其数据量大、结构多、空间结构差异性大等方面都是会影响到空间数据挖掘的准确性。所以我们想要提高这种空间数据挖掘能力,就要先稳定数据库的内容。首先就是要将现有的数据分析技术引用到数据库的综合处理能力上面。比如在空间上对数据库进行分层,并且将相邻的空间数据进行结合,这样可以高效地从空间分层的数据中提高挖掘算法的效率。

4.2 提升数据挖掘算法的有效性和可伸缩性

在空间数据挖掘过程中,要提高挖掘算法的对于处理大量复杂数据的能力,这就需要让挖掘算法产生有效性和可伸缩性的特征。在可伸缩性方面,要关注大量复杂数据的处理问题,改变和精进算法运行的策略,通过使用平行计算环境来实现多算法同时展开,提高处理复杂能力的效率,例如使用SPRINT分类算法等。其次,在空间数据算法的开始之前,执行的逻辑便是划分数据库,将所要分析的杂乱数据进行划分成为不同的部分,再通过每个部分的知识挖掘,最终达到提高效率,提高准确率的目的。第三,还可以使用采样技术,这种技术是统计学领域非常重要的组成部分。通过划分采样来达到对效率和准确率的提高。第四则是采用数据的预处理技术,这种技术可以在算法展开前进行第一层的筛选,而且在用户的各种约束下,可以很好地保存好原始数据信息。在用户交互的过程中进行不断地改变与适应,最终达到提升效率的结果,做出更有效的空间数据挖掘活动[3]。

4.3使用高维空间数据算法逻辑

目前互联网信息技术不断提高,空间数据库的属性越来越多。所以需要使用这种高维的数据挖掘算法逻辑,这种做法的关键就在于要优化查询处理。这种方法主要是两种:一种是通过映射技术,把高维问题映射到平级的低维问题中;另一种就是建立高维的搜索引擎,通过直接搜索匹配进行问题的解决。

映射技术存在比较大的问题,高维数据映射到一维数据中,一维数据会被覆盖,这就会导致一维数据也会变得结构复杂。而且这种高维映射到一维也不可能完全适配,只能尽量映射,所以问题还是比较大的。但是在高维搜索引擎的构建上,会考虑到高维数据的特点,进而更加合适高维数据的查询[4]。这种搜索引擎的创建过程是个复杂而且逻辑内容量很大的工作,但是可以更好地帮助空间信息挖掘技术的发展,所以这种方式还是非常合适的。

4.4 做可视化空间信息挖掘

通過使用SDM算法应用来达到数据可视化的条件。首先是要数据库可以使用多维度的组合,通过不断的数据组织,成为可视化的数据,主要是基于图像或者像素技术等技术形式出现。其次是挖掘过程需要可视化,将挖掘过程通过图标标注等方式进行相关的内容表现,例如数据的出处,数据如何筛选,如何开始预处理的,甚至是通过何种逻辑进行保存的。其三便是通过数据挖掘算法模型构建的可视化,来达到让用户及时了解自己所得设定的规则,及时对于空间数据挖掘知识的调整,进而提高效率。最后是挖掘结果的可视化。将数据通过表格等方式进行输出,以用户可以读懂的方式呈现在用户面前[5]。

5 结论

目前的空间数据挖掘在技术的发展会给空间信息处理领域带来非常大的进步。而且这种空间数据理论挖掘是一个非常重要的研究方向,不管是在理论和方法上进行深入的研究。也要对数据进行优化和分类,通过多层次多角度的空间数据挖掘来支持决策者进行决策,进而不断推动各领域发展。所以在空间技术挖掘是当今必须重视,并且要进行深刻的讨论。

参考文献:

[1] 孙建国,赵军,闫浩文.一个空间数据挖掘原型系统的设计与实现[J].兰州交通大学学报,2004,23(4):94-97.

[2] 武文波,张自宾,金卓.空间数据挖掘技术及应用[J].水资源与水工程学报,2008,19(6):23-27.

[3] 闫永慧,胡伍生.空间数据挖掘中的数据预处理技术研究[J].山西建筑,2009,35(14):363-365.

[4] 高阳.中国数据挖掘研究进展[J].南京大学学报(自然科学版),2011,47(4):351-353.

[5] 原建伟.基于内容分析的数据挖掘研究[J].河北工业科技,2011,28(5):299-301,342.

【通联编辑:闻翔军】

猜你喜欢
理论问题方法
坚持理论创新
神秘的混沌理论
理论创新 引领百年
相关于挠理论的Baer模
可能是方法不对
演员出“问题”,电影怎么办(聊天室)
用对方法才能瘦
韩媒称中俄冷对朝鲜“问题”货船
四大方法 教你不再“坐以待病”!
捕鱼