基于大数据的情报分析和挖掘技术分析

2022-06-18 08:00韩培培
电子元器件与信息技术 2022年4期
关键词:数据挖掘算法模型

韩培培

中国电子科技集团公司第五十四研究所,河北石家庄,050000

0 引言

对具有价值的数据信息的分析与识别,都是通过对大量、动态且能够持续的数据运用新的系统、工具和模型进行充分的挖掘和分析得到的。随着大数据的快速发展,各行业各已经开始逐渐使用新技术来进行实时数据分析[1]。但如何在海量结构化和非机构化的数据中,对信息进行时空动态分析与利用,仍然是无法避免的问题。基于此,本文结合数据信息的时空特征,利用ABI情报分析方法,对目标的活动规律展开探讨。

1 大数据的情报分析领域机理分析

1.1 大数据概述

大数据作为一种从网络多层次视角,对海量数据信息的收集与整合技术,自身具备了实时性特征。如果从技术角度来看,大数据技术和云计算技术两者之间具有一定的联系,且云存储和数据库、处理技术等都是实施数据信息收集的重要支撑。而数据挖掘作为在知识发现中的关键部分,是通过大量数据和算法的搜索,找寻其中存在的规则、规律等的一个过程。一般可以用于异常检测、关联规则学习、聚类分析以及回归分析和分类、数据可视化等。经过长时间的发展,在融合人工智能、机器学习、数据库以及模式识别、神经网络和高性能计算、数据可视化等多种理论与技术后的数据挖掘,已经变成了一门交叉学科[2]。

1.2 情报内涵的转变

情报也被称为信息或资讯,简单来说就是代表被传递的信息或者知识,通过一定载体,在某个特定的时间、状态下传递给某个特定的人物。现阶段在信息技术不断且快速的发展下,信息载体的数据呈现出几何级数的规律提升,使得其存在模式也发生了根本性的变化。导致原有的情报分析、情报收集以及处理模式已经无法适应于当前的大数据环境,必须要对其进行改造升级。

情报分析的方法是利用统计学当中的随机抽样理论,来强调事物之间存在的因果关系,并在部分信息的推断下对全局事物的发展进行判断,以此追求其准确性。因此,在情报工作当中,情报分析占据了重要地位。而随着大数据的发展,大数据分析通过利用尽可能多的数据支持,实现对事物之间的关系判断,只求相关性,并不强调准确性。所以,大数据分析从其本质上来看,就是针对大量结构化、半结构化以及非结构化的数据进行处理,以此实现得到应用的目的。而大数据分析和情报分析这两者即使导向不同,仍然拥有密切的联系[3]。

2 基于大数据的情报分析和挖掘技术分析

2.1 ABI情报分析方法

该方法是情报分析方法中的一种,通过从地理叙事的方向为切入点,在空间以及时间上实现活动连接。使得无序或杂乱的情报活动,变得有规律、有序可循,以此为目标活动分析提供新的方向,并且ABI情报分析方法也是多源情报的聚集和关联。在时空数据的基础上,通过对目标活动的发展规律进行分析,从而预测目标活动。与传统的目标分析方法相比较来说,该目标方法通过构建目标的行为谱,为目标的所有特征和规律研究提供了数据上的支持。

而情报分析从本质方面来说,就是利用一系列处理规则,获取对方的计划或者意图。不过,在实际数据集生成当中比较稀疏,只能够代表小部分的数据。而ABI方法易于对未知事物的发现,并且可以通过活动或实际的层段来对相关的实体进行搜索,也能够识别可能不为网络所知的成员,ABI方法的分析框架如图1所示。

图1 ABI方法分析框架

时间和空间为ABI情报分析方法提供了时间相关性和空间相关性两个数据过滤器,从上述框架中就能够看出时空关系贯穿了整个数据情报的分析过程,从数据收集一直到知识管理等各个环节均和时空关系不断迭代。

2.2 情报分析对目标的识别

在情报分析领域当中可以将实体目标识别划分为多个步骤,具体情报分析流程如图2所示。

图2 情报分析流程

(1)数据采集。该方面主要来源于相关情报报文,如时间或者情报的内容等。

(2)数据管理。该部分是情报挖掘分析的基础,通过对目标的活动规律、活动轨迹、目标特征以及平台信息等方面的数据为基础进行挖掘,并对其结果进行保存。数据管理也是对各种不同类型数据的提取、查询以及存储和整理调用。

(3)数据预处理。预处理是对模型进行训练之前的重要部分,该部分主要包含了数据的清洗、数据分词处理以及数据核验等。数据清洗进一步解决了数据中存在的质量问题,而数据分词处理的质量直接对模型质量有着相应的影响[5]。

(4)任务数据挖掘。基于大数据的数据挖掘和传统数据挖掘两者进行相比较发现,从其概念内涵以及实现目标等方面上来看,两者之间没有存在本质上的差别。二者均是为了获取数据当中所蕴藏的规律性知识,以此实现提前对事物的变化发展趋势进行预知。不过,二者之间不相同的地方则是在对数据挖掘的环境方面出现了变化,其数据量和数据类型方面有了一定程度的提升。但通过对任务的分解,二者均可以满足用户在负载下的要求。由此可见,传统数据挖掘方法同样能够适用于大数据。

例如,以对目标运动发展趋势为例,给出大数据下情报信息分析挖掘的一种合理模型。具体的建模步骤如下:首先,需要对任务数据进行合理的分析,并对完整任务数据进行预处理;其次,在考虑到分解之后的单体数据集的体量依然具备一定规模,这时可以利用RBF神经网络模型或者ABI分析方法,将单体数据集中在每一个数据点上(这里选用了RBF神经网络模型),因此可以将单体数据集中在神经网络模型中,并且和神经元组成庞大的训练集体,最后形成映射;接着利用SVM(支持向量机)辅助方法,对神经网络模型的优化实现求解,同时还需要针对神经网络中的隐形层进行改善,使得其能够在大数据的帮助下促使数据处理的稳定性得到提高[6]。

(5)数据挖掘算法实现。①特征分类。想要进一步实现数据挖掘算法,可以结合特定的领域进行模型建设分类。接着,利用数据挖掘工具和相关算法对数据源中存在的数据进行扫描分析与分类。其目的主要是利用分类模型,让数据库当中的数据项直接映射到某一个特定的类别当中。通过训练和运行这些独立的模块,完成模型训练。②关联分析。该方面主要是连接特定的领域,在知识库中建立相对应的关联机制,并对数据园中的数据实施关联分析。③聚合分析。结合研究所需,搭配知识、聚合相应的信息源,以此可以实现高效检索、导航以及关联等部分功能。同时,可以对数据的聚合进行展示,从而为更深层次的数据挖掘分析提供有力的支撑。④趋势演变。该部分结合对特定领域的分析,利用预测模型建设的形式,在数据挖掘工具的作用下针对存在时空跨度的数据进行分析,并且对其趋势演变实施预测,以此辅助用户的研究分析。

2.3 分布式并行运算的大数据挖掘分析

在针对情报分析时,还需要注重单台设备性能不足的问题。而Spark分布式并行运算框架的出现,能够有效解决单台设备在进行大数据的海量计算工作时性能不足的问题。Spark框架是当前最为流行的一种大数据处理框架,常常用于离线的大数据处理。可以通过对大数据处理部分的改进,将计算的结果和所使用的数据存储到相应的内存当中。这样既可以降低对磁盘反复读写的消耗,还可以提高设备的运算性能,比较适合应用于迭代任务运算当中,以此促使数据挖掘算法的效率得到提升[6]。该框架的整体可以划分为以下4层。

(1)工具层。该层次,Spark为数据挖掘提供了多种工具,如应用于查询的Spark SQL和应用于流式计算的Spark Streaming以及最后应用于机器学习的MILib和图处理的GraphX。

(2)计算层。将用户的应用程序,分解成了内部执行任务,同时还为其提供了执行容器。

(3)存储层。该层可以实现对分布式文件系统的读取,还可以通过Hadoop集群中所存储的组件数据访问本地数据。

(4)资源调度层。在资源调度层,可以将集群管理器看作YARN,并且可以在自带的集群管理器下实现独立运行。

由此可见,在数据挖掘方面,基于分布式并行运算的挖掘分析方法对目标活动的规律分析具有一定程度的借鉴作用。并且,相对应的算法同样能够适用于对目标活动规律的大数据挖掘。而针对目标活动规律的挖掘分析是情报分析中的重点内容,因此,经过长期积累的数据表明,对目标活动轨迹的分析,在相应的活动时,均会存在固定频繁的活动区域或者轨迹,而这正是对目标进行身份识别或者多目标意图识别的重要依据之一。所以在目标活动的过程当中针对目标活动轨迹的提取,虽然会存在大量的目标痕迹,但是痕迹越多则是越能够充分、真实地反映出目标的活动轨迹。但目标活动轨迹数据量过多时,会对数据挖掘和情报分析以及数据存储方面造成巨大的压力。这时,就需要对其误差范围进行缩小,还要利用少量的数据表征目标运动轨迹。最后,将结果利用显示功能进行显示。例如以电子地图为背景,将大数据挖掘的结果和目标的活动轨迹在地图上进行显示。在日益增长的数据量下,大数据的挖掘技术发挥其优势,已经成了当前情报分析发展的一大趋势[7]。

3 基于大数据的挖掘技术应用分析

大数据由于自身数据的复杂性、多样性和广泛性,在数据挖掘技术和相对应的挖掘工具方面具有丰富的经验。由此来看,可以将大数据的挖掘技术划分为经典数据挖掘方法以及智能挖掘方法两种。

3.1 K-均值算法

该算法是聚类算法,通过将n个对象结合其自身的属性划分为K个分割,也就是K<n。该算法与处理混合正态分布的算法有很大的相似之处。假设目标对象属性源自于空间向量,且每个目标能够使各个群组之间的平均误差总和达到最小,则在大数据挖掘技术应用中,K-均值算法可以用于目标空间位置的聚类,也可以对辐射源参数等类型比较复杂的数据进行改进,然后再对其参数进行聚类。

3.2 频繁项集方法

简单来说,该方法就是支持度大于等于最小字支持度的结合,该挖掘方法是数据挖掘任务的关联规则、相关性分析、因果关系以及序列项集或者周期性挖掘等基础,拥有广泛的应用前景,并且还可以用来发现目标的空间活动规律。

3.3 人工智能情报分析技术

在人工智能的不断发展下,情报分析的自动化已经成为必然趋势。基于大数据的支撑使得情报分析取得了一定程度的突破,对于传统情报分析的技术预测方面产生了重要的影响。因此,对智能情报分析的提升,不仅要提出技术方面的解决方案,还要结合实际需求建立起各种类型的情报研究任务的信息模型、分析模型以及问题模型等[8]。

4 结语

综上所述,基于大数据的情报分析和数据挖掘在不同的领域中应用,由于数据类型、数据特征以及需求等方面的不同所产生的差异,可以结合实际情况有针对性地开发可视化数据挖掘系统。而传统的数据挖掘与数据分析方法在对情报分析上,已经无法充分满足当前的需求。因此,本文针对该问题,研究了基于大数据的情报分析和挖掘技术分析方法,为更加准确地对目标进行身份识别、目标活动规律的把握以及对目标的关联因素进行挖掘奠定了基础。

猜你喜欢
数据挖掘算法模型
适用于BDS-3 PPP的随机模型
改进支持向量机在特征数据挖掘中的智能应用
自制空间站模型
哪种算法简便
探讨人工智能与数据挖掘发展趋势
Travellng thg World Full—time for Rree
模型小览(二)
算法框图的补全
算法初步知识盘点
软件工程领域中的异常数据挖掘算法