基于数据挖掘技术的时间序列分类聚类应用研究

2022-09-06 07:45王赫楠
科技创新导报 2022年12期
关键词:数据量数据挖掘聚类

王赫楠

(辽宁中医药大学 辽宁沈阳 110000)

数据挖掘技术利用一些数据分析算法,在某些条件的限制下,从海量的数据中挖掘出有价值的信息[1-4],是目前各领域挖掘数据信息采用的主要技术手段。通常情况下,数据挖掘技术可以对各种类型的数据进行操作,如各种类型的数据库(关系数据库、数据仓库、事务数据库或其他一些高级数据库系统等),还有平面文件和网络上的数据[5]。以上的各种数据库中,有一种较为特殊的数据形式,数据集的各个数据之间存在着时间上的先后顺序,随时间的变化、动态的改变,这类数据即为时间序列数据集。目前,时间序列数据集在各领域都广泛存在。例如,某个人的心电图数据、水位监测数据、图形图像数据等都具有时间特性。从以上一些时间序列数据中挖掘出有价值、有规律的信息,对于各个领域都具有重要的研究意义。

随着科学技术的不断发展,各领域的时间序列数据增长飞快,大量的数据背后隐藏着极具价值的信息,越来越多的研究人员投身其中进行研究工作。研究的目的就是从海量的时间序列数据集中提取有价值、有规律的信息,此项工作也成为数据挖掘领域研究的热点之一[6-8]。时间序列的数据集具有时间特性,它是一种高维度,并且随时间变化而改变的一种数据形式,同时,也存在大量的冗余数据。利用可视化方式来反映时间序列的主要形态特征,并从中提取一些有价值的信息数据,这对于各个领域的发展和科研都有非常重要的现实意义。时间序列的数据量大、维度高,给数据的挖掘工作带来一定的困难。在进行时间序列数据挖掘过程中,需要先进行降维处理,提取一些特征点,反映时间序列的主要形态特征。同时,结合一些经典算法去处理时间序列,对时间序列数据进行挖掘工作,提取出有价值、有规律的数据信息。

1 数据挖掘技术研究

随着信息技术的不断发展,获取数据及提取数据极其方便,这使得各领域的数据量迅猛增长,出现了数据量很大,但无法有效提取有价值信息的情况。数据量的增大、维度的提高,给人们的数据分析工作带来了巨大的挑战,增加了数据分析工作的难度。而为有效地提取海量数据的有价值、有规律的信息,数据挖掘技术应运而生。数据挖掘技术的目的就是在巨大的数据量中能够积极地获取有价值的信息数据,用来指导金融市场、医疗服务、电商销售及科学研究等。

在进行数据挖掘的过程中,需要使用者对数据所在领域知识有一定的了解。数据挖掘技术也属于多学科交叉的一门技术,涵盖数理统计、模式识别、机器学习等方面的技术和方法。数据挖掘技术的功能很广泛,概括起来有两个方面:分类和预测。数据挖掘技术的分类和预测既可以分类数据库中的数据信息,又可以根据有效信息进行数据趋势的预测,找出数据信息各属性间的关系。这项技术在银行的信用评价、工业制造故障诊断、入侵检测等领域应用广泛。

关联规则、分类聚类、预测等都是数据挖掘的主要研究方向。根据不同的数据分析需求,可以采用不同的数据挖掘方法。关联规则也是数据挖掘技术的一个重要方法,它是针对某个特定的数据集,挖掘出现频率较高的信息数据,进而发现这些信息之间的关联。

在数据挖掘技术中,聚类是主要的方法之一。在应用于数据集的过程中,聚类会使得具有相似特征的数据聚合到一起,具有不同特征的数据自动分开,形成多个聚合的簇。同一簇中的数据具有很高的相似度,不同的簇之间数据的差别很大,主要通过数据之间的距离来衡量数据的相似程度。

传统的数据挖掘算法可以处理均衡数据的分类问题。但是随着数据量及种类的不断增加,数据库中所包含的数据十分复杂,仅应用传统的数据挖掘方法不能解决各类数据的处理问题,如时间序列的数据处理、非均衡数据的数据处理、多分类数据的数据处理等。已经有越来越多的研究人员对以上时间序列等特殊数据集的数据挖掘方法开展研究工作。与此同时,数据挖掘的各个领域也正在进行深入的研究。

2 时间序列数据挖掘的应用场景

时间序列的数据集依据时间的变化,数据值不断改变,从而表现出数值在时间上变化的特征。提取有价值的数据信息是时间序列研究的目的,可以通过分类聚类、奇异值检测等方式来进行时间序列的分析和挖掘工作。近年来,时间序列的数据挖掘是研究者们主要研究的一个方向。

时间序列在各领域都广泛存在,较为典型的应用,如在互联网基础上产生的交易平台。用户在使用互联网进行交易购物时,随着时间的变化,是有一定的购买习惯和消费模式的。通过对在线交易的数据进行获取,并使用数据挖掘方法进行分析,可以掌握用户的购买习惯。平台可以通过数据的分析,为不同的用户推荐其感兴趣的商品,做到精准营销。

在医疗检测过程中,会产生很多检测数据,如患者的心电图数据。心电图数据属于时间序列范畴,随着时间的变化,数据呈现出某种变化趋势。通过时间序列的数据挖掘方法,对序列进行分析,发现某一类病症的患者检测数据的变化规律,可以帮助医生制订出更加合理和科学的诊疗方案,实现智慧医疗。

在工业制造过程中,基于传感器等硬件设备可以实时监测到设备运行的某些数据,对其进行分类分析研究,及时掌握设备的运行状况、异常发生、机器损耗等数据,这样管理者可以更好地了解设备的运行情况,控制制造的操作,促进制造业的发展。

3 时间序列数据挖掘研究

存储技术、信息技术的不断发展,使得用户可以比较方便地获取大量的数据信息。时间序列数据也是其中一种数据集形式,在各行各业都广泛存在,如医疗领域中某个病人的心电图数据、金融领域中的股票数据变化、水量检测中水量的实时变化数据等。时间序列是随着时间的推移,数据信息连贯性变化的一种数据集形式。在一段连续的时间内,采集与时间所对应的数据信息,是有一定规律的。如何在海量的时间序列中挖掘出有价值有规律的数据信息,是研究者们要解决的主要问题。因此,数据挖掘技术在时间序列数据集分析中的应用受到了广泛的关注。

3.1 数据的变换

数据的变换也可以理解为数据的预处理。由于时间序列的数据量巨大、数据维度高,直接在原始的时间序列上进行数据挖掘操作,不容易得出较好的结果。因此,可以对数据进行预处理,达到降维的目的;也可以选取某些关键点,反映时间序列的变化特性,这样既可以保留原时间序列的已有变化规律,又可以降低数据集的维度,减少计算的成本。

3.2 数据库相似性度量

相似性度量是数据挖掘领域的研究热点,同时,也是时间序列数据挖掘的常见技术手段之一。时间序列的数据值有其固有的特点,如时间特性、连续性等。那么,如何去衡量时间序列的相似度、相似性如何定义,是时间序列衡量相似性操作首要解决的问题。通过距离来衡量时间序列的相似程度,是当前较为常见的一种方式。时间序列的数据值之间不是孤立的,而是存在时间上的连续性。对时间序列进行索引操作,需要更加有效的机制提高索引的效果。基于空间索引是当前较为流行的一种相似性索引结构。

3.3 聚类分类分析

分类聚类是数据挖掘领域的常见操作。同样,对于时间序列也要进行分类聚类的操作。对于时间序列的分类简单点来说,在已有类别的基础上,将某一个给定的新的时间序列数据集划分到某个指定的类别中。在分类的过程中,需要首先对时间序列进行分割,分割的原则是根据指定的模式长度和时间粒度,对需要分类的时间序列数据集进行分割,然后再进行分类聚类的操作。

3.4 时间序列的可视化

可视化操作是目前各领域研究的热点问题之一。对于时间序列,可视化技术也是值得研究的一项课题。时间序列的可视化操作可以基于图形图像技术、虚拟现实技术及数据挖掘技术,将时间序列以一种更易理解、更容易被用户接受的形式展现出来。

3.5 时间序列的特征表示

时间序列作为数据序列的一种特殊形式,不仅具有传统数据的特性,如数据量大、维度高,还具有时间序列本身的特性,比如,随着时间的变化实时更新、流数据等。正是由于时间序列的特性,使得在进行时间序列数据挖掘过程中,使用传统的数据挖掘方法效果不理想。那么,在对时间序列进行分析之前,就要对时间序列数据集进行特征表示。特征表示的目的是要对时间序列数据集进行降维处理,这是后期对时间序列数据集进行其他操作的基础。常用的时间序列特征表示有以下几种类型:域变化特征表示、模型特征表示、分段特征表示、符号特征表示。

经过以上方法特征表示后的数据,不仅要适用于后续的数据挖掘方法,还要准确地反映原始时间序列的形态特征。因此,时间序列特征表示需要满足以下几点:能够降低时间序列数据集的维度;对原始时间序列能够准确反映其主要形态特征以及局部的数据值变化特征;所选取的特征表示方法具有很好的表示精确度。图1所示为特征表示方法效果。

图1 特征表示方法效果图

4 结语

时间序列数据挖掘日益成为数据挖掘的一个重要方面,各行业都会产生大量的时间序列。如何从海量的数据中挖掘出有价值的信息,是目前时间序列数据挖掘急需解决的问题,也是未来数据挖掘研究的热点问题之一。

猜你喜欢
数据量数据挖掘聚类
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
宽带信号采集与大数据量传输系统设计与研究
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
一种基于Hadoop的大数据挖掘云服务及应用
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例
基于GPGPU的离散数据挖掘研究