孙达辰
(牡丹江医学院图书馆,黑龙江 牡丹江 157011)
基于C—C方法的嵌入延迟时间和延迟时间窗方法的改进
孙达辰
(牡丹江医学院图书馆,黑龙江 牡丹江 157011)
由于混沌系统对初值的敏感依赖性、真实数据长度有限并含有大量的噪声,利用C—C方法对于来自于混沌系统中的真实数据进行计算,得到的嵌入延迟时间和延迟时间窗具有一定的波动性。使用基于密度的聚类算法,分别对利用C—C方法得到的多组嵌入延迟时间和延迟时间窗数据进行聚类分析,使最接近于真实的嵌入延迟时间和延迟时间窗数据分别形成2个不同的簇,分别对这2个簇求它的平均值,结果就是所求的嵌入延迟时间和延迟时间窗数据。最后通过数值仿真试验证明了这种方法的可靠性。
时间序列;密度的聚类;相空间;C—C方法;混沌
1999年,Kim等基于嵌入窗口的思想[1,2],提出了C—C方法[3],由于C—C方法具有很强的实用价值,在解决实际问题方面又很有效,对它进行深入的研究,并进行相关的改进,将具有很大的意义。针对原有的C—C算法,国内学进行了一些相关研究与改进[4,5]。为了得到更为准确的嵌入窗口τw和时间延迟τ,笔者在对C—C算法进行研究的基础上,利用基于密度的聚类算法对“C—C算法”所得到的结果进行处理,通过在Matlab7.0环境下进行仿真试验,来确定基于C—C算法的更为有效计算嵌入窗口τw和时间延迟τd的方法。
对于C—C方法多次得到的嵌入窗口τw和时间延迟τd,分别作为输入数据,求稳定的嵌入窗口τw和时间延迟τd。同一个混沌时间产生的多组嵌入窗口τw和时间延迟τd,由于混沌系统的初值敏感性和实际非线性时间序列长度有限并可能带有噪声,使得用“C—C”方法直接由一段数据估计出的τd和τw具有一定的波动性[5]。但多组嵌入维数m和时间延迟τ都应该分别围绕着真实的τd和τw上下波动。
使用聚类的方法,把上述数据分成多个组,再找到这些组里面数据个数最多的那个组,命名为:Cτd组和Cτw组,分别对这2个组中的数值求平均值,这2个均值分别就是最优的τd和τw。
聚类分析根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是组内对象相互之间是相似的,而不同组中的对象是不同的。组内的相似性越大,组间差别越大,聚类就越好[6]。为了分别找到最优的τd和τw,分析通过C—C方法得到的Cτd组和Cτw组中的数据,它们都具有以下特点:①都是数值型的数据,数据本身的值是数据的唯一属性,属于低维数据;②在多个τd数据中,数据的数值围绕着最优的τd上下波动,少数数据有一定的偏离;在多个τw数据中,数据的数值围绕着最优的τw上下波动,少数数据有一定的偏离;③经过聚类分析后所得到的组是不能事先指定的。
对于多个τd和τw数据分别进行聚类分析的最终目的是要分别找到数据个数最多的Cτd组和Cτw组,而忽略数据较少的组。
经过以上的分析,选用基于密度的聚类算法进行聚类分析。基于密度的聚类算法是寻找被低密度区域分离的高密度区域[6]。这种方法可以过滤“噪声”和孤立点数据,能发现任意形状的簇[7]。DBSCAN(Density-Based Spatial Cluster of Applications with Noise)是一个基于高密度连接区域的密度聚类算法[8,9],该算法将簇定义为相连的点的最大集,将具有高密度的区域划分为簇,在聚类过程中,DBSCAN将密度相连的最大对象集合作为簇,不包含在任何簇中的对象被认为“噪声”。
经过以上的过程,最后得到Cτd组Cτw组,分别对Cτd组Cτw组中的值求平均值,就得到最优的τd和τw。
图1 SX的时间序列图
在试验中,Lorenz方程的各参数x、y和z的初始值分别为:15.3、13.68和37.91,σ的值为10,r的值为25,b的值为8/3,通过程序产生30000个时间序列数据。对关于x的时间序列数据进行试验,从这些数据中的第10000个数据点开始,取到第18000个为止,进行试验,对于这些数据命名为SX。SX对应的时间序列图如图1所示。
对于时间序列数据SX,产生Cτd组Cτw组的算法如下:
序列增量值i的初值为零;在SX的第1个数据的位置加上i,长度为3000的数据中调用C—C算法程序,求出该范围内的最优τd和τw;序列增量值i的值改为:i+100。多次重复这一步,直到对SX中最后一个长度为3000的数据求完最优τd和τw。
试验结果的部分数据如下(第1行为最优τd,第2行为最优τw):
18 19 19 19 18 18 17 17 17 17
178 178 178 179 180 133 132 179 179 179
从这些数据中可以得出以下结论:最优τd数据是趋于稳定的,围绕着18这个数据上下波动,而最优τw数据的值却远不如最优τd的数据值稳定,进而可以得出通对应的最优τd和最优τw来求出的最佳嵌入维数m的值也是有波动的。
为了得到更为准确的最优τd和最优τw,笔者采用基于密度的聚类算法DBSCAN分别对对Cτd组和Cτw组进行试验,具体算法为:参数ξ为聚类算法DBSCAN中的半径,参数MinPt表示以一点为核心,半径为ξ的范围内的数据点数,即密度。通过调整这2个参数,将密度相连的最大对象集合作为簇,求得不同的聚类,在这些组中,以最大组中的元素个数远远大于第2大组的元素个数的聚类结果为最终的试验结果。
取参数ξ和参数MinPt的值都为5,针对51个最优τw数据、试验结果的部分数据为:
这些数据中每一行为一个聚类组,数据中的零值代表这个位置上没有数据,第1组有6个数据,以数值96为主;第2组有17个数据,以数据值176和数据值178为主,分别为8个;第3组有8个数据,以数值166为主。第2组为所求的Cτw组。
分别对试验得出的Cτd组和Cτw组中的值求平均值得到最优τd和最优τw。
针对C—C方法得出的多组最优τd和最优τw,利用基于密度的聚类算法DBSCAN进行聚类分析,分别求Cτd组和Cτw组中值的平均值,得到最优的τd和τw。保证了所得到的最优τd和τw的有效性和可靠性。
[1]Takens F.Detecting strange attractors in turbulence[A].Dynamical Systems and Turbulence[C].Berlin: Springet-Verlag,1981:366-381.
[2]陈铿,韩伯棠. 混沌时间序列分析中的相空间重构技术综述[J].计算机科学,2008,32(4):67-70.
[3]Kim H S, Eykholt R,Salas J D,etal.Nonlinear dynamics, delay times, and embedding windows[J].Physica D: Nonlinear Phenomena,1999,127(1-2):48-60.
[4]陆振波,蔡志明,姜可宁. 基于改进的C—C方法的相空间重构参数选择[J].系统仿真学报, 2007,19(11):2527-2529,2538.
[5]徐自立,王一扬,周激流. 估计非线性时间序列嵌入延迟时间和延迟时间窗的C—C方法[J].四川大学学报,2007,39(01):151-155.
[6]Machalel Stein Steinbach Vipin Kumar.数据挖掘导论[M]. 范明,范宏建 等译.北京:人民邮电出版社,2006.
[7]胡可云,田凤占,黄厚宽. 数据挖掘理论与应用[M]. 北京:清华大学出版社, 2008.
[编辑] 洪云飞
10.3969/j.issn.1673-1409.2011.02.030
TP391
A
1673-1409(2011)02-0083-02
2010-11-26
孙达辰(1976-),男,2001年大学毕业,硕士,现主要从事人工智能及其应用方面的研究工作;E-mail:sdc061013@yahoo.com.cn。