姜华 周克江
摘要:研究一类在多粒度时间下单事件同属性不同状态之间有一定关联的近似周期规律挖掘问题。给出了多粒度近似周期关联规则模型形式化的数学定义和性质,构造了相关模型,提出了利用聚类算法挖掘周期模式并应用于股票数据进行实验,实验结果表明算法是有效的。
关键字:近似周期;关联规则;多粒度时间;数据挖掘
中图分类号:TP339 文献标识码:A
大数据下的数据挖掘是当前的研究热点,这些数据往往是随时间变化的,即带有显性的或隐性的时态特征,如何从大数据中挖掘出有意义的时态周期模式是值得研究的一个方向。
国内外已经有了一些关于周期模式的挖掘研究[1-3],但对近似周期的挖掘并不多见。然而现实世界中很多时间周期都不是严格的完美周期,比如说月经周期是21天-35天,并不是严格的30天,股票周期可能是7天-10天左右上涨一次等,并不是恰好7天。由于一些干扰因素的存在,严格的精确的周期模式挖掘往往会错过一些有效的周期模式,为此我们提出了近似周期模式挖掘。文献[4]提出的近似周期关联规则是基于单一时间粒度,不过现实生活中人们往往更习惯于用多时间粒度来表示时间,比如说潮汐周期是24小时50分钟,而不说1490分钟。因此,文献[5]提出了多粒时间下的近似周期挖掘,他们能发现股票周期大约是6分20秒左右上涨一次,但并不能发现多粒度时间下股票的上涨和下跌之间是否存在周期性关联。为此,提出多粒度时间下的近似周期关联规则挖掘问题,它能发现在多粒度时间下单事件同属性不同状态之间有一定关联的近似周期规律。
1 模型构造
3 实验结果与分析
算法对2005年9月1日至2005年9月2日的580000宝钢JTBI股票数据进行了实验,以(分,10秒)为多粒度时间格式,买一价属性编码化状态规则同文献[2]。给定支持度阈值s= 5%,置信度阈值c= 55%,多粒度周期长度阈值L=(10,0)。在实验中,发现了许多满足要求多粒度近似周期关联规则模式,这里仅列出部分最有意义的实验结果于表1中。
从表1可看出:(1)若A模式覆盖B模式,随着近似精度的增大,A模式的支持度和置信度也都增大。当近似精度为(0,0)时,均未发现满足要求的周期规律,即没有发现严格意义上精确的多粒度近似周期关联规则,但当考虑到周期可能会出现一定的干扰,从而放宽了近似精度的时候,发现了很多满足要求的多粒度近似周期关联规则。(2)(买一价,5[(6,1).(7,1)],3)表明股票580000宝钢JBTI的买一价大幅上涨和正常波动之间存在一定的多粒度周期关联,在某个多粒度时间股票处于大幅上涨时,那么大约相隔6分10秒到7分10秒左右有94.047623%的可能性会出现正常波动,那么我们可以提前抛售此股票,以避免损失。(买一价,5[(9,0),(10,0)],3)表明股票580000宝钢JBT1的买一价小幅下跌和正常波动之间存在一定的多粒度周期关联,在某个多粒度时间处于小幅下跌时,那么大约相隔9分0秒到10分0秒左右有92.105263%的可能性会出现正常波动,那么此时我们可以提前购进此股票,在相隔9分到10分钟左右抛出从而获利。
4 结论
提出了一类多粒度时间下的多粒度近似周期关联规则的数据挖掘问题,它适用于发现在多粒度时间下的单事件同属性不同状态之间有一定关联的近似周期规律。即能发现在多粒度时间下A股票价格上涨和下跌之间的近似周期性关联规则,但A股票价格的上涨下跌是否与B股票的上涨下跌存在周期性关联,又或者A股票价格的上涨下跌加之B股票价格的上涨下跌是否和C股票的价格波动存在周期规律,这类多粒度时间下的多事件多维属性状态之间的近似周期关联规则值得进一步研究,此外,多粒度近似周期关联规则在大数据学习分析领域的应用研究也是未来值得继续研究的一个方向。
参考文献
[1]ANIRUDH A.KIRANYRU.REDDY P K.et al.Memory efficientmining of periodic—frequent patterns in transactional databases[C]//Computational Intelligence,IEEE,2017:1—8.
[2] LIN C W,ZHANG J,FOURNIER—VIGER P,et al.Emcientmining()f short periodic high—utility itemsets [C]//IEEEIntemational Conference on Systems,Man,and Cybemetics.IEEE,2017:003083~003088.
[3] SAMOLIYA M,TIWARI A.0n the use of rough set theory forminingperiodicfrequent pattems[J].IJSART,2015,11(1):21— 28.
[4]姜華,孟志清,周克江.一类时态近似周期关联规则的知识发现问题[J]计算机T程与应用,2010,46(20):241—244.
[5]姜华,孟志清,周克江,等.多粒度时间下的近似周期挖掘研究[J].计算机T程,2010年,3(36):83—85,88.