基于关联模式的股票分析和研究

2017-06-16 10:50庞帅
科学与财富 2017年17期
关键词:项集股票数据挖掘

庞帅

(中南财经政法大学 湖北省武汉市 430073)

摘 要:随着证券市场的迅猛发展,股票数据信息爆炸式增长,如何从庞大的敷据中找到有用的信息来指导投资者的投资行为成为一个重要的学术研究方向.从数据挖掘技术入手,在关联规则分析的处理算法基础上,引入股票成交量数据项以及二雏时间模式对股票敷据进行数据挖掘,并对比试验的结果.试验证明,该改进时投资者提供了更为有效的决策支持. 本文介绍了在數据挖掘中关联规则的基本概念和属性 ,进一步讨论了关联规则在股票信息数据挖掘中的应用 .

1.关联规则。

数据挖掘又被称之为知识发现,具体是指从大量的数据中提取一些比较可信的、新颖的且有效的模式处理过程。它通过系统的应用机器靴子以及统计分析等计算机科学技术老分析和表示存在于一个大型数据库中的知识。

1.1关联分析的定义。

关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。

关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。

关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放人其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”,因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。又如“‘C语言课程优秀的同学,在学习‘数据结构时为优秀的可能性达88%”,那么就可以通过强化“C语言”的学习来提高教学效果。

1.2关联分析的方法。

关联分析主要包括两种分析方法:

第一是,Apriori算法

Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,也是最著名的关联规则挖掘算法之一。Apriori算法就是根据有关频繁项集特性的先验知识而命名的。它使用一种称作逐层搜索的迭代方法,k—项集用于探索(k+1)—项集。首先,找出频繁1—项集的集合.记做L1,L1用于找出频繁2—项集的集合L2,再用于找出L3,如此下去,直到不能找到频繁k—项集。找每个Lk需要扫描一次数据库。

Apriori性质:一个频繁项集的任一子集也应该是频繁项集。

虽然Apriori算法仍存在着一定的缺陷,但是研究者们已经分析和研究出了一些相关的优化Apriori算法的方式:

1)基于划分的方法。该算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频繁项集,然后把产生的频繁项集合并,用来生成所有可能的频繁项集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频繁项集至少在某一个分块中是频繁项集保证的。

2)基于Hash的方法。Park等人提出了一个高效地产生频繁项集的基于杂凑(Hash)的算法。通过实验可以发现,寻找频繁项集的主要计算是在生成频繁2—项集Lk上,Park等就是利用这个性质引入杂凑技术来改进产生频繁2—项集的方法。

3)基于采样的方法。基于前一遍扫描得到的信息,对它详细地做组合分析,可以得到一个改进的算法,其基本思想是:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。这个算法相当简单并显著地减少了FO代价,但是一个很大的缺点就是产生的结果不精确,即存在所谓的数据扭曲(Dataskew)。分布在同一页面上的数据时常是高度相关的,不能表示整个数据库中模式的分布,由此而导致的是采样5%的交易数据所花费的代价同扫描一遍数据库相近。

4)减少交易个数。减少用于未来扫描事务集的大小,基本原理就是当一个事务不包含长度为志的大项集时,则必然不包含长度为走k+1的大项集。从而可以将这些事务删除,在下一遍扫描中就可以减少要进行扫描的事务集的个数。这就是AprioriTid的基本思想。

第二是,FP-growth算法。

虽然算法已经在不断的研究和分析中提出了相关的优化方法,但是其效率仍不能使人十分满意。因此,2000年,Han Jiawei等人提出了基于频繁模式树(Frequent Pattern Tree,简称为FP-tree)的发现频繁模式的算法FP-growth。在FP-growth算法中,通过两次扫描事务数据库,把每个事务所包含的频繁项目按其支持度降序压缩存储到FP—tree中。在以后发现频繁模式的过程中,不需要再扫描事务数据库,而仅在FP-Tree中进行查找即可,并通过递归调用FP-growth的方法来直接产生频繁模式,因此在整个发现过程中也不需产生候选模式。该算法克服了Apriori算法中存在的问题.在执行效率上也明显好于Apriori算法。

2.关联模式下的股票分析

有些数据并不能像售货数据一个比较容易的看出一个事物是多种事物的集合,但是经过一定的预处理后,仍然可以像售货数据一样进行关联规则的分析。比例股票交易行情。

2.1股票数据的分析

在股票价交易的事物处理中,每天有以交易为主的大量书库汇入数据库,由于上市公司之间存在着一定的合作和竞争关系,因此某些股票的价格在一定时间内会出现一些相似或者相反的趋势。分析这些数据和股票之前的关联能够有利于投资者了解和分析股票的一定时期内的走势以及股票走势与股票之前的关系,从而进一步分析上市公司的各种政策和方案,从而做出最为正确的投资。

在具体的股票数据分析中可以通过记录股票发展过程中的多个即时行情,其中包括时间、开盘价、收盘价、最高价、最低价以及涨幅、成交了等一些相关内容来进行股票数据的分析。通过进一步分析股票代码、交易时间以及涨跌幅等信息可以得出类似的关联规则,例如:在一定时间内,当A股票的价格上涨时,B股票的价格也会随之上涨。

2.2挖掘关联规则。

如果项集的出现频率大于或则等于最小支持度与事务总数的乘积,则该项集满足最小支持度,称它为频繁项集。

在挖掘关联规则的过程中主要包括两个步骤:

第一,通过频繁项集的定义找出所有的频繁项集。

第二,利用频繁项集生成所需要的关联规则。

简单的统计所有含一个元素的项目集出现的频率,并从中找到不小于最小支持度的项目集是分析和挖掘关联规则过程中最为核心的问题。由于股票代码属于布尔型变量。即股票代码相当于售货数据库中的某个商品,这样我们就可以直接运用Apriori算法来进行分析和挖掘。

此外,在分析和挖掘股票行情的过程中,可以在首次挖掘的基础上进行二次挖掘,从容进一步分析和研究各股票之间的趋势和变化的周期性以及多维相似性,从而得到更多有用的结果。

3.结语

本文简单的介绍了关联分析的定义以及关联分析的具体方法,通过关联分析的规则分析了其在挖掘股票市场有效信息的应用。通过股票行情的变化分析得到相应的大家比较感兴趣的规则,从而帮助大家能够更好、更加理智的进行投资和选择。但是在具体的分析过程中由于没有充分的考虑到成交量的因素,因此在挖掘和分析的过程中存在着一定的局限性。股票的价格往往是政治、价格以及社会等因素的综合反映,因此在分析和挖掘股票关联规则的同时最好结合证券市场的基本信息进行分析和研究,从而提高其有效性。

参考文献:

[1]数据挖掘中关联规则的改进算法及其实现[J]. 杨健兵.微计算机信息. 2006(21)

[2]关联规则挖掘Apriori算法的改进与实现[J]. 陈文庆,许棠.微机发展. 2005(08)

[3]沪深股市股票价格与交易量关系的实证研究[J]. 童明,余董,景荣.重庆师范大学学报(哲学社会科学版). 2005(04)endprint

猜你喜欢
项集股票数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
本周创出今年以来新高的股票
本周创出今年以来新高的股票
本周连续上涨3天以上的股票
近期连续涨、跌3天以上的股票
一种基于Hadoop的大数据挖掘云服务及应用
一种频繁核心项集的快速挖掘算法
基于GPGPU的离散数据挖掘研究
一种新的改进Apriori算法*