数据挖掘技术应用于机构投资者投资行为分析初探

2018-03-26 08:07郁露露
科技资讯 2018年32期
关键词:投资行为机构投资者数据挖掘

郁露露

摘 要:数据挖掘技术是一个跨学科的新兴领域,它需要数学、统计学、信息学等多学科知识的综合与集成。它可以帮助人们从大量庞杂、有噪声、不完全的数据中提取出隐含有用的信息,它是一种深层次的数据分析方法。中国的证券市场是全球最重要的新兴市场之一,在我国大力发展机构投资者战略的指导下,机构投资者逐渐成为市场的主导,研究機构投资者的持股偏好具有重要意义。本文尝试探寻将数据挖掘技术应用于机构投资者投资行为分析,为分析机构投资者投资偏好提供了一个新的视角。

关键词:机构投资者 数据挖掘 投资行为

中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2018)11(b)-0022-02

1 机构投资者投资行为

机构投资者是用自有资金或者从分散的公众手中筹集的资金专门进行有价证券投资活动的法人机构。在A股持股占自由流通股的比例约为29%,其中,公募基金7.99%、私募类(包括阳光私募基金和资管)4.16%、保险保障类7.06%、国家队6.82%、境外资金2.63%、券商自营0.52%。由此可见,机构投资者在我国金融市场中占据重要的地位。机构投资者投资的目的有实现增值和参与管理两种,机构投资者作为大股东,有能力参与公司治理,积极的机构投资者会对上市公司的股利政策甚至高管层的聘用发表意见,但也有的机构投资者考虑到治理的成本而选择中立或者采取消极的态度。因此,研究机构投资者的行为及其投资偏好具有重要的意义。国内外现有关于机构投资者的研究较多,多采用线性方程的研究方法,这种方法对变量间的线性相关程度有要求,线性关系过强会影响到模型的稳定性,回归系数也将出现较大的偏差,所以探寻新的实证方法很有必要。

2 数据挖掘方法

2.1 数据库中的知识发现

计算机科学与互联网技术的飞速发展极大的改变了人类生活、工作以及学习、科研的方式,在计算机的帮助下人们可以更快捷、有效地完成传统的事务。然而,事务中大规模产生和存储的海量数据不断增加,人们被各种各样的数据所淹没,没有足够多的时间和精力去分析、理解这些数据,如何高效地分析、理解并利用这些数据成为了难题。因此,探寻新的数据分析方法和工具,从而走出“数据丰富,但信息贫乏的困境,成为学术界研究的热点课题。

数据库中的知识发现正是在上述背景下产生并迅速发展起来看。数据挖掘(Data Mining,DM)又可以称作数据库中的知识发现,是随着近年来机器学习理论不断发展起来的一个新的技术领域。它能过对原始数据样本中无效值、缺失值等干拢数据的处理和分析,可以从存储了大量数据的数据库中提取出符合使用者需求的具体信息。应用数据挖掘技术需要综合计算机、数学、统计学、人工神经网络等各学科的知识,它是对数据库中的数据进行深层次的处理和分析。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等。关联规则是数据挖掘领域中的一个非常重要的分支, 既可以检验行业内长期形成的知识模式, 也能够发现隐藏的新规律,已被广泛应用于各个领域。有效地发现、理解、运用关联规则,并将其用于辅助决策具有重要的理论价值和现实意义。

2.2 关联规则

关联规则是由R. Agraw al等人于1993年首次提出的,其做法是应用频集理论的递推方法,发现隐藏在大量数据集中的有效信息,从而找到有意义的关联规则,即首先寻找给定大数据集中的频繁项集,然后通过频繁项集生成强关联规则。关联规则的挖掘技术是数据挖掘中的一种,它通过对数据库中大量数据的预处理和分析,消除和过滤掉无关的集合,从而帮且信息的使用者找到有用的信息,提高效率。西方最早关联规则主要是应用于大型超市对顾客购物习惯的分析。超市方拥有客户每一笔采购的明细清单和仓库库存的海量信息,但他们需要的是更具体更细化的资料,比如哪一类的客户习惯于同时采购哪几类的商品,从而可以依据此进行货架摆放的设计和优化,最终目的是促进销量的提升。如今,关联规则的分析也被广泛应用于商业分析、特征分析等各领域。

从技术上说,关联规则是以频项集理论为基础,通过数据分析手段,在数据库中寻找项集之间有效的关联或相关联系,揭示数据深层中蕴含的信息。关联规则的常用算法是Apriori算法,主要功能是产生频繁项集和产生有效的关联规则。

3 数据挖掘技术应用于机构投资者投资行为分析的可行性

3.1 频繁项集可以提供共性特征

计算机的优势在于可以快速、准确地进行大量的数据处理工作。上市公司数目众多,数据量庞大,应用数据挖掘技术可以充分利用计算机数据处理的优势,发现隐藏于大量庞杂数据中的共性特征。Apriori算法可以找到给定置信度、支持度下、相关性下的财务特征,有利于研究者进行共性及差异性分析。

3.2 关联规则体现投资偏好

关联规则基于前一步频繁项集的基础,可以找到满足最小信赖度的规则。应用关联规则进行挖掘时,如果原始数据是取的连续的数据,应先对数据进行预处理,即对原始数据进行适当的离散化,这样有利于找到合理的关联规则。研究者通过对关联规则的分析,可以具体分析机构投资者投资企业之间的特征及相互联系。

4 结语

综上所述,可以看出数据挖掘技术可以减少研究中人为筛选变量的影响,通过数据挖掘技术,自动进行数据分析,以便于更客观地对机构投资者的投资行为进行分析。通过上述分析也可以看出,经过数据挖掘得到的规则数量和质量决定于最小支持度和置信度阈值的设置。如果希望研究结论的说服力较强,可以提高支持度与置信度的设置,但是这样会损失一些带有异常信息价值的规则。同理,如果降低支持度与置信度的设置,可以得到更多的规则但是需要人为对规则的有效性进行进一步的筛选。因此,在研究中应紧密结合专业知识和所研究的实际问题,确定合适的最小支持度和置信度阈值,从而便于获取有价值的规则。

参考文献

[1] 向宁,肖万武.Apriori算法在金融信息系统中的应用研究[J].信息通信,2017(2):20-22.

[2] 郭承湘,韦宇巍,张国飞,等.数据挖掘在食品药品监管中的应用[J].软件导刊,2017,16(9):148-150.

[3] 吕学明,周艳红,吕国英.关联规则在医疗投诉资料分析中的应用[J].太原师范学院学报:自然科学版,2011,10(2):82-86.

[4] 王丹,胡尧,吴楠,等.城市道路交通安全影响因素分析[J].贵州大学学报:自然科学版,2018,35(2):14-21.

[5] 曲冬梅.大数据背景下信息处理技术探索[J].现代信息科技,2018,2(3):18-19.

[6] 沈书行.大数据在生物医疗领域中的应用研究[J].创新创业理论研究与实践,2018(6):103-105.

[7] 张肖飞.资产误定价、机构投资者与股价崩盘风险[J].经济经纬,2018,35(2):143-150.

[8] 赵洋.政策积极引导A股将迎来更多长线资金[N].金融时报,2018-10-27.

[9] 邱鑫仪,沈良忠.基于数据挖掘的学生学业预警研究[J].电脑知识与技术,2017,13(36):226-227,246.

猜你喜欢
投资行为机构投资者数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
机构投资者、两权分离与公司资本结构
上市公司清洁审计意见与机构投资者持股比例的研究
定向增发、股权结构与盈余管理
我国证券投资者心理分析
我国证券投资者心理分析
基于R的医学大数据挖掘系统研究
融资结构对投资行为影响的实证研究
公司治理、机构投资者与盈余管理研究