吕建林
(上海工程技术大学 管理学院,上海 20162)
大数据技术的出现和大规模兴起极大程度地改善了人们的生活方式。早在2014年,百度公司构建了包含历年命题数据、互联网用户历年相关数据以及众多教育机构对于命题方向所作出的预测数据等众多信息数据在内的庞大数据池,并对数据池内的所有数据进行专业的处理和分析,最终成功预测命中了当年全国十八套高考语文试卷中的十二套的作文题目。而同样在当年,谷歌公司也广泛收集参加了2014年巴西世界杯决赛阶段的三十六支球队的过往战绩、球员俱乐部表现数据以及包含气候因素、地理因素等信息在内的所有可能会对比赛结果产生影响的数据,并经过对这些数据的集中处理和分析,最终成功预测了当届世界杯的十六强以及八强具体名单。而在股票投资领域,大数据技术的使用更是让投资者们作出的投资策略更加科学、合理。
投资者在使用大数据技术对股票投资策略进行研究时,数据库所要包含的数据可以分为两类,即非结构化数据和结构化数据。非结构化数据是类如地理位置、社交行为以及用户上网行为等还没有被具体量化的信息数据,而结构化数据指的是已经被广泛用在传统量化分析的类如市值、GDP、CPI、市场交易量等较为专业的信息数据。
在大数据时代,云计算等信息技术的出现和应用为大数据技术在股票投资过程中的应用提供了更大的可能性和可行性。投资者们不仅可以相比于以往收集到更广泛的非结构化数据,更可以将云计算技术应用在模型建立中。对于已经完成的股市走势图像,投资者们可以通过云计算技术把海量的结构化数据以及非结构化数据带入到模型中,从而完成对模型曲线的不断修正,进而深入探索股票市场的更为正确、科学的投资方向和策略。
在查阅的文献中,以往专家学者往往通过理论和实践相结合、定性分析和定量分析相结合的方法进行研究。本文运用的主要研究方法有以下两种:
1.文献分析法:对大数据技术在股市投资中的应用现状以及存在的主要问题作出全面且深入地分析,查阅分析很多以往专家学者在大数据技术、股市投资策略以及云计算等方面的文章和专著,以此为根据,拓宽研究思维,并提出针对性的解决方案。
2.案例分析法:选取大数据技术为研究对象,其既具有自己的独特之处,又能够在一定程度上促进投资者们制定出更加科学、合理的股票投资策略以及具体方案,所以,以大数据技术为研究对象对于在研究类如云计算、大数据库等前沿信息技术在股市投资策略制定过程中所发挥的作用时,在一定程度上是具有借鉴意义的。
大数据技术指的是一种规模非常大的数据集合。这种数据集合的规模大大超出了存在于传统分析过程中的数据范围,从而使我们在数据的收集、存储以及处理分析等方面具有了更加强大的能力。大数据技术所具有的特征主要有以下四点:第一是数据规模庞大,大大超出了传统分析过程中所应用的数据库;第二是数据类型多样,包含大量的结构化数据以及非结构化数据;第三是数据流转速度非常之快;第四则是具有较低的价值密度。
随着云计算时代的来临,云计算对于大数据技术在股市投资的应用过程中所起的作用越来越不容忽视。因为大数据技术本身所具有的数据库庞大、数据种类繁多等特征,对于股市策略研究者来讲,根本无法只用单台计算机对这些海量数据进行处理,而只能采用分布式架构,以云存储、虚拟化以及云计算的分布式数据库和分布式处理技术等为依托,才能对大数据库内的海量数据进行更加有效的分析。
股票投资指的是个人和企业用通过其他生产活动或商业活动所积累的货币资金购买股票,从而在承担一定风险的前提下获得一定收益的行为。由于在资本市场上,收益往往是和风险呈正相关,而股票投资的收益一般由两部分构成,一部分是资本利得,另一部分是收入收益。资本利得指的是个人和机构投资者们的收益因为股票价格有所增长而增多。而收入收益则是指持有股东身份的股票投资者们,在公司进行相关盈利分配时,按照其本身的持股份额,最终所得到的红利收入和股息收入。
相比于债券投资、银行定期存款等投资方式,股票投资明显具有高收益以及高风险的特征。而被投资市场所认定的理性投资行为一般至少要包括以下五个具体的投资环节。第一是根据国家宏观政策、全球经济形势等因素来确定投资政策,第二是根据行业信息以及公司经营业绩等进行比较具体的股票投资分析,第三是经过第一步以及第二步之后所确定的投资策略选定具体的投资组合,第四是预先评估业绩,第五是通过评估业绩和期望业绩的相比,对投资策略进行有效的修正。
早在2014年11月23日,Kensho公司接受了高盛投资银行的1 500万美元的投资,而这些钱最终要被用于该公司对于大数据分析平台及存储系统平台的建设中。对于此数据存储、分析平台,可以大大提高对于大数据库中所包含的海量存储数据的处理分析速度,并且还可以就投资者所提出的各种金融性相关问题进行专业分析。
在此数据分析平台所对应的大数据库中,常规的结构化数据只包含20%,而类似自然事件、科技创新环境、政策规定文件以及地理位置等非结构化数据,则至少包含80%。对于这些非结构化信息数据,无法直接以数字的形式进行衡量,通常需要计算机和相关的数学模型进行专业性的转化和处理。
除此之外,高盛投资银行还联合Fortress信贷集团在2015年对目前仍处于兴起阶段但发展前景蓬勃的小额融资平台“On Deck Capital”进行了整整8 000万美元的投资。而这家小额融资平台公司最明显的经营特色就是它是利用其专有的大数据收集、存储及处理分析系统对向其申请小额贷款的中小微企业进行最大程度上的深入分析,然后根据得出的研究结论总结出相关中小企业在经营业绩、管理成效、行业前景等方面的表现,最后才会做出是否向该企业进行贷款的决定。
随着时代的进步,不管是计算机对于数据处理分析的能力,还是愈加完善的量化模型,都给大数据技术在股票投资中的应用提供了更强有力的支撑。首先是用来分析的数据信息量得到了一个质的提升,从而可以使投资者选择更多的相关指标来进行处理分析,进而做出更加准确的预测。其次,大大扩大了研究人员的分析覆盖面。对于每一个股票分析员来讲,之前只能同时关注十几只或几十只股票,而如今几乎可以关注所有股票。当然,以大数据技术为基础的量化投资仍然存在类如同质化竞争等不可忽视的问题,因为有越来越多的投资者和机构开始大规模使用量化投资模型,这导致投资机构所使用的量化投资模型出现雷同的概率越来越大,从而干扰投资者们对股票市场作出最为准确的预判。
1.计算机对用户情绪理解不准确
首先,属于个人情感范围内的用户情绪很难被转化为具有统一表现形式的计算机语言,专业的数据处理与分析人员很难通过计算机、云计算等前沿信息技术来对用户情绪、地理位置等非结构化信息进行有效的处理与分析。
其次,不同的人有着完全不同的语言表达习惯。这就导致可能在信息的传递过程出现错误,从而导致研究人员根据错误的来源数据信息制定出错误的投资策略。而且,在人的语言表达中,经常会使用双关语、比喻、反语等表达手法,这种没有直截了当表明数据信息意义的方式,很可能会因为目前的计算机相关语义、语意分析技术没有达到要求而导致数据所反映出来的信息并非其应该反映出来的信息,从而造成分析误差。
2.大数据注重相关性而非因果性
大数据技术之所以可以被用来预测股票市场走势以及制定相关投资策略,是因为其所对应的数据库包含几乎所有股票市场用户的搜索量以及他们的情绪等结构化和非结构化数据。但是,股票价格的波动走势虽然和用户的类似情绪反应以及名称、关键词搜索量等信息有较强的相关关系,但并不能说明以上两者之间存在因果关系。
在大数据技术应用的基础上,与其相应的数据库所收集的信息在很大程度上都能保证是和相对应的股票分析具有相关性的。然而,数学语言中的相关性在很多时候只是一种简单的相关性,而不会最终被转化为两种变量之间的因果关系。这就可能导致与股票投资相关的数据库所包含的信息数据中的一部分是无效的,还可能会在大数据技术具体应用过程中产生一定的负面效应。
3.个股分析中难以排除人为制造
分析师通过收集包含多只股票在内的股票组合相关的数据信息,对这些信息进行分析处理,所得到的分析结果是具有一定程度参考性的。因为此分析结果是众多分析师通过分析股票相对应的公司的名称以及关键词的搜索量和用户所表现出来的市场情绪等数据信息,才最后得出相应的研究结果。因此,在这其中的一只或几只股票所对应的公司的名称或关键词搜索量对于整体市场的走向趋势的影响是很有限的。但是,如果在对个股进行分析时,出现了可对个股分析结果产生严重影响的人为因素,比如人为地提高该个股所对应的公司名称或关键词搜索量,将会在很大程度上对个股分析结果产生影响甚至歪曲。
4.大数据本身具有一定的滞后性
大数据技术是通过专业的研究分析对公司名称或关键词和用户情绪等数据信息的集中处理分析从而做出相对准确的市场走向预期。但需要注意的是,就市场所能反映出来的公开信息来讲,当市场上有大量的股票投资者对某一关键词进行集中的搜索时,就足以说明在此时的市场上和此类关键词直接相关的主体或事件已达到了几乎最大程度的热度。
真正能够在股票投资市场上赚到钱的投资者,相比于一般的投资者具有更广泛的信息来源渠道,这可以保证其更早地获得前沿市场信息。这些特殊的投资者一般都会掌握许多家上市企业重要的内部信息,并在相互之间对这些前沿市场信息进行交换。所以,他们能在普通股市投资者知晓这些信息之前就完成针对相关股票的市场操作。而当一般的股票投资者知晓这些信息时,这些信息已经变成市场公开信息,信息所具有的滞后性和时效性就决定了这些一般投资者无法从股票市场上获取收益。
1.扩大数据覆盖范围。与股票投资相关数据的来源渠道非常多,方式也非常多。常见的有来自于用户模拟交易数据、实际交易数据、用户自选股,也有来自于微博、微信等社交渠道,还有来自于媒体新闻传播渠道。为了提高大数据分析的有效性,需要继续拓宽数据来源渠道,进而扩大数据覆盖范围。
对于大数据库中所包含的数据信息,所起到的作用也是多层次的。首先是比较浅层次的对于这些数据信息的直接使用,即通过直接观察数据信息库从而得出结论;其次是对这些数据的深层次处理和应用。由羊群效应以及股票投资市场所具有的特征可知,当我们对从事股票投资的大部分投资者的行为模式进行分析时,会发现:如果股票市场上出现了一个影响力较大的新闻事件,大部分投资者都会对其进行针对性的搜索和分析,当他们把研究结果付诸于市场实践时,他们已经错过了市场最佳投资时期,因为大部分数据信息都是具有滞后性的。所以我们要对用户进行分层化管理,从而甄别出那些能够通过自己的专业知识判断出市场大致走势的用户,并分析出这些投资者和一般投资者相比,在关注信息、浏览资讯等方面有没有特别的渠道。
2.增强数据信息质量。应用于股票投资中的大数据技术所依托的数据库内的海量数据的收集与分析需要一个具有较强安全性且强力有效的平台。只有当我们具有真实可靠、高效稳定的数据存储与处理分析系统时,才能够从数据规模庞大以及种类繁多的信息数据中选择出真正可以被运用于股票投资分析的数据,才能保证投资分析师运用安全的数据存储系统和高效的数据处理平台对大数据进行相应的处理与分析。
1.提高数据处理分析人员专业能力
根据英国领英杂志所发布的《2016年中国互联网最热职位人才报告》显示,在当下中国对于蓬勃发展的互联网行业,其所需求最大的六类人才职位中,数据分析拔得头筹。而根据清华大学计算机系的武永卫教授2018年所做的专业学术研究,中国目前从事大数据技术相关职业的工作人员只有三十余万,但在未来的三到五年内,中国在大数据技术方面的人才缺口将会达到近两百万。所以,大数据技术专业人员的缺少将会导致大数据技术在股票分析中所起到的作用被遏制。
在如此紧急的专业人才需求情况下,首先,应该建立人才培养体系,这样才能在根本上解决大数据技术专业人才短缺的问题。其次,应该加大对于大数据技术相关行业的从业人员选择标准的规范力度。再次,企业可以利用已有资源,培养专业的大数据技术型人才,从而有效缓解高端人才极其短缺的困境。最后,可以通过对海外大数据专业人才的引进来弥补该类人才的缺口,同时可以加大国际人才市场的流通速度,进而加快技术传递速度。
2.改善数据处理分析具体流程
首先是数据安全方面,不管是大数据本身,还是与大数据息息相关的云计算等前沿信息技术,数据的安全性保证都是不得不引起重视的处理分析前提。从中长期来说只有在数据的安全性有了保障之后,分析师才能更好地承担起数据安全责任,也才能促进不同的数据需求者以及提供者之间开展高效且稳定的合作。所以,在数据安全性保障方面,不仅要求互联网行业均要为每一个用户的需求考虑,从而设计、制定个性化的数据存储方案,也要求数据存储机构或部门运用先进的数据管理系统进行数据管理,进而最大程度保障数据安全。
其次是具体过程,应该解决三个层次的问题。第一要有好的数据源,负责大数据技术监管的政府部门可以制定统一的数据信息收集标准,从而在源头上做到取精华去糟粕,提高后期数据存储以及具体分析处理的效率。第二是技术,不仅包括计算机硬件系统,还包括软件开发方面的技术要求。第三点,当投资者制定具体的股票投资策略时,不应该仅关注数据本身,还应该把这些数据所能辐射到的范围连接起来进行具有整体观念的分析处理。例如当把大数据技术应用于股票投资领域时,虽然对于信息和数据处理分析所得的投资策略报告,投资者不得不考虑,但是又考虑到最终完成投资行为的是交易员,而不是计算机,所以,更应该同时把用户市场情绪等和数据有直接相关关系因素也考虑在内。