刘逸凡,张鑫垚
(贵州大学经济学院,贵阳 550025)
近年来,有更多人开始结合行为金融学来研究投资者的行为是怎样影响股价的。例如,行为金融学中有一类现象,那些头脑发热、过于相信自己、下单较多的投资者往往投资收益率要远低于那些下单频率低的投资者,这就使得量化金融越来越多被人们使用,因为它不会受投资者自身的影响,只会根据各种影响度大的指标来综合判别。笔者从大数据出发,能够更加准确地去衡量影响股票价格的各种因素,与之前的传统衡量方式相比有了很大的提高,同时精确度上也有了更大提升,使得本文研究目标更具现实意义。
我们之前的研究大多依赖于固有的经验,从最早期的模型出发,认为市场价格的随时变化能够充分反映市场上的各种信息信号。但是这种理论假设是在选股人兼顾信息并对各种繁杂的信息进行及时处理的情况下才会发生。最新研究表明,投资者是不能够像量化投资设定好的程序那样来进行充分理性投资的,其专注力和处理能力都是十分有限的。这也是关于行为金融学有限关注理论中相关的研究成果。此外,以行为金融学为根据,研究人员分析了许多有价值的指标,为现在的研究给出了明确的实证证明和理论基础。
以换手率、个股日交易量和百度搜索指数来表示投资者关注度就是这样一种基于行为金融学产生的高效实用的研究趋势,能够有效链接各种研究标的,得出精确的研究结果;同时,借助于该方法可以延伸到更多需要研究的相关的及不相关的研究标的,使得该方法的成熟度逐年递增。
本文实证回归结果使用Python完成,数据来自于国泰安数据库以及手动收集的中信建投(601066)百度指数搜索量。百度指数计算的是投资者对某一关键词的搜索数量,投资者可以简洁明了地从Python的实证中看出其对股价的影响与分析过程,加深对影响股票价格的各种因素之间的联系的理解,从而作出更加具有参考价值的判断。从百度搜索指数当中能够更深层次去发掘去预测股票价格,而该指数在我国网络用户中占有比极高的情况下又极具参考价值。
本文的研究意义是在更好应用该模型的基础之上,加深我们对该模型的理解与拓宽该方法的使用范围,从而能够更广阔地应用于各个领域,为社会经济发展带来福音。
本文从文献综述、理论分析、数据来源及说明、实证分析结果等方面进行分析。
本文主要研究百度搜索指数对股票价格的预测研究以及在此基础上的向下延伸挖掘,如通过大数据分析其与指数的关系。目前最新前沿研究的是行业关注度与股票横截面收益率——基于百度行业搜索指数的研究。其研究表明,行业搜索量与下一交易日的股票收益率呈同方向变动,并且以此为基础的多空策略能够获得4.89%的每年等权收益率。另外,关注强度越大,在深入延伸后会发现个股关注度的预测能力远弱于行业关注度对股价的预测能力。投资者概念关注对股票收益的影响研究——基于百度搜索数据中的研究结论拓展了有关投资者关注的理论研究范畴,同时也与之前研究发现的相类似。该研究表明,投资者的关注度与所关注的股票收益呈正相关,但会在后面呈反向变动。而百度搜索数据在该篇文章中扮演着重要的角色,从其数据出发,探索其内在相关性。
行为金融学是一种把心理学和和经济学融合在一起形成的新科学。其研究目的在于探讨自然人在面对处理各种有关经济的事项时所受到的各种干扰来给出答案。因为我们发现,在现实生活中,人们在做各种决策时往往不够理性,比如投资者在投资时容易盲目下单,冲动下单。行为金融学以心理学分析为基础,很好弥补了各种传统理论的不足之处,解释了很多反常的经济现象,加深了人们对于各类经济现象的理解。
本文所选择的样本为中信建投(601066)在2021年1月1日至2021年12月31日的开盘价、收盘价、成交量、换手率,所选取的百度指数样本来自百度公开平台,样本一共记录了一年股市交易日共243条数据(表1)。本文样本数据来源于国泰安数据库,搜索量的数据均来自于百度指数,百度日搜索量提供了网络平台的搜索数据。在此基础上构建Lasso回归模型,为本文的研究结果作了充分的佐证。
表1 描述性统计
另外,当出现样本缺失值样本异常值的问题时,我们一般采用如下方法:选择使用该列数据的“众数”、“中位数”或者“均值”等进行替换,这样会导致实证结果的真实性难以保证。而在基于大数据基础使用机器学习算法进行建模时,其样本量越多精确度越高,所以我们一般采用保证样本饱满的方法进行。
本文首先对所选取的样本进行拟合,分别建立了Lasso模型、OLS回归模型和随机森林模型。将243组数据中的前80%作为训练集,训练模型;后20%作为测试集,验证模型效果。
LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选和复杂度调整。因此不论目标因变量是连续的,还是二元或者多元离散的,都可以用LASSO回归建模然后预测。变量筛选不是把全部的变量都加入模型来进行拟合,实际上是有选择性地把变量加入模型中从而能够找到更优性能的参数。复杂度调整旨在使用一些参数来降低模型复杂程度,目的在于防止过度拟合现象。就线性回归模型来说,复杂程度与回归模型的变量个数有着直接的关系,变量的个数越多,模型的复杂程度就会越高。将多个变量进行拟合能够得出一个似乎更具代表性的模型,同时也可能产生过度拟合的风险。此时如果用全新的数据去验证模型,通常效果很差。一般来说,变量个数大于数据点数量很多,或者某一个离散变量有太多独特值时,都有可能存在过度拟合得现象。
在建立Lasso模型时进行了参数调优,输出参数的最优值alpha为0.001,max_iter为100,并进行5次交叉验证后,得出模型预测的准确率为78.19%,准确率高于随机森林模型和OLS回归模型。模型的R_MSE=0.0076,L_R2=0.75,总体上拟合效果最好(图1)。
图1 Lasso拟合效果图
在建立OLS回归模型进行拟合,模型的R_MSE=0.0075,L_R2=0.75,总体上拟合效果较好(图3)。
图2 OLS拟合效果图
图3 随机森林拟合效果图
运用随机森林方法对中信建投收盘价进行拟合,调整参数最优值max_depthwe为5,min_samples_split:为9,n_estimators为10。进行5次交叉验证后,得出模型预测准确率为50.1%,低于Lasso模型预测准确率,总体来说模型预测效果不佳。
综合上述3种模型的比较可以发现,LASSO模型的拟合效果最好。利用Lasso模型测算出特征重要性,对股票价格影响最大的是股票开盘价;其次是代表投资者关注度的换手率、日个股交易股数和百度搜索指数都对股票价格产生影响。
表2 股票特征重要性
比较上述3个回归模型准确率,Lasso模型体现出较高的精确性,意味着Lasso模型可以更好应用于研究投资者关注度对股票价格的影响。从利用模型得出的特征重要性也可以看出,成交量、换手率、百度搜索指数代表的投资者关注度对股票价格存在一定的影响。本文研究结论表明,投资者关注度与股票价格有关,通过代表投资者关注度的换手率、日个股交易股数以及投资者通过搜索关键词的3个指标,可以反映出投资者关注度影响股票价格,可以作为股票预测的参考因素之一。