投资者情绪指数的构建研究——基于偏最小二乘法

2014-04-03 13:35王镇，郝刚,2

金融理论与实践 2014年7期

关键词：分析法投资者变量

王镇，郝刚,2

（1.东北财经大学应用金融研究中心，辽宁大连 116025；2.中国证券监督管理委员会大连监管局，辽宁大连 116000）

投资者情绪指数的构建研究
——基于偏最小二乘法

王镇1，郝刚1,2

（1.东北财经大学应用金融研究中心，辽宁大连 116025；2.中国证券监督管理委员会大连监管局，辽宁大连 116000）

投资者情绪的测度问题一直是行为金融学研究的重点也是难点之一。目前，较为流行的投资者情绪测度方法是采用主成分分析法选取单个指标来构建投资者情绪综合指数，但由于主成分分析法存在的弊端，可能导致其构建的综合指数精度不高。基于此，研究采用偏最小二乘法（PLS）来重新构建投资者情绪综合指数，并与主成分分析法构建的综合指数进行比较，结果发现采用PLS法构建的投资者情绪指数的效果要优于主成分分析法构建的投资者情绪指数。

投资者情绪；偏最小二乘法；行为金融

一、引言

证券市场中出现的诸如“封闭性基金之谜”“IPO抑价之谜”等市场异象说明市场并非是有效的，投资者在进行投资交易时也并非是绝对理性的，要受心理活动的影响。因此学者们开始将心理因素纳入到研究当中，分析投资者行为如何受心理因素的影响，从行为金融的角度对诸多市场异象作出了较好的理论解释，促进了行为金融学的迅速发展。其中，投资者情绪的测量问题一直是行为金融学研究的重点也是难点之一，之前的研究多是从理论上来论证投资者情绪对证券价格的影响，而尚未形成统一的指标利用现实数据来测量投资者情绪。根据现有关于投资者情绪测量的文献来看，所选取的指标可以分为主观指标和客观指标。主观指标主要采用调查问卷的形式进行，通过在调查问卷中设定某些特定问题，比如对未来股市走势的判断、信心等等，然后用投资者答案的统计结果来大体表示投资者情绪，如Brown和Cliff(2004)[1]、Lemmon和Portniaguins(2006)[2]分别将投资者智能指数和消费者信心指数作为投资者情绪的代理指标，王美今和孙建军（2004）[3]、程昆和刘仁和（2005）[4]则分别采用央视看盘和好淡指数来衡量投资者情绪。另外一种是客观指标，主要是根据证券市场上公开的交易信息指标来代替投资者情绪，例如De Long等（1990）、Lee等（1991）、Neal和 Wheatley(1998)、伍燕然和韩立岩（2007）[5]根据封闭式基金折价率，Ljungqvist等（2006）、韩立岩和伍燕然（2007）[6]根据IPO 发行量及上市首日收益，Scheinkman和Xiong(2003)、Baker和Stein(2004)根据股票交易量，等等。

在得到反映投资者情绪的代理变量后，通过这些变量来构建投资者情绪测度指标的方法又分两种：单一指数法和综合指数法。单一指数法就是利用单个指标来刻画投资者情绪，所采用的单个指标可能只是为解释某一特定的市场现象而设定的，比如采用封闭式基金折价率来表示投资者情绪主要是为了验证“封闭式基金之谜”，采用IPO上市首日收益主要是用来解释“IPO溢价之谜”，这类指标在解释某些特定的市场异象时往往具有好的代表性，然而若想准确度量投资者情绪，单一指数法往往缺乏全面性。为此，部分学者尝试将多个单一指标通过各种方法结合起来构成一个综合指数来刻画投资者情绪。通常情况下，投资者情绪综合指数较单一指数而言可以更为全面地反映投资者情绪，例如Baker和Wurgler(2006)选取封闭式基金折价、市场交易量、IPO数量及上市首日收益、股利收益和股票发行/证券发行比率六个客观市场指标构建了反映投资者情绪的综合指数。在此基础上，我国学者易志高和茅宁（2009）用反映投资者主观情绪的消费者信心指数和新增投资者开户数两个主观指标代替股利收益和股票发行/证券发行比率构建了我国股票市场的投资者情绪综合指数。目前对于投资者情绪综合指数的构建基本采用主成分分析法，如Baker和Wurgler（2006）采用第一主成分，易志高和茅宁（2009）采用第一至五主成分的加权平均值来构建情绪综合指数，但构建主成分因子的这些代理变量可能存在着大量与真实投资者情绪无关的近似偏差，而主成分分析却无法排除这些近似偏差的影响，便使得所构建的情绪综合指数精度不高。尽管Baker和Wurgler(2006)、易志高和茅宁（2009）均采用控制宏观经济变量的方法来消除所选指标中的理性预期成分，但是其处理方法仅仅是将所选情绪指标对这些控制变量进行回归，认为所得残差项更为准确地衡量了投资者情绪。这种处理方法存在的主要弊端是依靠删除控制变量所得到的残差项很可能存在其他与投资者情绪无关的理性成分，最终也不能提高所构建的投资者情绪综合指数的精度。而偏最小二乘法（PLS）则有效地解决了这个问题，PLS的主要优势是可以从情绪代理变量中尽可能地提取与投资者情绪相关的部分，这样便能保证所提取的部分基本接近于真实的投资者情绪。例如Huang等（2014）采用PLS法构建的投资者情绪综合指数对于市场收益预测的效果，要强于Baker和Wurgler(2006)采用主成分分析法构建投资者情绪综合指数。本文也将采用PLS法来重构我国股票市场中的投资者情绪综合指数，并与易志高和茅宁（2009）所构建的投资者情绪综合指数的效果进行对比，看其是否优于主成分分析法。

本文剩余内容安排如下：第二部分，对PLS法在投资者情绪测量中的理论应用进行简单描述；第三部分，采用PLS方法构建投资者情绪综合指数，并对其结果进行稳定性检验；第四部分，将PLS法构建的投资者情绪综合指数与主成分分析法构建的投资者情绪指标进行对比，验证其有效性；第五部分为结论。

二、方法简介

偏最小二乘法（PLS）最早是由Wold(1966)提出的，后经Kelly和Pruitt(2012)改进后可以用来解决信息的提取问题①具体研究方法可参看Kelly,B and S Pruitt.2012.The three-pass regression filter:Anew appoach to forecasting using many predictors.Working paper,University of Chicago.。为了更好地理解PLS法如何准确地提取投资者情绪信息，先做如下假设：

假设股票未来一期的期望收益率主要受投资者情绪的影响，可以表示为：

其中，St表示与期望收益率相关的投资者情绪指标，此处为投资者情绪综合指数。则可将已实现收益率表示为：

其中，εt+1与St无关且不可预测。

令xt=(x1,t,…,xN,t)′表示在时间t(t=1,…,T)的N×1阶单个投资者情绪的代理变量向量，且假设每个代理变量具有如下结构：

其中，St表示投资者情绪综合指数；Et表示与投资者情绪无关但与预测收益相关的各代理变量的共同近似偏差；ei,t表示代理变量xi,t所特有的噪声；ηi,1、ηi,2分别表示St和Et对xi,t的敏感度。因此，最核心的问题在于能否将每个代理变量xi,t结构中的投资者情绪指标St分解出来，以便排除共同近似误差Et和特有噪声ei,t对真实投资者情绪的影响。PLS法为解决这一问题提供了有效途径。具体来看，PLS主要通过两步OLS法来实现这个目的：

第一步，对于单个投资者情绪代理变量xi，建立如下回归方程：

其中，πi表示xi,t-1对于收益率Rt的敏感性，代表了对收益Rt的预测能力。由式（2）和式（3）知，每个情绪变量xi,t可表示成股票未来收益率Rt+1的线性方程且与不可预测的冲击εt+1无关，因此式（4）中的πi可以反映每个情绪变量xi,t如何依赖于真实投资者情绪综合指数St。

第二步，对于每个预测期t，建立如下回归方程：

最后，再经过一系列整理后，PLS法所构建的投资者情绪综合指数可以表示为：

其中，X=(X1,…,XN)′表示单个投资者情绪指标序列，β=(β1,…,βN)表示各单个投资者情绪指标在复合投资者情绪指标中所占的权重。

三、实证分析

（一）指标的选择

前文指出目前衡量投资者情绪的指标分为主观指标和客观指标。采用主观指标法可以直接获得投资者的心理特征，但是其有效性仍然受到质疑，Fisher等（2000）发现投资者在实际的投资行动中可能并非完全按之前的情绪进行投资，主观指标法并不能全面反映投资者在决策过程中的真实情绪（易志高和茅宁，2009）；而客观指标虽为投资者交易行为的客观度量，但在多大程度上能真实反映投资者情绪尚未确定。因此，在选择构建投资者情绪综合指数的单个指标时，需既包括主观指标又包括客观指标。与易志高和茅宁（2009）类似，选取封闭式基金折价（DCEF）、股票交易量（TURN）、IPO数量（IPON）、上市首日收益（IPOR）四个客观指标以及新增投资者开户数（NIA）和消费者信心指数（CCI）两个主观指标。如此选择的原因在于同易志高和茅宁（2009）用主成分分析法构建投资者情绪进行比较时，避免由于指标选择的不同而造成结果差异，从而使对比结果更具说服力。

在进行具体的建模运算时，指标数据的样本期为2006年1月至2013年12月，其中DCEF、TURN、IPON、IPOR取自国泰安数据库且IPON、IPOR为深交所的统计数据，NIA取自中央登记结算公司，CCI摘自东方财富网。此外，所用的证券市场收益数据R为深交所A股以流通市值加权的平均月度收益数据。为消除量纲的影响，以上所有指标数据在进行实证分析时均做了标准化处理。

（二）指数的构建

考虑到所选指标对投资者情绪的反应存在时间上的提前和滞后关系，易志高和茅宁（2009）在构建投资者情绪综合指数时还包括了各单个指标的滞后一期，这样共计12个变量，再通过相关性分析选取与投资者情绪综合指数相关程度最高的指标作为最终的构建指标。采用类似的处理方法，首先将这12个变量代入到式（6）中可以得到PLS法构建的投资者情绪综合指数，用CISPLS表示，然后将CISPLS与这12个变量进行相关性分析，比较当期和滞后一期变量与CISPLS的相关程度，从中选取相关系数最高的6个变量作为构建CISPLS的最终指标，结果如表1所示：

表1 CISPLS与12个变量相关性

由表1所示的各变量指标与CISPLS的相关系数知，在所选6个指标的当期和滞后一期变量中，与CISPLS相关程度较高的变量分别是 DCEFt、TURNt、IPONt-1、IPORt、NIAt和 CCIt，且只有 IPONt-1提前反映了投资者情绪，说明前期IPO发行数量越大，对后期的投资者情绪越有影响，其余指标均在当期反映了投资者情绪。将所选指标重新代入到式（6）和（7）中得结果如表2所示：

表2 CISPLS构建的最终结果

根据表2中的因子载荷数据，所构建的CISPLS表达式为：

由（8）式中各变量前面的系数符号知，随着DCEFt、IPONt-1、IPORt、CCIt的增加而减小，随着TURNt、NIAt的增加而增加。一般而言，交易量和消费者开户数越多，封闭基金折价越小，投资者情绪越是高涨，因此TURNt、NIAt的系数为正，而DCEFt的系数为负，与预期相符。直觉来看，IPO的发行数量及首日上市收益、消费者信心指数越高，投资者的情绪也应该越高。但计算结果却显示IPONt-1、IPORt和CCIt的系数均为负，与预期不符。造成这种情况的原因可能是并非每月都有IPO上市，缺省数据较多，而消费者信心指数统计的只是消费者对未来宏观经济的预期情况，调查的消费者样本中可能并非都进行股票投资。

（三）稳健性检验

为检验所构建的投资者情绪综合指数结果是否稳健，将整个样本期分为两段，分别针对两个子样本期构建投资者情绪综合指数，观察各单个指标前面的系数大小和符号是否发生明显的改变，若无明显改变，说明根据整个样本期所构建的投资者情绪综合指数是稳健的，反之，则说明所构建的投资者情绪综合指数结果并不稳健。

其中，第一个子样本期定义为“牛市”期，时间跨度为2006年1月—2009年8月，虽然该段样本期内也包含了一个熊市阶段，即上证指数从2007年10月份最高的6124点下跌到2008年10月最低的1664点，但仍高于2006年1月份最高的1262点，之后股市又反弹到2009年8月的3478点，总体来说股票市场处于“牛市”时期；第二个子样本期定义为“熊市”期，时间跨度为2009年9月—2013年12月，该样本期内股票市场的表现较为低迷。将各子样本期相关指标的数据代入到式（6）和（7）中，计算结果整理如表3和表4所示：

表3 “牛市”时期的实证结果

CCIt相关系数CISPLSbull-0.81480.9464-0.3759-0.5318-0.27540.1150 IPONt-1 DCEFt 1-0.66510.19450.18290.0989-0.4612-0.2983-0.3970-0.14910.08261因子载荷-0.79571.3548-0.2111-0.56520.1209-0.0963 TURNt 1 IPORt 10.42330.42800.4832 NIAt 0.74550.409810.21361

表4 “熊市”时期的实证结果

相关系数CISPLSbear-0.18070.25940.72980.58230.4563-0.3540 TURNt NIAt-0.03870.37810.4610-0.197010.29280.54030.254911 IPORt因子载荷-4.21462.20784.56632.2451-1.3069-3.4977 IPONt-1 0.5366-0.0834 DCEFt 1-0.02460.22940.01840.26090.245810.19391 CCIt

根据表3和表4计算得到的因子载荷数据，所构建的“牛市”时期和“熊市”时期的投资者综合指数的表达式分别如（9）式和（10）式所示：

可以看出，（9）式中各单个变量前面的系数符号与（8）式一致，且相应的权重规模也相差不大，而（10）式中前面的系数IPONt-1、IPONt-1和IPONt-1与（8）式相反，且各权重系数的规模也均高于（8）式和（9）式，这意味着依靠整个样本期数据所构建的投资者情绪综合指数在“牛市”时期是较为稳健的，而在“熊市”时期稳健性较差。这也与现实情形较为吻合，因为在“牛市”时期投资者往往表现出一定程度的非理性，投资者情绪因素对于投资者的交易行为影响较大，而处于“熊市”期时，投资者的交易行为相对而言趋于冷静，此时投资者情绪对投资者交易行为的影响程度有所下降，导致各情绪指标的作用减弱。为提炼出更多的投资者情绪信息必须增加对各单个情绪指标的权重，这也是为什么在“熊市”时期各变量指标的权重系数规模有所增加的原因。

总之，由于“熊市”期投资者情绪的影响弱于“牛市”期，使得整个样本期内所构建的投资者情绪综合指数也主要是受“牛市”期投资者情绪综合指数的影响，而整个样本期内的投资者情绪综合指数的构成情况也恰好验证了这一点，因此所构建的投资者情绪综合指数是大体稳健的，可以用来刻画股票市场的运行情况。

四、与主成分分析法结果比较

易志高和茅宁（2009）对所选的6个指标采用主成分分析法构建了投资者情绪综合指数。为了验证PLS法所构建的投资者情绪综合指数要优于主成分分析法构建的指标，借鉴易志高和茅宁（2009）的研究步骤构建基于主成分分析法构建的投资者情绪综合指数CISPC，然后分析比较CISPLS和CISPC对市场运行的解释效果。

（一）主成分分析法实证结果

易志高和茅宁（2009）的研究步骤可以简单归纳为三步：

第一步，考虑到所选指标对投资者情绪的反应可能存在时间上的提前和滞后关系，在构建投资者情绪综合指数时包括了各单个指标的滞后一期，这样共计12个变量；再运用主成分分析法按照累积方差解释率达到85%以上的标准选择了5个主成分，并将这5个主成分的加权平均值作为投资者情绪综合指数，然后将该综合指数与12个单一指数进行相关性分析，从当期和滞后期指标中选择与投资者情绪综合指数相关程度较高的6个指标作为构建综合指数的最终指标。第二步，对所选择的6个指标采用主成分分析法构建最终的投资者情绪综合指数。第三步，为控制包含理性预期成分的宏观经济因素对投资者情绪的影响，选取了工业生产增加值（IAV）、居民消费价格指数（CPI）、工业品出厂价格指数（PPI）和宏观经济景气指数（MBCI）4个宏观经济指标作为控制变量，将最终选取的6个单一指标分别与这4个控制变量进行回归，令回归后得到的残差项作为排除理性预期影响的投资者情绪的新代理指标，通过对残差项再次采用相同的主成分处理方法得到投资者情绪综合指数。

在进行具体的建模运算时，样本期保持不变，且新的控制变量IAV、CPI、PPI、MBCI的数据取自中经网数据库，为消除量纲的影响，以上所有指标数据在进行实证分析时均做了标准化处理。根据上述三步研究步骤，将计算结果依次列于表5、表6和表7中：

表5 主成分分析计算的投资者情绪综合指数与12个变量的相关性

表6 投资者情绪综合指数CISPC的实证结果

表7 投资者情绪综合指数RCISPC的实证结果

表5显示的是根据12个变量所构建的投资者情绪综合指数CISPC与这12个变量之间的相关系数，由表中的数字知，6个主变量及其滞后一期的变量中，与CISPC相关程度较高的6个指标分别为DCEFt-1、TURNt-1、IPONt-1、IPORt、NIAt-1、CCIt；这与易志高和茅宁（2009）的研究有所差异，其所选择的指标中只有TURNt-1和NIAt-1两个指标提前反映投资者情绪，而除了这两个指标外，这里还验证得到DCEFt-1和IPONt-1也提前反映了投资者情绪。造成这种差异的原因可能是由于样本期的选取不同，例如易志高和茅宁（2009）的研究样本期为1999年12月至2007年8月，此阶段正是我国股市由“熊”变“牛”的阶段，而本文样本期为2006年1月至2013年12月，此阶段我国股市大体处于由“牛”变“熊”的阶段，市场不同态势的转化会导致投资者情绪的变化。

表6显示的是根据表5所选取的6个指标再采用主成分分析法重新构建投资者情绪综合指数后得到的结果，其中构建综合指数的因子载荷为各主成分的加权平均值，由表2中因子载荷的数据得到投资者情绪综合指数可以表示为：

表7显示的是在控制了宏观经济变化对投资者情绪的影响后所构建的投资者情绪综合指数，其处理方法同表6，最终得到的投资者情绪综合指数为：

对比式（11）和式（12）可以发现，各单个指标前面的权重系数符号较为一致，规模基本相同，且两种计算方法所得到的投资者情绪的相关系数为0.72，可见（12）式基本保留了（11）式的特点，该结论与易志高和茅宁（2009）的结论基本一致。需要注意的是，控制宏观变量的方法也是为了使最终构建的投资者情绪指数更加精确，但是与PLS方法相比，删除所选控制变量后得到的残差项可能含有其他的与投资者情绪无关的因素，其效果可能劣于PLS法。

（二）两种方法效果比较

在分别得到CISPLS、CISPC和 RCISPC后，便可针对两种方法构建的投资者情绪综合指数的有效性进行检验，检验的标准是投资者情绪的变化是否准确拟合了市场收益的变化。通常情况下，两者的变动轨迹是趋于一致的。以深圳A股流通市值加权平均的月度收益数据（R）为衡量标准，CISPLS、CISPC、RCISPC与R的变动趋势分别如图1、2、3所示。

由图1、图2和图3所显示的两种方法构建的投资者情绪综合指数与市场月度收益的变动趋势图可以看出，CISPC与R的变动趋势较为一致，CISPC与R的变动趋势几乎反向，RCISPC与R的变动趋势拟合效果要差于CISPC，但要强于CISPC，这说明若不对宏观经济因素加以控制而单纯采用主成分分析法构建投资者情绪综合指数，其精确度将大打折扣。此外，表8中列出了R与CISPLS、CISPC和RCISPC的相关系数。

表8 投资者情绪综合指数与R的相关系数

由表8中的市场月度收益与投资者情绪综合指数的相关系数可知，CISPLS与市场月度收益的变动情况存在较为明显的正相关关系，而RCISPC虽与市场月度收益的变动情况也存在一定的正相关性，但是相关程度较弱，而CISPC则与市场月度收益的变动情况呈负相关关系，这进一步说明了PLS法在构建投资者情绪综合指数时要优于主成分分析法。

五、结论

投资者情绪的测度问题长期以来都是行为金融学尚未解决的难点问题之一，目前对于投资者情绪的测度主要是基于单一指数和综合指数。单一指数多是为解决某种特定的市场异象而设定的，因此其在衡量投资者情绪时并不全面。相反，综合指数则克服了单一指数的这个缺点。以往的研究在构建投资者情绪综合指数时主要是基于主成分分析法，而主成分分析法无法排除那些与投资者情绪无关的因素的影响，使得所构建的投资者情绪综合指数的精度大打折扣。基于此，本文采用了偏最小二乘法（PLS）来重新构建投资者情绪综合指数，PLS法的主要优势是尽可能提取与投资者情绪相关的信息，可以最大限度地保证所构建的投资者情绪接近于真实的投资者情绪，最后通过与易志高和茅宁（2009）采用主成分分析法构建的投资者情绪综合指数相比，PLS法构建的综合指数在解释市场月度收益的变动趋势时，其效果要远远好于主成分分析法构建的情绪综合指数。

当然，本文的贡献主要在于构建情绪指数方法上的改进，若想进一步提高投资者情绪综合指数的精度，也要注意单个情绪代理指标的选取，选择何种情绪代理指标可以更准确构建投资者情绪综合指数也是未来的研究方向。

[1]Brown,Gregory W and Michael TCliff.Investor Sentiment and the Near-term Stock Market[J].Journal of Empirical Finance,2004(11):1-27.

[2]Lemmon,M and Portniaguina,E.Consumer Confidence and Asset prices:Some Empirical Evidence[J].Review of Financial Studies,2006(19):1499-1529.

[3]王美今，孙建军.中国股市收益、收益波动与投资者情绪[J].经济研究，2004，（10）：75-83.

[4]程昆，刘仁和.投资者情绪与股市的互动研究[J].上海经济研究，2005，（11）：86-93.

[5]伍燕然，韩立岩.不完全理性、投资者情绪与封闭式基金之谜[J].经济研究，2007，（3）：117-129.

[6]韩立岩，伍燕然.投资者情绪与IPOs之谜——抑价或者溢价[J].管理世界，2007，（3）：51-61.

1003-4625（2014）07-0001-06

F830.91

2014-05-14

本文为国家自然科学基金项目“基于投资者结构和行为的资产定价理论与经验研究”（项目批准号：71171036）。

王镇（1983-），男，山东淄博人，博士研究生，研究方向：行为金融，资产定价；郝刚（1980-），男，辽宁大连人，博士研究生，研究方向：行为金融，资本市场。

王淑云）