应用门限分位点回归模型估计VPIN条件下CVaR

2013-01-17 02:18叶五一李玉洁缪柏其

中国科学技术大学学报 2013年12期

叶五一，李玉洁，缪柏其

(中国科学技术大学管理学院统计与金融系，安徽合肥 230026)

0 引言

当金融市场中的指令流基本平衡时，做市商可以从大量的交易中获取利益，而当指令流不平衡时，做市商就面临着逆向选择带来的风险.指令流的不平衡往往是由于交易者掌握更多市场信息而产生的.因此，我们可以通过衡量市场中知情交易的概率(probability of informed trading,PIN)来衡量做市商以及投资者所面临的风险.Easley等[1]对PIN进行了简单的介绍，并提出了一种参数方法来估计PIN的值.随后，Easley等又基于分笔数据的交易量等相关信息提出了PIN的另一种非参数估计方法——同步交易量知情交易概率(volume-synchronized probability of informed trading,VPIN)[2]，该方法直接基于交易数据估计出PIN的值，无需对模型中假定的参数进行估计，并且VPIN值可根据市场交易信息不断地进行同步更新.Easley等还基于VPIN对美国市场2010年5月的“闪电崩盘”事件进行了分析[3]，在该文中，作者基于相关系数方法对VPIN和收益率之间的关系进行了分析，实证结果表明两者之间有着比较密切的关系.VPIN作为金融市场中一种衡量知情交易风险的指标，可以反映和预测市场的一些变化，本文中，我们希望通过研究VPIN和日收益率之间的关系，以揭示VPIN的变化对市场风险的影响.

通过何种方法来确定VPIN和日收益率之间的关系，什么模型可以用来研究VPIN对市场风险的影响？最容易想到的是线性相关系数，Easley等[3]基于相关系数方法分析了VPIN与收益率之间的相关关系，虽然线性相关系数方法简单易操作，但同时限制性较强，线性关系主要描述服从多元正态分布或椭圆分布的数据之间的关系，而金融数据一般都不符合这种特点.秩相关系数也是一种常见的方法，但这只能表示两者之间存在着某种相关关系，不能更深入地揭示出两者之间的相互关系和影响程度.相关系数本质上是一元线性回归问题，本文打算分析VPIN对收益率市场风险(value at risk,VaR)的影响，并借助分位点回归模型进行分析.

VaR可以被定义为“在一定的期间内，在一定的置信水平(如95%)下，一个金融头寸所面临的最大的潜在损失”.计算VaR的方法主要有3种方法：历史模拟方法、分析方法(方差-协方差方法)和蒙特卡罗模拟方法.Duffie等[4]给出了关于VaR估计方法的系统的介绍.传统的VaR方法一般都假定投资组合收益率的统计分布特征在一定时期内基本稳定，然后在此基础上对VaR进行估计.然而金融市场的状况时刻发生变化，尤其是近期金融危机频繁发生，金融形势有了巨大的变化.金融市场状况的改变，使得收益率的分布也会产生相应的变化，此时传统VaR理论的应用就会受到诸多限制.为了克服这种限制，便有了条件VaR(conditional value at risk,CVaR)的定义以及相应的估计方法.

在现实的金融市场中，很多经济变量之间都存在很紧密的相关关系，因此，在金融风险管理的研究中也应该考虑变量之间的相关关系，考虑各种风险因子对市场风险的影响.在当前的风险度量的研究中，重点都放在了某种金融资产本身风险度量的研究上，过度集中在研究单一风险的测量模型，而从金融风险事件研究中可以看出，各种变量之间是相互作用、相互影响的，要解决变量之间相互影响的问题，可以考虑研究在某种市场条件给定的情况下，某经济变量对市场风险的度量.本文将集中讨论给定VPIN的条件下CVaR的估计问题.要计算CVaR，一般需要解决条件分布的问题.肖春来等[5]给出了在股票的价格和收益率服从二元正态分布的假设下CVaR的一种计算方法.众多研究指出收益率的分布以及价格的分布并不服从正态分布，因此该假设跟实际情况不太符合.上述方法是一种参数模型方法，具有一定的建模风险.叶五一等[6]则基于copula方法给出了CVaR的一种度量方法.VaR本质上是某收益率分布的分位点，因此可以借助分位点回归模型进行VaR的度量，分位点回归模型由Koenker等[7]于1978年提出.叶五一等[8]则提出了分位点回归的门限模型，并由此模型得到了CVaR的一种估计方法，该模型是一种非线性分位点回归模型.本文将尝试基于门限分位点回归模型分析VPIN与市场风险之间的非线性关系.对于门限分位点回归模型来说，通过门限值的估计，可以得到几段不同的分位点回归模型.在由门限分成的不同区间内，回归系数会发生变化，这样就可以得到不同的解释变量大小对因变量分位点的不同影响情况.

1 知情交易概率PIN及其估计值VPIN

知情交易概率(PIN)是度量流动性毒性的一个指标，本节将对PIN作一个简单的介绍，并给出PIN的估计值VPIN.

1.1 知情交易概率(PIN)

假定在一个交易周期中，有消息事件发生的概率为α，各个事件之间相互独立，若有消息事件发生，则事件为好消息和坏消息的概率分别为1-δ和δ.

进一步假定，在一个有消息事件发生的交易周期中，做市商收到知情交易的订单的数量是速率为μ的Poisson过程，不知情订单的数量是速率为ε的Poisson过程.而在一个没有消息事件发生的交易周期中，做市商收到的订单数是速率为ε的Poisson过程.

根据Easley等[2]的研究结果，我们直接给出知情交易的概率PIN：

(1)

式中，αμ+2ε为做市商收到的所有订单的速率，αμ为做市商收到的知情交易订单的速率.

做市商需要正确地估计PIN来及时调整最优的价格水平，否则，意料之外的PIN的上升可能会带来很大的损失，增大做市商的风险.类似地，可以在实际中考虑PIN对市场风险是不是有影响，两者的相依结构如何，PIN是怎样影响市场风险的等相关问题.

1.2 知情交易的估计值VPIN

估计PIN的标准方法是用极大似然方法来估计参数(α,μ,δ,ε)，再由此得出PIN的估计值.这一节中，我们给出另一种方法，即，基于交易量直接计算出PIN的估计值，而不需要间接地估计上述参数.除了无需估计参数，这种方法的另一个优点是可以根据新的市场交易信息随时更新[2].

以某一段时间内的所有交易为研究对象，第i笔交易的交易价格、交易量、交易时间分别记为Pi,Vi,Ti.我们首先来构建n个交易量桶，从i=1开始，将每笔交易依次放入第一个交易量桶，直至该交易量桶中包含的所有交易的总交易量为一个定值V(V为外生变量).对于最后一个放入该交易量桶的交易，若该交易使得该交易量桶的总交易量大于V，则将多余的交易量放入下一个交易量桶.依次类推，直至获得n个交易量桶.

同时，由Possion过程的性质，可以得出

由上述两个公式可以推导出

(2)

由此可见，只要我们知道了某个时间段每笔交易的交易量和交易价格，就可以由式(2)计算出这一段时间的VPIN值.

2 门限分位点回归方法与CVaR估计

分位点回归模型，由Koenker等[7]于1978年提出，对传统的分位点估计进行了扩展.类似于线性回归模型，分位点回归模型假定被解释变量分位点与解释变量之间满足线性关系.假定Y的分布函数为F(y)=Pr(Y≤y).那么对于任意τ∈(0,1)，随机变量Y的τth分位点被定义为

Qτ(Y)=inf{y:F(y)≥τ}.

2.1 分位点回归模型

假定X为K×1维随机向量，{x1,…,xn}为其样本，其中,xi的第j个分量为xi,j(i=1,…,n;j=1,…,K).类似于一般的线性模型，分位点回归模型可以被假定为

(3)

这里对误差项ui,τ的分布不作过多假定，只需要满足条件Q(ui,τ|xi)=0.为了满足可识别性，也就是无条件分位点也可以由该模型得到，一般假定解释变量X的第一个分量恒等于1，即xi,1=1.

2.2 参数βτ的估计

2.3 门限分位点回归模型

门限自回归模型(threshold autoregressive model,TAR)假定在每一个被门限分开的区间内，时间序列满足线性自回归关系，具体介绍可以参见文献[10].下面将借鉴门限的思想，给出门限分位点回归模型.

分位点回归模型中假设条件分位点与解释变量满足线性关系，有时不能很好地反应市场的真实情况.根据门限自回归模型的思想，引入门限分位点回归模型，该模型利用门限变量(xi的第j个分量xi,j)将模型分成了几段线性分位点回归模型.门限分位点回归模型被定义为

(4)

(5)

在选择门限γ和分量j时，我们对不同的γ,j最小化式(5)，使得式(5)达最小时所对应的γ,j就是作为门限和分量的估计.依此类推，可以得到将实数区间分成3段或以上的门限分位点回归模型的参数估计方法以及相应的门限分位点回归模型.

2.4 CVaR估计

假定Yt是某债券或者投资组合的价格过程，Xt是状态过程或者是信息向量，在实际应用中，包括股票指数、债券收益率、流动性指标以及其他能够影响价格过程的因素.本文将研究在条件Xt下债券或者投资组合的VaR——CVaR的计算.

CVaR(p)=F-1(1-p|Xt)

(6)

式中，F-1(·|Xt)为F(·|Xt)的反函数，也称为条件分位函数.可见确定CVaR本质上就是确定条件分位点的值.

一般计算CVaR的方法是先对条件分布进行估计，然后再确定CVaR的值.针对线性分位点模型在描述现实金融市场时的不足，本文将应用门限分位点回归模型对CVaR进行估计，得到在一定的VPIN条件下收益率的CVaR值.分位点回归模型避免了条件分布的估计，直接得到条件分位点的值.在本文的最后部分将得到的CVaR结果和其他传统的方法得到的结果进行比较，并对所得到的CVaR结果进行了事后检验.下面首先给出CVaR事后检验的方法.

2.5 CVaR的事后检验

得到了门限分位点回归模型中的参数值后，给定条件，就可以得到具体的CVaR估计值，由于CVaR的值不能过大也不能过小，太大可能会造成银行资产的机会成本过大，太小又会带来很大的金融风险.因此就需要对CVaR的值进行事后检验，参照Kupiec提出的对零假设最合适的似然比检验[11]，本文给出了CVaR模型的效果检验方法.

可以根据统计量LR的大小来比较方法的好坏以及判断在相应的置信水平下是否能够拒绝原假设H0:p=p*.

3 实证分析

众所周知，经济领域中的许多变量是相互影响的，例如市场风险与各风险因子之间存在关系，这也是金融领域的基本原理.为了研究PIN对收益率的影响，我们将基于交易量估计上证综指的知情交易概率(VPIN)，并在给定VPIN的条件下，对收益率的CVaR进行估计.

本文采用的研究数据如下：①研究对象为中国股票市场的上证综指数据.②数据样本的时间范围是2011-01-04～2013-02-28.③数据样本的采样频率为1 min.本文将利用上述数据进行实证研究，分析日收益率和VPIN之间的关系，并考虑VPIN对市场风险是如何影响的.为了研究CVaR估计方法的准确性，以2012-02-20后的数据进行预测效果的检验.

本文所选取的是近期的股票市场数据，我们也对其他时间段做了类似的分析，得到了基本类似的结论.限于篇幅，本文没有具体给出.

3.1 VPIN的估计以及描述性统计量分析

图1 收益率与VPIN散点图Fig.1 Scatter plot of VPIN vs return

由图1可以看出，VPIN和日收益率之间具有一定的相关性.本文旨在通过门限分位点回归模型研究二者的非线性结构关系，虽然图1没有显示出二者之间有较强的线性关系，但这并不影响我们进一步的研究.为了对VPIN有一个大致的了解，在表1中，我们给出了VPIN的描述性统计量分析.由表1可以看出，VPIN数据的峰度大于0，但是尖峰性质并不明显.此外，JB统计量较大，说明用正态分布对VPIN数据进行拟合，拟合效果将会很差.

3.2 线性分位点回归模型分析

在本文中，为了研究收益率和VPIN之间的关系，估计以VPIN为条件的CVaR值，假定其中的一个因素为VPIN值Vt.为了检验模型的好坏，令另外一个影响因素恒等于1，即xt,1=1.本文考虑如下模型：Yt=α+βVt+ut,τ，于是条件分位点为

Qτ(Yt)=α+βVt.

我们首先对0.05分位点下的线性分位点回归模型的参数进行了估计，由此可以得到置信水平95%下的CVaR，具体的估计结果如表2所示.

由表2可以看出，线性分位点回归模型中的截距和斜率的p-value都远远小于0.01，即截距和系数都是非常显著的，说明VPIN与市场风险之间是有着显著关系的.而且，由VaR与分位点之间的关系可以知道，VaR的值为分位点的相反数.因此，由于斜率系数为正，VPIN越大，相应的CVaR则越小.这说明，如果当日的知情交易概率越大，则相应的市场风险越小，这个一般的结论是一致的，知情交易概率越大，说明投资者信息更加丰富，投资风险也相应较小.下面我们将应用门限分位点回归模型对上述问题进行分析，以期能得到更好的拟合效果和更好的解释.

3.3 门限分位点回归模型分析

下面给出两段门限分位点回归模型参数估计.按照门限自回归模型的门限估计方法，在门限估计时，对不同的门限分别作参数估计并得出最小残差和，将最小残差和对应的门限作为模型中门限的估计，0.05分位点门限分位点回归模型的最小和的结果如图2所示.

由图2可见，最小和值S1的最小值有一个很显著的最低点，对应的VPIN门限为γ=0.637 4，对应的最小残差和为Smin=0.327 1.得到了门限值的估计以后，就可以分段对线性分位点回归模型进行估计，得到的参数估计值如表3所示.

由表3可以看出，对于这两段数据，分位点回归模型参数的估计都非常显著，与表2相对比，t统计量更大，因此系数的显著性更加明显.结合表3的参数估计，可以给出具体的门限分位点模型为

表1 VPIN描述性统计量Tab.1 Descriptive statistics of VPIN

表2 分位点回归结果Tab.2 Result of quantile regression

图2 不同门限下回归模型的最小和图(τ=0.05)Fig.2 Result of Smin at different threshold (τ=0.05)

表3 第Ⅰ,Ⅱ数据段分位点回归结果Tab.3 Result of quantile regression of data segment Ⅰ and Ⅱ

由CVaR的定义可知，CVaR是上述条件分位点的相反数，因此置信水平为95%的CVaR为

由CVaR的表达式可以看出，当VPIN较小时(Vt≤0.637 4)，CVaR值较大，因此，市场风险较大.由截距项可以看出，前者的截距项要远远大于后者.当VPIN较大时(Vt>0.637 4)，市场风险相对较小.由门限分位点回归模型的斜率项可以看出，两段的回归系数都为正，说明随着VPIN的增大，市场风险CVaR将变小.而且，第二段分位点回归模型的斜率系数要大于第一段的斜率系数，这说明当VPIN较大时(Vt>0.637 4)，CVaR受VPIN的影响更大.

为了检验模型的稳健性，我们也对0.01门限分位点回归模型进行了分析，最小和结果如图3所示，由图3可以看出，最优的门限也是0.637 4，说明本文提出的门限分位点回归模型具有一定的稳健性.我们曾对2005-01～2006-03的数据进行了实证分析，最优门限值为0.643 5，与上述结果也相差不大.我们也曾类似地分析了分成更多段的门限分位点回归模型，但是其结果都不如上述两段模型理想，因此可以认为上述两段的门限分位点回归模型能够更好地描述金融市场中VPIN与收益率之间的关系.

图3 不同门限下回归模型的最小和图(τ=0.01)Fig.3 Result of Smin at different threshold (τ=0.01)

我们的实证研究表明，知情交易概率越高，市场风险越小.可以从理论上来解释实证结果的合理性.我们认为，知情交易并不仅仅代表内幕操控，内幕操控会给市场带来很多不稳定因素，使得股票价格越发偏离其内在价值，增加市场风险.知情交易还包括交易者对股票内在价值信息的掌握和宏观政策的解读，这一类的知情交易者会根据自身掌握的信息进行理性的分析判断，使得股票的市场价格越发能够体现出其内在价格，市场变得更为有效.当市场上这类知情交易者变多时，市场上的盲目“跟风者”变少，内幕操控者利用信息优势进行的操控行为将变得难以实施，市场风险减小.近年来，我国金融服务行业得到了迅速的发展，各类券商研究所为市场提供了充分的信息来源，上市公司的信息披露也越发透明，使得市场上知情交易者数量显著增加，市场变得更加有效，市场风险会变小.

3.4 CVaR的事后检验

下面对估计得到的置信水平为95%的CVaR进行事后预测效果检验，具体的方法包括无条件VaR(历史模拟方法和分析方法)以及文献[6]提出的基于copula的CVaR估计方法等，采用了接下来的250个数据(2012-02-20～2013-02-28)进行检验，检验结果如表4所示.

由LR相应的p-value可以看出，4种方法的p-value值都大于0.05，因此在95%的置信水平下都不能拒绝原假设.但是通过LR统计量以及p-value可以对4种方法的预测效果进行比较和排序.由LR统计量的表达式可以得知，LR该值越小，则模型的预测效果就越好，因此，可以看出本文给出的CVaR和基于copula方法的预测效果要比无条件的VaR结果好，这是因为接下来每天的VaR值都会通过当天的VPIN值进行调整，相当于一个动态VaR的一种估计，其预测效果显然较好，这相应的也是CVaR的优势所在.而且还可以看出，本文提出的CVaR估计方法的预测效果要优于基于copula的CVaR估计方法的.

表4 CVaR的事后检验结果Tab.4 Results of back-test methods

4 结论

在当今的金融市场中，很多经济变量之间都存在很大的相依关系，在某种条件下的条件风险，可以描述风险和某些变量之间的关系以及各种风险之间的关系，本文用CVaR作为条件风险的度量.PIN在一定程度上可以衡量交易者对市场的知情情况，可以看出投资者对市场信息的把握，本文以VPIN作为条件，给出了上证指数在VPIN条件下的CVaR度量方法.本文基于门限分位点回归模型对收益率分位点与VPIN之间的非线性关系进行了实证分析，通过实证分析发现，两段门限分位点回归模型能够更好地描述实际的上证指数数据，并且在VaR的事后预测检验中发现，由该门限模型得到的CVaR结果能更好地对未来的金融市场风险进行预测.

本文基于门限分位点回归模型得到了CVaR的估计的一种方法，其中的解释变量本文选择了VPIN指标，门限分位点回归模型得到的CVaR结果和VPIN指标存在着一定的分段线性的关系，而且可以得知，VPIN越大，相应的市场风险越小.此外，门限分位点回归模型中解释变量也可以选择其他变量，就可以得到其他条件下的CVaR，该模型还可以用来分析几个不同的解释变量共同作用下的CVaR问题.本文的分析也还存在一定的不足，没有给出门限选择的统计假设检验，而且关于知情交易概率的估计除了VPIN以外还存在很多其他的方法，本文只考虑了VPIN,但如果比较不同PIN条件下CVaR的预测效果，应该能够更好地对市场风险进行度量.今后将从这些方面开展进一步的研究.

References)

[1] Easley D,Lopez de Prado M,O’Hara M.The exchange of flow toxicity [J].The Journal of Trading,2011,6(2):8-13.

[2] Easley D,Lopez de Prado M,O’Hara M.Flow toxicity and volatility in a high frequency world [J].Review of Financial Studies,2012,25(5):1 457-1 493.

[3] Easley D,Lopez de Prado M,O’Hara M.The microstructure of the “flash crash”:Flow toxicity,liquidity crashes and the probability of informed trading[J].The Journal of Portfolio Management,2011,37(2):118-128.

[4] Duffie D,Pan J.An overview of value at risk[J].The Journal of Derivatives,1997,4(3):7-49.

[5] Xiao Chunlai,Chai Wenyi,Yang Wei.Application and research of the conditioned VaR theory[J].Application of Statistics and Management,2003,22(suppl)：264-268.

肖春来，柴文义，扬威.条件VaR的应用与研究[J]，数理统计与管理，2003,22(增刊)：264-268.

[6] Ye Wuyi,Miao Baiqi,Wu Zhenxiang.Estimating conditional VaR based on Copula method[J].Journal of University of Science and Technology of China,2006,36(9):917-922.

叶五一，缪柏其，吴振翔.基于Copula方法的条件VaR估计[J].中国科学技术大学学报，2006，36(9):917-922.

[7] Koenker R,Bassett G Jr.Regression quantiles[J].Econometrica,1978,46(1):33-50.

[8] Ye Wuyi,Miao Baiqi.Evaluation of conditional VaR based on threshold quantile regression model[J].Journal of Systems Engineering,2008,23(2):154-160.

叶五一，缪柏其.应用门限分位点回归模型估计条件VaR[J].系统工程学报，2008，23(2):154-160.

[9] Portnoy S,Koenker R.The Gaussian hare and the Laplacian tortoise:Computability of squared-error versus absolute-error estimators[J].Statistical Science,1997,12:279-300.

[10] Tong H.Threshold Models in Non-linear Time Series Analysis[M].New York:Springer-Verlag,1983.

[11] Kupiec P H.Techniques for verifying the accuracy of risk measurement models[J].Journal of Derivatives,1995,3(2):73-84.