摘要:上市公司股价异动为证券市场监管层和投资者所重点关注,因其与证券市场的秩序和投资者的切身利益密切相关。以中国证监会公布的三起违规案例为样本,以股价为响应变量,以市盈率和涨跌幅绝对值为自变量建立回归模型。利用数据建模诊断方法,根据学生化残差、杠杆值、Cook距离、马氏距离等诊断统计量,对股价是否存在异动进行检测,并进行综合交叉印证,确定重点怀疑数据,然后,删除这些可疑数据,再将删除前后表征模型优劣的若干个指标的变化情况进行比对。实证研究表明,三起查处案例中交易异常行为都较好地得到定位,与实际结果相符较好,这对于规范证券市场健康发展及保护投资者合法权益有积极意义。
关键词:证券市场;上市公司;股价异动;数据建模诊断
中图分类号:F832.5 文献标识码:A 文章编号:1672-3104(2013)06?0071?08
上市公司股价异动是证券市场监管层与投资者都很关心的问题,在这方面已有学者做出了一些探索,如,肖淑芳、李阳[1]运用事件分析法,对重大信息披露与股价异动的相关性进行了研究。史永东、蒋贤 峰[2]以Logistic模型为分析工具,建立了违法违规行为的判别模型。Thierry Ane,Loredana Ureche Rangau等[3]采用稳健统计方法对亚太股市指数收益中异常点做了检测分析。曾伟[4]运用资产定价回归模型的拟合系数来捕捉股价波动的同步性,研究了上市公司质量与市场波动性的关系。瞿宝忠、徐启帆[5]利用残差系数法来研究重大并购事件首次公告之前股价的异常波动。Aurea Grane, Helena Veiga[6]基于小波变换技术对金融时间序列中的异常点进行了检测研究。
本文试图从数据建模诊断的角度,对这个问题进行探讨。
我们知道,通过数据建立模型来对经济现象进行分析时,我们对数据本身是做了很多严格的假设条件的,只有这些条件真正满足时,由此得到的模型及其以后基于此所做的推断和结论才是可靠的,否则就值得怀疑。对于数据本身,我们经常假定数据是均匀同质的,即,假定数据集中每一个点对建模的影响是基本相同的,每个点对建模都有影响,但都很微小,单独一个或若干个点不应该对模型的总体变化趋势产生决定性的影响。而实际中,这个条件往往不能得到满足。一个数据集中,经常会有那么一个或几个“不安
分”的点,它们经常基于现有建模手段的“漏洞”来“兴风作浪”,它们就是数据集中的异常点,杠杆点及强影响点。
本文就是从这个角度,来寻找对建模有“不同寻常”影响的点,从而在数据集中发现这些“异动点”。那么,什么是异常点、杠杆点、强影响点呢?一般来讲,异常点是指那些与既定模型有较大偏离的数据点,杠杆点是指那些远离数据主体的点,强影响点是指对统计推断影响特别大的点。为了能检测出这些点,我们需要了解几个重要的诊断统计量。
我们知道,线性回归模型可表示为
i=1, 2, …, n
其中:yi为因变量;xi1,…,xi(p?1)为自变量;εi为随机误差;其第i组观察值为(yi,xi1,…,xi(p?1))。通常可表示为矩阵形式如下:
Y=Xβ+ε (1)
其中:Y=(y1, …, yn)T,ε=(ε1, …, εn)T,β=(β0,β1,…,βp?1)T,X为n×p阶列满秩矩阵,其第i行为(1,xi1,…,xi(p?1)),对于随机误差项ε,通常假定其分量ε1,…,εn相互独立,数学期望为零,方差具有齐性,即E(ε)=0,var(ε)=σ2I,其中σ2为未知常数,I为n阶单位矩阵,可记为
ε~(0, σ2I) (2)
收稿日期:2013?04?29;修回日期:2013?11?22
作者简介:刘天(1974?), 男, 黑龙江哈尔滨人, 东北财经大学金融工程专业博士研究生, 主要研究方向: 金融工程.
在多数情况下还假定ε服从标准正态分布,即
ε~N(0, σ2I) (3)
通常的线性回归,大多采用了这些假设。这里有一个值得注意的重要问题,即给定的数据集
(yi,xi1,…,xi(p?1)),i=1, 2, …, n,
是否符合关于模型的假定(1)(2)或(3)式?
现考虑回归分析中常用的投影阵,在模型(1)式中,X的投影阵常记为P,并记为Q=I?P,Q为X的正交补空间的投影阵,I为单位阵。由于P作用到Y上可以得到拟合值,因此有些统计学家也称这种特定的投影阵为帽子矩阵(hat matrix)。
在(1)式中,把X的列向量记为1=(1, …, 1)T,矩阵X可写成分块形式如下:
由于P1=11T/n,Q1=(I?11T/n),由二次投影公式可知,帽子矩阵P可表示为
其中,J=11T,。
Xc称为矩阵的中心化,它在(i, j)处的元素xcij为
(4)
现记帽子矩阵的元素为pij,则P=(pij)具有以下性质:
;
(5)
帽子矩阵P的对角元素pii在回归诊断中起着十分重要的作用。矩阵就是观测矩阵X去掉已知的第一个向量1而得到。的每一行就是自变量的一组数据,现记
i=1, …, n
则由(4)可知,(5)式可写为
(6)
其中第二项表示点到的一种距离(关于矩阵的距离),通常称为马氏距离(Mahalanobis distance),平均值可看作数据的中心点,因此(6)式表明,pii越大,则第i组数据点xi离数据中心越远,反之,若xi离数据中心较远,则pii比较大。pii=1或pii≈1的数据点,通常称为高杠杆点(high leverage point),这种点对建模有很大影响,在模型诊断分析中应引起特别的注意,pii也称为杠杆值(leverage value)。
模型(1)式的学生化残差定义为
(i=1, …, n) (7)
其中:,为普通残差,学生化残差也称学生化内残差(internal studentized residuals),若取作的估计量,则得到学生化外残差(external studentized residuals),即,
i=1, …, n (8)
为了考察数据集与模型的符和情况(i=1, …, n),一个重要的方法就是逐个考察每组数据点的作用,如数据删除模型。
对于下面模型,
i=1, …, n (9)
其中:
那么,删除第i组数据点后的模型就是数据删除模型,即,
或
Y(i)=X(i)β+ε(i) (10)
由线性模型的理论可知,模型(1)式中参数β的置信域可表示为以下形式:
(11)
在参数空间Rp中,它表示一个以为中心的椭球,易见,落在椭球以外的β点可能性很小,其概率只有α。现考虑,如果落在椭球之外,则说明与的差异非常大,作为模型(1)式的点是不可接受的。同理,若的值代入(11)式左端所得的值较大,则说明离置信域中心较远,因而与有较大的差异,从而可以认为对模型(1)式的影响也较大,基于这种考虑Cook提出在(11)式左端以代替β,作为度量第个数据点影响大小的数量指标,即给定模型(1)式和(10)式,第个数据点的Cook距离定义为
(12)
Di也称为Cook统计量,Cook距离表示与之间的一种加权距离,其权重为。
现考虑数据点删除前后对xi处拟合值的影响。其拟合值分别为和,二者的差值可用来度量第i个数据点对于拟合带来的影响。另外,为了消除尺度的影响,还要除以拟合值的均方误差。易见,
为了研究去掉第i个点以后对于拟合的影响,应由来代替σ2,因此,可得Welsch-Kuh距离的定义如下:
给定模型(1)式和(10)式,第i个数据点对于拟合值的影响定义为
(13)
WKi称为Welsch-Kuh距离,简称为W-K统计量,也有称之为DFFITS,DF表示差异(Difference),FIT即拟合。
由上述可知,Di主要度量了位置参数β的估计量和之间的差异,而WKi综合考虑了位置参数和尺度参数之间的差异,即WKi度量了(,)与(,)之间的差异。
我们知道,是度量优良性的统计量,广义方差也有这个作用,|A|表示矩阵A的行列式。由于≤=|σ2(XT(j)X(j))?1|,可知,如果的值增加越大,即,|(XT(j)X(j)|越小,则说明(Yj, Xj)对的影响越大,所以可定义协方差比作为度量影响的统计量:
(14)
≥1,越大,则说明(Yj, Xj)对于的影响越大。
下面根据中国证监会公布的处罚案例,选取了中捷股份(002021)、科冕木业(002354)、富临运业(002357)三支股票作为样本,对其进行建模诊断分析。
首先,对中捷股份进行研究(见表1)。
根据表1,我们以股价(price)为响应变量,市盈率(ratio)和涨跌幅绝对值(variance)为自变量的作回归,得到表2和表3。
根据表3,可得表4。
由表4可知,10月12日、10月27日在六个诊断统计量中皆被检测出5次,10月15日、11月2日、1月19日皆被检测出3次,因此,将这些点作为重点怀
疑对象,在原数据集中,将这些点删除,再作回归。
对比表2与表5可知,复相关系数平方R2及修正的复相关系数平方R*2,删除前后均相同,没有变化,均为1。F统计量,删除前后均显著,均可认为响应变量price与自变量ratio,variance之间存在多元线性关系。对于各回归系数显著性,删除前,ratio的P=0,variance的P=0.04,前者很显著,后者在0.05水平下,也显著,删除后,ratio的P=0,很显著,variance的P=0.01,也比较显著,即,删除后,variance的显著性有所提高。关于自变量之间复共线性,删除前,条件指标η1=1,η2=2.57,η3=21.832 84,删除后,η1=1,η2=3.279 10,η3=23.891 61,删除前后没有明显变化,根据判定标准,若条件指标处于(0, 100],则可以认为不存在复共线性关系,因此删除前后自变量之间均符合无复共线性要求,同时,方差膨胀因子VIF,删除前,c11=1.000 12,c22=1.000 12,删除后,c11=1.006 48,c22=1.006 48,删除前后没有明显变化,根据一般的规则,若VIF处于(0, 10],则可判定为没有复共线性,因此删除前后,方差膨胀因子也表明自变量之间不存在复共线性。随机误差项之间序列相关问题,删除前,DW=1.96,半偏相关系数SC=?0.04,根据判定标准,在DW接近与2,SC接近与0时,可以认为不存在序列相关,显然,均符合无序列相关要求,删除后,DW=2.42,SC=?0.25,两者已不符合无序列相关要求,因此,可以认为存在序列相关,总体上,删除前后序列相关性变化较大。
为了判定随机误差项之间是否为方差齐性,我们作残差之递减趋势概率图,如图1、图2,可知,删除前存在明显的异方差,删除后基本不存在异方差。分析是这样,尽管两图基本上均符和趋势线应与横坐标轴应尽可能重合的要求,但是,对于散点图应具有随机性,不应具有明显的规律性的要求,图1这些点不符合要求,其先是具有明显的上升趋势,然后有下降,然后再上升,再下降特点,已有规律性,图2则符合随机性要求,另外,关于散点图应相对于横坐标轴尽可能对称的要求,图1也完全不能满足,而图2则基本满足,因此,删除前不满足方差齐性要求,删除后则满足,删除前后变化较大。
对于随机误差项正态性的判断,由正态概率图3图4可知,删除前后均较好符合正态性,没有变化。
综上所述,可知,对于中捷股份,在对重点怀疑的数据删除前后,其随机误差项的序列相关性和方差齐性均有较大变化,说明这些数据点是强影响点,已对建模产生较大影响。其中特别值得指出的是2009年10月27日的数据,在六个诊断统计量中有五个将其检测出来,并且这五项指标值均处于最大值,可见这个日期股价异动应该很明显,这一点有证监会的处罚文件为证。根据中国证监会行政处罚决定书(陈国生)(2011)10号内容的陈述,可知,2009年10月23日,陈国生使用“陈晓彤”证券账户买入“中捷股份”股票761 827股,2009年10月27日9时33分41秒,“陈晓彤”证券账户买入“中捷股份”股票297 699股。2009年10月27日10时14分12秒起至11时04分17秒,陈国生利用其资金优势,大量申报买入“中捷股份”股票,并反复多次使用了“拉抬股价,虚假申报”相结合的操作手法,即先以比市场最后一笔成交价高几个价位的少量申报买入并成交,导致股价上涨,随即挂出大量低于同期市场价几个价位的买入申报,委托主要集中在第2档和第3档的位置,造成大单在低档位买入的假象,并迅速撤单。该期间,陈国生使用“陈晓彤”“陈国生”账户以5.75元至6.10元连续28笔申报买入“中捷股份”股票共27 920 000股,占该时段市场申买量的62%;11时06分16秒前,上述28笔申报撤单26笔(含部分撤单),撤单数量24 165 426股,撤单量占其申买量的87%,上述26笔撤单平均驻留时间73秒,最短驻留时间19秒;上述申报实际只成交4笔(含部分成交),成交数量3 754 574股,占该时段其申买量的13%,占该时段市场全部成交量的27%,同期股价上涨7%。11时04分42秒04,“中捷股份”涨停。在“中捷股份”股票处于涨停、
图1 完全数据下回归残差序列趋势概率图
图2 删除数据2009.10.12等数据回归残差序列趋势概率图
图3 完全数据下回归残差正态概率图
图4 删除2009.10.12等数据回归残差正态概率图
市场本身已有大量未成交买单、该阶段买入申报明显无法成交的情况下,陈国生仍然以涨停价大量申报买入,以相对较高的价格卖出已建仓的股票,同时影响其他投资者对相应股票供求和价格走势的判断,为以后交易日出货牟利提供便利。11时04分42秒04,市场以涨停价申报的待成交买单为8 084 155股。11时05分11秒11至11时26分55秒03期间,“陈晓彤”“陈国生”证券账户以涨停价6.22元的价格连续44笔申报买入42 000 000股,占该时段市场涨停价申买量的47%,占当日市场涨停价申买量的26%;上述44笔申报全部撤单,其中28笔为营业部强制撤单,撤单数量25 656 429股,占该时段其申买量的61%(剔除营业部强制撤单的影响为23%),占该时段市场撤单量的47%(剔除营业部强制撤单的影响为17%),平均驻留时间315秒,最短驻留时间33秒;申买成交2笔(含部分成交),成交数量343 571股,占该时段其申买量的1%,占该时段市场成交量的2%;申卖成交1笔,共761 827股,占该时段市场成交量的5%。2009年10月27日,“陈晓彤”“陈国生”证券账户全天申买量占市场申买量比例为31%,全天成交量仅占其申买量的6%,占全天市场成交量的6%,全天撤单量占其申买量的94%,占全天市场撤单量的45%。当日,深成指下跌3.14%,“中捷股份”涨幅为10.09%,偏离13.23% 。“中捷股份”股票当日市场成交量比前一交易日市场成交量增加319%。
另外,2009年11月2日的数据也被检测为异常,被检测出三次,根据此处罚书的描述,在11月3日、11月4日,“陈晓彤”“陈国生”证券账户将所持的5 157 671股“中捷股份”股票全部卖出,获利3 355 767.86元。可见,此方法对股价异动的检测,还是比较准确的。
根据相同的方法,可将科冕木业、富临运业的结果给出。
对于科冕木业,在选定的2010年3月10日至2010年4月21日的30个样本数据中,将3月24日、3月25日、4月1日、4月2日、4月7日、4月8日等列为重点怀疑数据。根据中国证监会行政处罚决定书(袁郑健)(2011)42号的描述,袁郑健于2010年3月22日至4月8日使用4个证券账户,连续交易科冕木业股票,在自己实际控制的证券账户之间交易科冕木业股票,在持有科冕木业股票的情况下发表博客文章推荐科冕木业股票。由于袁郑健连续交易数量较大,在自己实际控制的证券账户之间交易的数量较大,博客文章阅读次数较多,致使科冕木业股票价格从2010年3月22日的17.92元上升至4月2日的31元,之后科冕木业股票价格调整至4月8日的27.85元。根据以上事实,证监会认定,自2010年3月22日至4月8日,袁郑健操纵科冕木业股票价格。可见,本方法对于检测股价异动还是可以的。
对于富临运业,选定了2010年4月1日至2010年5月14日共30个样本数据,作回归诊断分析,其中,将4月12日,4月15日,5月10日、5月11日、5月14日等列为可疑数据。根据中国证监会行政处罚决定书(袁郑健)(2011)42号的描述,袁郑健于2010年4月9日至5月13日使用18个证券账户,连续交易富临运业股票,在自己实际控制的证券账户之间交易富临运业股票,虚假申报买入富临运业股票,在持有富临运业股票的情况下发表博客文章推荐富临运业股票。由于袁郑健连续交易数量较大,在自己实际控制的证券账户之间交易的数量较大,虚假申报买入数量较大,博客文章阅读次数较多,致使富临运业股票价格从2010年4月9日的27.09元上升至5月4日的35.30元,之后富临运业股票价格调整至5月13日的23.95元。根据以上事实,证监会认定,自2010年4月9日至5月13日,袁郑健操纵富临运业股票价格。可见,本方法也较好地检测出股价异动的范围。
参考文献:
肖淑芳, 李阳. 上市公司重大信息披露与股价异动的相关性研究[J]. 北京理工大学学报, 2004, 6(6): 53?56.
史永东, 蒋贤峰. 中国证券市场违法违规行为的判别——基于内部交易与市场操纵的案例分析[J]. 预测, 2005(3): 76?80.
Thierry Ane, Loredana Ureche Rangau, Jean-Benoit Gambet, Julien Bouverot. Robust Outlier detection for Asia-Pacific stock index returns [J]. Journal of International Financial Markets, Institutions & Money, 2008(18): 326?343.
曾伟. 中国A股市场异常波动机理及抑制波动研究[D]. 重庆: 重庆大学, 2009.
瞿宝忠, 徐启帆. 股价异动: 基于并购信息的残差系数法研究[J]. 审计与经济研究, 2009, 24(3): 87?91.
Aurea Grane, Helena Veiga. Wavelet-based detection of outliers in financial time series [J]. Computational Statistics and Data Analysis, 2010(54): 2580?2593.
Data Modeling Diagnostic of Listed Companies in the Stock Transaction
LIU Tian
(College of Finance, Dongbei University of Finance and Economics Financial, Dalian116025, China)
Abstract: Securities market regulators and investors are very concerned about the abnormal fluctuation issues in stock price, because it is important to keep the securities order and investors. The author selected three stocks which had been punished as samples, simultaneously, a regression model was established with the price as response variable and the earning ratio and the absolute value of the change as independent variable. The author used data modeling diagnostic methods, according to the the diagnostic statistics of the studentized residuals, leverage values, cook distance, mahalanobis distance, then, this paper detected whether the price was abnormal and determined the suspect data by integrated crossing-confirms. After deleting the suspicious data, the author compared the characteristics about the qualities of model. Empirical studies have shown that the abnormal behaviors of the three cases had been located and conformed actual results, which was of positive significance for the keeping the healthy securities market and protecting the legitimate rights and benefits of investors.
Key Words: the securities market; listed companies; stock price abnormal fluctuations; data modeling diagnostic
[编辑: 汪晓]