蔡风景 ,李 元,王慧敏
(1.河海大学 商学院,南京210098;2.温州大学 数学与信息科学学院,浙江 温州 325035;3.广州大学 数学与信息科学学院,广州 510006)
图模型(Graphical models)是统计学中一个崭新的研究领域,它将传统的多元统计中描述多个变量之间关系的统计模型图形化。近几年来,图模型理论在人类基因、医学诊断、经济和金融领域的应用,已成为这一领域研究的热门课题[1-2]。刘桂梅和李胜宏 (2006)[3]将图模型理论应用于遗传基因领域,利用DNA数据,研究了一个在法庭上颇有争议的亲子鉴定问题。通过案例中的家谱图,建立Bayesian网络,根据遗传学的孟德尔定律,计算出网络中各结点的概率,给出了一个可供法庭参考的合理推断。赵慧和郑忠国(2007)[4]在对一种新型中药降脂灵片的药效进行因果分析时,指出传统的统计方法难以处理实验数据样本量小且是混合变量类型问提议采用图模型的方法建立一个链图模型,直观地刻画了该药对反映机体抗氧化能力和血脂水平的4个指标的因果影响。陈浪南和陈强(2006)[5]将图模型的DAG方法应用于我国的宏观经济领域,分析我国货币、消费价格指数和生产之间的信息传导。李元等(2008)[6]将图模型方法应用于时间序列领域,提出自回归和双线性模型系数新的检验方法。
Whittaker(1990)[7]提出 Graphical Gaussian model,该模型在变量集服从多元正态分布的假设下,由全模型出发,通过似然比方法检验图模型结构,但该方法受限于原假设。Reale(2001)[8]提出利用多重检验方法确定条件独立图,但该方法不能同时执行多条边的选择,不适合实际中的应用。Talih(2003)[9]基于贝叶斯方法测定时间可变的图模型结构,并将该方法应用于美国证券市场。本文对文[9]的模型进行简化,假定图模型结构不发生变化,提出参数化和设计MCMC算法给出我国上海证券市场行业板块的图模型结构,从而为投资组合优化提供决策建议。
假定投资组合收益率向量Y=(Y1,…,Yd)T是服从多元正态分布的d维随机向量,其期望向量为 μ=(μ1,…,μd)T,协方差阵为Σ。Markowitz(1952)[10]指出,假定投资组合给定的期望收益水平为μ0,则投资组合优化决策可通过在给定收益水平下最小化风险实现,即为均值-方差有效边界。资产的最优配置wλ可通过最小化下式实现:
即wλ=λKμ,其中K=Σ-1为精度矩阵。拉格朗日乘数λ依赖于投资者的风险偏好。因此,最优权重不仅依赖于风险偏好,同时由均值向量和精度矩阵决定。
现给出多元正态无向图模型G=(V,E),其中V是节点集,E为边集,变量i和j之间的边记为(i,j)。于是在多元正态无向图模型中,我们有
因此,通过图G中可直观发现变量间的条件独立关系。
由文[9]给出参数化方法:
其中,I{.}为示性函数,(i,j)表示点i和点j之间的边,vi=max(1,#{j:(i,j)∈E}),#表示计数函数。对于θ需限定其取值范围为:θ∈(-1,1)。
在给定期望向量为零向量,精度矩阵为K的条件下,对数似然值为:
其中,X为经过中心化的n×d样本矩阵,n为样本数,d为维数。在给定样本X的条件下,可获得关于G,θ和σ的联合后验分布为:
由于直接计算公式(2)非常困难,因此,本文利用Monte Carlo模拟方法,即MCMC算法,通过大样本模拟给出参数的后验分布。我们采用了Metropolis-Hastings迭代算法来模拟其后验分布。关于Metropolis-Hastings算法的详细介绍,可参见[11]。 由文[9],假定 tan(θπ/2),log()和图 G 的先验分布均服从均匀分布。
首先考虑图G的M-H设计。保持参数θ和σ不变,限定从G从新图H至多变化1条边,则总共存在1+d(d-1)/2种变化可能,d为节点数。假设变化等概率,则设计条件密度函数如下:
q(H|G)=(1+d(d-1)/2)-1
同理有:q(G|H)=(1+d(d-1)/2)-1
因此,图G的迭代接受概率为:
保持图G,参数σ不变,考虑参数θ的M-H设计。假设tan(θπ/2)服从随机游走:
tan(θnewπ/2)=tan(θoldπ/2)+ε
其中,ε~N(0,0.81)。
最后考虑参数 σi的M-H设计,保持图 G,参数 θ和 σj,j≠i不变,并假设 log(σi2)服从随机游走:
log(σi,new2)=log(σi,old2)+η
其中,η N(0,0.0625)。
根据上述图模型,首先产生200组来自N5(0,Σ)的样本,其中多元正态分布的协方差阵由图1和以下参数所确定:
θ=0.90 σ=(1.0,1.1,1.05,1.2,1.1)
现利用MCMC算法给出30000次迭代结果(去除前300次),这29700次迭代的结果可视为由f(G,θ,σ|X)抽取的样本。图2和图3分别给出了参数θ和σ的后验直方图,结果表明的后验均值和中位数与真实参数非常接近,参数σ的后验均值和中位数相比真实参数要小些,但误差并不大。而模拟得到的29700张图全部与我们设计的图1完全一致,说明该模型成功的找到了图的结构。
下面将基于贝叶斯图模型方法应用于我国上海证券市场,研究五大板块:房地产板块指数,工业板块指数,公用事业板块指数,商业板块指数以及综合板块指数间的条件相关性。本文选取1999年7月至2007年10月上述行业板块指数的周收益率数据,共407个样本,数据来源于广发证券股票分析软件下载。虽然金融短期数据往往不具有正态性,但长期数据可以视为近似正态的,因此可近似认为周收益率数据为多元正态分布。
现利用MCMC算法给出了30000次(剔除前300次)MH迭代结果。图4和5分别给出了参数和的后验直方图,结果表明参数的后验均值和中位数基本相同,房地产板块的后验方差最大,与事实比较吻合。图6给出了唯一的图模型结构,它们很可能准确刻画了五大板块之间的本质联系。房地产板块和工业板块,房地产板块和商业板块,工业板块和商业板块,工业板块和公用事业板块,工业板块和综合板块,商业板块和公用事业板块,公用事业板块和综合板块是条件相关的。除此之外,其它两个板块之间都是条件独立的。由图6可知,与工业板块相邻的有四条边,与商业和公用事业板块相邻的有三条边,与房地产和综合板块相邻的只有两条边,说明工业板块与其它板块有较强的相关性,与实际情况相当吻合。
本文在参数化方法基础上,提出了基于贝叶斯方法的图模型理论和MCMC算法,数值模拟表明该算法是有效的。同时,基于上述算法给出我国上海证券市场五大行业板块的图结构,分析板块收益率间的条件相关性。实证研究表明,工业板块与其它板块的相关性较强,房地产及综合板块与其它板块的相关性较弱。
[1]Edwards D. Introduction to Graphical Modelling[M].Berlin Springer,2001.[2]Lauritzen S.L.Graphical Models[M].London:ford University Press,1996.
[3]刘桂梅,李胜宏.图形化模型在亲子鉴定中的应用[J].高校应用数学学报A辑,2006,21(2).
[4]赵慧,郑忠国,王伟,李晋生.中药降脂灵片药效的因果分析[J].数理统计与管理,2007,26(4).
[5]陈浪南,陈强.我国货币、价格、真实部门之间的信息传导研究[J].管理世界,2006,(3).
[6]李元,罗羡华,叶伟彰,黄香.基于图方法的自回归和双线性时间序列模型系数的检验[J].中国科学A辑,2008,38(1).
[7]Whittaker J.Graphical Models in Applied Multivariate Statistics[M].New York:Wiley,1990.
[8]Reale M.,Tunniclie G.Identication of Vector AR Models with Recursive Structural Errors Using Conditional Independence Graphs[J].Statistical Methods and Applications,2001,10(13).
[9]Talih M.Markov Random Fields on Time-varying Graphs with an Application to Portfolio Selection[D].University Yale,2003.
[10]Markowitz H.Portfolio Selection[J].Journal of Finance,1952,7(1).
[11]Robert C.P.,Casella G.Monte Carlo Statistical Methods[M].Berlin:Springer-Verlag,1999.