金 林
(中南财经政法大学 a.工商管理博士后流动站; b.统计与数学学院,湖北 武汉 430071)
【统计理论与方法】
改进的Gompertz模型参数估计方法比较研究
金林a,b
(中南财经政法大学 a.工商管理博士后流动站; b.统计与数学学院,湖北 武汉 430071)
讨论改进的Gompertz模型两种参数估计方法:三和法和非线性最小二乘估计法,并通过蒙特卡洛实验比较两种估计方法的精度和收敛率,得出非线性最小二乘估计法在估计精度和估计的成功率两方面都优于三和法的结论;利用Gompertz曲线拟合中国电影票房数据并对其未来发展作出预测:中国电影票房最终可以在2025年左右到达饱和状态,饱和状态总规模大约为1 676.5亿元。
Gompertz; 参数估计; 比较研究; 中国电影票房; 预测
Gompertz曲线是一条S型曲线,最先是由英国数学家、精算师Benjamin Gompertz于1825年在研究人口死亡率时提出的[1]。Gompertz曲线最先被保险公司用来计算人寿保险的成本,Gompertz曲线形状的特征是开始增长较慢,然后经历一段较快的增长,最后增长又趋于缓慢。Gompertz函数常见的形式可以表示为:
yt=abct(t=0,1,2,…,T)
其中y表示所研究的对象;t表示时间;a、b、c是参数。根据指数函数和S型曲线特征的要求,参数的取值范围为:a≠0,01;y的取值范围为:当a>0,则0 由于Gompertz曲线范围的一端总是x轴,这与一些实际情况不符。在实际应用过程中为了突破这个限制,更大发挥Gompertz模型的作用,可以对Gompertz曲线进行修正,给其增加一个垂直平移项参数d,这样就得到了改进的Gompertz曲线: yt=d+abct(t=0,1,2,…,T) (1) 图1展示了几个Gompertz具体函数和改进的Gompertz具体函数的曲线形状变化,其中(a)图是在b=0.2、c=2,a分别取2、1.5和-2时的Gompertz曲线;(b)图是a=-2、c=2、d=5,b分别取0.2、0.5、0.9得到的改Gompertz曲线;(c)图是a=-2、b=0.2、d=5,c分别取1.5、2、5得到的曲线;(d)图是a=-2,b=2,c=2,d分别取3、5、6时的曲线。 由于在自然界和社会现象中很多事物的发展都具有与Gompertz曲线类似的特征,因此Gompertz模型被广泛用于包括经济问题预测、产品可靠性研究、软件质量测试和生物种群生长预测等各个领域。王旖旎运用Gompertz模型研究了汽车拥有率和人均收入之间的非线性关系,并利用估计的模型对中国的汽车需求量进行了预测[2];古继宝等利用Gompertz模型对中国各省(市)民用汽车保有量和拐点进行了预测[3];柳卸林等认为Gompertz模型最适合估计影响中国移动电话扩散的决定因素[4];余闯等建立了Gompertz沉降-时间预测模型,并认为该模型在路堤沉降预测中具有合理性和实用性[5];兰月新等通过构建Logistic模型和Gompertz模型研究了居民收入两极分化程度[6];王国刚等采用Gompertz模型、基尼系数及空间计量模型,从全国和省域两个尺度系统考察了肉牛产业发展的阶段及空间分异特征[7];任卫军等利用Gompertz模型对软件产品质量和测试过程进行了定量预估[8],从这些文献发现Gompertz模型的应用范围非常广泛。 图1 Gompertz曲线和改进的Gompertz曲线图 应用Gompertz模型一个重要的问题就是模型的参数估计问题,目前Gompertz模型参数估计常用的两种方法是“三和法”和非线性最小二乘法。金开正较早对Gompertz曲线拟合方法进行了探讨[9];也有学者对Gompertz模型参数估计进行了一定研究,朱珉仁提出了Gompertz曲线最小二乘估计法初始值的一种确定方法[10];尹瑛等提出了改进的Gompertz模型参数估计的非线性回归最小二乘法[11];叶宗裕对非线属于 回归模型参数估计方法进行了研究,结果表明当误差项满足经典假设时,非线性最小二乘估计量具有与线性最小二乘估计类似的、近似的特性[12]胡晓华等提出了一种估计Gompertz曲线参数的新方法[13]。本文讨论改进的Gompertz模型在两种方法下的参数估计,利用蒙特卡洛模拟方法对Gompertz模型的两种参数估计进行比较,并给出Gompertz模型的一个应用。 (一)三和法 对于函数(1),将d移到等号左边,然后两边同时取对数有: ln(yt-d)=lna+lnb·ct (t=0,1,2,…,T) (2) 将T+1个数据分为三组,当数据个数不为3的倍数时,可以截去头部或者尾部的1个或者2个数据,使数据个数为3的倍数。现假设T=3n-1,将数据分为{yt,t=0,1,2,…,n-1},{yt,t=n,…,2n-1}和{yt,t=2n,…,3n-1}三组,分别用S1、S2、S3表示三组数据代入公式(2)后求和,则S1、S2、S3可以表示为d的函数: 根据以上公式可将a、b、c表达为d的函数: 再使用初始约束条件,也即当t=0时,有: y0=d+ab 根据上式就可以解出a、b、c、d的值。 (二)非线性最小二乘法 Gompertz模型属于非线性回归模型的范畴,因此可以采用非线性回归模型的参数估计方法来估计Compertz模型及改进的Compertz模型参数。非线性回归模型一般采用非线性最小二乘方法来估计参数,下面就使用最小二乘法来估计改进的Compertz模型参数。 对于改进的Compertz模型,其残差平方和为: (3) 使残差平方和RSS最小的a、b、c、d取值就是最小二乘法得到的参数估计。在线性回归模型中,一般直接求RSS对各个参数的偏导数,并令其为0得到正规方程组,解正规方程组就可以得到线性回归模型中参数估计的解析解。由于Compertz函数是非线性函数,致使式(3)右侧对a、b、c、d的偏导数形式非常复杂,因此难以从正规方程组得到a、b、c、d的解析解,这时一般采取迭代算法得到使残差平方和RSS最小的a、b、c、d数值解。 在求非线性最小二乘求残差平方和RSS最小值时,应用最广的迭代算法是高斯-牛顿算法,令: 则高斯-牛顿算法的基本步骤为: 1.给定a、b、c、d的初始值并将此时的β记为β(0)。 2.根据递推公式由β(s) 其中矩阵Jr为向量函数r对β的雅可比矩阵,即: 3.递推步骤2中的公式直至满足以下条件之一时停止: 1)残差平方和小于给定的误差水平。 2)迭代次数达到给定的最大次数。 高斯-牛顿算法收敛时β(s+1)的值就是Gompertz模型的参数估计值。 使用高斯-牛顿算法估计非线性回归模型参数时一个重要问题就是参数初始值的选取问题。初始值选取的好坏不仅决定着算法能否收敛得到参数估计值,还决定着收敛速度,而选择初始值可以从非线性回归函数的性质、回归函数导数的性质、对回归函数进行变量变换和缩减维数等方面进行考虑,Bates和Watts详细讨论了非线性回归参数估计过程中初始值选择问题[14]72-76。 在实际使用Gompertz模型及其改进模型时,由于三和法计算相对比较简单,可使用Excel或具有编程功能的统计软件来实现,而非线性回归迭代算法在一般统计软件中都有非常成熟的实现。例如在SPSS软件中可使用“非线性回归”模块来估计;在STATA软件中可使用nl命令估计非线性回归;在SAS软件中可使用PROCNLIN模块来估计;在R软件中可使用nls函数来估计非线性回归模型。下面就用R软件分别利用三和法和非线性回归迭代算法估计改进的Gompertz模型参数。 一次或者几次估计结果难以说明哪种方法精度更高,故需要综合考虑在不同的情况并重复足够多的次数情况下才能说明哪种方法精度更高。因此,为了比较Gompertz模型参数估计两种方法的精确性,需要设计一个蒙特卡罗模拟实验。 (一)实验设计 对参数a,b、c分别设定两个不同的参数值,a分别取0.5和2、b分别取0.2和0.9、c分别取0.3和0.7,d对参数估计的影响不大,只取2一个值。一个影响估计过程的重要因素是数据中随机因素的大小,这个因素可以在生成数据时通过设置随机项的标准差来控制,但这个标准差是一个相对值,一般会随y值中的变异程度改变而改变,这里给函数生成值标准差3种不同的倍数(分别为0.5,1,2)来设置随机项标准差的大小。此外,分别考虑期数T取18和36的情况。根据上面的设置,一共存在48种不同的组合,在每种组合下重复随机生成N=1 000数据,并分别使用三和法和非线性最小二乘法进行估计,其中非线性最小二乘估计方法中的初始值选择采取nls函数的默认方法。 在此用均方误差的平方根(RMSE)来反映参数估计的精确度。对于不同的数据,两种方法都有可能出现无法估计参数的情况:三和法的主要问题在于几个和的差有可能是负数导致无法求开方,而非线性最小二乘则有可能出现不收敛的情况。这里使用参数估计成功的次数占总次数的百分比,也即收敛率来反映方法的稳健性。 (二)比较结果 期数T取18和36时的蒙特卡洛随机实验结果分别见表1和表2。两个表中的NLS和TRI分别表示非线性最小二乘估计法和三和法。从精确度上看,在所有48种情况下,非线性最小二乘估计法的均方误差平方根(RMSE)都比三和法的均方误差平方根小得多,也即非线性最小二乘估计法得到参数估计精度都明显高于三和法的估计精度;从估计的成功率看,在T=18时出现两种情况,三和法估计的成功率高于非线性最小二乘估计,而其余所有情况都是非线性最小二乘估计法的成功率高于三和法;在T=36时,在所有情况下非线性最小二乘法的成功率都高于三和法。总之,非线性最小二乘估计法无论是估计精度还是估计的成功率都明显优于三和法。因此,在估计Gompertz曲线参数时候,应尽量使用非线性最小二乘估计。 此外,还可以通过实验结果观测到时期数、随机项标准差大小和参数取值对估计结果的一些影响。对比T=18和T=36的实验结果,无论是使用非线性最小二乘还是三和法估计参数,T=36时估计精度和成功率都要优于T=18的情况,这说明样本越大估计精度越高,估计的成功率也越高。对于不同随机误差项的标准差,发现随着标准差的变大两种方法的估计精度和成功率都大致在下降,这说明随机误差项变异性越大参数估计结果变得越来越不稳定,而对于参数a、b、c的不同取值,从实验结果中难以发现有规律性的东西。 表1 随机实验结果表(期数T=18) 表2 随机实验结果表(期数T=36) (一)背景和数据 最近几年,中国电影市场发展迅猛,中国电影票房每年以高于20%的速度递增,2015年中国电影票房超过400亿元,1998—2015年中国电影票房数据如表3所示(数据来源于《中国统计年鉴》)*中国电影市场开放于1994年,但1995—1997年没有较为可靠的中国电影票房统计数据。。从数据来看,目前中国电影市场正处于快速增长阶段,中国电影市场何时将达到饱和状态?到达饱和状态时的中国电影票房将会是多大规模?这些问题具有重要意义。从其他电影市场成熟的国家发展轨迹来看,电影票房的增长规律近似于一条S型曲线,因此可以使用改进的Gompertz曲线来拟合中国电影票房数据,并对未来作出预测。 表3 1998—2015年中国电影票房表 单位:亿元 (二)模型和预测 下面就用Gompertz曲线对数据进行拟合,考虑到数据的图形走势和Gompertz曲线的形状,提出以下具体模型: yt=d+a-abc(t-I)+εt 其中y表示票房,t表示从1开始时期标号,d表示起始水平,εt是随机误差项。结合数据走势,Gompertz函数采用了y=a-abbt的形式。此外,为更好地估计曲线,对时期标号t向后推移I期,I的具体值由试错法给出,也即找到最小的均方误差对应的I值. 图2 中国电影票房散点图和拟合的Gompertz曲线图 使用R软件中的nls函数估计模型中的参数,有: 此时模型的均方误差平方根(RMSE)为19.12,数据的散点图和拟合的Gompertz曲线如图2所示,其中水平虚线是1 700亿元水平。从图2可以看出:如果中国电影市场大的环境不改变,再经过10年的快速增长,中国电影票房最终可以在2025年左右到达饱和状态,饱和状态规模大约为1 676.5亿元,此后中国电影票房规模则增速变慢。 [1]Gompertz B. On the Nature of the Function Expressive of the Law of Human Mortality, and on a New Mode of Determining the Value of Life Contingencies[J]. Philosophical Transactions of The Royal Society of London, 1825, 115. [2]王旖旎. 中国汽车需求预测:基于Gompertz模型的分析[J]. 财经问题研究, 2005(11). [3]古继宝, 亓芳芳, 吴剑琳. 基于Gompertz模型的中国民用汽车保有量预测[J]. 技术经济, 2010(1). [4]柳卸林, 吴丰祥, 朱文伶. 中国移动电话扩散的驱动力及预测模型研究[J]. 中国软科学, 2009(6). [5]余闯, 刘松玉. 路堤沉降预测的Gompertz模型应用研究[J]. 岩土力学, 2005(1). [6]兰月新,李育安,苏国强. 基于数学建模的收入定位模型研究[J]. 统计与信息论坛, 2014(7). [7]王国刚, 王明利, 杨春. 中国肉牛产业发展的阶段识别及时空分异特征[J]. 经济地理, 2014(10). [8]任卫军, 贺昱曜, 张卫钢. 基于Gompertz模型的软件质量与测试过程评估[J]. 计算机工程与应用, 2008(9). [9]金开正. GOMPERTZ曲线拟合方法之探讨[J]. 农业技术经济, 1991(4). [10] 朱珉仁. Gompertz模型和Logistic模型的拟合[J]. 数学的实践与认识, 2002(5). [11] 尹瑛, 徐吉辉, 端木京顺. 基于非线性回归最小二乘法的改进Gompertz模型参数估计[J]. 空军工程大学学报:自然科学版, 2005(6). [12] 叶宗裕.非线性回归模型参数估计方法研究[J].统计与信息论坛,2010(1). [13] 胡晓华, 虞敏, 吉承儒. Gompertz曲线参数估计新方法(英文)[J]. 数学理论与应用, 2011(2). [14] Bates D M, Watts D G. Nonlinear Regression Analysis and Its Applications[M]. New York: John Wiley & Sons, Inc., 1988. (责任编辑:郭诗梦) A Comparative Study of Modified Gompertz Model's Parameter Estimation Methods JIN Lina,b (a.Post Doctoral Mobile Station for Business Administration; b.School of Statistics and Mathematics, Zhongnan University of Economics and Law, Wuhan 430073, China) This paper mainly discusses two parameter estimation methods of modified Gompertz model:three-sums method and nonlinear least squares estimation method, and through Monte Carlo experiments the two estimation methods are compared in terms of estimation accuracy and success rate, we conclude that nonlinear least squares estimation method is superior to three-sums method in both estimation accuracy and success rate. Moreover, the paper also uses Gompertz model to fit the Chinese film box office data and forecasts its future development. Gompertz; parameter estimation; comparative study; Chinese film box office; forecast 2016-02-26;修复日期:2016-06-06 国家社会科学基金青年项目《广义可加混合模型及其应用研究》(14CTJ011) 金林,男,湖北黄冈人,统计学博士,博士后,讲师,研究方向:统计方法及其应用。 F224.0∶O212.1 A 1007-3116(2016)09-0017-05二、改进的Gompertz模型参数估计方法
三、估计方法比较
四、应用:中国电影票房预测