第二十九讲 关于留一法PRESS统计量的应用讨论

2018-09-29 02:44徐静安浦静雯许保云
上海化工 2018年9期
关键词:平方和样本量回归方程

徐静安 浦静雯 吴 芳 许保云

应国家奖励办聘任,6月15日赴北京参加2016年科技进步奖化工组评审工作。因提前一天报到,带了一本《六西格玛管理统计指南——MINITAB使用指南》,再次阅读有关统计量预测残差平方和PRESS的相关内容。这段时间借用化机所小会议室作办公室,更接近科研一线,有了更多机会和吴芳、浦静雯硕士一起学习、讨论PRESS的相关问题。

在实验研究中,拟合选定统计模型后需要分析评估回归模型的总效果:回归模型的P值,两个确定系数R2及拟合标准差S值,回归方程各个项的P值等。现在残差诊断引起重视,也关注DPS二次多项式逐步回归计算后输出的d值,MINITAB系统输出的Cp值。

统计模型预测结果评估有效的方法是对预报进行重复验证试验。数理统计中也采用“留一法”求取PRESS值对模型预报能力作出整体估计。

一 PRESS的概念

PRESS是留一法模型预测的误差平方和。对实验数据样本N留下一个——第i个实验观察点,用N-1个数据拟合回归方程,把留下的第i个观察点作为预测验证值,求出残差 。以此类推,可得

(1)DPS数据处理系统对留一法预测标准差的定义

N为样本量;

P为统计模型中因子的项数。

(2)在MINITAB系统中,根据将回归方程拟合的残差平方和SSE变换成PRESS,公式,定义为总的偏差平方和。

设想在样本量为N的实验数据中,如果某个点的存在与否会强烈影响统计模型的结构,则该点为有特殊地位的“杠杆点”“离群点”等。一般来说,样本中更多的是普通点,是以样本训练集的整体影响建立统计模型。普通点的个体、一个点对统计模型的结构影响是不显著的,对一定结构模型的参数估计的影响也比较小。这样轮番留一计算得到的残差平方和PRESS用来对统计模型的预测作整体评估。PRESS(留一法预报的残差平方和)通常要比拟合的残差平方和)大些,“但如果大得不多,则表明数据点中有特殊地位的点不多……,用此回归方程作预测结果也比较可信。”

查阅了几本专著及一些留一法应用案例,均无明确判据,PRESS比SSE大多少才是大得不多,才是可信、可接受的。

(3)讨论

在PRESS工程应用的讨论中,涉及统计模型结构型式、样本量大小、样本点在实验多维空间中分布的均匀性、样本实验点的质量(有否异常误差)等,这些因素会影响PRESS值,影响预报质量。

对于随机安排的实验,如考察因子有M个,一般多项式统计建模要求样本量N/M≥5。如果采用多项式逐步回归及适合于小样本的支持向量机回归SVR,则样本量可适当小些,但过小的样本量会影响模型的稳定性。

样本实验点中如有可疑点,应在实验过程中用重复试验予以剔除,或以平均值来降低对统计模型的特殊影响。试验结束后,采用数理统计方法进行“坏点”剔除时要慎重。

大多数试验设计(如全因子设计、正交设计等)因子水平都有重复,可以用留一法计算PRESS。均匀设计中因子水平只做一次试验,而且样本量本就偏小,N/M≥2~2.5,且少一个点对实验点的均匀性产生较大负面影响。

统计模型的结构选择对预测质量的影响更大,经常出现模型拟合效果的统计检验良好,但PRESS过大预测质量不行的情况,为此要重视统计模型的优化选择。

现在面对的问题是:

①PRESS计算时的主体模型如何选择?

②PRESS比SSE大多少,才是可信可接受的?

二 应用案例

高温假后上班第一天(8月1日),吴芳硕士推荐我阅读《MATLAB神经网络30个案例分析》。读后即网购《MATLAB神经网络43个案例分析》,其中“神经网络遗传算法函数极值寻优——非线性函数极值寻优”一文的实验数据,可作为本案例的基础数据。

其实验考察因子X1为添加物1(kg),水平为0,10,30,50;X2为温度(℃),水平为 0,5,10,15,20;X3为添加物 2(kg),水平为 1650,1700,1750;X4为反应时间(s),水平为 40,60,80。

三 二次多项式随机模型求取PRESS

浦静雯硕士采用“试错”学习,在DPS中用二次多项式逐步回归求取预报值yi,-i,已知表1的实验值y可求得计算18个随机模型的及PRESS=i见表2。

表1 实验数据

显然,采用随机模型出现了NO.5为“离群点”,可能的原因之一是该点在实验范围内为某个区域的“孤独点”,影响特殊。如在实验过程中,对该工艺条件应予以重复验证。经计算检查,该随机模型由二次多项式逐步回归求出,拟合统计量全部良好显著,就是预报ymax值及留一预测验证的δi值完全不靠谱。可见用随机模型求取PRESS放大了个别点的负面影响。

为此,根据DPS数据处理系统及MINITAB使用指导,求取PRESS需指定统计模型的主体结构。

四 (线性项+交互项)全回归模型求取PRESS

在MINITAB系统中,本案例表1指定模型为:

从统计>DOE>因子>分析因子设计窗口进入计算界面,全回归方法计算结果输出如下:

表2 随机模型计算汇总表

表2 随机模型计算汇总表

测试集序号 添加物1/kg 温度/℃ 预报值/kg 实验值/kg 1 0 0?257.036 258 0.929752684 2 10 0 274.549 272 6.498421445 3 30 0 313.502 312 2.257140104 4 50 0 358.618 363 19.20362982 5 0 5-11887.493 360 150001090.3 6 10 557.149 493 4115.077543 7 0 15 614.613 605 92.41534093 1650 40 10 10 15 1700 60 621.695 627 28.13777168 11 10 20 1750 80 276.174 406 16854.72292 12 30 5 1750 40 259.631 390 16996.13102 13 30 10 1650 80 515.400 519 12.96292384 14 30 15 1700 60 637.981 662 576.8948036 15 50 5 1650 80 377.315 456 6191.382285 16 50 10 1750 60 951.392 523 183519.6317 17 50 15 1700 60 670.732 712 1703.07129 18 50 20 1700 40 704.125 555 22238.24853时间/s 60 60 60 60 80 40 60 60 9 0 8 0 20 464.149 400 4115.073822添加物2/kg 1700 1700 1700 1700 1650 1700 1700 1750 10 10 11.428 464 204821.1033∑150462384

模型拟合质量尚可,留一法模型预报PRESS虽有大幅度改善,但趋于零,模型预报功能很差。此外,x1,x3,x1x2,x1x3,x2x4,x3x4等对响应 y 的贡献均不显著,进入模型后过拟合造成统计模型不稳定,提高了拟合效果,降低了预报质量,模型尚需改进。

五 (线性项+交互项)剔除不显著项模型求取PRESS

在MINITAB系统中,对公式(1)剔除不显著项,按四计算结果P≤0.05的项保留,指定模型为:

公式中添加物2即x3在公式(1)中P=0.94>0.05是不显著的,在MINITAB系统中因子设计的计算,其x2x3交互项是显著的,要求公式(2)中保留主成分x3,否则另行指定模型,x2x3需进行线性变换。

MINITAB系统的计算输出:

由于指定的模型结构变化,拟合、预报功能有了变化,PRESS进一步改善,但预报功能仍需改进。

公式(1)并非完整的二次多项式,加以公式(2)采用简单剔除,可通过二次多项式逐步回归求取优化模型,存在改进空间。

六、二次多项式优化模型求取PRESS

本文三中是对N=18组数据分别留一组数据N-1=17进行二次多项式逐步回归,得到18个随机模型及δi。此处是用N=18组数据进行二次多项式逐步回归获得实验范围内二次多项式的最优模型,以此优化模型的主体结构求取留一法的PRESS。

用DPS系统处理,输出:

复相关系数R=0.982962;

决定系数R2=0.966214;

剩余标准差SSE=29.0229;

调整相关系数Ra=0.975775;

调整决定系数Ra2=0.952136。

分析评估回归方程拟合的各项统计量均有显著性意义。表1单因素考察因混杂而难以分析的数据,经二次多项式逐步回归处理,统计规律具有显著意义。剩下的工作是对模型的预报进行评估,把优化模型线性变换,作为指定的主体模型结构,计算求取留一法的PRESS。

方程引入的项分别有:X3,X2×X2,X3×X3,X1×X4,X2×X3。这5个引入项线性变换重新作为5个因子(分别记为进行统计分析,见表 3。

在DPS系统中,输入表3实验数据,从“多元分析>回归分析>线性回归”窗口进入,计算输出。方差分析表

回归方程

剩余标准差SSE=29.0229

预测误差标准差MSPE=44.0679

表3 线性化处理后的实验数据

本文用了大量计算解读PRESS计算时的主体模型如何选择。浦静雯硕士同时使用DPS,MINITAB两个软件系统的不同模块进行计算校核,限于篇幅不能一一展开。现把本文选择主体模型计算PRESS的方法结果汇总于表4。

表4 方法结果汇总

从输出PRESS=23303.7123可知,模型预报质量大为改善,预测误差的标准差MSPE=44.1相当不错。

七 PRESS统计量可接受判据

本案例留一法预报的残差平方和PRESS通常比拟合的残差平方和要大,所以

分子分母自由度为N-P-1=18-5-1=12,常用显著性水平α=0.05,查单边检验F分布表,临界值F0.05(12,12)=2.69>2.31,结论是 F 统计检验相对于 SSE,PRESS没有显著性差异。用留一法PRESS值来对统计模型的预测作整体评估,在本案例中是可信、可接受的。

在神经网络、支持向量机中,也有类似留一法PRESS的LOO-CV方法,把所有样本N均作为训练集用于训练模型,得到的模型最接近原始样本的分布,然后再逐次留一作预报,评估结果比较可靠。吴芳硕士用MATLAB软件对此进行了BP-LOO-CV、SVR-LOO-CV计算PRESS的工作,另作专题讨论。

最近科技界有颇多的热点。2016年3月Deep Mind团队开发的Alpha Go在人机大战中以4∶1的成绩击败围棋世界冠军李世石,具有里程碑意义。人们对人工智能(AI)具有的潜在颠覆性有了新的认识。Alpha Go应用了13层的深度神经网络、蒙特卡洛搜索树计算技术以强化学习等。机器学习人工神经网络技术值得我们学习、关注。

NgAgo基因编辑技术的可重复性、成功概率、细胞污染实验误差的可控制性引起科技界的一片争议之声。对此结合上海化工研究院的科研工作,编写了2016年第7讲“统计模型优化预报的验证”以及本文“关于留一法PRESS统计量的应用讨论。”

笔者在2012年曾和许保云博士对PRESS尝试过计算解读,本次学习研讨有了进一步认识,也占用了年青朋友的一些业余时间。在此抄录一段爱因斯坦语录以作共勉:

人的差异产生于业余时间。业余时间能成就一个人,也能毁灭一个人。

猜你喜欢
平方和样本量回归方程
医学研究中样本量的选择
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
走进回归分析,让回归方程不再是你高考的绊脚石
费马—欧拉两平方和定理
航空装备测试性试验样本量确定方法
利用平方和方法证明不等式赛题
勾股定理的扩展
关于四奇数平方和问题