朱鹤年 肖志刚
(清华大学物理系,北京 100084)
周光召先生在1999年10月说:“为什么本世纪最重要的物理学发现又恰恰在德国的土地上发生?”他归纳为3点:首先德国人非常重视实验和实验数据的分析;第二个特点就是德国有很强的数学传统;第三个是德国有非常强的哲学传统.次年《物理》杂志刊登该讲话时的题目是《希望在中国产生诺贝尔奖获得者》.
2011年1月science主编Alberts B.在短文“《科学》杂志新设的一种教学奖”中,批评了以往大学本科的科学教育,谈及亲历体会时说:“既没有掌握对科学本质的真正理解,也没有获得关于产生和评估科学证据及其解释的任何经验,而这两点才是现代意义下‘科学教育’最核心的要素.许多学校至今仍然一成不变地保留着这种缺憾.”
以上两段精辟论述,是我们在教材、讲课中多次引用的.拙作冠以“新概念”的定语,想表达两重含义:(1)重视物理实验分析与经验证据评估,以新视角撰写了相关内容,重组了物理实验中数据处理与经验证据评估新架构;(2)介绍积木式组合实验的做法,大多数实验包括基础性内容以及多个带探索性的层次,用基本仪表器具作积木式组合来完成.下文介绍我们在重组实验数据处理与经验证据评估新架构的探索要点或特点.
1)指出除随机误差具有随机变量的特性之外(严格随机性),未定系统误差也常常具有一定的随机性(近似随机性).
2)这两种随机性是A、B两类不确定度分量方和根合成规则赖以基本成立的基础,也是一系列理论统计学的方法、概念能应用、借用于经验证据评估体系的基础.
3)未定系统误差的近似随机性,决定了宏观测量实验数据分析中所用的应用统计学概念、方法的近似性,导致了现代误差理论、不确定度评定、经验证据评估体系架构的非公理化特征.理论统计学与应用统计学之间的暗隙少有问津,明示暗隙可架桥.
在不包含微观、宇观的一般测量中,除极少数用比较测量仪器的比较测量外,影响结果准确度的主要是系统性误差分量.与此大致对应,不确定度评定中的主要分量是用非统计方法估计的B类分量.
1)未定系差影响像“西瓜”,随机误差影响像“芝麻”.
2)“纯”测量误差大多不是严格的正态分布.宜弱化与正态分布有关的教学内容,例如对t分布可像标准GB 3360那样作简介.
3)非单次直接测量时,与合成不确定度Up或uC关联的大多不是直接测量量的测量误差分布,而是平均、回归、组合测量等给出的最佳估值的可能分布.考虑被测对象体现值可能波动的原分布,测得值分布是原分布与测量误差分布的卷积,最佳估值的可能分布主要由测得值分布及计算评估方法而定.因此直接影响Up或uC的不是测量误差本身,基础教学中要弱化误差分布的内容,突出误差的随机性、大多有抵偿性等特征.
4)多数测量对象的约定真值或参考值未知,不能计算误差,因此要评定不确定度.
5)科学研究、工程技术、商贸医卫、环境安全、生产管理、质量监保等领域的测量大多是一般测量,不同于基本物理量研究及计量基础研究这些象牙塔上的测量工作,这是一般数据处理规范方法的主要基点.
6)一般测量相当多的为单次,不能直接计算A类不确定度,要重视B类分量的评定.
7)大多数测量结果的报告要求给出足够可靠,即具有高置信概率(水平)的合成不确定度Up,只有少数基本物理量研究与计量学基础性研究或技术中要求给出合成标准不确定度uC及其有效自由度νeff.这里±uC对应的置信概率约为2/3而非0.683.
8)测量离不开仪表器具选择或测量装置搭建,也需对测量条件、环境参量、其他影响量或输入量以及其变化过程进行局部控制.测量设备准确度参量大多仅知道高置信概率的限值,如最大允许误差(MPE)或误差限,各输入或控制参量的准确度大多也用高置信概率的极限值或不确定度UBj表示,一般不能获知其分布特征.由UBj估算合成uC用的B类分量uBj时,常约定用使uBj略有放大的均匀分布包含因子
这8个主从关系,是物理实验与一般测量中数据处理体系架构的重要“实在”基础.
统计学是现代误差理论、不确定度评定、经验证据评估体系架构的基础,但是易被忽视,更需重视的基础是实验物理、计量与仪器仪表领域的实在,包括实际规律、实际需求、实际对象、实在条件环境、实在仪器方法以及完善中的实在标准、法规与规范.在物理实验教学中,学生除了要会使用基本的数据处理方法外(对一些提高性方法只需会套用),还要理解如下要点:
1)决定数据分析与处理的方法体系的是:实验物理与测量的客观实在与统计学.
2)误差的普遍性原理.由于仪器设备不准确、方法原理不完善、环境条件不稳定、人员操作不熟练等因素,任何测量结果都可能有误差.虽然一般不能计算误差,但能(1)分析误差产生的主要或不可忽略因素;(2)基本消除或减小某些误差分量的影响;(3)对未能消除的主、次要误差分量,估计其标准差或极限值等特征值,进而评定不确定度.
3)误差是小量,有随机性,包括随机误差的严格随机性和未定系差的近似随机性.
4)方和根合成方法.相近置信概率的误差分量特征值综合时,或不确定度分量综合时,约定用方和根合成的方法.它是1980年BIPM咨询多国计量院所后的重要约定.
5)系统误差分量影响像“西瓜”.不包括宇观、微观领域的大量一般测量的实践表明:除了极少数用比较测量仪器的比较测量之外,系统误差分量对测量结果的影响,常显著地大于随机误差分量的影响.因此大学实验要重视对系差的分析处理,尽量减小系差对结果的影响:(1)修正已定系差;(2)评定B类不确定度分量(大致对应于未定系差分量);(3)多环节减小系差影响,包括方案选择、参数设计、计量器具校准、环境条件控制、计算方法改进,使未定系差分量随机化等.
6)最小二乘法(LSM)原理:使等精密度量yi的残差平方和为极小值.用LSM为充分利用测量有效信息,减小误差影响.残差vi是yi与其平均值、拟合预报值等“最佳”估值之差.
7)方和根合成的微小分量判据.方和根合成时如某分量小于最大分量或结果估值的1/5~1/6,就可看作可忽略微小分量.
8)不确定度或误差限值决定修约间隔进而决定有效位数.修约间隔的选择,为保证结果的不确定度基本不因舍入而增大,也为少做无用功或避免被误解.有效位数只能在一定程度上反映量值的不确定度.
9)高置信概率参量表示的普遍性.一般结果表示中要求量值的不确定度有高置信概率,即有高可靠性.一般仪表准确度指标与条件控制等参量指标也用极限值表示.
10)随机误差大多有抵偿性,由此导出以重复测量的算术平均值作为最佳估值,算术平均值原理曾是老误差理论的重要命题之一.在相同条件下对同一稳定被测量的多次重复测量中,随机误差分布常满足一定的统计规律:随机误差分布绝大多数有“有界性”;大多数有抵偿性;相当多的有单峰性.这里用了模糊表述,因为正态分布无界,余弦分布期望值非零,均匀分布无单峰性.
10个命题中第一个是基础性、哲学性的;误差普遍性、误差是小量有随机性、系差重要性,大多有抵偿性、高置信概率表示的普遍性.这5个命题是源于实际事实;方和根合成是参考统计学理论的国际约定;微小分量判据能由方和根合成、误差是小量导出;LSM原理是统计学的重要命题;有效数字修约方法可由修约间隔的标准与微小分量判据导出.
由中心极限定理推导时用的误差分量“足够多、均匀小”的前提缺乏哲学依据与实际依据,相当多的测量仪器的测量误差分布实例也不服从(严格的)正态分布.JCGM 颁布的“VIM3-rded.”所定义的测量误差通常不包括均值或回归估值等的误差[1].
质疑几种统计离群值(高度异常值,俗称粗差)的传统判据,如
3s法.3≤n<11时3s法检出率恒为零.n>19时正态样本的剔除率可能高于1%而背离国标GBT_4883.n=11~13时正态样本检出率也小于0.10%,显著小于“原理”预期0.27%.
肖维勒(Chauvenet)判据也有逻辑性错误:因为正态总体下n=3,4时剔除率恒为零;n>4又可能使正态样本的剔除率高于10%.
标准推荐用Grubbs判据,它在异常值也属于正态总体的假设下是严密的,但是高度异常值常常不能看作与数据主体源自同一总体.判断异常值一般为更好估计总体均值μ与总体标准差σ,对源自正态总体的样本用蒙特卡洛法(MCM)计算表明,Grubbs判据将使μ与σ估值质量变差.另外,一些教材给出的G0.99只是单侧临界值,G0.95不能用于剔除判断.
我们导出了统计允许限因子的高准确度计算式,构建了正态分布前提下用统计允许限的新判据,提出了直线拟合时的初步判断据、二次回归中的粗略判据,判断的特征量及临界值用填数式EXCEL工作表算出.
直线拟合等回归组合测量中,自变量要选多点散布值,这是实验设计三原则:“局部控制,重复,随机化”的体现.直线拟合时,如果因变量只有独立同分布随机误差,测等距散布的n点求LSM的斜率b1,与集中直线两端各测n/2点用平均值之差所得斜率相比,斜率标准差sb1期望值之比为.反证法表明多点散布测量主要为了减小有随机性的未定系差.
LSM之于统计学就好比微积分之于高等数学.LSM离不开因变量yi的误差是独立、同分布随机变量的假定,即高斯-马尔科夫(G-M)假定.多数专著在阐述直线拟合时都用 Working-Hote-ling置信带公式,作为平均值的置信区间,也有陈希孺、Weisberg S.等少数学者未引此式.W-H式会导致斜率等参量的标准差随自由度增加而趋于零的逻辑性瑕疵.既然拟合的主要目的非为减小随机误差影响,而未定系差分量影响通常像“西瓜”,它虽有一定的随机性,但不满足独立、同分布假定,常常也不能看作是随机变量.考虑到回归的因变量标准差sy中已经包含了yi随着自变量xi不同而有一定随机性的未定系差影响,我们对W-H公式作了调和性拓展,再综合考虑yi具有的B类扩展不确定度Uyi对拟合参量的影响,初步提出了较全面计算拟合参量标准差或不确定度的扩展近似算式.
ISO与国家标准GB 8170规定:修约间隔只能等于1、0.2或0.5乘以10的整数幂.将此等式与从严控制的微小分量判据的不等式联列,就能导出独立测量结果有效数字表示的一般规则.对回归或其他组合测量的结果,由于参量间不独立有相关性,其标准差的有效位数常多于1~2位.有效位数处理要抓两头放中间,即关注原始数据读取和最后结果表示,中间运算过程不作修约.
现有3类架构:(1)不确定度架构,以《测量不确定度评定指南》(GUM)为代表,用标准差形式的分量合成[2];(2)“经典”误差理论架构,以中国计量院(NIM)向BIPM的建议信为代表,一般测量中用极限值分量合成[3];(3)不确定度分量的MCM合成法[4].我们研究分析了3类架构,揭示了GUM方法的隐含假定及其与NIM建议方法的相通本质,也揭示了几种架构的规范文件或其案例中的若干逻辑上不自洽的瑕疵或局限.
创建了第4章所述的不确定度分量合成的综合技术法(THM).用广义正交矩阵变量解决了n个输入量有n(n+3)/2个一、二次项偏导数的多元回归求解难题.综合3类架构的优点,创建了THM的通用EXCEL工作表,可适用于1~24分量的绝大多数合成计算问题,使一般测量人员和大学生从复杂概念体系和数学计算过程中解脱出来.
基于上文所述架构,我们提出了几种新的数据分析评定具体方法,如直线拟合的经验调和法、用数字面板表相对比较测量时定值倍率系差减消法、钟形线型分析中的未定系差随机化法等.综合运用改进后的体系设计实验步骤、优化分析方法,在多个基础实验的定量研究结果中,使仪器的分辨率与准确度被榨干到最后一滴,让学生体会到“重视实验与评估、物理和数学结合”的重要性,也打破了对科研实验、高端仪器的神秘感.
在教材[5]中,我们较系统地综述了测量实验设计的要点与思路.依据国内外计量学、仪器仪表学方面的新进展、新规范,学习借鉴统计学的成果,我们还做了一些正本清源的努力,对相关教材中较普遍的一些欠逻辑性或与实际相悖的概念、命题或方法作了评析或修正,力求教学内容的科学性与规范性.如:(1)纠正了专著、教材中B类分量自由度约定取1的错误.(2)阐明逐差法只是简化拟合法自变量等间距的特例,其适用范围窄,与LSM相使比自由度减半而增大了拟合结果参量的分散性及其不确定度,指出大学物理实验中不宜再使用这一国外文献中罕见的方法.(3)引述国内外统计学专著指出相关系数不能独立地用于拟合(回归)质量的判断.(4)指出了在一些高次(或多元)模型的建模中,不能仅以残差平方和大小判断模型优劣或增项的必要性,需对各回归系数bi由作sbi/bi显著性检验.
基于课程的基础性与实践为主的特征,对基础物理实验中的不确定度评定,我们还主张多数实验通过不同环节体现重视误差分析的理念,但不要求评定不确定度;部分实验只算A类或B类分量;仅安排少数几个实验做全面评定的练习.全面评定时只要求会用或会套用相关的方法步骤,同时强调要重视这些方法的应用范围、主要假定或前提,对其导出思路或过程只要求初步理解或大致了解,首次绪论课上我们只讲怎样做,在数周后的大课上再归纳讲解非公理化方法体系的导出思路.
[1] ISO/IEC GUIDE 99:2007(E/F).International vocabulary of metrology—Basic and general concepts and associated terms(VIM),3rded..简称为 VIM.
[2] JCGM 100:2008.Evaluation of measurement data—Guide to the expression of uncertainty in measurement.简 称GUM.
[3] 朱鹤年.新概念物理实验测量引论:数据分析与不确定度评定基础[M].北京:高等教育出版社,2007:94-96.
[4] JCGM 101:2007.Evaluation of measurement data—Supplement 1to the “Guide to the expression of uncertainty in measurement”—Propagation of distributions using a Monte Carlo method.
[5] 朱鹤年.基础物理实验教程——物理测量的数据处理与实验设计[M].北京:高等教育出版社,2003:163-223.