罗 烨
遵义生态环境监测中心,贵州 遵义 563000
环境监测数据是客观评价环境质量状况、反映污染治理成效、实施环境管理与决策的基本依据。环境监测数据质量是环境监测工作的“生命线”。监测活动出具的每一个数据都会涉及数值修约问题,对数据进行科学合理的数值修约是保证监测数据质量的重要手段,因而对待数值修约应当科学严谨。虽然相关标准对某些监测数据的修约作了一些规定,大家也早已将“四舍六入五成双”的舍入规则烂熟于心,但在现实的监测报告或者科研论文的数据记录过程中,往往会出现各种各样的修约问题。比如,某研究测定的大气颗粒物PM2.5样品中的12种全氟化合物的日均总浓度为131.63~578.53 pg/m3[1],某研究统计的某经济技术开发区2021年2—4月的VOCs体积浓度为(146±40.1)×10-9[2],某方法在线监测环境空气中的甲醛的检出限为0.045 4×10-9[3],某方法测定水中双酚A的检出限为2.0 ng/L[4],某方法测定水中30种农药的相对标准偏差为4.4%~21.2%[5],某检测水中低浓度氨氮方法测定实际样品的回收率为102.5%~115.0%[6],某监测报告记录的分光光度法测总氮的校准曲线为y=0.001 1x+0.03(r=1.000 0)等。上述数据均存在不合理的数值修约问题。笔者认为,造成各种监测报告及科研论文中的数据记录和填报不规范的原因主要有两点:一是分析人员主观上对数值修约不够重视,很少花时间和精力学习及理解数值修约规则;二是现在并没有专门、完整的标准规范对环境监测所涉及的各种数据的数值修约方式作统一指导。基于此,本文旨在探析数值修约的内涵和原则,并总结环境监测工作中常用数据的数值修约规则。
数值修约是指通过省略原数值的最后若干位数字,调整所保留的末位数字,使最后得到的值最接近原数值的过程[7]。笔者认为,数值修约其实包含了两方面的内容:一是修,是保留几位的问题;二是约,是如何舍入的问题。
数据处理过程面临的首要问题往往是数值到底应该保留几位数字。如果一个数值只是参与中间计算过程而不需要记录,那就不需要对其进行修约。一般的测定结果(尤其是仪器分析的测定数据)往往位数较多,如果需要对该数值进行记录或者填报,那就必须要考虑如何确定数值有效位数的问题。
谈到数值的舍入规则,一般大家都只知道“四舍六入五成双”,但在实际的监测数据记录、计算和填报工作中,并不是所有数值都是采取“四舍六入五成双”的方式,比如校准曲线的相关系数采用的是“只舍不入”,而分析方法检出限采用的是“只入不舍”。因而针对不同类型的数据,不可一概而论。
通常,对数值的修约要使得最后得到的值最接近原数值,也就是说要以准确性原则为准。但是在实际工作中,还会遇到大量的质控性数据,如相关系数、分析方法检出限、相对偏差、相对标准偏差、相对误差、不确定度等。一般对于这类数据,并不是一定要求其测得多么准确,而是要采取合适的修约方式,以不降低数据的置信度为准。从某种意义上来说,就是要保证数据在最不利情况下的可靠性。鉴于上述分析,笔者总结了数值修约的两条基本原则:一是准确性原则,二是保守性原则。
准确性是监测数据的“五性”之一,也是数值修约的第一原则。监测数据的修约不能影响到最终测定结果的准确性。
数值的舍入规则对于保证数据的准确性非常重要。“四舍五入”是我们过去熟知的舍入规则,而现在大家更加认可的是“四舍六入五成双”[7],尤其是在需要对大量数据进行统计处理时,相比于“四舍五入”,“四舍六入五成双”不会造成正误差的累积,进而避免了系统误差的产生[8]。“四舍六入五成双”的舍入规则目前已被包括环境监测行业在内的各行各业采用。因为该舍入规则已为大家所熟知和掌握,所以本文不再赘述。
一般来讲,数值的有效位数越多,数值就越准确。但是从科学严谨的角度来看,也要考虑构成数值的每个数字是否真的有意义。在现实的样品监测报告或者科研论文中,经常会发现很多指标的测定结果保留了4位以上的有效数字,但其实很多都是不严谨的。例如,在对水体或者土壤中的污染物含量进行分析时,即使一个分析方法的准确度很高,在采样、运输、保存或者分析过程中都会引入一定的误差,造成测定结果的不确定性。如果一个样品的测定结果的相对不确定度是1%,那么就可以认为这个分析结果是相对准确的。在测定结果的相对不确定度为1%的情况下,测定结果一般最多保留3位有效数字,这其实已经考虑到了第3位数字的可疑性。如果测定结果保留4位以上有效数字,那么就要保证分析结果的相对不确定度低于0.1%才有意义。另外,检出限的修约也是一个容易被忽视的问题。很多科研论文甚至很多现行标准中的方法检出限保留了2位以上的有效数字。我们都知道,一个在检出限附近的值是测不准的,其实检出限本身也是不准确的。检出限保留太多位的有效数字不仅不能使监测结果更加准确,甚至还会给实际的分析工作带来一些困扰。
一些特殊的中间计算参数,如校准曲线的斜率、平均相对响应因子等,其数值的有效位数会对最终测定结果的准确性产生影响,因为这类数值的有效位数可能会决定最终测定结果的有效位数。一般环境监测指标的测定结果要求最多保留3位有效数字,因此,这些中间计算参数的有效数字不能少于3位,多取1位有效数字(保留4位)较为合适。以斜率b为例,其对测定结果的影响很大。现有校准曲线y=0.010 43x+0.001,测得某样品的吸光度值为0.401,则应算得样品浓度x=38.4 mg/L。但如果取y=0.010x+0.001,则算得x=40 mg/L。过度修约导致最终的计算结果增加了4.2%的误差,而这本来是完全可以避免的,却因为不合理的修约导致最终结果出现偏离。
为了使监测获得的数据具有更高的置信度,对于某些能体现分析方法稳定性或监测人员技术水平的质控性数据,如校准曲线相关系数、分析方法检出限、相对偏差、相对标准偏差、相对误差、不确定度等,应采取保守性原则进行修约。这种保守性是指站在监测人员的角度对数据进行审视时,应对测得的数据保持足够的怀疑,从而在数值修约时通过合适的舍入方式使数据更加可信。
例如,参照《环境监测分析方法标准制订技术导则》(HJ 168—2020)附录A对某分析方法进行方法验证,在测定方法检出限时采用的公式为MDL=t(n-1,0.99)×S[9],则可以理解为计算出来的检出限的置信度为99%。在对计算出来的检出限进行修约时,并没有采用“四舍六入五成双”的舍入方式,而是采用“只入不舍”的修约方式[9]。这其实就是保守性原则的体现,通过这样的舍入方式保证最后得到的检出限的置信度不低于99%。又如,某个指标分析方法的检出限计算结果为0.012 34 mg/L,按照“四舍六入五成双”的修约方式修约得到方法检出限为0.01 mg/L。如果样品的测得结果刚好为0.01 mg/L,那么事实上其检出限的置信度是小于99%的。如果按照“只入不舍”的修约方式修约得到的检出限为0.02 mg/L,则当样品测得结果为0.02 mg/L时,就可以保证其检出限的置信度不低于99%。因此,检出限修约采用“只入不舍”的方式其实就是保守性原则的体现,这种方式相比于“四舍六入五成双”更加科学合理。
同理,相对偏差、相对标准偏差、相对误差和不确定度等数据也应该采取“只入不舍”的修约方式,而校准曲线的相关系数则应采用“只舍不入”的修约方式。
环境监测及科研工作涉及多种数据的数值修约,目前使用的数值修约标准主要是《数值修约规则与极限数值的表示和判定》(GB/T 8170—2008)。该标准规定了各种测定结果的修约规则,但并不适用于所有类型数据。在实际工作中还会遇到各种质控性数据,这类数据的修约规定只是零散地分布在一些环境监测标准中,如HJ 168—2020、《生活饮用水标准检验方法 水质分析质量控制》(GB/T 5750.3—2006,第二次修订版已于2023年3月17日发布)等。截至目前,并没有专门、完整的标准规范对环境监测涉及的各种数据的数值修约方式作统一规定。
笔者秉持准确性原则和保守性原则,分别从数值修约的两个方面,即保留几位和如何舍入,来探讨各种数据的数值修约规则,并总结了环境监测常用数据的数值修约规则(见表1)。
表1 环境监测常用数据的数值修约规则
对于校准曲线的相关系数r、截距a和斜率b的数值保留位数问题,GB/T 5750.3—2006[10]中已有相应的规定。另外,有很多环境监测标准方法利用的是平均相对响应因子来计算测定结果。与斜率b一样,平均相对响应因子的有效位数会直接影响测定结果的有效位数,因此,平均相对响应因子的有效数字也不能少于3位,多取1位有效数字(保留4位)较为合适。
截距a和斜率b对于最终测定结果的准确性有直接影响,因而其末位数字的修约均应采用“四舍六入五成双”的舍入方式。相关系数r则应采用“只舍不入”的修约方式。
HJ 168—2020附录A规定,检出限一般保留1位有效数字,且只入不舍,必要时采用科学记数法进行表达。前文已经分析了检出限修约规则的确定原理,因而此处不再赘述。
HJ 168—2020附录A规定:“重复性限r和再现性限R小数位数应与检出限保持一致,但一般不超过2位有效数字。”另外,对于重复性限和再现性限末位数字的修约,也应参照检出限以“只入不舍”的方式来处理。
一般环境监测指标的测定结果要求数值最后一位和检出限取齐,且最多保留3位有效数字。特殊指标如pH、质量等与仪器精度有关。另外,物理性指标及生物性指标等有特殊规定的除外。为了保证测定结果的准确性,应采用“四舍六入五成双”的舍入方式对测定结果的末位数字进行修约处理。
平均值用于预测测定结果的期望值,其末位数字应与测定结果取齐。另外,应以准确性原则对平均值进行修约,即对平均值末位数字的修约应采用“四舍六入五成双”的舍入方式。
HJ 168—2020附录A规定,标准偏差一般保留2位有效数字。但笔者认为,更为严谨的表述应该是:标准偏差的末位数字与测定结果取齐,且最多保留2位有效数字。
标准偏差是表征测定结果分散程度的一种度量,可以认为是在一定置信水平下的置信区间的半宽度。笔者认为,应以保守性原则对标准偏差数值进行“只入不舍”的修约处理,因为适当扩大置信区间可以提高测定结果的置信水平。如果采用“四舍六入五成双”的修约方式,在某些情况下会造成测定结果的置信度降低。例如,某样品测定结果平均值为1.25 mg/L,计算出的标准偏差为0.012 3 mg/L,那么测定结果区间1.25 mg/L±0.012 3 mg/L有一定概率(68.25%)覆盖了结果真值。由于标准偏差需要修约至末位与平均值取齐,如果按照“四舍六入五成双”的修约方式将结果修约为1.25 mg/L±0.01 mg/L,那么其覆盖真值的概率肯定低于68.25%。因而只能采用“只入不舍”修约方式将标准偏差修约为0.02 mg/L,这样就可使得测定结果(1.25 mg/L±0.02 mg/L)覆盖真值的概率不低于68.25%。
HJ 168—2020附录A规定,相对标准偏差一般保留2位有效数字。相对标准偏差用于表征测定结果的精密度,保留2位有效数字已足够用于判断测定结果的精密性。类似于标准偏差,相对标准偏差修约也应该采取“只入不舍”的方式。
HJ 168—2020附录A规定:“相对误差一般保留2位有效数字,加标回收率保留3位有效数字。”
相对误差和加标回收率都是表征测定结果正确度的参数,同时也是体现分析方法稳定性或监测人员技术水平的质控性数据。笔者认为,应该采取保守性的原则来对这两种数据进行修约处理。相对误差参照相对标准偏差采用“只入不舍”的方式修约。对于加标回收率,为了保证数据的可靠性,从保守性角度分析:如果加标回收率超过100%,应采用“只入不舍”的修约方式;如果低于100%,则应采用“只舍不入”的修约方式。
标准不确定度u即标准偏差,其修约方式同标准偏差。
扩展不确定度U=ku,一般k取2或3(置信水平分别为95%和99%)。《测量不确定度的要求》(CNAS-CL01-G003—2021)规定,扩展不确定度的数值不应该超过2位有效数字,且最终测定结果的末位数字应与扩展不确定度的末位数字对齐[11]。与标准偏差一样,扩展不确定度末位数字修约也应该采取“只入不舍”的方式。
相对不确定度与合成相对不确定度参考相对标准偏差的修约方式,一般保留2位有效数字,且末位数字采取“只入不舍”的方式修约。
一份科学严谨的监测报告或者科研论文不仅要保证每个数据经得起推敲,而且要保证构成数据的每个数字都有意义。在监测数据的记录、计算和填报过程中,会遇到不同类型的数据,需要采取不同的数值修约方式来处理数据。把握好准确性和保守性两条原则,才能对数据做出科学合理的修约处理。