测绘地理信息产品抽样检验的两类错误概率

2019-09-04 01:55蔡艳辉程鹏飞徐彦田
测绘学报 2019年8期
关键词:不合格品不合格率批量

蔡艳辉,程鹏飞,张 莉,徐彦田

1.国家测绘产品质量检验测试中心,北京 100830;2.中国测绘科学研究院,北京 100830

抽样检验是质量管理中的重要统计技术手段,特别是在破坏性检验、可靠性检验以及寿命试验、连续批检验和散料检验中发挥着巨大的作用。通过抽取一定量的样品进行检验,既可以对一批产品的质量作出判断,同时又不需要付出太大的工作量,对产品的生产管理和分析影响产品质量的因素具有重要意义。针对产品的抽样,国际上普遍采用的是ISO 2859.1—1999标准,国内制定的GB/T2828.1—2012[1]完全采用这一国际标准。该标准也是我国工业产品的质量控制的基础性标准之一。

相比工业产品,测绘地理信息产品无论在产品形态、生产工艺、仪器设备和生产环境,还是在产品管理、流通和产品服务等方面都存在很大的不同。因此,为了适应测绘地理信息产品的特殊要求,国家发布了专门针对测绘地理信息产品质量检验的国家标准GB/T24356—2009与GB/T18316—2008[2-3],对测绘地理信息产品的抽样、质量元素、检验参数、质量评定和判定进行了规定。虽然这两项标准在国家和地方的基础测绘以及各个行业测绘领域中发挥了重要作用,但是随着以新型基础测绘为代表的测绘地理信息智能化的发展,其在抽样方案、产品质量参数、质量评定判定准则等方面逐渐显现出不完善、不适应的现象,特别是在生产中的“小批量分段”和“大批量分批”抽样方案与数字化、信息化和智能化测绘地理信息出现的大批量产品检验非常不适应。同时,国家标准GB/T24356—2009对弃真错误概率给出了“零概率”要求的同时,而未对不合格产品通过合格检验的“纳伪”错误概率给出相应的规定,导致生产管理实际中出现一定风险。

针对测绘地理信息产品质量检验的抽样方案,文献[4]采用OC曲线分析方法,给出了推荐的GIS产品不合格率3%~5%极限质量;文献[5]采用OC曲线分析方法,对连续大批量空间数据质量抽样检验方案进行分析,给出了不同条件下的空间数据质量检验的AQL值;文献[6]提出了GIS数字地图1/m子幅抽样检验概念,采用OC曲线分析方法给出了典型抽样方案。其他相关的研究多数都是从抽样方案的实际操作方面讨论[7],而对测绘地理信息产品质量检验的“弃真”和“纳伪”概率的研究,文献相对较少。学术上研究较多的是测量的不确定性以及不确定性表征[8-19]。这些研究主要是针对给定的地理信息产品如何客观真实反映其自身质量状况,属于抽样检验的检验技术范畴。

本文从假设检验的两类错误概率分布出发,对测绘地理信息产品质量检验的抽样方案进行分析,给出两类错误概率的计算方法,同时计算了典型的抽样方案的两类错误概率,重点对现行的大批量测绘产品分批抽样检验进行了讨论,提出了低不合格率总体条件下,抽样检验自身的高“纳伪”概率将导致抽样检验的失真性,在并通过实际算例计算了导致检验结论失真的质量边界。

1 假设检验的两类错误

1.1 两类错误的定义

为了推断总体的某些性质,需要先提出关于总体的假设,然后从总体中随机抽取样本,根据样本的检验和分析,对提出的假设作出判断:是接受还是拒绝。一般可表示为

(1)

式中,H1与H0通常为互补条件。针对H1检验H0,H0称为原假设,H1称为备择假设。由于检验结论是根据样本给出的,总有可能出现错误的判断。当假设H0实际上为真,检验拒绝H0,称为第Ⅰ类错误,又叫弃真错误;当H0实际不真,检验接受H0,称为第Ⅱ类错误,又叫纳伪错误。犯第Ⅰ类错误的概率,记为α,又称为生产方风险,即合格批被拒收。犯第Ⅱ类错误的概率,记为β,又称为使用方风险,即不合格批被接受。在实际应用中,应照顾双方的利益,使生产方风险和使用方风险都尽可能控制在一定的范围[20-22]。

1.2 两类错误概率的计算

(2)

(3)

(4)

图1显示,对给定的集合总体,压缩拒绝域W,W′必然扩大,同理压缩拒绝域W′,W必然扩大。要想同时减小W、W′,必然扩大集合总体。

图1 两类错误拒绝域集合Fig.1 The reject sets of two types errors

2 测绘地理信息产品抽样检验的两类错误

2.1 抽样检验的抽样方案

抽样方案是指抽样检验中所用的样本和有关接收准则的组合[23-24]。抽样方案既包括从批量中怎样抽样,又包括对批次合格/不合格的判定准则,因此,必须在抽样检验前定出样本量和鉴别该批产品是否合格的标准(接收准则)。通常采用四元组(N,n,Ac,Re)[1,23]表示抽样方案模型,其中N为批量,n为抽取的样本量,Ac为可接受的不合格品数,Re为拒绝的不合格品数。

对给定的抽样方案(N,n,Ac,Re),其检测通过的概率服从超几何分布

(5)

式中,Pi为该抽样中不合格品数为i概率。根据产品的不合格率p,d=N×p。当N>10n,且p<10%(文献[23—24]),对于给定不合格率的计数型大批量简单随机抽样,可近似采用二项分布代替超几何分布,即

(6)

由L(p)构成的曲线称为该方案的抽样操作特性曲线[23],即OC曲线。OC曲线反映了抽样方案的检验通过概率与产品不合格率的分布关系。对给定的质量水平p0与p1,在不考虑检验误差的条件下,式(4)即为

(7)

2.2 GB/T24356—2009标准抽样的两类错误概率

GB/24356—2009采用了计数型一次简单随机抽样方法[1,23-25],并规定当不合格数为0,判定批合格;当不合格数大于等于1,判定批不合格,即Ac=0,Re=1。该抽样方案(N,n,0,1)可表述为从批量为N的产品中随机抽取n个样品进行检验,若其中不合格品数为0,就可以较高的概率接受该批产品;若其中不合格品数大于等于1,则以较高的概率拒绝该批产品。表1为该标准规定的抽样表。当测绘地理信息成果的批量超过200,需要进行均匀分批,再按此表抽样,进行检验。

表1 GB/T 24356—2009抽样表Tab.1 Sampling index table of GB/T24356—2009

依据表1,选取其中的典型抽样方案,计算3种不同质量水平pi情况下的两类错误概率,见表2(其中,由于表1中批量相对较小,p1采用不合格数表示,即批量为N的产品中存在p1个不合格品)。

表2 两类错误概率计算表Tab.2 Probability values of two types of errors under different conditions

很显然,基于原假设p0=0,依据GB/T24356—2009的检验方案,“弃真”概率α全为0,等价于W为空。对应给定的p1=1,2,5等3种情况下,“纳伪”概率表现为:①随着产品的质量的下降而降低,随着批量的增大而增大(实际上由于不合格数不变,等价为产品质量提升);②测绘地理信息产品采用了200为批量的上限,在仅有一个不合格品条件下,“纳伪”概率最小值为0.850,即采用(20,3,0,1)的抽样方案,批量为20个单位,其中存在一个不合格品,被检验为合格品的概率为0.85。表2反映GB/T24356—2009的检验方案对应的“纳伪”概率普遍较高,使用方风险较大。

3 测绘地理信息产品大批量抽样检验

3.1 大批量产品检验总体通过概率的等价性

依据GB/T24356—2009的要求,当批量大于200时,要将总体划分为不同的批,且要求批次最小,各批批量均匀。假设总体为N(N>200)分为批量为Ni(Ni≤200)的k个批次,根据表1,抽取Ni对应的样本量ni,则根据概率分布规律,有

(8)

假定总体为302个单位,则需要将该总体分为151个单位的两个批次。根据表1,需要分别抽取13个单位,则抽样方案(302,26,0,1)和(151,13,0,1)的OC曲线如图2。图2显示整体合格的概率L2等于分批概率L1的平方。通过将一个大总体进行分批,每个批次检测通过的概率得到提升,降低了整体被拒绝的风险。同时,对各个批次而言,检测被拒绝,只是拒绝当前批次,当前不合格品的作用范围限定在当前批内。而整体检验,不合格品的作用范围扩展到整个总体。相比而言,采用大批量的分批检验,实际上是实施了放松检验。

图2 大总体分批抽样方案的OC曲线Fig.2 OC-curve lines of different sampling plans With big lots

3.2 大批量的质量检验两类错误概率

根据假设检验的定义,原假设为该批产品中无不合格品,即在302个单位产品中p0=0;备择假设为该批产品中有不合格品。假设在302个单位产品中存在p1=2件不合格品,分别计算整体检验和分批检验情况下的两类错误概率如表3、表4。

表3 抽样方案(302,26,0,1)的两类错误概率计算表Tab.3 Probability values of two types of errors under sampling plan (302,26,0,1)

表4 抽样方案(151,13,0,1)的两类错误概率计算表Tab.4 Probability values of two types of errors under sampling plan (151,13,0,1)

表3给出了整体检验时,两类错误概率的计算值,其中β′为假设备择假设为真、实际检验备择假设也为真的概率。表4中给出了分批检验时,单批检验的两类错误概率,以及由单批计算的总体检验通概率值和总体检验不通过的概率。数值显示,对相同的抽样样本量,无论整体检验还是分批检验,总体检验通过的概率是等价的。同时,由于分批检验减小了批量,相应单批也减小了样本量,因此,客观上计数型简单随机抽样的整数特性表现为不合格率的降低,所以,单批检验通过概率增大,其代价为“纳伪”概率的增加,整体检验不通过的概率显著减小。

3.3 大批量抽样检验的失真性

随着信息化、智能化技术的发展,以DLG、DOM、DEM、DRG为代表的数字化产品大多都是(超)大批量形态。尽管测绘地理信息成果的生产越来越多地采用自动化的手段,但是毕竟生产过程还需要各种设备、人员的参与,生产的工艺流程还存在一定的不完善,所以,随着批量的增大,测绘地理信息产品中出现不合格品必然是一个大概率事件,即测绘地理信息产品的不合格率必然p0>0。则对批量为N的总体,不合格数

d=N×p0

(9)

对于产品质量均匀的总体,采用简单随机抽样从其中抽取n个样品,则样品不合格率应该与总体一样,则样品中的不合格数

dn=n×p0

(10)

因此,随着批量的增大,dn一定大于零。依据GB/T24356—2009的抽样方案(N,n,0,1),则必然被拒接。对于总体检验,则拒绝总体,采用分批检验,则拒绝对应的批次。本质上,该现象表现为抽样方案中Ac=0的必然结果,体现了该抽样方案对大批量的总体检验的不合理性。

另一方面,对测绘生产而言,要求所有的产品全部都合格是测绘地理信息服务的客观需要,通过对大批量总体的分批检验处理,人为提高了总体检验通过的概率,必然增加“纳伪”错误概率的风险。表5显示抽样方案(302,26,0,1)在5种不同假设条件下,原假设的“纳伪”错误的概率值。数据表明,当批量中存在少量不合格品时(整体不合格率小于2%),检验通过表现为一个大概率事件;当批量中存在的不合格品数达到一定量(整体不合格率大于5%),该检验方案能够以较高的概率拒绝该批产品。因此,当整体不合格率处于较低水平时,现行的抽样方案存在一定的失效性,将不能很好反映质量真实状况。

这种现象本质上表现为计数型随机抽样检验的固有特性,所以,在要求“弃真”概率α为0的条件。对于存在少量不合格品的批量,随机抽样检验的高“纳伪”错误概率将是不可避免,也意味着需要增大样本量或者采用非随机抽样的检测方法才能准确把握质量状况。

表5 抽样方案(302,26,0,1)的纳伪错误概率计算表Tab.5 Probability values of type Ⅱ error under sampling plan (302,26,0,1)

4 结论与展望

本文从概率分布的角度,给出了测绘地理信息产品质量检验中的两类错误概率的计算方法,并针对GB/T24356—2009规范中的采用的抽样方案,实际计算了该标准中典型抽样方案的两类错误概率值,分析了该标准中“纳伪”概率控制的不完善性,为使用该标准提供了风险控制的计算方法。

同时结合测绘地理信息质量检验的应用需要,重点对大批量抽样检验进行了讨论,从概率的角度说明了大批量整体检验与分批检验对整体检验通过概率的等价性;基于“纳伪”概率计算,验证了现行抽样方案在低不合格率(小于5%)的条件下,将导致大批量产品检验的高“纳伪”概率。本质上,这种高“纳伪”概率是计数型随机抽样检验的固有特性,也意味着对于存在少量不合格品的批量,随机抽样检验的高“纳伪”错误概率将是不可避免。

因此,一方面,对水准控制点、GNSS控制点为代表的大地测量、工程测量成果,采用抽样检验确定批成果的整体质量是不合适的。因为任何一个点的错误可能带来严重的后果。另一方面,对大批量的图类成果,或者重复生产的地理信息产品,需要根据质量控制指标、检验方式、检验成本等因素,综合优化设计抽样方案。GB/T24356—2009标准中的抽样方案本身就是在综合考虑了特定生产水平和生产方式条件下基础测绘地理信息成果的基本质量要求、人工检验方式和检验费用成本定额的条件下制定的,本文的研究内容只是该优化问题的一个方面,笔者也将在后续的研究中对该问题进行深入分析。

猜你喜欢
不合格品不合格率批量
Dose-Dependent,Frequency-Dependent,and Cumulative Effects on Cardiomyocyte Injury and Autophagy of 2.856 GHz and 1.5 GHz Microwave in Wistar Rats
批量提交在配置分发中的应用
Bone marrow mesenchymal stem cells induce M2 microglia polarization through PDGF-AA/MANF signaling
13省市洗面器、浴缸抽查不合格率7.8%
7省市电冰箱抽查不合格率12%
降低护理记录书写不合格率
品管圈在降低灭菌物品包装标识固定不合格率中的应用
在数控车床上批量钻铰孔类工件的实践
Evaluation of Reanalysis Products with in situ GPS Sounding Observations in the Eastern Himalayas
基于AUTOIT3和VBA的POWERPOINT操作题自动批量批改