向 彬 刘志雄
(1.湖北省电力有限公司电力科学研究院,武汉 430063;2.武汉大学 电气与自动化学院,武汉 430072)
为保证电网的安全稳定运行,严格把控物资的质量是关键手段之一.目前,配网建设中每年都需要采购大量的物资,有些物资设备的科技含量与复杂程度越来越高,其检验成本随之不断攀升,检验耗时也越来越长[1-3].目前电网公司普遍采用抽样检验的方式对采购的配网物资进行质量管控.电网现行的配网物资检验抽样标准是百分比抽样,其优点是操作流程较为简单,容易实施,但在样本量较小时无法保证抽检结果的准确性.如果进一步加大抽样比例,又会提高抽检的成本与工作量.在配网物资采购中,很多重要物资同一批次的采购数量并不多,其抽检属于典型的小样本抽样问题.因此,在小样本抽样检测中,一方面要符合电网质量监督文件的相关要求,另一方面如何同时保证科学性与尽可能节约成本,成为了一个亟待解决的问题.
贝叶斯统计在估计抽样总体的不合格率时,除了考虑当次样本的不合格率,还会根据之前的抽样测试情况进行综合,在抽样样本较小时会提高历史数据影响的比重,得到的结论比当次样本直接反映出的不合格率更接近总体的不合格率.因此,贝叶斯理论在小样本抽样检验中得到了广泛应用.国外很早就开始了贝叶斯理论在抽检中应用的相关研究.文献[4]指出了在使用贝叶斯方法解决小样本问题时尤其要注意选取合适的先验分布.文献[5]给出了通过先验信息选择先验分布的3种常用方法.文献[6]强调利用历史数据构造先验分布,更具有准确性与客观性.文献[7]给出了具体的确定先验分布参数的迭代方法.文献[8]指出了贝叶斯方法在小样本问题中应用的优势以及使用贝叶斯方法需满足的条件.国内近年也有针对小样本抽样情形方面的研究.文献[3]针对电子式电能表寿命特征,综合精度与成本因素,提出了电能表抽样方案.文献[9]通过使用计数调整型的抽样方法尽可能规避小样本抽样信息量不足的问题.文献[10]指出了顺序统计量在小样本抽样中的应用.文献[11]利用贝叶斯理论以小样本确定总体合格率.文献[12]给出了随机加权的方法以确定贝叶斯统计中先验分布的参数,优化了通过小样本估计总体合格率的模型.文献[13]给出了贝叶斯理论在出厂方抽检的应用模式.
目前,国内外少见贝叶斯理论用于电力物资的小样本检测方面的相关研究,也少见计及成本约束的小样本抽检研究.本文基于贝叶斯理论,考虑到抽检费用和误检损失等成本约束条件,构建了一个电力物资小样本抽样的成本模型,并通过求解该模型,给出成本最优的基于贝叶斯理论的小样本抽样方法.
在进行产品验收抽检时,电网公司现行的检验方式是“5%抽样规则”,即对于需要抽样检验的产品,不论该批产品的数量总数N的取值,一律抽取总数百分之五数量的产品进行一次抽样.且采取“零进一退”的原则,即只有样本中的产品全部合格时才接收该批产品,只要出现不合格品则拒绝接收该批产品,即允许出现最大不合格品数Ac=0.
在上述前提下,若某批次的产品总数N较小,则无法保证抽检结果的准确性.如2017年湖北省襄阳检测中心的配变电压器全年实际检测数只有8个,平均每季度仅需检查2件.极端情况下假设这批产品质量很差,不合格率为25%时接收该批产品的概率仍高达55.7%,即有着相当高的误接收率.因此在小样本抽样的情况下,需要适当增加抽样数n以保证抽检的准确率.但变压器一类的配网重点物资检测项目多、检验流程复杂,增加抽样数n也会导致检测成本的大幅度提高.本文根据贝叶斯统计的原理建立配网物资小样本下的抽样成本模型,将误接收的损失核算作成本的一部分,以求解出整体成本最低的配网物资小样本抽样方案.
2.1.1 先验分布
先验分布π(θ)是总体参数θ的一个概率密度函数,是贝叶斯统计的基本思想之一:即在任何关于θ的估计中都必须对其规定一个先验分布.如在抽样中,若不合格率为需要推断的参数θ,则需要假设历史抽样过程中的不合格率服从某一分布,该分布即不合格率θ的先验分布π(θ).
先验分布的确定是贝叶斯估计方法中很重要的一步.当参数的历史信息较多时,可采取先确定先验分布的函数表达形式,再对其超参数进行估计的方法[13].在不合格率的估计中,因在样本量n中存在的不合格产品数量x服从二项分布,文献[11-13]都选取了β分布作为θ分布的先验分布,原因如下:
1)参数θ是不合格率,仅在(0,1)上取值.因此选取拟合先验信息的分布也应只在(0,1)中取值.β分布具有参数a和b可以用来划定随机变量的取值范围,可以调整其取值范围在(0,1)之间.
2)除确定随机变量范围的a,b外,β分布还含有两个参数p和q,不同的p和q对应不同的分布,适用面广.
3)当样本的分布为二项分布时,如随机变量的先验分布是β分布,则利用贝叶斯公式计算后的后验分布仍是β分布,根据β分布的这一性质将其作为二项分布的先验分布可方便后续的计算与数据处理.
2.1.2 后验分布
后验分布π(θ|x)是根据本次抽样样本X的分布与θ的先验分布π(θ)通过概率论中条件概率分布的方法计算出的分布.该分布综合了样本X以及先验分布π(θ)中的相关信息.在贝叶斯估计中,抽样的目的就是为了实现先验分布到后验分布的转换.
2.1.3 贝叶斯公式
贝叶斯公式有事件形式、概率密度函数形式与离散形式这3种形式.贝叶斯估计中,往往根据变量的连续和离散采取后两种形式,本文中讨论的不合格率是连续变量,因此应选取贝叶斯公式的概率密度函数形式.
假设随机变量X有一个概率密度函数p(x;θ),在小样本抽样中,该随机变量可以作为当次抽样总体的分布.贝叶斯理论中,参数θ服从其先验分布π(θ),故X的概率密度函数应看作条件概率密度p(x|θ),该条件概率密度可以当作θ的整体信息.从总体p(x|θ)中随机抽取一个样本x(X1,X2,…,X n),该样本中含有θ的有关信息就是θ的样本信息,此外先验分布π(θ)中也反映了θ的先验信息.
综合以上信息,在总体分布的基础上可获得的样本x与参数θ的联合概率密度函数见公式(1):
在此联合概率密度函数中,当样本x给定后,仅有参数θ是未知的,而贝叶斯理论中关心的是样本给定后,θ的条件概率密度,也即θ的后验概率密度π(θ|x),见式(2):
其中:m(x)为样本的边际分布,计算公式见公式(3):
2.2.1β分布的概率密度函数
若随机变量X服从β分布,则随机变量X的概率密度函数为:
式中:p>0,q>0,a≤X≤b,B(p,q)为Beta函数,表达式如下:
2.2.2β分布参数的确定
β分布参数的确定主要有直接确定法与迭代法.
1)直接确定法
β分布参数的方法如下[13-14]:
Step1:将样本的最小值作为a,最大值作为b;
Step2:β分布的均值μ和方差σ2都可用其超参数p,q表示,则超参数p,q利用样本的均值与方差即可求出,见式(6):
直接确定法的优点是计算简单直观,但若样本量较小会容易使作为随机变量上下界的a与b难以准确地取到真实的上下界.
2)迭代法
文献[10]给出了一种迭代法计算β分布参数值的方案,这里引用该文中n<20的情况.
这三十一字作为插叙的文字出现在原文中,而译者在翻译过程中直接将这三十一字调整到“故弗从”之后,使得匈奴大入上郡事紧接李广成为上郡太守,线性特征更明显,便于读者理清李广整个人生轨迹,不至于混乱。从《史记》全文来看,这种结构上的调整很多。一方面,这种结构上的调整遵循了译者整体结构调整的意图,即按照历史叙述的结构安排全文,这有助于读者清晰明了的了解故事发展轨迹,不会产生凌乱的感觉。另一方面,这样的结构调整没有遵循原作,译文的忠实性就会降低,不利于读者对原作面貌的真正了解。
Step1:从给出的n个样本数据中计算出样本均值μ与样本方差σ2;
Step2:将给出的n个样本数据由小到大排列分别为X1,X2,…,X n;
Step3:迭代计算出上下界a与b:
Step4:将Step3中计算出的a与b代入公式(6)中,即可得到β分布的参数p和q.
考虑到不合格率θ有固定的取值范围(0,1),下文采用直接确定法确定β分布的参数.当以不合格率θ作为β分布的随机变量时,为使取值范围符合工程实际,应取随机变量的下界a=0,上界b=1,则不合格率的概率密度函数可写成:
可计算出该分布的均值μ与方差σ2:
则公式(6)可简化如下:
3.1.1 相关概念与假设
抽检费用(S):检验产品带来的费用.如设备检验费,人工费及其他费用等.下文用S代表检验单个产品产生的费用.
误接收费用(M):由于接收不合格品带来的损失.如:未检验出的不合格品在该批产品被接收后在运行中造成的损失等.下文用M表示平均每个不合格品带来的损失.
退还费用(R):在抽样检验中,样本不满足接收条件使该批产品整体被退回导致的费用.如:退还设备的时间成本和人力成本等.本文用R表示整体中平均每个产品被退回导致的费用.
设某批次产品总量为N,产品的不合格率为θ,按贝叶斯理论假设过往批次不合格率θ服从β分布,则其概率密度为不合格率的先验分布π(θ)如式(12)所示.该批产品按抽样数为n,允许最大不合格数为Ac的抽样规则进行一次抽样,不合格率为θ时接收概率为L(θ).
3.1.2 目标函数的推导与约束条件的确定
1)目标函数的确定
首先根据先验分布推导出不合格率θ的后验期望π(θ|x).当不合格率为θ时,n个样本中出现x个不合格品的概率p(x|θ)服从二项分布如下:
将先验概率π(θ)(见公式(9))与p(x|θ)(见公式(13))代入贝叶斯公式的概率密度形式(见公式(2))后,可得后验分布π(θ|x)的概率密度函数,见式(14):
公式(14)中后验分布的形式,与公式(5)中β分布的一般表达式形式相同,即后验分布π(θ|x)也为β分布.因此,可根据β分布的均值计算公式计算出不合格率θ后验分布的期望μ(θ|x),见公式(15):
下面对抽检成本进行计算,抽样检验时会有接收与退回两种情况.
样本检验合格时,接收该批产品所产生的费用即为接收该批产品的总成本W1.该成本等于样本中n个产品的抽检费用与除样本外其余未检验产品可能导致的误接收费用之和,即总成本W1,见公式(16):
若样本检验中发现不合格品,退回该批产品产生的费用即为拒收该批产品的总成本W2.该成本等于样本中n个产品的抽检费用与与总体N个产品的退还费用之和,见式(17):
对两种情况下的成本与其对应情况发生的概率进行计算,即可得到期望抽检总费用W,见式(18):
其中:L(θ)为不合格率为θ时的接收概率.考虑到电网实际工作中Ac=0,则其计算公式如下:
2)约束条件的确定
抽样方案中,抽样数n一定小于该批总数N且允许最大不合格数Ac一定小于抽样数n.同时抽样数n,该批物资总数N,允许最大不合格数Ac都应为自然数,另考虑到电网实际与小样本的适用范围,Ac应等于0.工程中小样本的概念中抽样数n一般小于20,因此不妨取总体数N≤100.
根据上述约束条件与目标函数(19)即可得到贝叶斯小样本抽样成本模型,见式(20):
在已知抽检费用S、误接收费用M与退还费用R的前提下,该模型的求解有以下的求解步骤:
Step1:收集过往10组(或以上)的历史抽检不合格率,并由这些数据的方差和均值计算出不合格率θ的超参数p、q,从而得到不合格率的先验分布π(θ);
Step2:由θ的先验分布,通过贝叶斯公式计算出不合格率θ的后验分布π(θ|x);
Step3:通过不合格率θ的后验分布π(θ|x)计算出后验期望,并将其代入到贝叶斯小样本成本模型(20)中;
Step4:利用数学工具求解Step3中的成本模型.
用4个算例具体说明该成本模型的适用范围、求解过程,并比较其优缺点.其中算例1为对照组,算例2模拟了某产品误接收成本M远高于抽检成本S的情况,算例3模拟了某产品误接收成本M略小于检验成本S或近似的情况,算例4模拟了某产品历史不合格率较高的情况.
1)算例1
某季度某电网检测中心需对一批数量N=40的变压器进行抽样检验,有关费用指标为:S=10 000元,M=120 000元,R=2 000元.收集到该批产品之前10 批产品检验出的不合格率分别为0.07、0、0、0.04、0.03、0.06、0.03、0、0.12、0.05.
按照3.2中的一般求解步骤进行求解:
Step1:通过计算得到该产品过往10批不合格率的均值μ=0.04,方差σ2=0.00128,将均值与方差代入到公式(12)中,得到不合格率θ的超参数:p=1.16,q=27.84.则其先验分布为:
Step2:根据Step1中计算得的先验分布π(θ),代入到公式(10)中,得到其后验分布为:
Step3:将后验分布代入公式(15)中,得到不合格率θ的后验期望:
将该后验期望带入到成本模型公式(20)中,得到仅与抽检数量n相关的一元函数W:
其中:0≤n≤40,且只取整数.
Step4:上述函数的点状图如图1所示.
图1 算例1抽样数量n 与抽样方法成本W 关系图
由图1可见,抽样成本随着抽样数增长先减小后增大,在抽样数量n=5附近取最小值,故将n取1~9时对应的成本W列表,见表1.
表1 算例1抽样数量n 与抽样成本对照表
由表1可见:当抽样数n取4时,抽样成本W取最小值18.10万元,比采用原5%抽样方案时的成本期望值节约了2 500元.
2)算例2
其他条件不变如算例1,仅将单件抽检费用S改为100元,重复3.2中的步骤,可得成本W与抽样数n之间的函数如下:
其函数如图2所示.
图2 算例2抽样数量n 与抽样方法成本W 关系图
由图2可见,该情况下抽样成本大体随着抽样数的增大而减小,即尽管增大抽样数会使抽样成本增加,但总成本反而降低了.这是因为在该算例中抽检需要的费用很低,而未检验出不合格品带来的损失很高.即在误接收成本M远大于抽检成本S的极端情况下,采取全检验可以更好地降低成本.同时由图2可知,在抽样数n取33时W取最低值6.84万元,相较于原5%抽样方案的成本期望可节约10.86万元.
3)算例3
其它条件不变如算例1,仅将误接收成本M改为20000元,重复3.2的步骤可得成本W与抽样数n之间的函数如下:
其函数图像如图3所示.
图3 算例3抽样数量n 与抽样方法成本W 关系图
由图3可得,抽样成本随抽样数单调递增,即此时免检通过产品可使成本最低.因为该算例下的历史样本的合格率更高且误接收成本M与检验成本近似,即该产品质量很好且检验成本很高,此时采取免检可以使成本最低,也符合生产经验.同时由图3可得,当抽样数n取0时能取到最低成本,即3.2万元,相较于原5%抽样方案的成本期望可节约2万元.
4)算例4
其它条件不变如算例1,仅将该批产品之前10批产品检验出的不合格率改为0.2,0.2,0.3,0.1,0,0.5,0,0.1,0.2,0.3.重复3.2中的步骤可得其成本函数W为:
其函数图像如图4所示.
图4 算例4抽样数量n 与抽样方法成本W 关系图
由图4可见,其变化趋势与算例1相近,在n=10附近做抽样数n与抽检方案成本W关系的表格,见表2.
表2 算例4抽样数量n 与抽样成本对照表
由表2可见,当抽检数n取10时,W取最小值20.20 万元,比现行的百分比抽样方案成本期望30.27万元节约了10万元.
从以上4个算例可总结出如下规律:
1)通过算例模型可算出各种成本下的最优抽样数n.算例1~4表明,所提出的新模型相较于电网原5%抽检方案可分别节省0.25万元、10.86万元、2万元以及10.07万元,可见节约成本的效果十分显著.
2)由上述4个算例的对比可知:无论产品的抽检费用S、误接收费用M、退还费用R与历史合格率如何变化,都可用该模型进行成本优化.该成本模型具有很高的普适性,不仅适用于配电变压器的抽检,其它小样本物资抽检均可适用.
在电力系统的配网物资检测中,经常会有样本量较小的情况,此时若按电网现行的百分比抽样规则抽样检测,往往无法准确地反映整体物资质量的好坏,容易造成误接收不合格品,给电网带来损失.但若一味通过提高抽样数量来提高检测的准确率,高昂的检验成本与过长的检验时间又成了较大的负担.本文从电网公司的实际出发,根据贝叶斯统计的相关原理,建立了贝叶斯小样本抽样的成本模型,通过求解该模型,从成本约束角度,可很好地解决配网物资小样本情况下的科学抽样问题.