杜秉华,戴美玲,楼平儿,毛元良,朱水芬,林文君
(浙江天蓬集团有限公司,浙江 衢州 324100)
在现场的种猪自动测定设备的测定数据中,往往会发现有的单次采食量过高,比如,一次采食近3 kg,又会发现采食过少的现象,甚至出现实际不存在的负采食量。这两种“出错”数据是在自动测定设备运行中较常见的数据现象,这既是极端“错误”的表现,却又是富含“测定过程”信息的表现,对这些现象的科学分析正是理解数据的正确性的有效途径之一[1]。文章就这两个典型的数据现象来分析其中发生的问题和由此对测定数据正确性的影响。当然还有其他的数据现象,限于篇幅,将在以后的续篇中再议。
因为测定数据是测定设备性能、人为管理因素、动物行为因素和随机突发等众多因素叠加的结果,所以笔者用现场的实测数据,对它们进行统计分析,以得到在当前测定条件下开放型自动测定设备出现的这种“错误”现象对测试数据正确性的影响,以及影响程度。从这两个数据现象得到与之相关的出错数据的“出错阈值”和数据正确性评估的“正确性阈值”,这两个阈值是监测测定运行和评估正确性的一个重要参数。
浙江某规模化猪场,16个测定站,2017年下半年批次和2018年上半年的测定数据。2017年共测定公猪146头,母猪27头,共计173头。2018年测定大约克公猪116头,母猪57头;杜洛克公猪3头,母猪4头; 16个测定站共计180头。两年的测定头数为353头。入测体重为23~35 kg,入测日龄为85~100 d。结测体重为100 kg。鉴于测定规程要求,统计的数据从测定猪进入测定站5 d后采信。文章采信的两批次的事件数据。1头猪1个采食事件数据的内容包括:测定站号、测定猪的电子耳牌号、测定猪的耳号、该次采食开始时间、该次采食结束时间、该次采食开始料槽初重、该次采食结束后料槽末重、该次采食的采食量、该次采食时的体重、该次采食的中间自动投料量。在测定认可期(去掉测定前的驯化期和最后一天)内,数据量分别有131,654个和174,654,共计306,308个。这些数据(以下均称为材料数据)还可分成两类:即(认可期)有效数据和(认可期)无效数据。无效数据为没有电子耳牌号和耳号,以及没有体重的数据。16个站的有效数据分别为130,788和172,863个;无效数据分别为866和1791个,占认可期全部记录数据的0.66%和1.03%(不以站为单位计平均值)。特别强调的是,本材料数据中没有删除任何一个测定站或某个测定站在某个测定时间段的数据。采集本材料数据使用的设备是奥饲本的动态投料型的生长性能自动测定系统。
自动测定设备在测定过程中把每一次测定猪进入测定工作站后的采食和体重数据都记录下来。如图1是单次最大采食量的实例。
图1 采食记录中出现的单次最大采食量记录
在动物行为正常的情况下,测定猪在测定栏内采食一次性的最大量是有上限的,然而上图中红色圆圈标注的一次采食量有2.653 kg,37.6 kg体重的猪能否在33 min内一次采食这么多的饲料,即这个采食记录有疑问。为此,先从动物的采食行为数据看,将上述的材料数据用采食量频数直方图和正态曲线分布图(图2)进行分析测定期的测定猪采食量频数分布的实际情况。
图2显示的采食量统计范围在负0.1 kg到1.5 kg(当然从理论上讲是±∝g)时,测定猪一次采食的饲料量情况(干料)。上图的正态分布曲线上显示了测定猪本能性的干料一次采食量大约在0.2 kg至0.3 kg,它们一次采食量为1.5 kg事件发生的概率非常小,以致在以上的正态曲线和频数直方图中不能显示出来。即使有偶尔发生的超过1.5 kg采食量事件,我们通过对其原因核查,发现造成的原因基本都是有关饲料中断短缺或投料功能失常的问题,不是测定猪本身的正常采食行为所致。恰恰上述的举例中,其2.653 kg的采食记录也是这个原因所致。
在运行管理正常的情况下,上面提到的饲料中断短缺或投料功能失常两个原因中的饲料中断则是主要原因。当然,如果在运行不正常的情况下,原因类别会增加,最终结果是≥1.5 kg的事件数会增加更多。这个分析图表示测定猪在正常情况下的单次采食量是有统计意义上的上限值,超过这个上限值的事件数增加则预示着有显著影响数据正确性的故障因素在影响测定工作。
曾经在其他场分析过的测定数据上也显示了这样的一个现象,以下是一个有关测定猪的单次最大采食量的分析报告[2]。这里显示了在测定期内发生大于的事件数与测定管理水平成正相关的现象。测定过程中运行故障的多发是这些场大于的事件数上升的重要原因,评估管理水平不高的标志是饲料中断、设备粘连和管理故障等出现的高发比例。
管理不良的原因导致影响的因素多重和复杂,如断料、动物行为、粘连等因素,以及各种因素之间的交叉叠加影响,所以造成B场和C场结果的原因就是多重的。不管影响他们数据的具体原因,其结果也反映了一次性采食最大量事件数与出错产生的影响是正相关的,说明不管是运行正常的场内测定还是管理欠缺的场内测定,监测单次最大采食量都是有意义的。
图2直方图的分析覆盖范围大,难以看出大采食量段1 kg以后的详细情况,所以在图2的一次采食量正态分布曲线上截取了1~2 kg区段的一部分,以进一步探讨一次最大采食量的现象(图3)。
从图 3 可以看到 :1) 测定条件下的测定猪采食量的事件概率在1.0 kg段是事件概率密度急剧下降的阶段,该处分布的事件概率密度为0.005左右。图3中左端横坐标开始的1.018 kg处的事件概率密度已经低至0.0037,而到了临近的1.218 kg处的概率密度更是急降低至 0.0001;2)在 1~ 1.3 kg处的曲线是一个圆弧状,这个圆弧状范围表内的大部分事件无法否定不是正常的采食行为事件;3)从1.3~1.5 kg的正态曲线已基本变直,1.5 kg到2.0 kg则是完全平直了。这就表示如果曲线的平直部分反弹或反常,说明有影响正常动物行为测定数据其他因素出现的结果。1.3~1.5 kg事件的概率密度平均为0.000005,或发生的频次数是0.03%,所以,如果在1.5 kg段以后有采食事件发生频次上升超过频次0.03%时,就可以认为有问题了。 因此,研究得到了设置监测单次最大采食量定义阈值的依据,暂设的定义阈值可为1.5 kg。
在暂设1.5 kg为单次最大采食量的定义阈值基础上,再继续分析这类事件产生的饲料量对总饲料报酬的影响分析见图4。
图2 采食量的频数分布情况
图3 单次最大采食量1.0~2.0 kg区段情况
把材料数据中32个测定站的结测数据分别按1.5 kg阈值的事件数,以及这些事件的饲料量对各自总采食量的影响比例进行比较分析,把各站的结果按事件数排序得到图4的分析表。因为有15个站的1.5 kg事件发生率为0,所以图4的蓝色曲线在图表的左一半表现为0水平的直线,这说明在正常运行情况下降低1.5 kg事件数到控制范围内的是应该能做到的。 随后蓝色的事件数曲线开始上升,但其相应的饲料影响值赭色曲线与蓝色曲线的上升呈非比例态势,并且呈急剧变化的特点。在研究中,曾调查了多起事件数上升的原因,确定均为故障所致,基本上没有一起是确认的动物行为所致。由此结果得到的结论是1.5 kg作为该项目的定义阈值是可行的,定义阈值缩小到1.3 kg时保留余地不够,扩大到2 kg其意义不大反而增加了出错机会的可能。
图4 单次最大采食量对饲料报酬的影响
当把1.5 kg事件数的出现频次与它们对饲料报酬的影响联系起来,则显示了两者之间有突变的临界值关系,即该事件数达到一定数量(临界值)时,它对数据正确性影响产生的是一个剧增的特征,这个临界值就可作为在表2中提到的正确性阈值。从这里的分析可以看到,把一次最大采食量的定义阈值设置为1.5 kg的时候,可以通过监测该类事件数的量来监测它对测定数据的正确性影响。在图4中有两个突变的显示,一个是事件数为总事件数的0.07%时,其对饲料报酬的正确性影响为0.5%左右;另一个事件数为总事件数的0.1%时,其对饲料报酬的正确性影响在1%左右。
如希望此数据对结测报告的影响控制在1%,那可倒推出这个监测项目的定义阈值为1.5 kg时,这个数据的事件数发生率应该在0.1%以内。
经调查与分析,引起上述出错数据的主要原因是饲料供应中断。饲料中断是现场测定时常见的现象,因为猪场不希望料斗里的饲料滞留时间太长而尽可能只存留不超过1 d的饲料,所以场内测定的种种原因会经常发生料槽内的饲料短时间的饲料中断,尤其是用自动料线向全体测定站统一供料的情况下。两三个小时的暂时断料对测定猪来讲不会产生任何影响,但对自动设备的运行来讲,这段时间内就很可能产生一次采食量大于1.5 kg的事件。
图5显示的是单次最小采食量的实例, 这次的采食记录表现为负值。
这个分析只显示0 g以下的采食量范围,图6是对结测报告中发生的负采食事件进行频数等统计分析的情况。图6中赭色曲线是各分段负采食事件发生的总量对全部事件数的采食总量的比例曲线,蓝色曲线是各分段负采食事件发生的频率数对全部事件的次数的比例曲线。
图6显示的信息是:1)在实际运行中自动测定设备会有负采食量的事件出现,如果测定软件是真实反映测定记录的话; 2) 所有的负采食量的总和对测定猪的采食量分析的影响不大,因为尽管它们占了总事件数的2.87%,但其影响只占总饲料量的0.18%。从影响饲料报酬的角度来看,这些全部负采食事件似乎都可以忽略。3)负值事件数随着负值量的增加而急剧减少。按正态分布曲线,右面三段范围的负采食事件概率密度分别是0.5,0.1和0.01,自-20 g起向左方向的曲线更是从平缓变成直线。像前面提到的1.5 kg事件那样,如果向左的曲线不平直了,就表示有该类事件分发生频数增加,测定故障的发生超出了管理容许的范围。
导致产生负采食量事件比1.5 kg采食量事件的原因要更复杂些,除了有产生1.5 kg事件的原因外,还有设备的电子噪声和机械噪声,以及老鼠等原因。图6中的各负采食量段落实际上是以各自不同的主要导致原因而进行分段的。在-20~0 g段落主要的引起原因是设备系统自带的电子噪声和机械噪声;-200~-20 g的主要引起原因是一般粘连;而-200 g以后的主要原因是断料或严重粘连和动物行为。
图5 单次最小采食量表现为负值的记录
从设置定义阈的两个条件来讲,一是处于正常运行情况下的正态分布曲线的下降转平缓的位置, 二是其定义阈值下监测到的事件数量要与涉及的饲料总量呈负相关和显著影响的关系。 所以需要更详细地再看一下-20~0 g段的分析,见图7。
图7 可以看到在-20~0 kg的区段里,该事件出现频数的急剧下降处实际是-5 g到-9 g区段。我们前面提到引起该段事件数的主要原因是正常的电子和机械噪声,不是故障或其他管理因素所导致,-4 g 到0 g主要是设备系统内部的随机发生的电子噪声所致[3]。加上机械噪声,会造成负采食量的情况再增加±5 g左右的误差,所以出现上述“频数的急剧下降处实际是-9 g到-5 g区段”,而且在-10 g以后的区段,其产生的饲料量影响才开始趋于平缓,所以把0 g或-9 g作为监测测定故障的意义不大。
为此再把图6和图7各区段内的事件数量与其对饲料报告的影响汇总,并从设置定义阈来监测故障数据的条件进行探讨一次最小采食量的出错定义阈值。表2陈列了从-200~-10 g的全部负采食量的情况。负采食量区段的分割原则是按其事件数的频数来定。
从表2 可以看到-19 g到-10 g区段内的事件数与饲料影响还是呈正相关变化,然而从-20 g以后的区段的事件数与饲料报告影响呈负相关变化,而且-20 g以后区段的比例系数也呈急剧上升的趋势。由此可认为-19 g到-10 g区段还是受正常的电子和机械噪声影响的过渡区,而错误数据的临界值在-20 g的位置。
按表2显示,可以把-20 g作为单次最小采食量出错数据的临界值。那么在<-20 g的情况下来看出错事件所发生的数量状况,以及在这样的数量状况下其对的饲料报告的正确性之间的关系。图8是材料数据的分析结果。
图6 负采食量事件数比例与影响总采食量比例关系图
图7 0至负19 g的事件数与采食量比例
图8 -20 g以下采食事件的饲料量对饲料报酬影响的分析表
表2 -200~-10g的全部负采食量比例及影响总采食量 %
图6和图7显示在<-20 g的采食事件数发生概率在正常情况下是趋于零的, 32个站次的测定结果也显示有3个站的此类事件数为零;有50%测定站的此类事件数发生频数平均值只有0.04%。 这表明在正常运行下可以把<-20g的采食事件数降低到可控的范围之内。从这里得到的推论是:如果有此类事件发生的频次增加,则说明有故障发生的可能也在增加。在图8中显示的情况表明,当<-20 g的采食事件数出现频次达到一个阈值的时候,其对饲料报酬会产生一个剧增的和超出允许范围的影响。所以把单次最小采食量事件的定义阈值设置为-20 g是有意义的,并且是可行的。
综上所述,与单次性最大采食量情况相似,单次最小采食量事件数量与其对数据正确性两者之间有突变的临界值通常需要定在1%左右,所以该监测项目的阈值: 把单次最小采食量事件对饲料报酬的正确性影响定为1%时,定义阈值为<-20 g的事件数量应控制<1%。
一次性最大与最小采食量事件在数据正确性方面的主要意义是这些数值已经让测定数据远远偏离了这个事件的真值。
经通过不同采食量事件比率和对饲料报酬的影响分析,文章初步得到的最大采食量定义阈值为1.5 kg,这个数据的事件数发生率应该在0.1%以内;单次最小采食量事件对饲料报酬的正确性影响定为1%时,定义阈值为<-20 g的事件数量应控制<1%。