种猪生长性能自动测定设备数据的特点及其正确性监控内容

2019-03-11 09:28戴美玲杜秉华楼平儿
猪业科学 2019年2期
关键词:精确性正确性表型

戴美玲,杜秉华,楼平儿

(浙江天蓬集团有限公司,浙江 衢州 324100)

前言

近年来随着养猪规模化、现代化发展,种猪生长性能自动测定设备在我国的猪育种中使用越来越多,成为获取大群体生长性能数据的不二选择。自动测定设备是一种由多项现代科学技术合成的装备,需要相应现代管理技术支持,才能得到正确性比较理想的测定数据。可能人们没意识到如何对其设备进行现代化管理,所以很多国内猪场在场内测定的自动测定设备测定数据的正确性方面并不理想。2017年国家进一步推行全基因组选育技术,这个技术对各相应的表型值测定正确性提出了更高的要求。对于猪场来讲,生长性能的表型值(如日增重和料比等)是降低猪场单位生产成本的重要途径,但数据的正确性却是不少人对此技术没有信心的原因,所以现场表型数据的质量问题也越来越广泛地引起大家的关注。

提高数据质量是一个系统的管理工作,对测定工作的运行进行监测,却又是系统管理很重要和很基础的工作之一。随着社会的发展,国内畜牧业已经把测定工作从集中测定逐步转移至场内测定,由场内测定人员直接管理测定数据,对数据的监测也成为他们管理的基础工作内容。但目前,对该测定数据正确与否和对其监测方法的标准几乎没有,我国大多数猪场对运行自动测定设备的测定数据质量认识也不多,对运行监测的管理工作也基本没有实行;国外虽有专著对自动测定设备的数据准确性和监测方法进行论述,但这些论文中所介绍的方法多以学术为主,对我国猪场场内测定的具体操作来讲还是有相当大的困难。所以我国猪场的场内测定工作者要进行监管测定的运行,就需要系统的监管方法,而这个方法的要求是有效和易操作的实用方法。

种猪生长性能自动测定设备获得的测定数据受到的影响因素除了测定设备的性能和测定管理之外,它在实际运行过程中还要受到被测定猪群行为的影响,以及这种动物行为与测定行为互动作用等诸多因素的影响。影响测定数据正确性的因素不仅复杂,数据正确的正确与否又意味着能否准确表述猪的行为,所以测定数据的特点和数据正确性的表现与其他行业又有不同之处。造成每个 异常 数据的结果并非与每一种影响因素呈必然的因果关系,但在大数据的情况下其数据的异常状态与综合影响原因会呈现一定的相关性。为此我们对实践过程发现的几种常见的异常测定数据的主要发生原因、原因的影响、以及在正常运行状况下正常数据与异常数据的正态分布状况进行分析,并以此测定数据出现的特点为依据对测定数据正确性问题进行分析和探讨。我们认为测定数据的特点和其正确性的概念是测定工作监管的基础,这两点正是文章主要探讨的内容。

探讨自动测定设备的测定数据正确性以及监测方法涉及到较多的具体内容,限于篇幅,后续的文章再分别对实际的数据现象展开讨论和分析。

1 测定数据的特点

自动测定设备的测定对象是动物的即时行为,因此测定数据的特点有:

1)其每个测定数据都没有一个通常数据误差理论定义的 真值来被监测和校正。对任何一个具体的测定数据来讲都不存在一个相应的标准值来核算它的精确性和准确性,即使个别明显看上去有悖常理的数据,也只能认为其是 有问题数据而已;

2)数据量巨大。由于全天候自动化测定的结果,产生的数据量是巨大的,一个测定工作站一个测定周期的数据量就有10 000个左右;

3)单个数据的信息价值低。测定设备的数据量是所有场内性能测定项目中最大量的,而每个数据的信息价值却又很低,如果 感觉某数据有问题的话,就单个数据而言既少有实际意义而且又难以分析该数据背后的原因;

4)较差的测定环境和受到干扰较多。由于测定种猪的环境相比其他行业来讲恐怕是最恶劣的,设备经常处于被粗暴干扰其稳定运行的测定环境;

5)动物行为与测定行为介入产生的互动作用会放大数据的异常程度。由于测定活体动物行为的特殊性,被测动物不仅有个体之间的行为差异,还会由于动物行为受到外界事件影响后产生的应激反应,放大了故障原因下的数据异常程度。

所以猪场内的测定设备在运行时受到的影响因素多于其他行业的影响因素,而这些因素又常常多重和叠加发生。在这样的测定背景下,虽然测定数据呈大数据的低价值状态,然而有幸的是这些数据性质却应该是符合生物体生长规律的行为数据。所以对自动测定设备的测定数据进行合适的统计学方法分析后,或许就是能发现出错数据和出错原因的方法。

2 测定数据的正确性

现代育种技术对表型值的定义是在生产中被直接观察到的成绩,影响表型值的两个因素是基因和环境效应[1]。表型值对猪场的育种和生产管理有重要的意义,它直接影响对育种值的估计(EBV或GEBV)和数量性状基因(QTL)等的鉴别及定位,也能提供生产管理中出现问题的重要信息。种猪生长性能自动测定设备就是测定生长性能的表型值,有关表型值中的基因因素不是数据质量管理关注的问题,这里关心的是环境因素。但表型值需要在测定条件下获取,而测定工作本身又会产生一个人为和设备的干预效应,所以在考虑自动测定设备下的数据正确性时除了育种学上的环境因素外还要加上测定猪行为与测定行为的互动效应。

测定环境就是测定时设备的本身状况和各种外界因素影响测定运行的情况,饲养环境中的基本条件如栏舍,饲料和气候等,但这些目前还不考虑为本文议题中的管理因素,可作为以后评估数据质量时的加权因素和进一步深化管理的因素。在数据质量管理中关注的环境因素在本文中暂指的是设备故障、动力和饲料的中断,意外突发事件等,这些因素在实际的测定过程中影响设备的运行甚至破坏设备的功能,对数据误差的影响往往是很大的。

测定猪与测定环境的互动因素有两个方面,一个是在测定行为的约束下动物为此产生的反应,如单位测定站的测定头数会影响站内个体猪和群体猪的平均日采食量和日增重,这是测定猪在这样的群养条件下被迫适应而产生的平衡状态,却会影响表型结果。另一个是在故障和突发事件会刺激动物行为,这样应激行为与测定故障产生互动作用而放大数据异常或出错的程度[2](戴美玲等,2018)。这是自动测定时常见的情况,但这个结果对测定数据的影响往往是不小的。

如果有一个 标准的 正确值(真值),那么对这个真值来讲对应的测定数据正确性可用数据的精确性和准确性的两个方面来表述(图1)。

图1所示的a和b就是表示数据精确性和准确性的情况。数据精确性是指设备能够表现这个测定值表现误差范围多少之内,在图1中a表示的就是指各个实测数据围绕中心点-真值的离散情况,但不管中心点的真实位置在哪里。数据准确性,即在图1中b就是指各个离散数据的中心离开真正中心点-真值的距离,它只关心中心点的真实位置是否变动而不管各个数据的离散情况。

图1 数据精确性和准确性图示

对自动测定生长设备的测定数据来说,假设一头体重为真正50 kg的测定猪,那么在测定正常的情况下,数据的精确性是由设备本身的性能而定。数据精确度是设备标定的性能指标,如体重称量精度能保持小于f0.2 kg,则测定结果应该为50f0.2 kg之内。这就是以上图1中a的表示。

在正常测定情况下,数据准确性是指这个数据中心点在测定过程中受各种原因影响而偏离50 kg的距离。如这次称体重时后面一头猪也挤了上来,或者这头猪把自身的部分抵在体重秤以外的地方,或者体重秤被卡住了等等。即出现了类似图中b的表示。在这种情况下得到的体重记录往往是远大于50f0.2 kg的结果。

当然测定过程是诸多内外影响因素和动物行为的互动作用的过程,测定数据往往受到多重因素的叠加影响,“问题 数据可能难以简单地归属到精确性或准确性的原因,但这不是本文的议题。鉴于本文的监测主题,我们从数据正确性的精确度和准确度的概念出发,对实践结果的数据进行分析,探讨测定数据的表现和测定过程正确的监测方法。

参考美国国家猪肉委员会名义进行研究测定数据出错的科研文章[3](Casey等,2005),实验在明尼苏达猪肉协会测定站进行。他们在研究中提出了监测测定工作的方法,我们引用了他们的部分监测项目和方法来评估本文使用的材料数据。 对比的内容和结果如下,由此可以认为用于本文分析的材料数据是有一定意义的,我们在这个材料数据的基础上探讨在场内测定时猪只行为数据的正确性和界限。

以上的平均值和变异系数均是在以测定工作站为单位分别统计分析后再汇总的数据,如表1中为1.20%。按全体数据平均值与之不同,如上述材料中介绍的无效事件数平均值为1.03%。

平均值基本反映了整个测定项目数据的正确性状况,变异系数大致反映了测定过程中对整个测定工作的管理能力。

3 方法

自动测定设备报告中的测定数据是描述动物行为的直接数据,如一次测定数据(以下称为事件数据)包括的具体内容是:身份识别号、该次测定过程进入的时间和料槽内的开始饲料量、该次过程结束后的饲料量、中途的投料量和对该次测定结算的采食量、该次过程结束时的体重量。一个测定站在一个测定周期内发生的事件数据约在10 000个左右。

根据动物的行为数据是符合生物体生长规律的,以及在正常运行情况下这些行为数据的界限是能用统计学的方法来推算和评估的原则,这里先以测定站为单位分别统计各站的数据,然后汇总整个测定批次的数据情况,最后进行统计分析。我们从几种常见和主要异常的数据类型出发,分析这些情况下出错数据的概率及影响,从而推导出各种情况下出错数据的定义阈值,出错数据量对饲料报酬的影响阈值。这些常见故障基本覆盖了饲料称量的稳定性、饲料的缺损、饲料和体重量的粘连故障和数据的缺失等,因为它们直接并主要影响了数据的误差(精确性)和数据的真实和完整(准确性)。

表2就是我们对场内测定提出的监控项目及其内容,表2中的定义阈值是指具体监控内容达到出错的临界值,用于鉴定数据的出错;正确性阈值是该测定的出错数据累积量影响分析报告所要求正确性的临界值,该值用于测定过程中的运行监测和故障原因的分析,也可用于出错后的数据质量评估,以致数据维护。

表1 与美国文献数据对比监测和评估测定数据的结果

表 2 场内测定出错数据监控项目及内容

4 小结

种猪自动测定设备是现场育种工作的精密测定设备,但其工作环境是相对比较恶劣、相应的管理细致程度需提高,所以现行条件下的测定数据,需要在日常的数据管理中进行正确性的监控和评估,具体包括单次最大采食量、单次最小采食量、相邻日体重变化量、数据链中断、零耳牌事件和饲料称重稳定性。才有得到相对比较可靠数据的基本保障。对后续的日增重、料比等进行分析,或指导生产,才有可靠性保障。

猜你喜欢
精确性正确性表型
承德所选实生核桃资源果实表型性状评价初报
体型表型与亚临床动脉粥样硬化有关
慢性阻塞性肺疾病急性加重期临床表型及特征分析
数字有形状吗?数字信息精确性和品牌标识形状的匹配效应*
土壤盐碱对不同表型猴樟渗透调节物质的影响
浅谈如何提高水质检测结果准确性
“正确性”与“实用性”的初探
阵列式烟气流量测量装置在脱硫CEMS中的应用
再议不能让孩子输在起跑线上
内容分析法在心理学教材研究中的应用