基于行为学指标数据的猪只行为分类

2017-08-10 09:52:45杨威俞守华
现代计算机 2017年17期
关键词:决策树贝叶斯猪只

杨威,俞守华

(华南农业大学数学与信息学院,广州 510642)

基于行为学指标数据的猪只行为分类

杨威,俞守华

(华南农业大学数学与信息学院,广州 510642)

将视频监控技术应用于规模化养猪场能大大减少人力,提高效率。猪只行为分类是通过图像处理计数从视频中获得猪只信息后的图像信息分析阶段,如何从大量数据中挖掘出猪只的行为是完成实现猪只智能监控的关键。通过图像处理将猪只行为信息提取量化后,生猪的行为识别转化成对行为指标信息的分类问题。首先论述猪只行为识别的关键行为学指标,然后引入决策树分类算法,贝叶斯网络分类算法,基于规则归纳的分类算法等三种分类方法对数据进行实验,并对猪只数据进行分类预测后评估三种模型的表现。结果显示,选取的行为学指标对猪只行为具有较高的区分度,J48决策树分类算法较朴素贝叶斯和基于规则生成的分类算法的准确率均达到96%以上,提取的规则能作为猪只行为分类的判断标准。

广东省科技计划项目(No.2012A020602043)

0 引言

中国是世界养猪大国,2016年我国生猪出栏头数为68502万头,猪肉产量为5299万吨,年末生猪存栏达43504万头[1]。养殖业的现代化和居民对肉类消费的不断增长使得规模化养殖场逐渐代替了传统的家庭圈养方式。然而若继续在规模化养猪场中采用传统的人工监控手段,不仅实时性不高,精度低,费时费力,且容易因疲劳造成漏检。在健康养殖的理念下,找到适应现代化规模化养猪场的监控方案,对规模化养猪场实施有效的监控管理,及时发现存在的问题和采取措施,改善养殖环境,降低病害发生率对保证安全顺利生产具有重要的意义。国内外学者在猪只的智能监控方面进行了诸多研究,有对猪只运动特征的快速提取[2],有单只猪只侧面轮廓提取[3],基于特征提取及特征优选的猪只姿态识别研究[4]也有对猪只攻击性行为进行监控的研究[5-6]。猪只行为识别是在正确的检测和跟踪的基础上,利用数据挖掘技术进行的指标信息分类。通过正确的行为分类及时找出异常行为,是猪只视频智能监控系统的主要目标和重要环节。因此,找到恰当的分类指标及合适的分类方法对系统功能的实现具有重要意义。

1 材料与方法

本研究是建立在对猪只的识别和跟踪的基础上,结合行为学指标对猪只的行为进行分类研究。数据来源为广东省科技计划项目“猪只采食与排泄行为智能识别及异常预警系统”(2012A020602043)从广州市从化、增城和天河三个不同猪舍规格的规模化养猪场采集的视频图像中利用图像处理技术提取的猪只行为学指标数据。

1.1 生猪的行为识别的行为学指标

对监控视频中的猪只进行实时地跟踪时,需要提取出能够反映猪只行为的指标信息。目前常用的行为学指标包括运动速度、运动距离、运动轨迹、停留区域和停留时间等,多个行为学指标的结合能有效提高识别的准确度。这些指标又可分为两类:运动参数和体态特征。运动参数在一定程度上反映的是动物的活跃程度,提供判断动物健康状态的客观依据。而体态特征则含有更多心理信息,在行为识别中具有更重要的意义[6-9]。

本文采用的运动参数包括:所停留区域及时间,运动距离,运动速度等;体态特征包括:周长面积比,长短轴之比,hu几何矩等。

运动距离通过两帧间猪只质心移动的距离来表示:

运动速度为生猪在单位时间内运动的距离:

其中,V(i+1,i)表示生猪在相邻两帧间运动的速度,D(i+1,i)表示生猪在相邻两帧间运动距离,ti+1-ti表示相邻两帧的时间间隔。

周长面积比描述的是生猪二维形状的不规则情况。计算方法如式(3):

当形状越不规则,F值越小;反之,值越大。其中,C和A分别表示生猪二维形状的周长和面积。

长短轴之比描述生猪二维形状的细长程度。其计算方法是根据公式:

其中L和S分别表示生猪形状的外接椭圆的长轴和短轴长度。

Hu几何矩是一种全局不变量,对噪声不太敏感,且不论目标是否封闭,均能较好的识别目标。Hu几何矩特征的定义和计算公式建立在对一个区域内部灰度值或边界灰度值分析基础上的,是一个全局量的描述,描述了对象的整体特征[5]。

1.2 决策树分类算法

在数据挖掘中,决策树是一个预测模型,它代表对象属性与对象值之间的一种映射关系。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每一个叶节点代表一种类别。决策分类树是一种十分常用的分类算法。C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。

1.3 贝叶斯分类器

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN 和 GBN。朴素贝叶斯分类器工作必须有一个前提假设,特征属性之间的关系必须是独立的,只有在这个假设前提下,朴素贝叶斯分类器才能工作地比较好。但是在现实世界中,这种假设并不成立。所以另一种算法就被提出即贝叶斯网络。贝叶斯网络的定义并不复杂,一个贝叶斯网络就是一个有向无环图,图中的每一个节点代表着一个随机变量(可以理解为样本的特征属性),对应着每一个节点贝叶斯网络还有一张条件概率表(CPT)。作为一种基于概率的不确定性推理方法,贝叶斯网络在处理不确定信息的智能化系统中取得了重要的应用。

1.4 基于规则归纳的RIPPER算法

RIPPER算法是William W.Cohen在1995年提出的规则归纳算法,是对IREP算法的改进。RIPPER算法具备可读性、可解释性强,易于优化等特点。该算法是基于正负实例集合的规则学习算法,通过重复增量裁减机制生成分类规则,减少过拟合的可能性并提高规则的准确度。在处理多分类问题时,RIPPER算法先按照类标签出现的频率对其进行排序,设{C1,C2, Ck}为频率从小到大排序后的集合。在第一次迭代中,把C1的样例标记为正,其他标记为反例,使用顺序覆盖算法产生区分正例和反例的规则,重复该过程,直到剩下频率最高的类别Ck。这种产生规则的特殊性,使得它对于不平衡的数据集分类性能比C4.5决策树算法要好。RIPPER算法时间复杂度为O(nlog2n),在包含大量噪声数据的测试集上仍然能保持较高的运行效率。但当数特征集很大的情形下,计算复杂度也随之增大。在Weka中RIPPER的实现方法时JRip。该算法在RIPPER的基础上进行了有一定修改,但准确度和规则生成并无太大区别。

2 实验与分析

2.1 确定问题

本文主要希望对比决策树分类算法、贝叶斯网络分类算法和基于规则归纳的分类算法RIPPER在猪只采食、排泄、站立、趴窝、慢走、跑动等行为进行分类的效果。行并从不同算法的对比中找出易混淆的行为类别,分析原因,反馈行为指标的选择,从而选择合适的分类算法并对不同行为的分类混淆进行了解以便为后续改进行为分类指标提供参考。

2.2 数据探测

通过前期对猪只视频的实验观察标记,本文得到了4311条猪只行为数据标记数据,其中站立477条,趴窝891条,采食1799条,排泄454条,慢走342条,跑动348条。每条数据包含16个属性,如表1所示。

表1 猪只行为分类属性说明

2.3 数据预处理

录入的4311条数据完整,各属性数据完整,分布正常,未发现异常数据。ID用于标识每一条数据。px与py是表示猪只当前所在的横纵坐标,用于确定Speed指标和Distance指标,故将这两个属性去除,保留Speed和Distance。最终经过预处理后,保留了dis⁃tance等12个属性,一个类属性behavior。经过选择后的属性是数据相对集中对于猪只行为分类关联最大的属性,可以提高模型分类的准确率。

2.4 数据挖掘

本文的目的是通过对行为学指标信息数据进行分类实现对猪只行为类别的识别。为了选择合适的分类算法,选用了C4.5,贝叶斯网络分类器和RIPPER三种分类算法进行比较分析。

作为对照,先采用ZeroR进行分类,ZeroR的原理是只选择概率最大的属性作为分类标准。ZeroR的准确率为41.8%。如果分类器的结果小于ZeroR则说明使用的分类器不适用于本实验对象,若高于此值则说明采用的方法是有效的。实验过程中采用十折交叉验证,为了使取得的结果更具一般性,设置随机数种子1,3,5,7,10进行五次实验并求得其平均精度。

2.5 结果分析

实验结果如表2所示。

表2 三种分类算法对比

从结果来看,三种分类器的准确度均达到96%以上,运行时间来看J48和贝叶斯网络算法0.15s要小于Jrip 的 0.56s。

进一步,我们来分析各个算法分类后的混淆矩阵。对于混淆矩阵,对角线上的数表明相应类别分类正确的实例个数,其他点表示错误分类的实例。对于J48我们选择最接近平均精度的,随机种子为7时的混淆矩阵。

图1 J48决策树算法混淆矩阵

从混淆矩阵可以看出,分类表现十分优秀,落在斜对角线外的数据远远小于斜对角线上的数据,这说明,各种行为的分类都十分准确。从混淆矩阵中,我们还可以看出,站立行为易与采食行为混淆,慢走易与跑动混淆。

运行J48分类器后,可生成分类决策树,如图2所示:

图2 J48决策树(部分)

根据得到的决策树我们可以得到决策规则,如在图2中的决策树,我们可以的得到如下规则:If zone=1,2 and hu3<=0.001251,then behavior=趴窝;If zone=1,hu3>0.001251 and hu1<=0.383548,then behavior=站立。本文实验数据生成的决策树一共有43片叶子,即生成了43个规则。在实际应用中,需要根据获取的更多实际数据不断地训练算法规则,从而提高分类方法的鲁棒性和准确率。

贝叶斯网络分类器取第五次运行结果的混淆矩阵进行分析。

图3 贝叶斯网络算法混淆矩阵

可以看到在贝叶斯网络分类算法中,站立与采食,站立与慢走,慢走与跑动是较容易混淆的组合。

对于JRip的混淆矩阵进行分析可以看得出,该算法中站立与采食、慢走与跑动及慢走与站立均是易混淆的组合。

图4 JRip算法混淆矩阵

3 结语

从实验结果分析,对于本实验的对象,三种方法均满足下一步应用的要求。其中,J48分类器的效果最好,贝叶斯网络分类器、JRip算法与J48相差较小,而从运行时间上来看JRip与前面两者相差较大,这与算法过程中的频繁剪枝相关。另外,各分类器均达到96%以上的准确度,说明选取的行为学指标作为分类属性的有效性,具有较高的区分度。从识别的行为类别来看,站立、采食、趴窝等行为识别度较高。而在各个算法中,站立与采食,慢走与跑动都是易混淆的组合,这说明对于现有指标来说,这两个组合的区分度较其他组合小。因此,在今后的研究中,可以通过提取更复杂的行为特征提高这两组行为的区分度。本实验达到了预期目的,找到了合适的分类方法,并为进一步研究的提供了方向。

[1]中华人民共和国国家统计局.2016年国民经济和社会发展统计公报[EB].http://www.stats.gov.cn/tjsj/zxfb./201702/t20170228_1467424.html

[2]肖德琴,冯爱晶,杨秋妹,刘俭,张哲.基于视频追踪的猪只运动快速检测方法[J].农业机械学报,2016,(10):351-357+331.

[3]党亚男.基于特征提取及特征优选的猪只姿态识别研究[D].太原理工大学,2015.

[4]马丽,纪滨,刘宏申,朱伟兴,李伟,张涛.单只猪轮廓图的侧视图识别[J].农业工程学报,2013,(10):168-174.

[5]谢徵.基于决策树支持向量机的猪只姿态分类与异常行为分析[D].太原理工大学,2015.

[6]Hu M K.Visual Pattern Recognition by Moment Invariant[J].IRE Transactions on Information Theory,1962,8(2):179-187.

[7]陈显周,俞守华,区晶莹.异常挖掘在猪只行为数据分析上的应用,农业现代化研究,2011,32(monog):52-55周勇钧,

[8]俞守华,区晶莹.多特征Camshift和Kalman滤波结合的猪只智能跟踪[J].广东农业科学,2013,09:174-177+188.

[9]许丹纯,俞守华,区晶莹,周勇钧.可拓分析法在猪场环境安全预警中的应用[J].广东农业科学,2011,23:160-163.

[10]Oczak,M.,et al.,Classification of Aggressive Behaviour n Pigs by Activity Index and Multilayer Feed Forward Neural Network.Biosystems Engineering,2014.119:89-97.

Pig Behavior Classification Based on Behavior Indexes Data

YANG Wei,YU Shou-hua
(College of Mathematic and Informatic,South China Agricultural University,Guangzhou 510642)

The application of visual recognition on large scale pig farm can greatly save manpower and increase efficiency.Pig behavior classification is one of the key problems to be solved for building an effective video surveillance system.Pig behavior recognition can be regarded as the classification of behavior index information via proper classification algorithm.Introduces the key indexes of pig behavior,introduces three kinds of classification methods including C4.5,Bayes Net and RIPPER,and uses the three algorithms to analyze pig behavior data.The re⁃sults analysis indicates that these three algorithm all have an accuracy above 96%,and the J48 which is Weka platform's version of C4.5 al⁃gorithm,has better performance than the other two methods considering accuracy and time-consuming.

杨威(1990-),男,湖南株洲人,硕士研究生,研究方向为农业信息化

俞守华(1964-),男,福建福州人,博士,教授,研究方向为农业信息化、系统工程,E-mail:segrad@scau.edu.cn

2017-03-22

2017-06-06

1007-1423(2017)17-0035-05

10.3969/j.issn.1007-1423.2017.17.007

行为学指标;猪只行为分类;数据挖掘;决策树分类算法;基于规则生成的分类算法

Behavior Indexes;Pig Behavior Classification;Data Mining;Decision Tree;RIPPER

猜你喜欢
决策树贝叶斯猪只
降低日粮粗蛋白并添加单体氨基酸对断奶—育肥猪生长性能和营养排泄的影响(中)
猪业科学(2022年11期)2022-12-17 08:43:54
猪胃溃疡的病因与防治措施
秋冬季防应激不可忽略饮水消毒
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
猪只硒缺乏症的预防措施和治疗方法
猪业科学(2018年5期)2018-07-17 05:56:18
贝叶斯公式及其应用
基于决策树的出租车乘客出行目的识别
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法
电子器件(2015年5期)2015-12-29 08:43:15