崔岩
摘 要:验证基于Haar-like特征的健康辨识ROC-Boosting算法在不同人群中的应用效果。在天津市南开医院采集的32例舌部图像及其健康辨识结果上运行ROC-Boosting算法,将基于Haar-like特征与其他人群采集的舌部图像及其健康辨识结果进行比较。研究结果表明,在两个人群中选择出的特征均集中于舌中、后部,基于选出特征建立的模型ROC曲线下面积达到0.864。结果验证了ROC-Boosting算法在满足人类观察舌部图像特点的同时,适用于不同人群。
关键词:舌部图像;健康状态;ROC-Boosting
DOIDOI:10.11907/rjdk.171143
中图分类号:TP319
文献标识码:A 文章编号:1672-7800(2017)007-0134-03
0 引言
Haar-like特征是用于人脸识别的一类重要特征[1]。这类特征不仅抽取速度快,而且对人脸检测等特定问题具有高敏感性或者高特异性特征。在此基础上建立的分类器,不仅准确率高,而且所选出的特征有着良好的可解释性。与应用于人脸检测相似,近年来在中医舌诊客观化研究中,也发现Haar-like特征与高尿酸血症存在联系,与疾病相关特征集中在舌部中间部分,符合中医舌诊中舌苔颜色的变化特点[2]。在此基础上,针对研究对象的健康/疾病状态使用ROC-Boosting这一算法选择出的Haar-like特征同样也集中于舌中、后部[3]。相对于特征数量,用于建立模型的数据量不足,而且医学数据获取难度大、成本高,易受到各种条件限制。因此,在当前研究阶段,无法用分类准确率等指标评价模型性能。因此,采取通过比较所选出的特征在舌部图像上的位置及所建模型ROC曲线下面积的方法,评价ROC-Boosting算法在新采集人群上的有效性。
1 对象与方法
数据采集的纳入标准为参与健康体检,年龄在20~70岁(含),且自愿参与研究的人群。因服药、外伤等导致舌部颜色、形状和纹理剧烈变化,且在1小时内无法恢复的,以及舌部活动受限的,例如流涎、无法张嘴、舌头强直、颤动等,加上不配合研究的,都予以排除。为了安抚研究对象人群,对于年龄超过范围的,也可以应邀获取图像和健康辨识结果,但其数据不参与研究。2015年9月-10月,从天津市南开医院采集了32例舌部图像,研究对象的基本情况如表1所示。采集图像后立刻由专门人员使用调查问卷将其健康状态划分为疾病和健康两类[4]。由于采集样本数量有限,将问卷中获取健康状态为可疑的,都视作疾病状态。对图像作预处理后,连同问卷健康辨识结果形成数据库,而后在其上运行ROC-Boosting算法[3]。
采用以往研究中的方法预处理采集图像,得到100*120像素的舌部图像。图1是一幅经过预处理的舌部图像。由于抽取的Haar-like特征数量较多,因而按照ROC-Boosting算法的要求过滤特征,使用t检验过滤无明显差异的特征。最终,选择p值切点为0.000 1,候选特征数为9 527。在此基础上,开始运行ROC-Boosting算法。
ROC-Boosting算法过程如下:
步骤(9)采用了两个条件,首先保证被正确分类的正类样本数和负类样本数与总体样本中正类和负类的样本数比例尽量一致。在本研究中,健康状态的样本为正类,疾病状态的为负类,这一比例为10∶22。在保证这一比例的基础上,选择ROC曲线下面积最大的特征。
使用R语言3.3.0的64位版本作为统计工具[5]。
ROC曲线下面积使用其中的ROCR包计算。特诊抽取和ROC-Boosting算法均采用R语言中的脚本完成。
2 结果与分析
2.1 结果
最终ROC-Boosting算法在现有特征集中选出了5个特征。共15个样本被正确分类后,因为没有特征满足步骤(9)的条件,算法结束。与以往研究中所选出特征的位置对比及最终模型分类的ROC曲线如图2所示。其中,图2(a)为ROC-Boosting在以往数据集上共1 322例舌部图像及其健康辨识结果上运行后,选择出的Haar-like特征的累积[3];图2(b)为在本研究中32例图像中选择出的特征的累积;图2(c)为选出这5个特征后,形成组合模型的ROC曲线,曲线下面积为0.864。
2.2 分析
从图2(b)可以看出,尽管选出的特征数量较少,但是选出特征仍旧集中在舌中部,这与在以往人群中运行ROC-Boosting算法的结果相似。一般中医认为,舌苔颜色的变化是人体健康状态的重要标志,并将舌苔颜色分为白、黄、黑等类型。已有研究对舌苔颜色及所在位置进行了研究,并认为舌苔一般位于舌中、后部[6],利用ROC-Boosting算法所選出的特征集中于位于舌图像的中、后部,如图2(a)所示。本研究由于样本数量的限制,选出的特征数量非常有限,仅为5个,但是已经体现出舌苔在舌体所处位置。随着研究的深入,采集样本量的增加,所选出的特征也会进一步增加。
尽管由现有数据得到的ROC曲线下面积较大,达到了0.864,但是由于没有更多数据,因而无法验证依照目前数据所得分类模型的分类效果。本研究正/负类样本的比例与以往研究不同,以往研究对象中,健康对象比例数量较少,正/负类样本的比例为0.126(148/1 174,共1 322例)。而本研究中样本的正/负类比例为0.455(10/22,共32例)。因此也无法直接将以往研究中的模型直接用于当前人群预测和验证。
ROC-Boosting算法是一种提升算法。Viola等[1]于2004年首先将基于Haar-like特征的提升算法其应用于人脸检测。至今为止,这类算法仍旧是人脸检测的主要方法之一。但是这一算法成功应用于人脸检测的前提是人脸图像上有鼻子、双眼等敏感度极高但是特异度不高的单个Haar-like特征存在。而后算法可以在保证敏感度的前提下,提高特异度,最终得到几乎完美的分类模型。这类模型用于人脸检测时,ROC曲线下面积接近于1。将这一算法推广到其它图像分类问题时,面临着以下两个主要问题:endprint
(1)不存在单个高性能特征。例如用于舌部图像健康辨识这一问题时,通过前期实验发现在海量的特征中不存在高敏感度或者高特异度的特征,因此无法通过原始的算法提升得到高性能的分类模型。
(2)样本数质量问题。在人脸识别中,尽管Viola声称其训练方法不需要负类样本,但实际上,图像上所有的非人脸部分都可以作为负类样本,而且人脸图像非常容易获取,因此用大量样本训练可靠的分类器是可行的。但是在舌诊健康辨识问题上,面临着数据采集难度高的问题,这也造成数据数量和质量都无法训练出特别高性能的分类器。
为了解决以上两个问题,将Viola的算法进行扩展,增加了应对样本不平衡的比例限制条件,即选出的特征正确预测的正负类样本比例,必须与原始样本中正负类的比例接近。这一条件防止分类器过分倾向于大类。例如在本研究的32例图像中,选出5个Haar-like特征,每个都是正确预测了1个健康样本和2个疾病样本。此外,还增加了限制单个特征性能的条件,使每个选出的特征的ROC曲线都是上凸且不穿过ROC空间的随机猜测线,这也保证了总体分类模型的性能逐步提升。有了以上两个条件的限制,ROC-Boosting算法能够随着样本量增加得到更好的分类模型。
在以往研究中发现,由于参与健康辨识研究人群多由参与体检、社区等途径获得,因而健康样本数量大大少于疾病样本数量,造成样本间不平衡问题。这类出现在医药研究领域中样本数量不平衡分类问题仍旧是研究重点[7]。集成分类算法,是应对此类问题的主要手段之一。此外,本研究所采集数据量较少,因此样本间数量较为平衡,由此对分类模型的影响也是未知的。
3 结语
通过在不同人群上运行ROC-Boosting算法,验证了该算法能实现在不同的人群中成功提取Haar-like特征。所提取的特征数量较少,但与以往研究一致的是,特征都集中于舌的中、后部,这与中医舌诊的理论相符合。因为样本数量较少且分布不同于以往研究,因而无法评价ROC-Boosting算法的预测性能。因此,进一步规范和扩大舌部图像和相应健康状态的采集,验证ROC-Boosting的预测性能将是后续研究的重点。
参考文献:
[1] VIOLA P,JONES M.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.
[2] CUI Y,LIAO S,WANG H,et al.Relationship between hyperuricemia and haar-like features on tongue images[J].BioMed Research International,2015(9):32-36.
[3] CUI Y,LIAO S,WANG H,et al.ROC-boosting:a feature selection method for health identification using tongue image[J].Computational and Mathematical Methods in Medicine,2015(11):32-36.
[4] ZHOU X,XU F,GAO J.Development and preliminary validation of the questionnaire (the First Edition) based on tcm for detecting health status in China[J].Evidence-based Complementary and Alternative Medicine,2015(2):83-85.
[5] R CORE TEAM.A language and environment for statistical computing,R foundation for statistical computing[EB/OL].https://www.R-project.org/.
[6] 陳松鹤,梁嵘,王召平.6种舌苔颜色数据的三维分布特征的描述[J].时珍国医国药,2009(11):2852-2854.
[7] 李玉平,夏斌.样本不平衡的睡眠数据分期研究[J].微型机与应用,2016(18):55-57,61.endprint