郝连旺 洪文学
1(燕山大学电气工程学院,河北 秦皇岛 066004)2(燕山大学里仁学院,河北 秦皇岛 066004)
属性多层次结构关系在白细胞形态六分类技术中的应用
郝连旺1,2洪文学1*
1(燕山大学电气工程学院,河北 秦皇岛 066004)2(燕山大学里仁学院,河北 秦皇岛 066004)
具有混合属性的白细胞形态是有着属性多层次结构关系的复杂系统,通过层次化表达属性、变层次利用属性,可以有效实现其六分类识别技术。在分析白细胞形态特征属性多层次结构关系基础上,获取白细胞六种类型目标的决策关系和伴生关系,设计白细胞形态属性多层次结构分类器,从而建立基于属性多层次结构关系的白细胞形态六分类识别方法。对952幅医院实际白细胞图像数据集做对比实验,取得95.98%的平均分类精度,明显高于其他3种经典算法,表明该方法具有较好的分类性能,也证明复杂系统属性多层次结构关系在图像模式识别领域具有重要的理论意义和应用价值。
形式概念分析;属性多层次结构;白细胞形态;分类识别
引言
白细胞形态学检查具有重要的临床价值,在疑似血液病和血液学检查异常时必须同时进行外周血图片检查[1]。人体外周血白细胞形态六分类(SEG,分叶核中性粒细胞;BAN,杆状核中性粒细胞;LYM,淋巴细胞;MON,单核细胞;BAS,嗜碱性粒细胞;EOS,嗜酸性粒细胞)识别技术是经典的面向目标对象的有监督模式识别问题[2]。目前,结构模式识别与统计模式识别是模式识别领域的两大分支,两者各有优缺点和各自的应用范围[3]。如何将统计模式识别和结构模式识别相结合,取长补短,联合进行模式识别任务,是近年来研究的热点,解决关键是寻求一种可以有效表达模式特征间关联和高阶结构信息的特征表示方法[4]。
近几年随着新技术的不断发展,针对统计模式识别与结构模式识别相结合的研究持续进行,神经网络、统计学、遗传算法、形态学理论、小波理论等得到日趋广泛的应用。例如,将图嵌入方法用于图结点统计特征提取[5],在形状分析中将句法、语义和统计统一描述[6],应用脉冲耦合神经网络方法将统计模式识别和结构模式识别建立联系[7],或者应用像素统计特征分割结构特征[8]。
一个具有混合属性的事物是一个具有属性多层次结构关系的复杂系统[9]。一个复杂系统可以从不同角度去观察,也就是变层次观察。属性是各类事物特征的表达,属性间的关系表达了所研究问题的概念间的关系。复杂系统分类识别是从低层概念综合转化到高层概念的过程,是从数据中提取出隐含概念结构的过程[10]。属性层次结构之间关系能够有效表达模式特征间的关联信息和高阶结构信息。
笔者分析了复杂系统的属性多层次结构关系,在基于优选特征属性偏序结构分析的白细胞形态分类规则发现工作基础上[11],依据白细胞形态特征属性的多层次结构关系,生成了属性多层次结构判验分类器,建立了基于属性多层次结构关系的白细胞形态六分类识别方法。
1.1 实验数据采集
所用的A、B两组实验数据来源分别为秦皇岛市第一医院提供的健康男性成人门诊对象甲(1人隔天共2次采集)、乙丙(2人隔天共4次采集)外周血的血涂片。血涂片制作采用常规Wright染色,用Olympus BX50显微镜将血涂片细胞经油镜放大1000倍,通过彩色摄像机进入NYD-100型医学图像分析系统,以BMP文件方式采集。考虑彩色细胞图谱亮度的微小变化会对颜色直方图分布产生较大影响,对原始样本进行了预处理,将图片中的白细胞从背景中分割,调整亮度[12],并进行了人工分类,实验数据情况如表1所示。
1.2 属性多层次结构
形式概念分析由德国数学家Wille于1982年提出,体现了概念内涵和外延的统一,是一种反映概念间的泛化与例化关系的二元关系,可以用作对具有共同属性的对象进行分组的工具[13]。属性多层次结构关系可以利用概念的层次关系和概念与内涵的同一性来寻找概念,以构成概念分类器[14]。属性按照分类能力可分为独立属性、共有属性和其组合模式[15],不同层次下的属性模式的有序排列可以表示不同类事物,这种属性层次化表达模式被称为属性多层次结构。
表1 实验数据情况
从人类认识模式的角度看,可以构造出如图1所示的以属性特征和对象相似性为指标的属性多层次结构。
图1 属性多层次结构Fig.1 The diagram of attribute multi-hierarchy space
定义1[15],设K=(U,M,I)是一个形式背景,m∈M,且满足{g(m)|m∈M}=U,则称m为最大共有属性;设m0,m1,m2,…,mk是一些属性,若满足g(mi)⊆g(m0),其中i=1,2,3,…,k(k≥2),则称m0是m1,m2,…,mk的共有属性。
定义2[15],设K=(G,M,I)是一个形式背景,(M, ≼)是属性偏序集,属性mi∈M,属性mj∈M,若满足{g∈G|(g,mj)∈I}⊆{g∈G|(g,mi)∈I},即g(mj)=g(mi),则称属性mi与属性mj有伴生关系。
定义3[15],设K=(G,M,I)是一个形式背景,U1≼U是一个类独有属性的集合,而g(m)≼U1,但g(m)∩Up=φ,这里Up是UI以外的任一个其他的类,则称m是UI类的独有属性。
由图1可知,模式识别主要研究某些对象具有某些属性,并可以通过属性特征来区分为某些类别的问题。如果不同层次结构之间具有若干相同的属性有序排列,并且具有这些属性的对象同属一类事物,则用较少属性的层次结构来表达该类事物。不同层次结构之间具有若干相同的属性有序排列,但具有这些属性的对象不属于同一类事物,则用较高属性的层次结构来区分不同类事物。
表2 优化后的白细胞形态数据集形式背景
Tab.2 The optimized formal context of leukocyte morphology dataset
图2表示属性分层分类的原理,它将多类属性结构问题通过分层逐渐转化为两类属性结构问题,多类结构{Q1,Q2,…,Qi,…,Qn-1,Qn}分解为两类结构{Q2m-1,Q2m}。
图2 属性分层分类原理Fig.2 The principle diagram of attribute hierarchical classification
1.3 结构分类器
1.3.1 白细胞形态属性多层次结构关系分析
笔者在大量白细胞形态区域特征测定实验的基础上,对前期研究[11]中的白细胞形态优选特征进行了离散化处理。根据形式概念分析中构建形式背景的理论,对A组数据样本构造出了优化后的白细胞形态数据集全属性(包括决策属性)形式背景。本文仅列出随机抽取的27个样本的形式背景,见表2。在形式背景中,每个实例代表一个预处理后白细胞形态。该形式背景属性是对应生成的6个条件属性和6个决策属性的数据集合,条件属性A={i≥95,c≥52,m≥58,g≥256,h≥250,e},决策属性D={BAN,SEG,EOS,BAS,LYM,MON}。其中,i表示细胞浆区域r参数均方差值,i_y代表i≥95;c表示细胞核面积占分比,c_y代表c≥52;g表示细胞浆区域色调H参数平均值,g_y代表g≥256;m表示细胞核、浆之间S参数平均值的对比,m_y代表m≥58;h表示细胞浆区域R参数的平均值,h_y代表h≥250;e表示细胞核圆形度,按照数值大小可分成e1为0~0.6,e2为0.6~1.2,e3为1.2~1.8,e4为1.8~2.4,e5为2.4~3.0。
通过分析表2,可以发现对于分类有指导意义的属性多层次结构关系知识。在去符号化、考虑属性对互斥的关系下,得出以下决策关系和伴生关系。
图3 属性多层次结构决策判验器Fig.3 The attribute multi-hierarchy decisions and inspection classifier
1)一级决策关系:CA(i)⟹DA(LYM∪BAS) DA(EOS∪MON∪BAN∪SEG),即CA(i_y)⟹DA(EOS∪MON∪BAN∪SEG),CA(i_n)⟹DA(LYM∪BAS)。
2)二级一类决策关系:CA(i_n,g)⟹DA(LYM) DA(BAS),即CA(i_n,g_y)⟹DA(LYM),CA(i_n,g_n)⟹DA(BAS)。伴生关系:CA(h_n,e1e2e3)=DA(LYM),CA(c_y)=DA(BAS)。
3)二级二类决策关系:CA(i,c)⟹DA(EOS) DA(MON∪BAN∪SEG),即CA(i_y,c_y)⟹DA(EOS),CA(i_y,c_n)⟹DA(MON∪BAN∪SEG)。伴生关系:CA(m_y,g_y)=DA(EOS)。
4)三级决策关系:CA(i_y,c_n,m)⟹DA(MON) DA(BAN∪SEG),即CA(i_y,c_n,m_y)⟹DA(MON),CA(i_y,c_n,m_n)⟹DA(BAN∪SEG)。伴生关系:CA(g_n,e4e5)=DA(MON)。
5)四级决策关系:CA(i_y,c_n,m_n,g)⟹DA(BAN) DA(SEG),即CA(i_y,c_n,m_n,g_n)⟹DA(BAN),CA(i_y,c_n,m_n,g_y)⟹DA(SEG)。伴生关系:CA(h_y,e1e2e3)=DA(BAN),CA(h_y)=DA(SEG)。
1.3.2 属性多层次结构决策判验器设计
在属性多层次结构关系中存在的决策关系和伴生关系均为偏序关系,都可以用作分类属性,但这种层次关系为祖孙先后关系,因此在上级关系能够区别的情况下,可不再用下级区分,以减少非必要计算量。笔者转变了思考角度,充分利用属性多层次结构关系知识发现能力,在获取了骨干祖孙先后关系(即区别性能鲜明的属性层次关系)后,划分决策关系和伴生关系,用决策关系进行类别判定,用每种类型判定后对应的独有伴生关系进行结果验别,融合决策条件判别器和伴生条件验别器,生成了以属性多层次结构关系为基础的属性多层次结构决策判验器,见图3。
该分类器分为输入、决策条件判别、伴生条件验别、输出应用4部分,其中决策条件判别和伴生条件验别部分为计算核心,决策条件判别部分又分为4级,在图3中已经标明了各级的决策判别、伴生验别应用条件。
1.4 实验设计
为了全面测试属性多层次结构决策判验器的性能,以A组样本为实验对象,分别进行有无伴生验别器的对比实验和循环次数λ的优化实验;以B组样本为实验对象,设计了与表3中另外3种经典算法的对比实验,将4种方法在留一法验证下测试分类精度。同时,为了保证测试结果的客观性,文献[16-18]中的3种经典算法编写及特征提取工作均参照来源文献的描述进行,均采用PRTools中的软件包标准函数完成。
表3 对比方法
2.1 伴生验别器必要性验证结果
针对A组测试样本,分别进行有无伴生条件验别及反馈两种情况的分类,其分类精度如图4所示。属性偏序结构决策判验器的总体平均分类精度比单一决策判别器提高了13.56%,体现了伴生条件验别器和错误反馈器的重要性;同时,BAN、SEG、EOS、BAS这4种白细胞类型的分类精度提升了至少18.5%,说明在属性特征g和c的测量上容易出现错误,经反馈器返回再增强后,测量数据得到了改进,分类精度相应获得了大幅提高。
图4 有无反馈情况下的分类精度Fig.4 Classification accuracy comparision between with and without feedback
2.2 循环次数λ优化结果
伴生条件验别器和错误反馈器虽然重要,但势必会增加计算成本,为此需要合理确定循环次数。笔者针对A组测试数据,做了λ分别取值0、1、2、3、4、5的6组实验,循环次数λ对总体平均分类精度和总运行时间的影响见图5。
图5 循环次数λ影响曲线Fig.5 The effect of cycles number λ
由图5可知,总体平均分类精度和总体运行时间均随着λ增大而增加。从曲线增长趋势来看,总体平均分类精度在λ=3以后,增长趋势明显变缓,λ=3、4、5的情况下,总体平均分类精度维持在95%~97%;但总体运行时间在λ=3以后,增长趋势明显变陡,λ=4比λ=3的总体运行时间以大于20%增加;为了满足实际运行需要,将循环反馈器循环次数λ设定为3。在特异样本第3次仍未能通过验证的情况下,将对其舍弃或提示人工判断。
2.3 与经典分类器的对比结果
白细胞形态属性多层次结构决策判验器与文献[16-18]中3种经典算法的对比实验结果见表4。
表4 不同分类方法的分类精度(%)对比
由表4可知,各种分类方法对于不同种类的白细胞样本组,表现出或好或坏的分类性能。对于总体测试样本数据集,本方法取得了95.98%的最高分类精度,比传统方法中表现最好的基于统计规则库匹配方法[17]的精度高出3%,比其他两种传统方法高出7%左右;并且,对于BAN、SEG、LYM、MON这4种白细胞类别组,本方法也均表现出最佳的分类效果。
基于属性分层分类原理,属性多层次结构决策判验器中的决策判别器实际上是一种标准二叉树形式,它把一个复杂的白细胞六分类问题转化为4层5个二分类问题来解决,根据各种属性特征值在属性多层次结构空间内将模式逐步进行由粗到细的分类,体现了人类根据各种知识进行推理的思维过程。基于属性多层次结构关系建立的白细胞形态六分类识别方法,具有如下的可行性和适用性。
3.1 可行性
由属性偏序结构生成的决策判别器具有一个合适的决策树结构,合理安排了树的节点和分枝;据属性偏序结构的偏序关系,明确了在每个非终止节点上要使用的属性特征;对属性偏序结构中的属性特征均做了单值离散化处理,在各非终止节点处选的决策规则比较清晰。
3.2 适用性
笔者在建立白细胞数据集属性偏序结构时,择优选用了一些类间高特异性属性特征,这类特征对区分某些类别非常有效,对于区分其他类型可能没有用处,往往不被一次判决的分类器选用。在这里,决策判别器为树分类器,但其特征却能充分发挥作用。这是由于树分类器中每个非终止节点的判决,都选用那些有利于划分两子类的特征,以此提高整体判决的正确率。
仅依据6个属性特征建立白细胞数据集属性偏序结构,达不到单级分类器处理多类问题时的特征维数要求,单级分类器往往用多特征来提高识别正确率,常常造成“维数问题”。然而,这里的树状决策判别器要求相反,它每次判决都选用少数特征,而且不同特征在不同的判决中又充分发挥不同的作用。
这里的决策判别器每次判决相对简单,虽然判决次数多到4次,但判定一个样本所属类别的总计算量却相对减少很多。在本文第2节中,白细胞形态属性多层次结构判验器在循环反馈器循环次数设定为3的情况下,取得了最优异的分类精度。这主要因为它利用了属性多层次结构提取的分类规则,在二叉树分类器基础上,增加了伴生条件决策验别、错误结果循环反馈及增强再处理的环节。
3.3 其他
同时,根据本文1.2节中的伴生属性、伴生关系定义,对于偏序关系表达式{g∈G|(g,mj)∈I}⊆{g∈G|(g,mi)∈I}可以理解为:伴生属性不一定决定该偏序关系,但在该偏序关系中一定存在。对于分类问题,可以解释为伴生条件不一定最先起到分类决策作用,但它是该类别的必然表现。因此,利用伴生条件设计验别器具有可行性。并且,在输出应用阶段,设置了错误验证结果融合反馈器。在反馈环节,采用了广泛使用的直方图均衡化技术。
具有混合属性的白细胞形态是有着属性多层次结构关系的复杂系统。复杂系统分类识别是从低层概念综合转化到高层概念的过程,是从数据中提取出隐含概念结构的过程。属性多层次结构关系有效表达模式特征间的关联信息和高阶结构信息,通过层次化表达属性、变层次利用属性,依据属性分层分类原理,可以建立概念分类器。
因此,笔者在分析6种白细胞形态特征属性多层次结构关系的基础上,利用结构关系发现分类规则,获取了白细胞6种类型分类目标的决策关系和伴生关系,依据传统决策树分类器形式,用决策关系进行类别判定,用每种类型判定后对应的独有伴生关系进行结果验别,融合决策判别器和伴生条件验别器,生成了白细胞形态属性多层次结构决策判验器,从而建立了基于属性多层次结构关系的白细胞形态六分类识别方法。通过实验,合理确定了循环反馈器的循环次数为3。在对医院门诊实际样本集的对比实验中,取得了95.98%的平均分类精度,明显高于其他3种经典算法,证明了该方法具有较好的分类性能。这种好的分类性能主要取决于它充分利用了属性多层次结构提取的分类规则,在传统分类器的基础上,增加了伴生条件决策验别、错误结果循环反馈及增强再处理的环节。该方法的显著性能也证明,复杂系统属性多层次结构关系分析方法在模式识别领域具有重要的理论意义及应用价值。
[1] 魏宁康,杜元元. 注重外周血细胞形态学检查降低血液病漏诊和误诊[J]. 检验医学与临床,2013,10(9):1166-1167.
[2] Khashman A. Investigation of different neural models for blood cell type identification[J]. Neural Computing & Applications, 2012(21):1-7.
[3] Fu KS, Albus JE, Anderson RH. Syntactic pattern recognition and application [M]. New Jersey: Prentice-Hall, 1982:152-164.
[4] 傅京孙. 模式识别及其应用[M]. 北京:北京大学出版社,1990:20-28.
[5] Jaume G, Ernest V, Horst B. Feature selection on node statistics based embedding of graphs [J]. Pattern Recognition Letters, 2012, 33(15):1980-1990.
[6] Anand R. Revisioning the unification of syntax, semantics and statistics in shape analysis [J]. Pattern Recognition Letters, 2013,42(12): 2301-2314.
[7] Frank TA, Jason M,Kinser,etal., A neural bridge from syntactic to statistical pattern recognition [J]. Neural Networks, 1999, 12(3):519-526.
[8] Impoco G, Tuminello L, Fuca N. Segmentation of structural features in cheese micrographs using pixel statistics [J]. Computers and Electronics in Agriculture, 2011, 79(2):199-206.
[9] Slavakis K, Giannakis G, Mateos G. Modeling and optimization for big data analytics: (statistical) learning tools for our era of data deluge[J]. IEEE Signal Process Mag, 2014, 31: 18-31.
[10] Hong Wenxue,Yu Jianping,Cai Fu,etal. A new method of attribute reduction for decision formal context[J]. ICIC Express Letters Part B:Applications,2012,3(5): 1061-1068.
[11] 郝连旺,洪文学,李婷. 基于属性层次关系的白细胞图像类间特异特征选取方法研究[J]. 生物医学工程学杂志,2014,31(6):1202-1206.
[12] 郝连旺,洪文学. 基于多颜色空间特征融合的彩色白细胞图像识别[J]. 生物医学工程学杂志,2013,30(5):909-913.
[13] Ganter B,Wille R. Formal Concept Analysis:Mathematical Foundantions[M].New York: Springer-Verlag, 1999:42-65.
[14] Poelmans J, Elzinga P,Viaene S,etal. Formal concept analysis in knowledge discovery: a survey[J].Conceptual Structures: from Information to Intelligence,2010:139-153.
[15] Hong Wenxue, Li Shaoxiong, Yu Jianping,etal. A new approach of generation of structural partial-ordered attributes diagram [J]. ICIC Express Letters, 2012, 3(4):2035-2042.
[16] 张勇. 彩色白细胞显微图像分析与识别[D]. 西安:西安交通大学,1999.
[17] 汤学民,林学訚,何林. 白细胞图像自动识别系统的研究[J]. 生物医学工程学杂志,2007,24(6):1250-1255.
[18] 周颖颖. 彩色白细胞图像的特征选择与分类识别[D]. 南京:东南大学,2006.
The Application of Attribute Multi-Hierarchical Relationship in the Six-Classification Technology of Leucocyte Morphology
Hao Lianwang1,2Hong Wenxue1*
1(CollegeofElectricalEngineering,YanshanUniversity,Qinhuangdao066004,Hebei,China)2(LirenCollege,YanshanUniversity,Qinhuangdao066004,Hebei,China)
Leukocyte morphology with mixed attributes is a complex system with attribute multi-hierarchical relationship. The six-classification technology of leukocyte morphology can be achieved effectively by sufficient expression and variable level use of hierarchical attribute. A novel method of leukocyte morphology classification based on attribute multi-hierarchical relationship was proposed. The decision relationships and associated relationships of classification were obtained based on analysis of leukocyte morphology features attribute multi- hierarchical relationship. The classifier was established according to the relationships and reached an average classification accuracy of 95.98% significantly higher than the other 3 kinds of classical algorithm in a contrast experiment to a dataset of 952 hospital actual leukocyte images. Experimental results show that the method has a better classification performance, and also prove that attribute multi-hierarchical relationship of complex system has brilliant perspective on pattern recognition.
formal concept analysis; attribute multi-hierarchy; leukocyte morphology; classification
10.3969/j.issn.0258-8021. 2015. 05.003
2015-02-05, 录用日期:2015-08-03
国家自然科学基金(61273019);河北省科学技术研究与发展计划科学支撑计划项目(12270329)
TP391.42
A
0258-8021(2015) 05-0533-07
*通信作者(Corresponding author), E-mail: hongwx@ysu.edu.cn