基于信息增益的中医体质多标记分类方法研究

2019-06-30 02:00吕庆莉
中国中医药信息杂志 2019年6期

吕庆莉

摘要:目的  为降低中医体质传统分类方法主观性误差,兼顾兼夹体质,提出基于信息增益的中医体质多标记分类方法。方法  采用多标记方法进行中医体质分类。为解决多标记分类方法中不同特征对分类标签的影响不同的问题,通过体质分类数据计算各特征项的信息增益,计算体质分类特征对分类标签的权重,进而通过加权的多标签分类器,得出体质数据多標记分类。结果  与传统判别分析法相比,基于信息增益的多标记分类方法在1-错误率(16.33%)、汉明损失(15.44%)、平均准确率(82.61%)方面均有一定优势。结论  基于信息增益的多标记分类方法在保证准确率同时可兼顾兼夹体质,实现对体质特征差异性及趋同性的更好描述。

关键词:中医体质分类;信息增益;多标记分类

中图分类号:R2-05;R229    文献标识码:A    文章编号:1005-5304(2019)06-0097-04

Abstract: Objective To propose a multi-label classification method of TCM constitutions based on information gain; To reduce the subjective error of traditional classification methods of TCM constitutions and take into account the combination of constitutions. Methods The multi-label method was used to classify TCM constitutions. In order to solve the problem that different features of multi-label classification method had different influence on the classification label, the information gain of each feature item was calculated by the physique classification data, and the weight of classification features were calculated. Then multi-label classification of physique data was obtained by weighted multi-label classifier. Results Compared with the traditional discriminant analysis method, the multi-label classification method based on information gain had certain advantages in 1-error rate (16.33%), hamming loss (15.44%), and average accuracy (82.61%). Conclusion The multi-label classification method based on information gain can ensure the accuracy. Taking into account the combination of constitutions can realize the better description of the difference in constitution characteristics and convergence.

Keywords: TCM constitutions; information gain; multi-label classification

中医体质学以体质特征为研究主体,以体质调节为目的,是中医基础理论的重要组成部分。目前,机器学习、复杂网络等大数据相关技术在中医体质相关研究中应用范围仍相对局限。目前体质分类多采用《中医体质分类与判定自测表》(以下简称“自测表”),基于专家经验的判别分析法(DA)进行。自测表通过分值表示各条目与体征描述的符合程度,但该判定过度依赖于被调查者的主观,且受专家认知等影响,分类结果存在一定误差;同一体质分类中各指标小项权重无区分,而预实验发现部分小项对体质判定具有更好的分类贡献;无权重数据容易稀释特征值,导致兼夹体质的缺失[1];此外,该方法无法满足大数据时代海量医疗数据的处理需求。

因此,为解决实验样本量与质的矛盾,降低实验分类结果的人为误差,为后续病体相关性研究提供分类依据,本研究从中医体质的内涵出发,提出一种基于信息增益的中医体质多标记分类方法,通过信息增益定义不同特征对分类标签的贡献,作为多标记分类器中相似性的权重,通过计算加权的余弦相似度的K近邻算法,得出体质数据的多标记分类。

1  信息增益

2  多标记学习

标记学习旨在通过抽象待分类对象的特征空间与类别标记间的函数表示,实现待分类对象到类别的映射[5],即从{()|1≤i≤N}中习得f∶x→y,其中为待分类对象的特征向量集合,yi∈Y为xi属于类别集合中类别li的标记,即xi属于类别li,为类别集合。

3  基于信息增益的多标记分类方法

传统的多标签学习方法忽略了不同特征间对标签分类贡献的区别,且文本的特征表示限制了文本分类性能的提升[10-11]。为解决该问题,通过加权的方式实现特征项与各分类标签间相关性的描述,突出特定特征对分类的重要性,提出基于信息增益的多标签分类方法(TMLKNN)。加权后的(4)式表示为:

在中医体质分类研究中,一般根据体质分类与判定自测表获取受访者的测试数据,该自测表共分为阳虚质、阴虚质、气虚质、痰湿质、湿热质、血瘀质、特禀质、气郁质及平和质9个亚量表,采用5级评分法衡量受访者具有该特征指标的程度。为与传统自测表做更好的对照,本研究未对自測表中相似问题做合并和归一,即以传统自测表为基础,将自测表中9个体质类别的问题(每个体质类别判定包含6~8个自测问题)作为对应文本的特征项,将1~5的评分结果作为每个特征项在该文本中的取值,转换为8×9的数值矩阵(其中,0表示该体质分类在该项无特征,即该体质在该处无自测问题)作为后续实验处理的测试样本。以1份男性受访者的自测表数据为例,整理得到自测文本,见表1。

4  实验结果

4.1  数据特征

实验采用514份自测数据,其中400份作为训练样本,114份作为测试样本。样本数据年龄与性别分布见表2。

4.2  信息增益结果

经计算,自测表中各特征项的信息增益见表4。

5  小结

中医体质作为个体机能的载体及健康程度的表征,揭示病症病理具有一定的临床意义,已成为中医学的研究热点。为解决传统方法在中医体质研究中的问题,本研究以体质研究的基础分类为例,提出一种基于信息增益的中医体质多标记分类方法,通过信息增益计算体质分类特征对分类标签的权重,进而通过加权的多标签分类器,得出体质数据的多标记分类。实验结果表明,与传统的分类方法DA相比,该方法在保证准确率同时,可有效兼顾兼夹体质,实现对体质特征差异性及趋同性的更好描述。

参考文献:

[1] 危凌云,李灿东,黄文金,等.中医体质类型分布及兼杂规律研究[J].山东中医药大学学报,2016,40(2):102-104.

[2] 彭长根,丁红发,朱义杰,等.隐私保护的信息熵模型及其度量方法[J].软件学报,2016,27(8):1891-1903.

[3] 李学明,李海瑞,薛亮,等.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40.

[4] 陈科文,张祖平,龙军.文本分类中基于熵的词权重计算方法研究[J].计算机科学与探索,2016,10(9):1299-1309.

[5] ZHANG M L, ZHOU Z H. ML-KNN:A lazy learning approach to multi- label learning[J]. Pattern Recognition,2007,40(7):2038-2048.

[6] 广凯,潘金贵.一种基于向量夹角的k近邻多标记文本分类算法[J].计算机科学,2008,35(4):205-206.

[7] 张顺,张化祥.用于多标记学习的K近邻改进算法[J].计算机应用研究,2011,28(12):4445-4446.

[8] GUO G, WANG H, BELL D, et al. KNN model-based approach in classification[C]//OTM Confederated International Conferences on the Move To Meaningful Internet Systems. Berlin, Heidelberg:Springer, 2003:986-996.

[9] 李峰,苗夺谦,张志飞,等.基于互信息的粒化特征加权多标签学习k近邻算法[J].计算机研究与发展,2017,54(5):1024-1035.

[10] 潘主强,张林,张磊,等.中医临床疾病数据多标记分类方法研究[J].计算机科学与探索,2017,12(8):1295-1304.

[11] 郝春风,王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用,2007,43(15):170-172.

[12] 冯雪东.基于一对一分解的多标签分类算法研究[D].南京:南京师范大学,2013.

[13] 龚静,黄欣阳.基于隐性语义索引的多标签文本分类集成方法[J].计算机工程与设计,2017,38(9):2556-2561.

(收稿日期:2018-06-10)

(修回日期:2018-07-14;编辑:向宇雁)