牛競斌,徐玮斐,钱鹏,盖筱,郑义馨,颜建军,刘国萍
(1.上海中医药大学基础医学院,上海 201203;2.华东理工大学机械与动力工程学院,上海 200237)
中医的主症[1-2]是指疾病的主要脉症,反映了疾病的病因、病理和病性,是临床辨证的关键所在。它由疾病的主要矛盾决定,并影响着其他症状的出现。抓主症方法的实用性强,是中医治病求本原则的极好体现。刘渡舟教授[1]提倡“抓主症”,指出每种病证都有其特异性主症,可能是某单一症状,也可能是由若干个症状共同组成。当今国医大师熊继柏教授也强调“抓主症”是治疗症状繁杂、多重病机恶性肿瘤的重要思路[3]。特征选择[4]是从一组原始特征中挑选出一个最有效的特征子集,去掉数据中不相关或者不重要的信息,以达到降低特征空间维数的目的,这与刘渡舟教授倡导的“抓主症”目标相似。
随着数理统计学及计算机数据挖掘技术的迅速发展,不同病证的主症选择研究不断涌现,为中医证候诊断的客观化研究提供了有益的方法学参考。如甘小金[5]运用贝叶斯网络方法对子宫内膜异位性疾病患者进行研究,获得了寒凝、湿热、气滞等证候的主症;薛亚静[6]运用贝叶斯网络技术联合Logistic回归分析对523例焦虑抑郁共病患者不同证候的主症进行选择;陈为[7]运用聚类分析等多种统计学方法对慢性肾炎肾阳虚证患者的主症进行筛选;杨小波等[8]基于粗糙集理论对溃疡性结肠炎患者的中医主症进行筛选。本课题组运用近邻传播聚类[9-10]、随机森林[11]、互信息与粗糙集[12]等多种数据挖掘方法对慢性胃炎常见证候进行主症选择探索,很好地提高了证候的分类诊断准确率。
慢性胃炎是一种由不同病因引起的胃黏膜的慢性炎症,为消化系统的常见病和多发病,其发病率居各种胃病之首,占胃镜检查患者的90%[13]。慢性胃炎在中医学属“痞满”“胃痛”等范畴,脾胃湿热是其常见中医证型之一[14]。而中医辨证治疗不仅能改善慢性胃炎患者的生活质量,缓解黏膜糜烂、出血及胆汁反流导致的临床不适,还能改善腺体萎缩、根除幽门螺旋杆菌、逆转肠化、控制异型增生,进而降低罹患胃癌的风险[15-18]。
本研究在课题组前期应用的近邻传播聚类[9-10]、随机森林[11]、互信息与粗糙集[12]三种方法症状(体征)筛选的基础上,针对不同方法选择的主症存在一定差异,我们将三种方法与判别分析结合,最终筛选出慢性胃炎脾胃湿热证的主症,以期为其他证候的主症筛选提供新的借鉴和思路。
1.1 临床资料本研究从中医问诊(脾胃系)信息采集系统中选取慢性胃炎有效病例共919例(包括脾胃湿热证177例)。其中,男性354例,平均年龄(44.61±14.54)岁;女性565例,平均年龄(48.70±12.74)岁。本研究获得上海中医药大学伦理委员会批准,所纳入样本均同意参加本研究并签署了知情同意书。西医诊断标准参照中华医学会消化病学分会制定的《中国慢性胃炎共识意见(2017年,上海)》[13],中医辨证标准、纳入标准、排除标准参考课题组前期制定的标准[19]。
1.2 研究方法由于不同方法选择出的脾胃湿热证主症集合不同,因此本研究提出多种选择方法集成机器学习的方法进行主症的筛选,综合利用近邻传播聚类、随机森林、互信息和粗糙集等方法选择出脾胃湿热证主症,采用判别分析进行脾胃湿热证主症的筛选,以获得诊断准确率高、可解释性好的脾胃湿热证主症。见图1。
图1 多种选择方法集成机器学习方法进行主症筛选的技术路线Figure 1 Technicalroute of feature-selection algorithms integrated with machine learning method for the screening of primary syndromes
1.2.1 近邻传播聚类 近邻传播聚类算法[20]是一种无监督聚类算法,可高效处理大量数据,对数据结构对称性也没有要求,可以根据数据自身特点选取相关性较大的数据进行分析,以便得到最优聚类结果。
1.2.2 随机森林 随机森林[21]是一种操作方便、结果可靠的分类器,其模型根据拔靴法进行有放回的抽样,并根据输入参数进行特征值的随机选取。它的优点是无需对数据进行预处理、适合处理多分类问题、不会出现过拟合。
1.2.3 互信息与粗糙集结合 互信息[22]是一种信息度量,可以认为是一个随机变量相对于另一个随机变量所包含的信息量,用于描述两个随机变量之间的相互关系强弱。粗糙集[23]是一种用于处理含糊性和不确定性问题的数学工具,它有优越的知识简化能力,可以实现用最小的特征子集代替原始特征,从而消除冗余。将互信息和粗糙集结合,可以得到与类别相关性大、特征之间冗余小的特征子集。
1.2.4 判别分析 判别分析是一种有监督的特征选择方法[24-25],它能有效地删除不相关或冗余的特征,达到数据降维的目的。
1.3 统计分析本研究运用SPSS 25.0统计软件进行逐步统计分析,并依据标准化典则判别函数系数的大小,以挑选脾胃湿热证的主症特征。
本研究将近邻传播聚类、随机森林、互信息等方法与判别分析融合进行脾胃湿热证主症的筛选,获取了慢性胃炎脾胃湿热证的症状(体征)集。
2.1 基于近邻传播聚类的脾胃湿热证症状(体征)集本课题组前期运用近邻传播聚类方法[10]提取脾胃湿热证的症状(体征)集,当特征子集为前8个症状(体征)集时,分类器准确率最高(见图2),依据互信息大小排序分别为苔薄、嗜睡、苔白(0.098 9);苔黄、舌色红、唇色红、嘈杂(0.059 1);苔厚、苔腻、苔燥(0.045);舌边齿痕、舌体胖大、全舌(0.019 4);唇色淡白、舌色淡白、面色淡白(0.012 8);小便色黄、口酸、手足心热、舌色紫暗、舌瘦薄、舌根(0.005 1);苔黄白相兼、口涩、口气重、面色红、舌中裂(0.004 9);胃脘灼痛、喜冷、胸骨后烧灼感(0.004 2),共计30个症状(体征)。
图2 脾胃湿热证型近邻传播聚类算法分类准确率曲线Figure 2 Classification accuracy curve of the affinity propagation clustering for the spleen and stomach damp-heat syndrome type
2.2 基于随机森林的脾胃湿热证症状(体征)集本课题组前期运用随机森林算法[11]在选取15个症状特征时,识别率最高达到83.0%,结果见图3。得到慢性胃炎临床常见湿热证候的最优症状(体征)子集,将其按重要度排序,得到的前15个症状(体征)分别为苔黄、苔白、苔腻、舌色红、苔厚、舌色淡白、苔薄、苔黄白相兼、齿痕舌、胖大舌、面色萎黄、恶心呕吐、右手脉弦、头晕、舌中。结果见表1。
图3 基于随机森林的Real算法不同特征数下平均准确率变化Figure 3 Variation of the average accuracy of the REAL algorithm based on the random forest with different number of feature
表1 基于随机森林算法的慢性胃炎脾胃湿热证的症状(体征)集Table 1 Symptom(sign)set of spleen and stomach damp-heat syndrome type of chronic gastritis based on the random forest algorithm
2.3 基于互信息和粗糙集结合的脾胃湿热证症状(体征)集本课题组前期运用互信息和粗糙集结合[12]的方法,共挑选出20个与脾胃湿热证相关的症状(体征),按属性依赖度排序依次为:苔黄、右手脉滑、胸骨后烧灼感、苔腻、舌色红、齿痕舌、苔厚、舌色淡白、口粘腻、舌色绛、苔白、苔薄、胖大舌、右手脉沉、舌中、全舌、面色淡白、口苦、唇色红、苔燥。结果见表2。
表2 基于互信息和粗糙集的慢性胃炎脾胃湿热证的症状(体征)集Table 2 Symptom(sign)set of spleen and stomach damp-heat syndrome type of chronic gastritis based on mutual information and rough sets
2.4 3种方法的症状(体征)集汇总从以上结果可以看出,不同方法获取的脾胃湿热证症状(体征)个数不同,基于近邻传播聚类获取的症状(体征)30个,基于随机森林算法获取的症状(体征)15个,基于互信息和粗糙集结合的症状(体征)20个。汇总3种方法的结果,我们发现共同的症状(体征)有苔黄、苔白、苔腻、舌色红、苔厚、舌色淡白、苔薄、齿痕舌、胖大舌等共9个。具体见表3。
表3 3种方法的慢性胃炎脾胃湿热证主症选择结果Table 3 Results of the primary syndromes for spleen and stomach damp-heat syndrome type of chronic gastritis screened by the three methods
2.5 基于判别分析的脾胃湿热证症状(体征)集将以上3种方法获取到的9个相同症状(体征),运用判别分析方法进行进一步的主症选择,获得脾胃湿热证主症共7个症状(体征),判别分析的准确率为89.4%。其中,4个症状(体征)的典则判别函数系数为正值,3个症状(体征)的典则判别函数系数为负值,按照标准化典则判别函数系数大小依次为苔黄(1.641)、苔白(-1.065)、苔腻(0.757)、舌色红(0.504)、苔厚(0.495)、舌色淡白(-0.323)、胖大舌(-0.269)。具体见表4。
表4 判别分析筛选的慢性胃炎脾胃湿热证症状(体征)集Table 4 Discriminant analysis of the set of symptoms(signs)of spleen and stomach damp-heat syndrome type of chronic gastritis
慢性胃炎是由多种原因引起的各种胃黏膜慢性炎性病变[26-28]。基于内镜诊断的慢性胃炎患病率高达90%[13]。慢性胃炎是炎癌转化的重要途径[29]。脾胃湿热证是慢性胃炎较为常见的实证之一[30],是由于湿热蕴结脾胃,导致脾失健运、胃失纳降,或者由于饮食不节、过食肥甘厚味而形成的证候[31];又因上海地处东南,而“东南地土卑弱,湿热相火为病甚多”(朱丹溪《格致余论》)[32],故患者易感湿热之邪而表现为脾胃湿热证。
刘渡舟教授倡导“抓主症”的方法实用性强,与计算机数据挖掘中特征选择的目标相似,因此,本研究将近邻传播聚类、随机森林、互信息与粗糙集、判别分析等方法融合,获得了脾胃湿热证的主症集合,包括苔黄(1.641)、苔白(-1.065)、苔腻(0.757)、舌色红(0.504)、苔厚(0.495)、舌色淡白(-0.323)、胖大舌(-0.269)等共7个症状(体征)。脾胃湿热证主症集合的7个症状(体征)中有4个正相关的舌象特征,分别为苔黄、苔腻、舌色红、苔厚。《丹溪心法》曰:“有诸内者,必形诸外。”舌为脾之外候,舌苔是由胃气蒸化水谷之气上承于舌面而形成,舌象变化与脾胃生理病理变化密切相关,故称“舌为胃之镜”。可见舌质和舌苔变化对脾胃湿热证诊断极为重要。从临床实践来看,舌苔的变化迅速更易观察[33],而此次研究挑选出脾胃湿热证诊断贡献度最大的两个症状(体征)是苔黄和苔白,有现代研究显示舌苔上的黄色菌落是致使黄苔形成的主要原因之一[34]。马广强等[35]研究认为,放线菌菌群的增多可能是黄腻舌苔形成的主要原因之一,健康人出现黄腻苔可在一定程度上提示体内潜在的炎性预警。苔腻表现为苔质颗粒细腻致密,不易刮脱,其形成则主要由于舌苔菌状乳头的密度增加、充满细菌所致[36]。众多文献及临床研究结果[37-40]均显示舌红、苔黄腻是脾胃湿热证的典型舌象表现,是诊断必备的主症;中医理论认为,脾胃湿热蕴结,湿浊上泛,患者多表现为苔厚、苔腻;热邪使脉道扩张、血流加速,而见舌红;湿热熏蒸而见苔黄。此外,苔白、舌色淡白和舌胖大为负相关的体征,其中苔白的典则判别函数系数仅次于苔黄,同样成为鉴别诊断脾胃湿热证的重要症状(体征),提示慢性胃炎脾胃湿热证患者中鲜见苔白,少见舌色淡白及舌体胖大,可见以上症状(体征)与中医理论和临床实际相吻合。
本研究运用多种数据处理方法融合获得的慢性胃炎脾胃湿热证主症的结果与中医理论及临床实际基本一致,可为其他病证的主症选择提供新的思路和方法。但由于本研究中临床样本量偏少,并具有明显的区域性,故其结论存在一定的局限性,有待今后进行深入的研究。