夏淑洁 ,蔡 晶 ,雷黄伟 ,詹 杰 ,周智慧 ,李灿东
(1.福建中医药大学中医证研究基地,福州 350122;2.福建省中医健康状态辨识重点实验室,福州 350122;3福建中医药大学中西医结合学院,福州 350122)
中医诊断的核心是辨证论治。证是疾病发生发展过程中某阶段内外环境综合的本质反映,它可通过相应的症状、体征等表现出来,并不同程度地揭示病因、病位、病性、病势等内容,此即“有诸于内,并形诸外”,故说证候为促进中医药现代化的关键问题之一。而随着西医学研究的不断深入,研究者们发现人体是一个复杂的巨系统,证候具有非线性、多维性、复杂性的特点。传统凭个人经验的辨证方法往往带有一定的主观性和不确定性,这也限制着中医的进一步传承与发展。多元统计方法是针对多个因素对结果的单独及联合作用的一种数理统计方法,可定量并综合分析事物间复杂关系,因此符合中医诊断的研究特点。本文现对常见的多元统计分析方法及其在中医诊断研究中的应用做进一步剖析。
logistic回归属于概率型的非线性回归,是研究二分类(可扩展到多分类)观察结果与影响因素之间关系的一种多变量分析方法[1]。流行病学研究中,主要用来分析疾病与各危险因素之间的关系,如胃癌的发生与吸烟、饮食、不良习惯等的关系。logistic回归中自变量既可以是连续的,也可以是分类的,通过分析可得到自变量的权重,从而得出事件发生的可能危险因素。此外,还可用于发生某病或某种情况的概率预测。logistic回归按因变量的取值可分为二分类与多分类两种;按研究设计类型可分为非条件和条件logistic回归分析两种,前者适用于队列研究和成组病例对照研究的资料分析,后者则用于配比设计的病例对照研究的资料分析[2-3]。
因中医数据具有高度非线性的特点,该方法多用于证的分类识别过程中医主次症状的研究,也常与其他数理统计学方法合用,以确定中医辨证分型。王伟杰等[4]在前瞻性、多中心的横断面观察性研究方法基础上,运用logistic回归分析类风湿关节炎症状、舌脉与常见中医证候之间的关系,得到了本病6个常见证候中与诊断相关的主要症状表现,为临床辨证提供了客观依据。赵娜等[5]对413例亚健康失眠患者进行多元logistic回归及判别分析,其中,logistic回归提取阴虚火旺型特征症状10个,并建立中医证型预测模型,且预测模型的一致率为81.84%;入选判别函数的特征症状12个,回代法计算的判别一致率为81.1%,发现利用logistic回归和判别分析归纳本证具有较高的吻合性。李毅等[6]对活动期溃疡性结肠炎中医症状组合规律进行研究,首先通过聚类分析得出大肠湿热证、寒滞肠胃证、肝郁脾虚证3类证候是溃疡性结肠炎活动期基本证候,然后用logistic回归分析3类证型的主症与次症特点,进而为该病的中医辨证标准化研究提供了一种新的方法。
logistic回归是一种多元分析的曲线模型,特别适用于自变量不能满足正态分布、应变量为多项分类的资料[7]。证是由一组对证影响程度各异的症状构成,将某证的有无作为应变量Y,以该证中出现的全部症状作为变量X,以此建立证的多元logistic回归模型。这些症状中有主要症状与次要症状,而通过logistic回归分析这些变量对证的不同“贡献率”,可进一步挖掘中医证候分布规律,同时也可与其他数理统计学方法合用,以促进中医辨证规范量化。
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,即“物以类聚”。其思路是挖掘能客观反映事物之间关系或事物性质相似程度的统计量,并通过统计量和分类准则将事物进行分类,目的是使组内对象相互之间是相似的(相关的),而不同组之间的对象是不同的(不相关的);组内的相似性越大,组间差别越大,聚类效果越好[8]。根据聚类分析目的可分为两大类:一是Q型聚类(又称样本聚类),是将多个样品归类,其目的是找出样品间的共性;二是R型聚类(又称指标聚类),是将多个指标归类,通过降维而选择有代表性的指标[1]。聚类分析属于探索性的统计方法,它不需要“先验”知识,依靠数理统计方法对数据资料进行适当归类,故属于非监督分类方法。因其实用性而受到医学科研工作者的青睐,但结果解释需密切结合专业知识,同时应尝试多种聚类方法,才能获得较理想的结论。
聚类分析在中医证候规范化研究中应用较广,多根据个体症状差异分析每一个类别个体的共同特征,最后结合专业知识将其归属为某一类别;也可通过指标聚类对症状等指标进行归类[9]。李志远等[10]运用聚类分析方法并结合专业知识将强直性脊柱炎患者进行分型,最终聚为4型,并确立证型名称分别是寒湿痹阻证、湿热痹阻证、痰瘀痹阻证及肝肾亏虚证。李毅等[11]应用系统聚类方法对232例溃疡性结肠炎患者的病症进行分析研究,得出溃疡性结肠炎基本中医证候有7类。徐全壹等[12]在收集734例肾虚证患者的35个典型症状资料基础上,通过聚类分析构建出肾虚证症状的主要结构系统,但发现可能会丢失很多重要的特性。刘晶等[13]探索代谢综合征伴颈动脉粥样硬化的中医证候要素组合特点,首先对中医四诊信息运用因子分析方法,得到24个公因子,并将其作为变量纳入聚类分析,进而确定该病的常见证候类型。
中医辨证施治的过程中,通过望、闻、问、切所收集到的信息很大,临床诊断时会出现难以取舍的情况。此外,不同的医家对同一病种的辨证分型亦不相同。而聚类分析优点是在证候研究时不需要预先给出证候诊断,避免了人为主观性,而是对客观的四诊信息按相似程度大小进行归类,达到降维的目的。故为了明确各证候的分类情况,可以通过聚类分析对大规模流行病学调查所收集到的症状属性进行归纳和分类,然后参考相关标准、专业知识等进行证型判定。
判别分析是根据判别对象若干个指标的观测结果判定其属于哪一类的数理统计学方法[1]。基本原理是按照一定的判别准则,建立判别函数,确定参数指标,通过判别函数对训练样本不断建立学习规则,并计算判别指标,据此确定该样本属于何类,在此过程中,还可估计各项指标对判断的作用大小。依据判别的函数形式,可分为线性和非线性判别;根据判别中的组数,可以分为两组判别分析和多组判别分析;依据判别式处理变量的不同方法,可分为序贯判别和逐步判别等;依据判别的标准不同,可分为Bayes判别法、Fisher判别等[14]。因判别分析中所用的样本资料视为总体的估计,所以要求样本量要足够大,并有较好的代表性。
医学领域的诊断推理过程常可用数学方法来精确描述,判别分析可根据患者的主诉、体征及检查结果来进行临床辅助鉴别诊断。曾聃等[15]为研究肝病患者中医证型与检查指标的相关性,从肝病患者的127个检验指标进行分析,筛选出13个指标,建立判别函数,分别进行回顾性预测和前瞻性预测,其判别正确率分别为84.38%、74.31%。魏嵋等[16]运用逐步判别分析法探索慢性乙肝中医证候的微观辨证体系,筛选出丙氨酸氨基转移酶(ALT)、总胆红素(TBIL)、内皮素(ET)、肿瘤坏死因子-α(TNF-α)、白细胞介素(IL)-6 5项判别权重大的指标,并建立数学判别模型,其判断正确率为84.6%,从而为慢性乙型肝炎的中医辨证提供了客观依据。张颖等[17]以慢性再生障碍性贫血(CAA)患者常见的12种症状为基础,运用Bayes判别分析方法建立CAA3种肾虚证辨证分型的判别方程,并采用自身验证回代法进行检验,结果显示总体正确率为88.17%。章浩伟等[18]将多囊卵巢综合征(PCOS)患者根据临床辨证分为肾虚证组、肾虚痰阻证组及肾虚肝郁证组3组,在运用logistic回归法将肾虚证分离出来的基础上,再用Fisher判别分析法对剩余的兼夹证进行第2次分类,结果显示Fisher判别分析法对PCOS兼夹证分型的正确率可达87.8%,故认为Fisher判别分析法可作为一种研究PCOS中医证候分布规律的复杂工具。
判别分析通过对疾病现有的中医证型进行分析,建立研究疾病相关的判别函数,再将获得的判别函数代回样本中进行验证,其目的是对样本资料进行学习,得到判断类别的规则,再进行多方面的考核。但由于该分析方式本身就是建立在以往辨证分型的基础上,不可避免存在一些主观性、验证性的成分,故通过建立函数的方法所得到的结果常不直接作为客观化标准。
主成分分析也称主分量分析,是指从多个数值变量之间的相互关系入手,运用降维的思想,将多个变量化成少数几个互不相关的综合变量的统计方法[19]。如诸多主成分组成中,某成分在总方差中占的比重最大,说明它综合原有变量的能力最强,其余主成分在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。通常可以用前面几个方差最大的主成分来进行,一般情况下,要求前几个成分所包含的信息不少于原始信息的85%。它既能保留原始指标的主要信息,且又互不相关,从而达到简化系统结构,抓住问题实质的目的。而因子分析,是从研究原始变量相关矩阵内部的依赖关系出发,找到支配这种关系的有限个不可观测的潜在变量,即公共因子,并用这些公共因子来解释原始指标之间的相关性或协方差关系的统计方法[1]。主成分分析与因子分析区别在于,前者是原始变量的线性组合,分析重点在综合原始变量的信息,而后者是原始变量,是公因子和特殊因子的线性组合,分析侧重点在于解释各变量之间的关系。
主成分分析与因子分析在中医证候规律的研究中主要体现为前者主要是将多个症状降维,综合分析其证候分类,而后者从多维繁杂的证候中分析出各种疾病的共同证候以及每种证候的共同表现。张世君等[20]对正常高值血压的常见症状进行因子分析和聚类分析,从36个常见症状中提取8个公因子,涉及病性为阳亢、阴虚、痰湿,病位为肝、脾、肾。刘瑜等[21]基于主成分分析和因子分析的方法探索功能性腹胀病中医证候特征,先用主成分分析法提取11个具有相对独立性且特征值均在1.0以上的主成分,再通过因子旋转法提取11个因子组合,并结合中医理论分析得出功能性腹胀证候分布规律。李毅等[6]应用因子分析的方法,得出溃疡性结肠炎证候特征为活动期大肠湿热证、寒湿内盛证和肝郁脾虚证,缓解期脾胃虚弱证、脾肾阳虚证、肝郁脾虚证、阴虚肠燥证、血瘀肠络证,并运用多元logistic回归分析,得出溃疡性结肠炎证候的症状量化指标,从而为该病的证候诊断标准研究提供了一种新的方法。
因中医证候间接隐藏在四诊信息背后,一般不可能直接观测到,而通过四诊信息来进行综合分析,进而辨证,这与因子分析有类似之处,故借鉴因子多元统计分析方法探寻四诊信息背后支配他们的公因子(证候)已被广泛应用于中医证的研究。
典型相关分析是研究两组变量整体之间相关关系的多元分析方法[22]。其借助主成分分析的思想,对两组变量分别寻找线性组合,进而使新变量来代表原始变量中最大部分信息,这两组变量生成新的两个综合变量之间的相关程度最大,这种新的变量就是一组典型相关分析。可见,将两组变量转化为少数典型变量之间相关性的研究,它更能够从整体上分析问题的本质[23]。其较以往的简单回归优势在于不必依赖于经验判断,消除了主观性判断对结果的影响,目前在许多相关分析和预测分析中应用。
在研究中医证候与微观指标之间的相关性时,需注意的是证候都不是一个症状,而是多种症状组合,微观指标亦是如此。因而,分析两者之间的相关关系,其实就是分析两个变量组之间的相关关系,典型相关分析正是研究变量组相关性的一种统计方法。曾佑良[24]研究脾虚证症状组合与微观指标的相关性,在因子分析筛选出脾虚证5个症状组合的基础上,运用典型相关分析对症状组合与微观指标进行相关性分析,进而促进脾虚证本质研究。张莹等[25]运用典型相关分析探索急性冠脉综合征的中医证候与7个实验室指标关系,发现纤维蛋白原与气虚、超敏C反应蛋白与痰饮、心肌肌钙蛋白Ⅰ与寒凝有相关性。刘华等[26]通过典型相关分析对脑积水17个证候要素与11个证候要素靶位进行相关性分析,得出5对综合变量以反映原两组变量的信息,发现瘀在脑积水证候中占有较大的比例,水与靶位多呈负相关,从而为该病的证候规范化研究提供了依据。
临床科研中,医生常先收集到患者的四诊资料然后进行综合分析以判断证型,但该过程常受到个人经验和知识水平等主观因素的影响,最后利用这种情况下归纳出的证候与指标进行相关分析,其结果必然会受到主观因素影响。然而,通过典型相关分析法首先是立足于整体思维,将证候变量看作1组变量,微观指标也看作另1组变量,通过统计的相关分析,进而消除主观因素对辨证的影响。
多元统计学方法主要探讨高维数据的内在规律,非常适合中医的数据特点,因而在中医领域应用广泛。其主要体现在确立基本证型、筛选优化指标、确立优化指标权重、建立证候数学模型等环节上,以此推进中医诊断研究标准化、客观化的步伐。然而,也存在着不少具体的研究结果与临床实践结果存在较大差异、样本量少与建模重复性差、中医术语欠缺规范等问题。笔者认为可通过采用多种多元统计方法综合运用的模式,并进一步规范诊断用语,展开大样本重复性试验研究,可更好地推动中医诊断的客观化研究。