于芷涵 李 丹 闫朝升
(黑龙江中医药大学医学信息工程学院,哈尔滨,150040)
中医药是我国优秀的传统文化。随着大数据技术向中医药各方面的不断深入,二者的有机结合使人类获取中医药信息资源更加方便,也为中医药发展带来了新的活力。另一方面,可以大大提高人们对中医药数据的使用效率,这必将为中医药行业的整体发展创造“大价值”。因此,通过大数据分析研究,推动中医药的研发和推广,将会对其产生重大的影响。在传统的辨证论治中,产生了大量的数据。如何在海量的大数据中快速、精确地获取最有价值的新知识,将为中医药领域提供前所未有的机遇和挑战。因此,通过大数据分析技术,将带动和促进中医临床领域与科研工作的蓬勃发展,抑或为中医药研究领域带来历史性改变。当前,聚类分析作为数据挖掘的一个方法,已根植于多个应用,包含智慧商业、图形模式识别、Web搜索技术等,并因其能够提高准确率等诸多优势,已经被广泛应用[1]。近些年来,有学者把聚类分析技术运用到了中医药领域,通过分析患者的临床特征等来对证候、证型进行归类,或对某种疾病进行用药规律的分析,对我国中医药数字化发展具有重要的指导意义。现将聚类分析在中医药领域的研究进行综述,以期为今后聚类分析在中医药临床研究等方面提供更多的思路和方法。
1.1 聚类分析的概念 “物以类聚,人以群分”。聚类分析是把抽象的数据集分割成由相似内容所构成的若干个子集的过程。每个子集都是一个簇,簇中的内容相互类似,而与其他簇中的内容不类似。相异性与相似性依据所表示内容的属性值评估,通常涉及距离度量。在划分过程中,无须预先提出划分的标准,聚类分析能够从海量的样本中自发地做出分析。通过数年的发展,聚类分析技术已经在大数据分析的预处理、模式识别、计算机视觉、决策分析和预测等领域应用。
1.2 聚类分析的常用方法
如今正处于数据大爆发时期,聚类分析能够帮助人们在对数据一无所知的状况下,找到数据间的内在联系与差异,进而发现其内在的结构与规律性[2]。然而,在中医药与聚类分析进行结合的研究中,有部分聚类算法尚未涉及。因此,我们仅对使用频率较高的划分方法与层次方法进行较为详细的介绍。
1.2.1 划分方法 划分方法的基本思路是通过划分n个对象的集合体,构成数据的k(k≤n)个区域。其中每一分区都代表一个簇,且位于同一簇中的对象相似,不同簇中的对象相异。其中,K-means算法是聚类分析经典算法中的一种,由James MacQueen于1967年提出。初始簇中心的选择由数据集中随机挑选的k个目标确定。根据簇中对象属性值的均值,将距离最近的对象分配至簇中,然后迭代确定新的中心点,逐步提高聚类质量,接近最优值。该算法有利于中小型数据集中球状簇的聚类。但其只能较好地应用于数值属性的聚类,且受离群点的影响较大。K-modes算法通过将众数作为簇的中心点,对标称属性进行较为有效的聚类。结合使用此2种算法即可对混合类型的数据进行聚类。除此以外,K-中心点算法(即PAM算法)避免了K-means算法对离群点较为敏感的缺点。随机选取k个对象作为簇的代表对象,并分派相距最近的代表对象到簇中,并将可以增加聚类质量的非代表对象更换为代表对象,如此反复地更换,直到簇处于基本稳定状态,以提高聚类结果的准确性。韩立博等[3]将采集的200幅肿瘤患者的舌图像作为数据集,对图像进行直方图均衡化增强和伽马校正,并采用K-means聚类方法对舌图像中的舌苔和舌质进行分离和增强。经专家分析,合格率97%,具有一定的应用价值。LI等[4]利用TFDA-1舌诊仪采集糖尿病患者的摄像,通过舌诊分析系统(Tongue Diagnosis Analysis System。TDAS)计算得出舌象的颜色、纹理、和舌苔比例特征。此外,使用K-means和自组织图(Self-organizing Maps,SOM)网络分析糖尿病患者舌象特征的分布。再通过t-SNE算法和韦恩图对聚类结果进行可视化分析。结果表明,糖尿病患者的舌象分为3种类型:第一类舌质特点是以舌红、干燥、粗糙;第二类舌质特点是舌紫,舌苔厚;第三类舌质细腻。上述分类有望为糖尿病患者个体化治疗提供客观依据,具有潜在的临床价值。
1.2.2 层次方法 学术界也将层次方法称为系统方法。根据层次的形成方法,可分为凝聚(自底向上)或分裂(自顶向下)的方法。凝聚可理解为每个对象自成一簇,通过不断迭代合并,直到所有对象成为一个簇。分裂则与之相反。为了形象地展示层次方法的聚类过程,大多数学者采用聚类特征树的形式。层次方法的优点是可以清晰直观地显示不同层次的数据分组过程。但是这些方法也有其局限性,例如无法撤销已完成的步骤(合并或分裂),以及无法修改错误的步骤。李健等[5]以《中医方剂大辞典》中治疗肺痈的方剂为数据集进行筛选。得到132首方剂,并录入中医传承辅助系统进行分析。通过无监督熵层次聚类算法,初步得到16个核心组合,进一步聚类后得到8个新的处方,为基础研究提供了有益参考。GUO等[6]共检索8个中英文数据库,收集教材和临床护理文献,对早期乳腺癌的5个治疗阶段(术前、术后、化疗、放疗和内分泌治疗)进行分类,并通过层次聚类分析筛选出各治疗阶段的证候。结论为:气血两虚证是各治疗阶段最常见的证候之一。术前证候聚为血瘀、肝郁气滞、肾阴虚3类。在术后和化疗阶段,证候被归类为与脾胃相关。火毒虚症和阴虚体液不足是放射治疗阶段特有的。内分泌治疗阶段将证候分为脾肾两虚、肝郁气滞、肾阴虚3类。
1.2.3 基于密度的方法 如果“邻域”中的密度达到了某个阈值点,则给定的簇将持续增长,并且在指定半径的邻域应尽可能包含最小数量的点。该方法也可用于过滤噪声或异常值以找到任意形状的簇,但不考虑模糊簇。边亚倩等[7]通过中药系统药理学数据库与分析平台(Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform,TCMSP)和ChEMBL数据库检索了黄芪的有效成分及其人源靶点,并应用Cytoscape平台形成了蛋白质-蛋白质相互作用网络。根据二者之间的关系,通过分析基于密度聚类的分子复合物检测(Molecular Complex Detection,MCODE)算法,构建了黄芪功效系统的结构。最终结果表明:黄芪成分通过8个模块和17个关键靶点发挥了补气作用。LIU等[8]采用高效液相色谱法测定红芪中腺苷、γ-氨基丁酸和6种黄酮类化合物的含量。此外,确定了24个不同产区的红芪的指标成分含量,并将其作为聚类分析的属性。根据区域比例密度聚类方法的结果,与主成分分析的结果基本一致,分为2组。该方法简便、灵敏、准确,为红芪质量的多指标控制提供了实验依据。这使得聚类分析在把控红芪质量方面具有一定的可靠性和客观性。
1.2.4 基于网格的方法 把对象空间精确量化为有限数目的单位,从而构成一种网格架构,并在网格上进行全部的聚类计算。其优势是处理速率很快。陈士林等[9]基于地理信息系统(Geographic Information System,GIS)平台,并通过气象数据库(1971—2000年)、1∶4 000 000第3次全国土壤普查的土壤数据库、全国1∶1 000 000地图的空间数据库构建了基于单元网格聚类的《中药材产地适宜性分析地理系统》(TCMGIS-I)。利用该系统,对内蒙古武川、山西浑源地区的黄芪资源的适用性进行了分析,并与该地区的统计数据进行了比较。研究发现,山西北部、内蒙古南部是蒙古黄芪的最佳种植区域,而黄河以南的东部区域则无明显的优势。为今后的进一步研究提供了有益的参考。YU等[10]依托TCMGIS-Ⅱ系统,根据网格聚类方法建立R.tanguticum(唐古特大黄)的空间分布。并将其划分为3种类型:有利(相似率≥95%)、适宜(相似率90%~95%)和合适(相似率<90%)。经评估发现,TCMGIS-Ⅱ预测的分布范围与调查中记录的分布范围的重叠部分一致。部分未在调查记录分布范围内的预测结果表明,应为唐古特大黄的潜在分布。另有少量超出预测结果的部分与调查记录相矛盾。
1.3 优势 1)易于理解与使用。在聚类分析的过程中,不必事先给出分类的标准,而从数据出发,按相似程度进行聚类。且不作出结论,仅为学者的进一步研究提供借鉴。2)结果直观。其中的层次方法,通过聚类特征树的形式,将聚类结果进行展示。3)具有一定的科学性与合理性。传统的辨证论治主要依靠个人经验,存在较大程度的主观性,而聚类分析通过划分统一的标准,在一定程度上能够减少主观性带来的误差,使得研究结果更加客观。
1.4 不足 1)技术理论不完善。聚类分析根据簇的相似度进行归类,但对于巨大数量的样本集,结果可能会将毫无关联的事物联系在一起,且聚类模型不能识别到错误。2)精确度不够。例如中医症状与证候等之间复杂的关系,使得数据维度过高,而聚类分析对此无法全面分析其内在的真正联系。
2.1 聚类分析在中医证候中的应用 证候是反映病变本质的特殊证候,中医通过四诊,获知在病变过程中机体的形态特征及活动规律和变化,从而进行辨证施治。辨证需要借助理化指标的帮助,理化指标是疾病诊断流程中的主要依据之一,能够辅助中医对病症的发生和进展做出评估与界定[11]。在上述过程中,聚类分析通过对大量数据进行处理,并根据各类数据与指标间的相关距离和接近程度对未知类别的个体进行分类,减少了人为主观因素、高度误差等的影响[12]。王艳等[13]收集了大量的符合肩痛症中医临床症状的患者的四诊资料。采用主成分分析法对样本数据进行降维化处理,通过K-means算法进行聚类分析,利用轮廓系数对聚类效果进行评价。经过初始聚类,形成了3种证型,即风寒湿型、瘀滞型、气血亏虚型。二次聚类采用优化后的K-means++算法,即通过轮盘法对聚类中心点的选取进行了优化。结果形成4种证型,将风寒湿型拆分出湿热型,轮廓系数提高约10%,聚类效果明显改善。唐启盛等[14]在全国范围内对1 221例抑郁症患者的抑郁症中医证候进行了研究,通过层次聚类分析形成了聚类树状关系图。同时,根据贝叶斯网络研究方法和专家组的讨论,最终产生可以确定抑郁症治疗的6类证型,即肾虚肝郁、肝郁脾虚、肝胆湿热、心肾不交、心脾两虚、心胆气虚。这6类证型已达到抑郁症所有临床证候的覆盖范围的97.7%,并以此为基础编制了《抑郁症中医证候观察表》,对国内的9家公立医院中的近1 800例患者进行了临床应用试验,其结果与临床实践较为一致,能够很好地指导临床工作,从而提高临床疗效。
2.2 聚类分析在证型演变规律中的应用 在疾病发展的各阶段中,随着疾病的演变,证候也在相互转化,其临床表现和病理变化等也会有所不同。随着中医对辨证施治重要性的认识,学者们对证型的演变规律也越来越重视。利用聚类分析可以帮助我们更快地分析证型,辅助治疗疾病,从而加速中医诊疗的现代化。袁芳[15]通过收集放射性治疗后的鼻咽癌患者放射疗前、放治疗第14天、放疗后的中医证候数据,构建了完整的鼻咽癌中医证候信息系统。同时对各个观测点的症状、体征等特征进行分级和聚类,并根据其性质和临床症状进行分类,以寻找辨证的依据。通过初次聚类分析产生了4种证性,即痰湿证、热毒证、血瘀证和肾虚证。在放疗中期,热毒壅肺证增多、咳嗽证逐渐下降;而热毒阳邪必耗伤气阴,日久及肾,而阴损及阳。因此,在放疗结束时,以肾虚证逐渐加重,而痰湿证、热毒证、血癖证随之下降。聚类分析的结果基本反映了鼻咽癌的总体演变规律。尹胡海等[16]收集了450例原发性高血压(Essential Hypertension,EH)患者5年前后的中医四诊资料。采用K-means聚类分析方法,对随时间变化的中医证型变化规律进行分类,即:450例EH患者在2012年按中医学证型分3类:肝阳上亢证306例(68.0%)、痰湿中阻证117例(26.0%)、肾精不足证27例(6.0%);在2017年将EH患者的中医证型分为3类:肾精不足证186例(41.3%)、瘀血阻窍证150例(33.3%)、气血两虚证114例(25.3%)。EH患者的临床证候由实到虚、病变范围由肝到肾、病变原因从痰湿变瘀血。发展规律遵循中医病机理论的“久病及肾、久病入络”。这为临床早期干预诊断及辨证用药治疗EH奠定了理论依据。
2.3 聚类分析在中医用药规律中的应用 用药规律研究是通过收集某一病症的有关文献或方剂,并在此基础上,开展对药物变化规律的科学研究。对于分析某一病症所应用的常规药物、药对、核心组成药物,以及了解病症的中医诊断方式有着重要意义。随着计算机技术的飞速发展,文献检索技术的不断进步推动了中医药信息电子化的进程[17]。许多学者采用数据挖掘的方法对中医用药规律进行挖掘和分析,聚类分析也是常用的方法之一。任毅等[18]以130例肺结节患者为研究样本。对临床常见肺结节用药进行频率及层级聚类,并以Pearson相关指数为衡量标准,由此得到各因素的相关矩阵,构造高频药物簇的树型图。将常用药物分为5类:燥湿化痰、降气宽中类,清热散结、消痰利咽类,软坚散结、补气活血类,补益脾肺、止咳化痰类,活血祛瘀、敛肺滋肾类。刘燕等[19]以用中医汤剂治疗偏头痛,并经临床疗效观察证明有效的中医复方为主要研究对象,对其用药进行聚类分析。确定的偏头痛常用方法可分成4种,即平肝潜阳,活血通络,补益气血,祛风止痛。通过对现阶段中医治疗偏头痛资料的研究,以及探索在偏头痛治疗进程中的疾病原因变化等,可以归纳出偏头痛的治法治则和用药规律,以期防止错诊误治,有助于医师及时了解疾病情况,正确诊断,合理预后。
2.4 聚类分析在中药鉴别中的应用 中药既是中医学预防治疗的主要物质,也是中药饮片和中成药的主要原料。目前,许多中药被应用于临床实践中,但中药的真假问题也非常突出。许多常见药物存在赝品与混淆品,以次充好的情况也非常严重。中药材的品质严重影响着临床药物的安全性与有效性[20]。因此,鉴别药材的真伪是保证临床安全有效使用的基础。在学术界,许多学者通过将中药鉴别方法与聚类分析相结合,进行了有益的尝试[21]。胡翠英等[22]通过将荧光光谱成像技术和聚类分析方法相结合的方法,对13种不同来源的鹿茸样本开展了鉴定研究。结论与对照检验组的鉴定结论相同。从而为鹿茸鉴定提供了一种简单、无损、快捷的新方法。刘明地等[23]利用红外光谱法采集了13个不同产地大叶三七的原始数据。同时,结合主成分分析和层次聚类分析,成功实现了对大叶三七的鉴别。结果表明:13个不同产地大叶三七可分为云贵高原、秦岭以南、秦岭以北3类。为了验证其准确性,对3个样品进行相同处理,准确率达100%。由此可为其他中药的产地鉴别提供参考方法,但该模型由于样品量较少,仍具有一定的局限性。
大数据时代的到来,为中医药领域的发展带来了机遇与挑战。通过使用聚类分析技术,可以促进中医药领域大数据的有效利用,从而把握发展的好时机。目前,聚类分析已在证候归类、证型演变、用药规律等方面得到了较好的应用。
在中医辨证论治过程中,由于中医流派众多,四诊信息量大,数据与辨证标准不一,对中医药的临床研究产生了很大影响。聚类分析是从数据出发进行聚类,对于数据的选择,应尽可能地符合国家标准,依据国家有关部门颁发的最新标准。辨证标准应采取临床结果准确率较高的标准,以作进一步研究,减少因数据或辨证标准不一带来的误差。而对于中医药领域高维度、多方面的数据,可通过舍弃相对不重要的对象,确保聚类的精确度。聚类分析有助于管理中医药领域大量的信息,同时减少因经验和专业知识引起的主观干扰,以便数据分析能够更加科学、客观。然而,其技术理论也有待完善。对于中医等专业性较强的行业,在某些聚类分析结果中,可能会出现将几种不相关或相互冲突的病症聚为一类的情况,亦或者由于某些特定领域的样本数据量相对较少,导致聚类结果存在较大偏差。因此,在得到分类结果后,仍需要按照专家的临床建议,对结果进行修正和中医理论分析,再将聚类结果与专业知识进行组合或取舍,将使得结果更具有临床指导意义。
利益冲突声明:无。