淋巴瘤医案不同聚类分析方法比较研究

2021-02-22 13:41朱垚陆明杨涛倪海雯
南京中医药大学学报 2021年1期
关键词:分散性医案方剂

朱垚,陆明,杨涛,倪海雯

(1.南京中医药大学第一临床医学院,江苏 南京 210023;2.南京中医药大学针灸推拿学院·养生康复学院,江苏 南京 210023;3.南京医中数据挖掘中心,江苏 南京 210029;4.南京中医药大学人工智能与信息技术学院,江苏 南京 210023;5.南京中医药大学附属医院,江苏 南京 210029)

基于中医临床医案的数据挖掘与知识发现是近年来中医药研究的热点之一。中医医案数据挖掘虽然研究方法众多,但符合中医临床辨治特点且能有效总结专家经验的挖掘方法,主要还是以频数解构、关联规则、聚类分析为主。聚类分析是将数据分到不同类的过程,同一个类中的数据有较大相似性,而不同类间的数据差异性较大。聚类分析是一种探索性的数据挖掘方法,在分类过程中,不必预先制定分类标准,聚类分析能够从样本数据出发自动分类。通过对中医医案实际数据样本集的系列研究发现,同一医案数据样本集所采用的聚类分析方法不同,结论亦有较大差异。不同研究者对于同一组数据进行相同的聚类分析方法,由于研究设计不同,所得到的聚类值也不尽相同。因此,基于中医药学知识发现的客观规律与前期大量中医医案数据挖掘实践[1-5],本团队提出药物分散性聚类与方剂分散性聚类的概念,并根据聚类分析在中医医案研究中的主要目的,确立药物分散性聚类与方剂分散性聚类的内涵及外延,以期扩展和丰富聚类分析在中医医案数据挖掘领域的应用。本文采用淋巴瘤医案为范例数据,对不同聚类分析方法的挖掘结果进行比较,从而分析中医医案采用不同聚类分析方法的优化方案与结果差异,为中医药数据挖掘提供更加优化的研究范式。

1 资料与方法

1.1 数据采集

本研究采用数据挖掘中的单源数据库类研究,旨在研究单一来源数据库的医案数据结构特点,其优势在于能够有效降低建库噪点,减少研究复核能耗,留存单源数据研究样本,为多源数据库类研究形成比对数据,确保后续多源数据库类医案研究的差异值显现最大化。

选择目标单源数据库为中国知网(CNKI),进行“淋巴瘤”单病种、单源数据库类医案研究论文检索。论文数据库保留Download Index索引清单,进行双人复核,确保论文数据库与索引清单的量值一致。检索式:(SU="淋巴瘤") AND (SU="国医大师" OR SU="名老中医") AND (SU="验案" OR SU="经验" OR SU="治验" OR SU="医案"),检索时间设置为1988年1月1日-2019年8月15日。

1.2 数据库构建

在论文数据库的基础上,采用Medcase Ver3.8诊籍中医师工作室-名老中医经验传承辅助平台,进行临床医案数据文本提取,建立淋巴瘤专病医案数据库。录入完成后进行二次数据审核;不同研究人员进行录入及审核,控制相异率<3%。

1.3 纳入与排除标准

纳入标准:①论文医案描述中明确“淋巴瘤”诊断;②论文医案描述中存在中药内服干预方案;③论文医案描述中有复诊信息存在可供进行疗效判别的症状。

排除标准:经校验复核确认在不同论文中,记录了同一主诊医师相同的医案,排除时序首位记录外的所有医案。

1.4 诊断与中医证候分型标准

中医辨证分型及证候要素参照《现代中医肿瘤学》[6]《中药新药临床研究指导原则》[7];西医诊断标准参照《WHO(2008)造血与淋巴组织肿瘤分类诊断标准》[8]根据受累淋巴结或结外肿瘤组织病理报告确定诊断。

1.5 数据预处理

针对淋巴瘤专病医案数据库中文本医案,在医案录入与数据提取过程中对明显的症状、病机、治法、药物、理化检查等数据源中的错误等非研究性数据噪点,进行溯源性预处理,达到降噪、优化的目的。溯源数据值与修正数据值由不同研究人员实时双备份标记。

1.6 数据规范化

预处理后的医案数据库按照研究分析类型的不同,进行数据规范。规范化中医药术语分项集进行,症状项集、诊断项集、病机项集规范参考《中医诊断学》[9];药物项集规范根据临床经验导向型知识获取原则,遵照中医医案真实世界研究范式,药物名称参考《中药学》[10],其他类型数据规范化采用《中医临床医案数据挖掘研究数据规范化标准》[11]。对于明确为非标准简写或非标准全称药物,均按照中药标准名称进行规范;对于中医临床疗效有差异或专家使用强调道地药材功效的药物,则保留原医案药名规则,以促进较多临床型知识规则的获取;对于真实医案中未能明确炮制方法或生、熟特性的药物,保留原始医案药名,由研究者根据最终获取的知识规则,对药物的炮制方法与生、熟特性进行临床读判与学术研究。非标准全称完善为标准全称,如生薏仁、生苡仁统一规范为生薏苡仁,熟薏仁、熟苡仁统一规范为熟薏苡仁,但生薏苡仁与熟薏苡仁从临床使用角度看,疗效有差别,因此按照真实世界研究范式,遵从临床专家的使用习惯,以便多维度获取临床知识规则。在此次聚类研究中,不再进行合并性药物名称规范,如附子原始医案中标明生附子与熟附子的采用生、熟区分,未注明生熟均按照医案原文保留为附子,作为不同研究项集素材存在,以获得更多层次知识规则,供研究者进行临床拟合分析。对于多种不同炮制方法产生不同疗效特点的药物,不进行合并性药物名称规范,如清半夏、法半夏、矾半夏、姜半夏、竹沥半夏、制半夏(原文未标明,不做硬性划分)等不做统一性规范。对于同一大类药物,子类内涵临床选用存在差异的,均予以保留,不进行合并性药物名称规范,如金钱白花蛇主指小白花蛇,白花蛇作为大类名称包含大白花蛇。临床医家常用小方或成药,按照临床使用习惯,作为独立项集素材存在,不做进一步药物细化分拆及药名规范化处理,如黛蛤散、猴枣散等。

1.7 数据分析

Medcase V3.8诊籍中医师工作室-名老中医经验传承辅助平台系江苏省科技创新专项研究成果,由南京中医药大学国医大师周仲瑛工作室、第二临床医学院、人工智能与信息技术学院联合研发[12],已在江苏地区中医临床、教学、科研单位广泛使用。研究采用Medcase系统中的XMiner V1.0中医药数据挖掘平台进行格式化和编码,并根据文本特征计算数据权重,参考《中医临床医案数据挖掘研究数据分析操作标准》[13]操作执行系统常规极值处理,实时记录调参标值,基于Pycharm的Kmeans工具与Hierarchy工具进行运算数据的可视化表达。

1.8 方法学差异性研究设计

对于淋巴瘤临床医案的范例数据,在先期统一预处理与规范后,运用分散性聚类中的快速聚类、结构性聚类中的层次聚类进行分析挖掘,并在研究中设计不同的挖掘路径。在分散性聚类中根据方剂药物重频规则,采用药物分散性聚类与方剂分散性聚类并行挖掘;在结构性聚类中根据药物频幅的节段,设置F10、F20、F30 3个药物凝聚层次进行并行挖掘。将最终的挖掘结果根据算法特点、终值偏倚与临床拟合3个方面进行综合分析比较,从而得出中医医案药物聚类挖掘方法的优化方案与结果差异。

此次比较研究中采用的聚类分析方法,大类选取的是以K-Means聚类为代表的分散性聚类和以系统聚类为代表的结构性聚类。分散性聚类亚类选取笔者所在团队提出的药物聚类分散性与方剂分散性聚类。结构性聚类亚类选取则是定向性药物凝聚层次聚类,根据不同的药物频幅,设定高、中、低3段频幅的药物凝聚层次聚类。

药物分散性聚类是分散性聚类中的一种结合中医临床用药特点优化的聚类亚型。其核心内涵是数据降维,在中医临床医案的药物数据挖掘中,仅计算药物在所有诊次中全部药物的绝对值及药物间的绝对距离。药物分散性聚类研究的具体实施操作是将药物项集纵向矩阵化,根据每个药物在矩阵中的共现特征,赋予相应权值,根据可视化需要进行降维处理,采用药物唯一性定位,根据欧氏距离进行药物聚类分析。

方剂分散性聚类是分散性聚类中的一种结合中医临床组方特点优化的聚类亚型。其核心内涵是数据升维,在中医临床医案的药物数据挖掘中,仅计算共现药物在全部诊次中的相对值及共现药物的位点数值。方剂分散性聚类研究是将药物项集横向矩阵化,根据不同诊次共现药物在矩阵中的特征,赋予相应权值,按照可视化需要进行升维处理,采用共现药物的位点频次,根据欧氏距离进行共现药物诊次特征聚类分析。

凝聚层次聚类是结构性聚类的常见聚类亚型,但在中医药领域中的运用,缺乏统一划分凝聚层的优化方案。笔者所在团队根据前期中医医案挖掘实践,在中医临床医案的药物数据挖掘中,采用药物频幅权重划分聚类的凝聚层,常规划分标准为所有诊次全部药物中出现频率每10次为一个频幅节点。药物凝聚层次聚类研究的具体实施操作是先根据药物频幅的权重进行分层,将全部目标药物进行频幅分布挖掘,再根据分布结果设定频幅分层节点,确定高、中、低3段频幅节点后,采用结构性聚类中的定向性药物凝聚层次聚类分析。

本次淋巴瘤研究中的药物凝聚层次聚类中,F10频幅即经过权重分层,设定频幅分层节点为全部药物频次中大于10次的药物凝聚层,F20频幅即经过权重分层,设定频幅分层节点为全部药物频次中大于20次的药物凝聚层,F30的频幅即经过权重分层,设定频幅分层节点为全部药物频次中大于30次的药物凝聚层,然后针对3个频段凝聚层进行结构性聚类,获得终值。

2 结果

2.1 研究总体描述

本次研究符合纳入标准的医案138则,共计138人次,354诊次,其中男性176诊次,占总诊次数的49.72%;女性总共178诊次,占总诊次数的50.28%。年龄最大患者86岁,最小者6岁。研究涉及病机59条,症状215种,脉象18种,舌象80种,药物451种。

2.2 医案疗效评估

本次医案138则,其中仅记录初诊的单诊次医案54则,记录复诊的多诊次医案84则,复诊症状改善阳性医案81则,复诊症状改善率为96.43%;诊疗超过5诊次的长诊次医案为17则,诊疗时间超过6个月的长疗程医案18则,全部长诊次医案及长疗程医案复诊临床症状改善率均为100%。

2.3 药物分散性聚类

结果见表1。

表1 药物分散性聚类群集值

(续表)

本次药物分散性聚类共计挖掘获得群集类26项,其中群集数<10区间的群集类有4项,群集数在10~20区间的有12项,群集数>20区间的有10项。药物分散性聚类所得药物组合的药味数量普遍偏大,不完全符合中医临床组方原理;虽然此类方法目标药物没有重复性,但挖掘所得药物组合中部分存在个别药物的临床低解释性特征;个别群集仅为单味药物,虽有可能为专病单方,但从临床实际出发可能性较低,应配合其他药物组合使用。

2.4 方剂分散性聚类

结果见表2。

表2 方剂分散性聚类群集值

本次方剂分散性聚类共计挖掘获得群集类22项,其中群集数<10区间的群集类有12项,群集数在10~20区间的有9项,群集数>20区间的有1项。方剂分散性聚类研究结果所得药物组合的药味数量普遍偏小,相对符合中医临床组方原理;虽然此类方法目标药物有重复性,但挖掘所得药物组合具有临床高解释性特征;未出现单味药物,最低群集为3,符合临床角药小方特征,更加符合中医临床实际。

2.5 F10药物结构性聚类

结果见表3。

表3 F10药物凝聚层次聚类群集值

在药物频幅大于10的F10药物凝聚层次聚类分析结果中,满足标列参数Mark Parameter符合Frequency amplitude>10且Pick points<30的条件下,共计挖掘获得群集类4项,其中群集数在10~20区间的有2项,群集数≥20区间的有2项。F10药物凝聚层次性聚类所得药物组合的药味数量普遍偏大,不完全符合中医临床组方原理;挖掘所得药物组合中存在部分药物临床解释性低。

2.6 F20药物结构性聚类

结果见表4。

表4 F20药物凝聚层次聚类群集值

在药物频幅大于20的F20药物凝聚层次聚类分析结果中,满足标列参数Mark Parameter符合Frequency amplitude>20且Pick points<25的条件下,共计挖掘获得群集类4项,其中群集数<10区间的有2项,群集数在10~20区间的有1项,群集数>20区间的有1项。F20药物凝聚层次性聚类所得药物组合的药味数量较F10的域宽等级有所缩减,相对符合中医临床组方原理;挖掘所得药物组合中存在少量药物的临床解释性低。

2.7 F30药物结构性聚类

结果见表5。

表5 F30药物凝聚层次聚类群集值

在药物频幅大于30的F30药物凝聚层次聚类分析结果中,满足标列参数Mark Parameter符合Frequency amplitude>30且Pick points=Total的条件下,共计挖掘获得群集类5项,其中群集数<10区间的有2项,群集数在10~20区间的有3项。F30药物凝聚层次性聚类所得药物组合的药味数量较F20的域宽等级进一步缩减,更加符合中医临床组方原理;挖掘所得药物组合大部分具有临床高解释性特征。

3 讨论

3.1 算法特点比较

分散性聚类的算法原理是首先选择聚类的类数,其次产生任意类数个聚类,确定聚类中心,再对每个点确定其聚类中心点,计算其聚类新中心,重复多次,最终确定中心点不再改变。分散性聚类的优势在于解决聚类问题简单快捷;算法对大数据集处理可保持伸缩性和高效率;当群集值较密集时效果较好。劣势在于类数的平均值可被定义的情况下才能使用,可能不适用于某些应用;必须事先给出类数,在运算过程中对初值敏感,不同初值可能会导致终值差异;不适合于发现非凸形状的类或者大小差别很大的类;对噪声和孤立数据较为敏感。结合此次淋巴瘤医案数据挖掘结果,在医案数量为354诊次且目标药物数量为451种时,药物数量相对阈值不大,采用分散性聚类运算的效率优势没有完全显现,且运算结果群集数偏大,群集值较多,临床解释性相对较低。

本次淋巴瘤研究中的结构性聚类采用层次聚类中自下而上的凝聚层次聚类,其主要算法原理是首先将每个对象作为一个类,然后运算合并这些子类为越来越大的类,直到满足终结条件而停止运算。实际聚类分析中,结构性聚类是使用最多的一种聚类方法,其优势在于结构性聚类既可以对样本聚类,也可以对变量聚类,变量可以是连续性变量也可以是分类变量;结构性聚类的类间距离计算方法和结果表示方法非常丰富,可视化效果较好。结构性聚类劣势在于与其分析过程相关,由于每一步聚类都需要计算类间距离,当变量较多或样本数据量较大时,运算速度较慢,运算效率较低。结合此次淋巴瘤医案数据挖掘,采用结构性聚类中的凝聚层次聚类运算效率与分散性聚类基本相当,而运算结果群集数相对偏小,群集值较合理,临床解释性相对较高。

因此,样本数量的大小在一定程度上决定了数据挖掘中分散性聚类与结构性聚类的选取,样本数量较大时分散性聚类运算较为高效,样本数量较小时结构性聚类适应性较好,可视程度更佳,在中医药领域运用时更加符合临床实际,具有较好的临床解释性。

3.2 终值偏倚比较

分散性聚类中药物分散性聚类的设计特点是按照所有样本医案数据中药物出现单次计算药物距离,所得终值为药物间绝对距离。分散性聚类中方剂分散性聚类的设计特点是根据所有样本医案数据中相同药物组合共现数计算药物距离,所得终值为药物间相对距离。从挖掘终值结果来看,在目标药物绝对数量相对较低时,按照临床实际的方剂组方原则与方剂常规药味数为标准,药物分散性聚类产生的极值偏倚较大,方剂分散性聚类产生的极值偏倚较小,并能明确展示药物组合实际出现的位点数与位点值,更加利于临床分析与数据溯源。

在结构性聚类中,根据药物频幅的节段设置F10、F20、F30 3个药物凝聚层次进行并行挖掘。F10药物凝聚层次聚类为药物频幅大于10的药物系统聚类;F20药物凝聚层次聚类为药物频幅大于20的药物系统聚类;F30药物凝聚层次聚类为药物频幅大于30的药物系统聚类。从挖掘终值结果来看,在药物绝对数量相对较低时,药物频幅越高的凝聚层次聚类群集数区间相对更加集中,相对于临床实际方剂药味数均值,产生的极值偏倚也相对较小。

由此可见在样本药物绝对数量相对较低时,结构性聚类的群集数较分散性聚类的群集数相对较小,极值偏倚也较小,更加接近临床实际方剂药味数均值,而方剂分散性聚类与高频幅药物凝聚层次聚类在终值表达与可视化展示方面更具优势。

3.3 临床拟合比较

本次淋巴瘤医案样本分散性聚类中,药物分散性聚类群集数大于20的有10项,群集数等于1的有2项,符合临床处方组方规律的群集数仅为14项。从中医临床诊疗实际出发,群集数大于20的多为大方,研究偏倚风险较大,临床解释困难,群集数为1的多为单药、单方,不符合聚类分析的运用目的。而剩余的14项也可能存在数据噪声与临床意义不可解释性的问题。分散性聚类中方剂分散性聚类因为算法及设计更加符合中医临床方剂的使用特点,因此干扰噪点较低,虽然群集类也有22类,但整体群集值较药物分散性聚类群集值大幅下降。其中群集值大于10的共有10项,而剩余12项均为个位群集值,更加符合中医临床核心药物组合或经典方剂的解释,功效主治特征更加突出,有较强的临床解释性。由此可见,在分散性聚类方法下,方剂分散性聚类较药物分散性聚类具有更好的临床拟合度,而群集类的数量对临床拟合度影响较小,群集值对临床拟合度影响较大,群集值在(10±5)范围内为临床拟合的最佳阈值,具有较高的临床可解释性。

本次淋巴瘤医案结构性聚类中,从临床拟合度来看,挖掘结果序位应为F30>F20>F10,低频幅药物凝聚层次聚类的群集值较为离散,临床意义不可解释性较高,临床拟合度较低;而高频幅药物凝聚层次聚类群集值较为集中,频幅越高群类别越集中,临床解释性越好,临床拟合度越高。由此可见,在结构性聚类方法下,根据药物频幅优先选取高频药物进行凝聚层次聚类具有更好的临床拟合度,而聚类分析结果位点值对临床拟合度影响较小,群集数随着药物频幅的上升存在优化可能,群集值随着药物频幅的上升反而成下降趋势,更加符合中医临床特征;从结构性聚类最终群集值10±3阈值范围来看,结构性聚类临床拟合的最佳阈值范围也较分散性聚类群集值更为聚合,临床可解释性进一步提升。

4 结论

综上所述,结合淋巴瘤医案数据挖掘结果进行比对研究,在淋巴瘤医案数量为354诊次且目标药物数量为451种时,分散性聚类分析与结构性聚类分析在知识规则的结果表达上各有特点,但从算法特点、终值偏倚、临床拟合三个维度整体评价,结构性聚类在此研究中更具有优势。而此次基于淋巴瘤医案的数据挖掘方法比较研究中,结构性聚类的亚类中药物频幅大于30的F30药物凝聚层次聚类分析是符合中医临床数据挖掘研究范式的最优方案。

对于中医临床医案单病种数据挖掘研究,采用不同的聚类方法研究临床中药运用的药物组合或核心处方,方法的选取主要取决于样本总体数量与药物总体频数。数据量较小时宜选取结构性聚类,药物结构性聚类挖掘设计宜采用较高药物频幅,挖掘终值偏倚较低,研究结果临床拟合度较好;数据量较大时宜选取分散性聚类,分散性聚类挖掘设计宜采用方剂分散性聚类,挖掘终值偏倚较低,研究结果临床拟合度较好。但无论中医医案类数据挖掘选取何种聚类方法,在对挖掘终值的分析上均需要研究者有较为深厚的临床经验,才能更全面地根据挖掘结果获取新的知识。

猜你喜欢
分散性医案方剂
数据库技术在古代中医医案整理中应用研究进展
基于中医“五辨”思维探讨医案研读方法*
蒙医药清瘟杀黏类方剂组方的知识发现研究
水利堤防工程分散性土改性试验研究
读中医医案应去伪求真*
基于信任模型的中医药方剂相似度计算方法
考虑材料性能分散性的航空发动机结构安全系数确定方法
搅拌对聚羧酸减水剂分散性的影响
中药方剂,新冠肺炎患者的福音
何谓中医“七方”