周佳静,贾英杰,张 利,孙 敏
(1.天津中医药大学第一附属医院 , 天津 西青 300193 ; 2.国家中医针灸临床医学研究中心 , 天津 西青 300381 ;3.烟台市中医医院肿瘤科,山东 烟台 264000 ; 4山东中医药大学 , 山东 济南 250011)
据世界卫生组织最新统计,在调查的183个国家里,有112个国家中癌症是导致死亡的第一或第二病因;另有23个国家中癌症是导致死亡的第三或第四原因,恶性肿瘤已成为全球主要致死原因之一[1]。在我国,癌症死因在全部死因中的构成比也已上升到除心血管疾病外的第二大非传染性致死原因。国家癌症中心发布的最新一期的全国癌症统计数据显示,2015年全国恶性肿瘤发病约392.9万人,较2014年的380.4万增加12.5万,增长率为3.2%;这意味着,平均每天超过1万人被确诊为癌症,每分钟有7.5人被确诊为癌症[2]。伴随发病人数的持续增加,我国每年癌症所致的医疗花费超过2 200亿元[3],给国家和个人均造成巨大经济负担。癌症为世界难题,多数发现时已为中晚期,除早期肿瘤的根治术外,缺少有效治愈方法。现代医学治疗手段如手术、放化疗、靶向治疗等费用高,不良反应多,且恶性肿瘤复发转移率高,中医药治疗恶性肿瘤有其独到的优势,除了具有抗肿瘤、预防复发转移等作用外,还具有价格低廉、副作用少等优点。中医学发展至今有几千年的历史,历代医家包括当代名中医的临证经验、用药体会等汇聚成了浩瀚瑰丽的医学宝库,但因医者诊病无暇自行总结;或弟子总结但因人力、精力及方法受限,无法将繁多复杂的医案有效归纳分析;或者因医者主观直觉、个人体会等生成的隐性知识很难通过语言或文字表达出来,种种原因导致庞大的医学宝库得不到很好的发掘,数据挖掘技术应运而生。越来越多的研究者开始尝试应用数据挖掘法从人、动物等各个维度辅助探索中医药在恶性肿瘤中的应用,以期有效、便捷、客观地分析总结及验证人与动物医学的肿瘤诊疗经验。综述如下。
1.1 中医肿瘤研究常用的数据挖掘软件 数据挖掘被应用于医学研究中已有十余载。数据挖掘是从有噪音的、不完全的、模糊的、随机的数据中提炼有效的、潜在的、有用的知识。现阶段应用于中医研究的主要的数据挖掘软件有中医传承辅助平台(TCMISS)[4]、古今医案云平台[5]、中医临床多维关系查询系统[6]、中医药数据关联分析平台[7]、Weka、IBM Intelligent Miner[8]、SPSS Clementine[9]以及医院自行创立的挖掘软件,如山西省中医院的王晞星临证经验数据挖掘平台[10],北京多家医院联合创立的北京名老中医临床科研信息共享系统数据分析挖掘平台等[11]。
1.2 数据挖掘法探究中医诊治肿瘤经验的常有步骤 应用数据挖掘法进行恶性肿瘤相关研究的常有步骤:确定研究课题及题目、数据搜集、数据清洗、数据预处理、数据挖掘、结果分析讨论和结果运用[12]。研究题目一般包含研究目的及应用软件。数据搜集的范围可为某个医家某个时间段的临证方药[13],可为某个时间段的相关文献研究[14],也可以是某个地区相关时间段内的病案等[15]。数据搜集尽可能保质保量,搜集结束后要对大量数据进行必要的清洗,以进一步保证数据的可用性。数据预处理即数据的标准化、规范化,参考标准一般为《中华人民共和国药典》《现代肿瘤学》和《中药大辞典》等。需要注意的是,此类标准一定要参考最新版本。
1.3 中医肿瘤研究常用的数据挖掘方法 综合现阶段基于数据挖掘法进行恶性肿瘤研究的相关文献,常用的数据挖掘方法有频数统计、关联规则、聚类分析等。频数又称“次数”,指目标变量出现的次数,其与所有变量出现次数的和的比值为目标变量出现的频率。频数统计为常用的方法,一般不单独使用,常作为数据挖掘过程的第一步,为关联规则、聚类分析等其他方法的进行作铺垫。关联规则分析法用于分析多个变量之间存在的规律关系,在恶性肿瘤研究中常表现为两药之间的联系。关联规则的使用需设置一定的支持度与置信度作为前提条件,支持度表示X与Y均存在的事物,是关联规则的频度,代表两件事务的普遍性。置信度指以X存在的前提条件下Y存在的概率,是关联规则的强度,代表两件事务的依赖性。使用关联规则分析法时,要根据具体分析目标及数据库的大小设置恰当的支持度和置信度[16]。聚类分析,顾名思义,即将数据根据不同属性归为多个类别,该分析方法常应用在统计恶性肿瘤用药规律时分析药物类别以及分析患者症状分类等。
数据挖掘在中医治疗恶性肿瘤中的应用领域颇多,根据数据挖掘法研究的对象和目的,将其分为以下几类。
2.1 应用数据挖掘法研究癌前病变的中医诊疗 癌前病变是癌症前状态,其病变具有可逆性,及时发现并干预可阻止其发生癌变,故研究癌前病变与研究恶性肿瘤本身同样重要。陈泽慧[16]基于数据挖掘法研究胃炎与胃癌规律及经验总结时,收集北京中医药大学东方医院及第三附属医院2017年9月—2019年10月门诊及消化内镜中心所有慢性萎缩性胃炎患者病例,数据处理后应用Microsoft Excel与SPSS等软件,在频数统计、关联规则等方法下,得出气虚、血瘀、湿浊是慢性萎缩性胃炎的3个重要证候要素。张擎[17]基于挖掘软件Medcase V3.2研究王旭教授治疗甲状腺结节用药规律时,运用频数统计方法得出王旭教授最常用的一味药是浙贝母,其次为桔梗。
2.2 应用数据挖掘法研究癌症术后的中医治疗 手术是治疗大多数早期恶性肿瘤的首选方式之一,但手术对机体的损伤、术后并发症的发生以及术后复发转移等一直是现代医学治疗的难点。中医药治疗在这些方面有着独到的优势,数据挖掘法有助于肿瘤术后的中医药治疗的总结、研究及应用。谢侑玲[18]基于TCMISS(V2.5)与SPSS 26.0软件探究魏子孝教授治疗甲状腺癌术后的用药规律时,将整理好的数据导入软件中,分析得到甲状腺癌术后用药以清热解毒散结、疏肝理气养血为核心。张昳[19]将朱佳教授门诊诊治的肺癌术后患者的信息进行整理,并录入朱佳教授临证资料管理系统中,运用聚类分析、关联规则和频数分析等方法,分析出其常用的治则治法是化痰、益气、养阴、补肺、理气、健脾;常用药物有甘草、女贞子、枳壳、陈皮、白花蛇舌草、生黄芪、神曲、桔梗、山楂、鸡血藤等;总结朱佳教授治疗肺癌术后患者以扶正补虚为先,祛邪为辅。
2.3 应用数据挖掘法研究放化疗后的中医治疗 放化疗也是恶性肿瘤患者常选用的治疗方式,但在其杀灭癌症细胞的同时,也会损伤正常组织,导致不可避免的副反应。放疗患者可出现放射性肺炎、放疗部位皮炎等,化疗患者常会伴随骨髓抑制、消化道反应、肝脏损伤、肾脏损伤、心脏损伤等不良反应,这些副反应均可成为癌症患者治疗过程的绊脚石,影响患者生活质量,故放化疗后患者的中医治疗的研究举足轻重。祝微等[20]在探究中医药防治放化疗后骨髓抑制用药规律时,搜集中国知网(CNKI)近30年相关文献,将整理后得到的数据录入古今医案云平台,在Microsoft Excel软件的协助下,分析得出各大医家方药中的高频药对为“当归—黄芪”,其次为“黄芪—白术”。陈婷等[21]通过查阅CNKI、VIP、万方数据库,整理得出治疗鼻咽癌放疗后口干的中药方剂58个,并运用中医传承辅助平台进行分析,得出鼻咽癌放疗后常用治法为滋阴清热法,用药多归肺胃二经,药性以苦寒居多,麦冬、生地为最常使用的药物;证型以阴虚内热证、气阴两虚证、肺燥津伤证、痰瘀热结证为多见。
2.4 应用数据挖掘法研究恶性肿瘤相关的古代经方、验方 我国医学发展至今具有上下五千年的历史,其经验不断的经过实践验证,形成很多有效的经方、验方。将古代医学与现代技术相结合,应用现代技术对其进行数据挖掘,使其经验可视化,可以使医者更方便的学习和引用。齐卓操等[22]基于Microsoft Excel和IBM SPSS Modeler软件总结治疗消化系统肿瘤的用药规律,将《肿瘤良方大全》中相关方药录入软件系统,分析得出益气活血大法对于治疗消化系统恶性肿瘤有重要意义。李彬彬等[23]搜集VIP、CNKI、万方数据库关于历代名老中医治疗胃癌的方药,将其录入古今医案云平台并分析,得出名老中医治疗血瘀证胃癌的核心组方为莪术、石见穿、三棱、延胡索、桃仁、丹参、当归、红花。
2.5 应用数据挖掘法总结某区域中医诊治恶性肿瘤的规律 应用数据挖掘法还可总结某个医院治疗恶性肿瘤的经验,以指导医院在相关病种领域更好的发展。程建超等[24]基于SPSS 24.0、SPSS Clementine Cliene 11.1软件挖掘分析安徽中医药大学第一附属医院肺病科肺癌住院患者病例,提炼出该医院治疗肺癌的核心组方为半枝莲、白术、炙甘草、浙贝母、黄精、苦杏仁、薏苡仁、陈皮、茯苓、白花蛇舌草,并通过聚类分析得出常用药对为半枝莲—白花蛇舌草等。姜建东[25]借助数据挖掘法探索江苏省中医院治疗宫颈癌的用药经验,将院内肿瘤科及妇科门诊一定时间段内符合纳入标准的病案数据,经Excel整理后导入Medcase V3.2软件中,应用频数统计法得出该院治疗宫颈癌最常使用的药物是白花蛇舌草,其次为白术。
2.6 应用数据挖掘法探究恶性肿瘤证候类型 我国医学讲究治病求本、同病异治、异病同治,不同患者可见不同的证候分型。应用数据挖掘法基于一定的病案数据库,分析恶性肿瘤常见证型,可更好的指导临床诊断及辨证施治。贺佐梅等[26]将7 435份符合条件的非小细胞肺癌病案信息录入Weka 3.6软件中,应用Apriori算法,分析得出5个常见证候群,分别为气虚证、阴虚证、血瘀证、热毒证、痰湿证。张宾等[27]借助SPSS 22.0、R 3.2.5软件,在 Excel 2010的辅助下,研究周仲瑛教授门诊肝癌患者,分析总结出肝癌常见的7个证型,分别为肝脾两伤证、肝胃失和证、肝郁脾虚证、肝肾阴虚证、络热血溢证、气阴两虚证、瘀毒未尽证。
2.7 总结名老中医治疗恶性肿瘤的学术思想及临床经验 名老中医是我国医学发展的先锋,其学术思想和临床经验是中医药文化的代表,应用数据挖掘法总结分析名老中医的学术思想和临床经验,可促进中医药事业的传承和发展。张燕娜等[28]基于Microsoft Office Excel和IBM SPSS Modeler软件,应用Apriori算法,得出王沛教授治疗胰腺癌善用生半夏。张曦文等[6]基于中医临床多维关系查询系统探究朴炳奎教授治疗肺癌的用药规律,得到咳嗽咳痰无尺度网络和点式互信息(PMI)分析图,提炼出治疗肺癌咳嗽咳痰核心组方为茯苓、杏仁、薏苡仁、桔梗、半夏、瓜蒌、甘草、陈皮。刘明明等[29]研究熊墨年教授中医药治疗乳腺癌用药经验时,将整理好的数据导入TCMISS(V2.5)中,基于频数统计,将结果可视化后,得到卵巢癌处方中药物四气分布情况与卵巢癌处方中药物五味分布情况,分析得出熊墨年教授治疗乳腺癌时最常用的是温药、寒药、平药,其次为凉药与热药,最常选用的药味是甘味、苦味、辛味,其次为酸味、咸味。
2.8 应用数据挖掘法进行恶性肿瘤治疗的疗效评价 疗效评价可以直接反应治疗手段是否恰当,数据挖掘法可应用于药物的疗效评价。杨京京等[30]对吴良村教授治疗肺癌气虚证的用药疗效评价时,将收集到的符合要求的患者症状等资料纳入原始数据库,经过清洗后将其录入Excel软件,通过给患者治疗前后气虚证候临床表现打分,分析比较得出气虚症状常见症状是乏力、食欲不振、气短等,经过吴良村教授治疗后均得到改善。姜菊玲[31]在一项多中心、回顾性临床研究中收录中晚期胰腺癌患者,将病例报告表中的内容汇总入EpiData数据库,分为西医治疗组和中西医联合治疗组,运用IBM SPSS Statistics 26.0和SAS 9.4软件进行分析得出,与西医治疗组相比,中西医联合治疗组可延长晚期胰腺癌患者总生存期,使肿瘤标志物CA50降低,失眠、神疲乏力、疼痛、恶心呕吐症状也得到改善。
2.9 数据挖掘法在动物医学中的应用
2.9.1 应用数据挖掘法分析恶性肿瘤动物模型 数据挖掘法得出的核心处方、药对、新处方等需要进一步临床及基础试验进行疗效验证,但由于临床人体试验的局限性,减缓了新药研发和临床成果转化的进程。恶性肿瘤动物模型的复制和建立,为肿瘤的中医药研究提供了新思路。韩艳珍等[32]对近20年国内外宫颈癌动物模型文献筛选,运用数据挖掘法对纳入的286篇试验研究性文章进行分析,得出BALB/c裸鼠为宫颈癌模型复制最常使用的实验动物;皮下接种U14鼠源癌细胞为使用最多的造模方法,接种部位多为背部皮下,成模周期多数为7 d;检测最多的指标依次为肿瘤组织表观指标、抑瘤率、肿瘤组织病理、肿瘤组织免疫组化、动物整体表观指标、血清中相关生化指标等。雷会霞等[33]检索到肝癌鼠模型的近3年中英文文献986篇,经过数据清洗后,在Excel表中录入动物类型、造模方法、阳性药、检测指标、观察指标等,对其进行数据挖掘、统计分析,得出肝癌大鼠造模常应用药物诱导法和原位移植法,肝癌小鼠造模以皮下移植法最多;阳性药多选择环磷酰胺,其次为氟尿嘧啶、顺铂;给药方式主要为灌胃,周期多为14 d;不同肝癌鼠模型的检测指标有所不同,统计频次较高的检测指标有TNF-α、IFN-γ、VEGF、AST、ALT、Caspase-3、IL-2等;模型组大小鼠肝、脾脏器指数多升高,胸腺脏器指数降低;此外,探讨了不同造模法的优缺点及注意事项,指出在现代中药药效学研究中,建立更加符合人医临床中医理论“病证结合”的肝癌动物模型是后续模型研究的目标。
2.9.2 数据挖掘法在宠物肿瘤临床中的应用 数据挖掘法在兽医学中的应用目前主要聚焦于流行病学调查。缐铠瑞[34]采用数据挖掘法收集2018—2020年沈阳市不同区5家宠物医院收治的肿瘤患犬病例1 225例,选取治疗资料完善的196例,统计分析得出发病部位主要集中于乳腺、皮肤及肛周;乳腺肿瘤高发于京巴犬和西施犬,皮肤肿瘤高发于金毛巡回猎犬;肿瘤高发年龄为7~15岁,呈现一定的高龄多发趋势;饮食习惯的复杂化是导致犬肿瘤疾病高发的重要因素。李永岐[35]收集2015年5月—2018年7月东北农业大学附属动物医院和哈尔滨市部分动物医院患乳腺肿瘤且通过手术摘除肿瘤组织的犬病例136例,通过Excel和SPSS 17.0软件分析统计录入数据,得出易患品种为混血犬和贵宾犬,后腹对乳区和腹股沟对乳区发生乳腺肿瘤的概率大于其他乳区,且左侧乳区大于右侧乳区;H.E.染色病理学结果显示:恶性乳腺肿瘤占45.59%,包括浸润性导管癌41例、导管内乳头状癌6例、乳腺鳞状细胞癌5例、微乳头状癌3例、导管原位癌3例和其他恶性乳腺肿瘤4例;免疫组织化学结果显示:E-cadherin蛋白在犬乳腺恶性肿瘤组织中的表达显著降低,cadherin、EZH2、Vimentin蛋白在犬乳腺恶性肿瘤组织中呈高表达。
3.1 必须基于真实世界 应用数据挖掘法时,被挖掘的数据库要有100%的真实性,不可脱离真实世界,不能对原始数据进行造假或者伪造,以确保研究结果的质量和可用性。
3.2 不可拘于数据挖掘 数据挖掘只可作为临床研究的辅助软件,不可完全依赖。例如张亚玲等[36]基于IBM SPSS Statistics 21.0挖掘软件,在Microsoft Office Excel 2007的协助下,分析郑玉玲教授治疗食管癌的用药经验,通过频数分析,得出郑玉玲教授最常用的一味药为甘草。但众所周知,甘草只是大多数医家善于用来调和诸药的一味药,所以应用数据挖掘时要结合具体实际。
3.3 原始数据须清洗与预处理 由于收集数据是一项漫长且繁琐的工作,在收集过程中无法明确收集到的数据是否完全可用,故在原始数据的基础上,有必要基于入选标准、排除标准、剔除标准对数据进行再次确认。另外,中医药历经上下五千年,会出现一药多名、同名异方等情况,所以为了方便统计,一定要对原始数据进行校正。
3.4 数据挖掘软件可联合使用 中医传承辅助平台(V2.5)将整理好的数据库导入即可,操作简单,其升级版中医传承辅助平台(V3.0)同样操作简易,但价格较贵;古今云医案平台数据库资源丰富,但部分功能仍在更新中,需切换不同端口进行研究[37];SPSS系列软件目前使用比较广泛,但需要具备一定的统计与建模能力,常需配合Microsoft Office Excel使用;R语言可视化比较强,但需要有R语言知识的前期基础[38]。可见,现有的数据软件各有千秋,要结合各软件的优势,取长补短、综合使用,才能促使数据挖掘研究更好的完成。
综上所述,目前数据挖掘法在恶性肿瘤的中医药诊疗领域的应用比较广泛,覆盖了不同时代、区域、病种、分期、联合治疗手段、动物模型、宠物肿瘤临床等多领域的研究,研究内容包括一般信息、常见症状体征、辨证分型、用药规律、性味归经、核心处方、动物造模方法、造模周期、受试药、检测指标、肿瘤好发部位、好发年龄、病理类型等多方面。合理使用数据挖掘法可以使海量的有效医案得到整理分析,使名师经验得到总结与传承,优化中医药研究中的动物模型,完善宠物肿瘤的防治策略,提高恶性肿瘤中医药研究的效率,但最终人为的总结与校验也是必不可少的。
中医药现代化研究进程的加快和国家对人工智能在医疗行业应用的大力支持,使得数据挖掘法成为近几年中医药研究的热门方法之一。但作为中医药研究领域的新兴技术和方法,数据挖掘法仍存在不足和需要完善的方面。首先,目前的数据挖掘法基本还是沿用了西医的思维方法,弱化了中医理论的指导作用和辨证论治的核心思想,分析得出的结果相对表面化,如何结合中医理论深入分析、紧抓辨证论治的思想内核,是亟待解决的问题之一。其次,现有应用于中医药研究的数据挖掘方法还存在缺陷,例如不能满足中医症—证—治则—方药的复杂、多维关系的分析。由于同时具有中医药知识和数据挖掘技术的交叉学科人才缺乏,数据挖掘技术和软件的研发完善存在困难。再次,数据挖掘法分析得出的核心处方、药对、新处方等需进一步进行基础和临床试验研究来验证疗效,临床成果转化还有很长的路要走。最后,数据挖掘法在动物领域的应用还不够广泛,但随着国家对中医药的支持,中兽医学的发展,医案的不断积累,数据挖掘技术在动物医学领域的应用前景可期。