匡浩铭,杨张琪,匡建军,邓 宇*,张尚华*
(1.湖南中医药大学,湖南 长沙 410208;2.湖南省中医药研究院,湖南 长沙 410006)
骨质疏松症是最常见的全身性骨病之一,其发病特征是骨结构恶化和骨量慢性减少[1],通常由于独立诱发因素(包括衰老和持续钙流失)导致骨质疏松性骨折。随着人口老龄化日益明显以及饮酒、饮食不平衡、吸烟和一些无意识因素日益普遍,这些因素都会改变骨形成和骨吸收之间的平衡,导致骨质疏松症发病率、骨折率越来越高[2],并且骨折后有一半患者因其并发症而导致不能独立活动,严重降低了患者的生活质量,不仅增加了医疗负担,死亡风险还会持续升高[3-4]。
中医在治疗骨质疏松症方面历史悠久,疗效确切,历代医者的学术思想和辨证经验都蕴含在其代表医案中。近几年,名老中医经验总结成为当下研究热点,但每位医者都会有自身用药习惯和特点,从中难以找寻中医治疗骨质疏松症的规律,所以运用大数据对历代医家治疗骨质疏松症的医案文本进行挖掘和整理治疗规律是有必要的。 本课题组希望通过Python 软件建立自动中医医案文本抽取方法或模型,自动将文本按照个案、诊次进行分割,再将“语料库”与单个医案文本进行自动匹配,并对这些信息进行结构化储存管理,从中分析出中医治疗骨质疏松症的治疗规律,拟解决中医学领域语言文本知识自动抽取问题和总结中医对骨质疏松症的治疗规律。
依托湖南省中医药研究院中医药传承创新知识共享平台对关键词“中医治疗骨质疏松症”“骨质疏松”的医案进行检索,通过阅读检索后的标题,初步剔除非相关性的医案,再将余下医案进行摘要阅读,剔除非中医治疗、非骨质疏松症状等不符合纳入条件的医案。 最终将纳入的医案进一步全文阅读,筛除掉不完整的医案,把剩下医案进行全文下载。
语料库构建工作的核心理念是制定规范和依据规范标注,《中医药学》第二版[5]的疾病名词定义较全面规范,因此选择其作为基础语料库,进行中医临床症状信息抽取实验[5]。 由于每种疾病的症状不同,且每个人的症状表述用语也有差别,在进行具体医案研究时,还需要补充新的术语到语料库中,用于构建适用于当前研究的信息抽取模型。 将数据自动采集至Excel 中作为原始语料,用于标注中医医案信息。 参照《中医临床基本症状信息分类与代码》的信息属性分类[6],将命名实体分为9 类,分别为中医病名、症状、脉象、舌象、穴位、证型、治法、方剂、中药。
基于Python 3.7 正则表达式函数构建中医药文本知识抽取模型,从自然语言书写的中医医案文本中,自动抽取所需信息。 正则表达式通常被用来检索、识别那些符合某个模式(规则)的文本,是对字符串操作的一种逻辑公式,本课题组构建了八大类(包括中医病名、症状、证型、治法、舌苔、脉象、方剂、饮片)中医术语词典,并组成了用来识别中医医案术语信息的“规则字符串”。 该模型首先依据诊次对医案文本进行“切割”,再通过术语词典匹配、识别并抽取字符串中的术语,依据中医医案语法规则,从不同诊次的文本中识别出类似阳性症状、改善症状、饮片加减等变化内容,最终形成可直接分析、利用的结构化数据。
将由Python 3.7 软件抽取出结构化数据,批量导入古今医案云平台,运用其分析池进行症状、证型、中药的词频分析、复杂网络图分析和知识图谱可视化分析。
首先运用湖南省中医药研究院中医药传承创新知识共享平台搜索关键词“骨质疏松症”相关医案,得到688 篇,通过阅读标题初步剔除非治疗骨质疏松症的医案140 篇,将筛选出的医案进行摘要阅读后剔除非中医治疗和重复医案69 篇,后将纳入的医案进行全文阅读,剔除掉关键数据不完整的医案32 篇,最后将余下447 篇医案进行归档整理。
根据语料库的规范性,以《中医药学》第二版[5]作为基础语料,增加研究数据后构建中医医案术语词库分类及数据量统计共有40 959 个实体,其中症状8096 个、证型4570 个、治法10 866 个、穴位393 个、脉象302 个、舌象496 个、方剂14 708 个、中药1528 个。
利用Python 3.7 软件对医案文本进行反向标识,通过SPSS 22.0 软件随机抽取30 篇医案后人工校对。 发现精确率、召回率、F1 值分别为98.48%、95.31%、95.51%,具体数值见表1。
表1 分类统计精确率、召回率、F1 值
利用Python 3.7 软件搭建好的模型抽取447 篇医案文本的症状信息。 发现刻下症状有疼痛、乏力、压痛、头晕、麻木、膝酸、畏寒、晨僵、背疼等179 项;刻下脉象有脉弦、脉沉细等20 项;刻下舌象有苔薄白、苔白等42 项;治疗穴位有三阴交、绝谷、阳陵泉等10 项;中医证候有肾阳虚证、肝肾阴虚证、血瘀气滞证等12 项;刻下治法有补肾、健脾益气、活血化瘀等27 项;中药有杜仲、肉苁蓉、菟丝子等279 项。
2.5.1 证候分析 在12 项证候当中,肝肾阴虚证和脾肾阳虚证最为常见,其次是血瘀气滞证、脾肾两虚证、肾虚血瘀证、肾阳虚证等,其中肝肾阴虚证和脾肾阳虚证占到总比的39.74%。 具体证候频数前10位分布情况见图1。截取频数前10 位数据结合对各种症状频数的密切观察,发现骨质疏松症发病主要与肝、肾、脾、气血等息息相关,其病因病机主要是肾亏、脾虚、痰瘀阻脉3 个因素[7]。
图1 证候频数前10 位分布情况图
2.5.2 治法频数分析 在12 项证候当中,补肾治法最为常见,其次是生精补肾、健脾益气、强筋骨、滋阴益肾、益阴填髓等,其中补肾法占到总比的20.42%,具体频数分布见图2。综合治法频数前10 位数据可知中医针对治疗骨质疏松症多从补肾、补肝、健脾、补气血等方面着手。
图2 治法频数前10 位的分布情况图
2.5.3 中药频数分析 本研究共纳入667 个处方,其中中药279 种,667 个处方中杜仲、肉苁蓉和菟丝子最为常见,其次是黄芪、当归、茯苓、骨碎补、甘草、补骨脂、白术。 在处方中出现的频率,杜仲为30.37%,肉苁蓉为28.27%,菟丝子为27.75%。 截取频数前10 位数据结合对中药药性分析,发现药物归肾经最为常见,频率为49.24%,五味统计分析结果发现甘味、辛味、苦味等最为常见。 四气分析发现多以温、平为主。 具体药物属性分析见图3。
图3 药物属性频数前10 位的分布图注:A.处方中常出现的中药;B.中药归经C.中药五味;D.中药四气
2.5.4 中药对骨质疏松症的聚类分析 通过本研究医案中的药物信息聚类形成了4 个聚类,第一类主要为补肾强筋骨类药,其代表中药有淫羊藿、菟丝子、肉苁蓉、骨碎补、补骨脂等;第二类主要是补气活血类药,其代表中药有当归、黄芪等;第三类主要是温通经脉类药物,其代表中药有桂枝、甘草、天麻、茯苓等;第四类主要是祛风止痛、镇静安神类药物,其代表中药有川芎、茯神、夜交藤、丹参等。具体聚类情况见图4。
图4 中药对骨质疏松症的聚类分析图
2.5.5 知识图谱及复杂网络分析 将病例最多的肝肾阴虚证的治法、方剂、中药构化数据重新导入软件Python 3.7,再将中药-中药进行复杂网络分析,由于医案基数较大,为提取出更具代表性的中药关系,现将边权重设置为≥60, 提取出常用的25 味核心中药。 详见图5。
图5 中药复杂网络图
骨质疏松症作为与人口老龄化相关的世界性健康问题,不仅严重降低了患者的生活质量,而且增加了医疗负担[8]。 由于中医在治疗骨质疏松症方面历史悠久,疗效确切,现有越来越多的人尝试使用中医来治疗骨质疏松症。中医学作为历史悠久的学科,历代医者的学术思想和辨证经验都蕴含在代表医案当中,但由人工检索提取医案费时费事,若要基于中医医案数据挖掘研究,整理数据通常需要耗费整体研究时长的70%,所以20 世纪90 年代语言文本知识自动抽取概念被提出,并在2010 年美国国家集成生物与临床信息学研究中心(Informatics for Integrating Biology & the Bedside)首次发布了英文电子语料数据集[9-10]。从此命名实体识别技术已被广泛应用于各个领域[11]。但在中医领域,专业术语具有其特定属性如歧义词、一词多义、多词一义等比较棘手的文法现象,且古今语法构成灵活多变,缺乏统一的规范,其表达差异无法被计算机识别,所以该项数据难以在中医领域实现[12-13]。 课题组设想并不试图全面理解整篇医案,只需对医案包含关键信息关键词进行提取和识别。现已建立中医属性的语料库,算法模型技术相应成熟,精确率、召回率、F1 值分别为96.76%、96.13%、96.44%, 可在前期保证大量中医术语的受控,从而做出提取和分类。
课题组通过此项研究从四诊角度分析,认为骨质疏松症患者多为虚证,舌苔主要呈现薄、白的现象,脉象主要呈现为弦、沉、细,根据证候数据分析发现骨质疏松症发病主要与肝、肾、脾、气血等息息相关。 且病变的性质主要集中在代谢性骨病变上,病变部位集中于人体中轴骨及四肢长骨骨干,疼痛是其最常表现形式, 通过具体医案分析发现腰痛、背疼、腰细酸软、下肢痉挛等发生概率与骨密度紧密相关,骨密度越低则以上症状发生概率就越高。 从治疗经脉闭塞不通而发病的一系列临床症状出发,运用传统中医学“痛则不通”的思想理念,中医常针对髓气聚者之处脉穴加以针灸,如肾阴虚者取肾俞、照海、三阴交予以施针,肾虚者取中脘、气海、命门予以施针,气血瘀滞者取气海、足三里、三阴交予以施针等[14-16]。 在中药治疗方面常专注“肾为先天之本”“肾生骨髓”“其充在骨”“足少阴气绝,则骨枯……骨肉不相亲,则肉软却”“肾精不足,髓少,则生髓乏源,无以养骨”等理论[17-18],配合身痛逐瘀汤、六味地黄汤、补肾活血汤、右归丸、金匮肾气丸等经典补肾活血方,从而利筋骨,养髓补血改善骨密度。 中医治法方面多从补肾、补肝、健脾、补气血等方面着手[16]。
中医药不仅能改善患者骨骼代谢,更能预防其本身相关疾病的发展,从而整体改善身体机能。 通过我们的数据研究发现,447 个处方中杜仲、肉苁蓉和菟丝子最为常见。 在古今治疗骨痹的经典名方中代表性方剂如金刚丸、右归丸、补肾活血汤方都是以这些药为基础[19]。因杜仲、肉苁蓉和菟丝子间配伍疗效甚好,乃至于被日本国宝级书籍《医心方》所收录[20],书上描述苁蓉杜仲茶:肉苁蓉5 g,杜仲3 g,菟丝子3 g,五味子3 g,续断3 g,红茶5 g。 用前5 味的煎煮液400 mL 泡茶,冲饮至味淡,多味药合用,可共同补肾益精治病症。 正所谓药有个性之特长,方有合群之妙用,希望通过研究中医药配伍规律为中医药治疗骨质疏松症提供一定理论基础。