计算机数据挖掘技术在中西医内科教学中的应用*

2021-09-26 01:03胡水莲吴国栋叶杨林毛怡洁
光明中医 2021年18期
关键词:高血压病符合率数据挖掘

计 卫 胡水莲 吴国栋 罗 明 叶杨林 毛怡洁

数据挖掘(Data mining),又称为信息勘探、数据采掘,是从大量的数据中通过多种算法搜索隐藏于其中有用信息的过程,也可称之为知识发现(Knowledge Discovery in Database)。医学数据挖掘是从大量的临床数据中抽取潜在的、有价值的知识,它可直接发现疾病及症状间的未知联系,探索化验指标与疾病间的潜在影响,以及合并症之间的关系[1]。

疾病诊断在医学中关系着患者的用药及治疗方案的制定,是临床医疗活动关键的一步。由于许多疾病病因复杂,患者的临床表现个体差异比较大,容易误诊[2],以往多依靠临床有经验的医生与一些检测方法来作出正确的诊断,而对经验不足的医学生而言诊断结果误差比较大。近年来随着电子技术与计算机技术的发展,数据挖掘技术广泛用于疾病诊断教学中[3],从而使医学生对患者的诊断准确率大幅度提高。

本研究以高血压病、冠心病为教学模版,利用计算机建立高血压病、冠心病中西医诊断数据库,采用数据挖掘技术,建立高血压病、冠心病正确诊断的查询系统,提供医学生对高血压病、冠心病的诊断查询,从而大幅度提高了高血压病、冠心病诊断的临床教学质量。

1 资料与方法

1.1 一般资料选择2017届中西医结合医师班进入临床实习阶段的学生100例,按随机数字表法分成接受数据挖掘教学组(观察组)50例,男28例,女22例;年龄16~18岁。接受常规教学组(对照组)50例,男26例,女24例;年龄16~19岁。

1.2 常规教学方法采用纸质书本,课堂老师讲述西医高血压病、冠心病诊断标准,检查方法,中医证候要素诊断方法。通过学生到医院实习,了解高血压病、冠心病的诊断与实验室、影像室检查的项目及其检查结果的正常与异常标准值,学习高血压病、冠心病临床中西医诊断的方法与措施。

1.3 数据挖掘教学法

1.3.1 高血压病(1)高血压病诊断标准与分级[4]。理想血压:收缩压<120 mm Hg(1 mm Hg≈0.133 kPa),舒张压<80 mm Hg。正常血压:收缩压<130 mm Hg,舒张压<85 mm Hg;正常高值:收缩压130~ 139 mm Hg,舒张压85~ 89 mm Hg;1级高血压(轻度):收缩压140~ 159 mm Hg,舒张压90~ 99 mm Hg;亚组:临界高血压:收缩压140~ 149 mm Hg,舒张压90~ 94 mm Hg;2级高血压(中度):收缩压160~179 mm Hg,舒张压100~109 mm Hg:3级高血压(重度):收缩压≥180 mm Hg,舒张压≥110 mm Hg;单纯收缩性高血压:收缩压≥ 140 mm Hg,舒张压<90 mm Hg。(2)高血压病常见的中医证型诊断指标[5]。肝气郁结证、 肝火上炎证、阴虚阳亢证、痰湿壅盛证、痰瘀互结证、肾阳虚证、肾阴阳两虚证、肝肾阴虚证的临床表现。(3)高血压病分期[6]。一期:血压达确诊高血压水平,临床无心、脑、肾损害征象。二期:血压达确诊高血压水平,并有下列一项者:①体检、X线、心电图或超声心动图示左心室扩大。②眼底检查,眼底动脉普遍或局部狭窄。③蛋白尿或血浆肌酐浓度轻度增高。三期:血压达确诊高血压水平,并有下列一项者:①脑出血或高血压脑病。②心力衰竭。③肾功能衰竭。④眼底出血或渗出,伴或不伴有视神经乳头水肿。⑤心绞痛,心肌梗塞,脑血栓形成。(4)高血压病分型。①原发性高血压:病因不明的高血压。②继发性高血压:肾脏疾病,如慢性肾炎、肾盂肾炎及其他原因引起的肾功能不全;肾上腺疾患,如原发性醛固酮增多症、库兴氏综合症、嗜铬细胞瘤等;肾血管疾患,如各种原因引起的肾动脉狭窄。大血管疾患,如先天性主动脉缩窄、动脉粥样硬化或多发性大动脉炎引起的主动脉狭窄等;心脏疾患,如严重的主动脉瓣关闭不全、完全性房室传导阻滞等;某些全身性疾患,如甲状腺机能亢进、脑血管意外等。某些继发性高血压目前可通过介入手段进行治疗,这些疾患主要是各种原因的肾动脉狭窄及先天性主动脉缩窄。③小儿高血压。④妊娠高血压综合征(妊娠中毒症、先兆子痫),多数发生在妊娠20周与产后2周,约占所有孕妇的5%。⑤老年收缩期高血压。60岁以上的老年人收缩压高于正常水平。

1.3.2 冠心病(1)冠心病患者的一般情况。年龄、性别、身高、体质量、吸烟史、饮酒史、冠心病家族史、糖尿病家族史、体质量指数[BMI=体质量(kg)/身高(m2)]。(2)冠心病心绞痛中医常见证候要素诊断[7,8]。气虚、血瘀、痰浊胸闷痛、阳虚、气滞、热蕴、寒凝的临床表现。(3)冠心病的理化检查指标[9]。白细胞计数、淋巴细胞百分比、中性粒细胞计数、单核细胞计数、血清磷前白蛋白、餐后2 h血糖、糖化血红蛋白、三酰甘油、低密度脂蛋白、肌酸激酶同工酶、RV 5、QRS时限、R+S、射血分数、左室舒张末期内径、左室收缩末期内径、肺动脉最大流速;细胞分布宽度(RDW-CV),血清同型半胱氨酸(HCY),脂蛋白a(LP(a))高水平的RDW-CV,HCY和LP(a)与冠心病的发生密切相关;RDW-CV和HCY与冠心病及心功能损害的严重程度相关。(4)冠心病的影像检查[10]冠心病血管造影、多层螺旋CT血管管径狭窄<50%为轻度狭窄;血管管径狭窄50%~74%为中度狭窄;血管管径狭窄≥75%为重度狭窄;血管管径狭窄范围接近100%为完全闭塞。以冠状动脉狭窄≥50%为阳性。(5)冠心病心功能NYHA标准。Ⅰ级;患者在正常的活动中不产生心悸、呼吸困难、胸闷等症状;Ⅱ级:正常的活动中产生心悸、胸闷、呼吸困难,并且感受到体力有所下降;Ⅲ级:正常的活动中产生心悸、胸闷、呼吸困难,并且感受到体力有所下降;Ⅳ级:患者稍微的运动后就开始产生心悸、胸闷、呼吸困难,体力出现明显下降。(6)心绞痛分级:CCSC加拿大心血管协会分级法。Ⅰ级:日常活动,如步行、爬梯,无心绞痛发作;Ⅱ级:日常活动因心绞痛而轻度受限;Ⅲ级:日常活动因心绞痛发作而明显受限;Ⅳ级:任何体力活动均可导致心绞痛发作。(7)心力衰竭分级。Ⅰ级:一般体力活动不受限,活动后不引起呼吸困难、乏力等不适症状。Ⅱ级:一般体力活动轻度受限,但休息后症状可有缓解。Ⅲ级:一般体力活动明显受限,活动后既有可能出现呼吸困难,乏力。Ⅳ级:患者静息状态下也会出现心衰症状,尤其在活动后加重。

1.4 建立高血压病、冠心病诊断要素数据库在三甲医院电子病历档案室,选择2014—2016年高血压病、冠心病确诊患者1000例,具有完整档案记录的电子档案,将其中西医的检查指标身高、体质量及腰围、血压、血糖、血脂、血流变、心电图、心功能、肺功能、肝功能、肾功能,肾脏B超、CT、核磁共振、血管造影、实验室等有关高血压病、冠心病及其并发症的各项相关指标选入。中医将高血压病、冠心病的舌诊(白厚苔、白薄苔;黄厚苔、黄薄苔),证候要素诊断(脉象、舌苔、体征)等选入,根据以上中西医对高血压病、冠心病的中西医诊断标准,建立高血压病、冠心病诊断要素数据库。

1.5 数据的预处理采用决策树挖掘技术,进行数据的理解、属性选择、连续属性离散化、数据中的噪声及丢失值处理、实例选择等。数据挖掘过程:(1)将原咨询系统的各版块内容进行知识抽取,作为标引词放到软件设计好的位置;(2)知识术语标准化,同时设计术语同义词的转化;(3)通过 Microsoft SQL serve提供一个整合环境,这个环境采用数据库挖掘模式操作和工作,从而进行数据挖掘和空间知识链接;(4)挖掘过程:发现概念、类的描述、关联、分类、预测、聚类、趋势分析、类似分析;(5)决策树,按照数据库的分类,三维结构表达一组决策,特殊决策包括分类、回归树、chi平面自动相互作用检验[11]。

1.6 高血压病、冠心病诊断查询系统通过数据预处理,获得一个高血压病、冠心病诊断的决策表,经过专家的测试,高血压病、冠心病的诊断正确率达到90%以上,生成决策树、导出决策规则,形成高血压病、冠心病诊断查询系统。

1.7 教学方法的效果评价选择已收集的高血压病、冠心病患者若干例,每例患者分别由数据挖掘组的学生(通过实习的经验与利用高血压病、冠心病诊断查询系统辅助诊断)、常规教学组学生(通过实习的经验与患者临床表现与实验室、影像室检查的结果)作出诊断,然后根据诊断结果(高血压病分级、高血压病分期、高血压病合并症、高血压病中医证型;冠心病的诊断、冠心病心绞痛、心功能、心衰的分级、冠心病中医证型等),对照原始病历的诊断,作出符合(对)与不符合(错)的结论。将所有受试的学生最后的诊断结果,利用符合与不符合进行列表统计学处理,得出数据挖掘组、常规教学组学生诊断结果的差异。

1.8 统计学方法采用SPSS 18.0统计学软件包计算,计数资料采用率(%)表示,行χ2检验,P<0.05为差异有统计学意义。

2 结果

2.1 高血压病诊断考评结果2组学生对高血压糖尿病的诊断符合率差异没有统计学意义外,对高血压病诊断、高血压病分级、分期、高血压脑梗死、高血压脑溢血、高血压心脏病的诊断符合率差异均有统计学意义。见表1。

表1 2组学生对高血压病患者诊断结果比较 (例,%)

2.2 高血压病中医证型诊断考评结果2组学生对高血压病肝气郁结证、 肝火上炎证、阴虚阳亢证、痰湿壅盛证、痰瘀互结证、肾阳虚证、肾阴阳两虚证、肝肾阴虚证的证型诊断结果符合率比较,差异有显著的统计学意义。见表2。

表2 2组学生对高血压病患者中医辨证分型结果比较 (例,%)

2.3 冠心病诊断考评结果2组学生对无症状型、心绞痛型、混合型、心肌梗死型、心力衰竭、心律失常型、猝死型冠心病的诊断结果符合率比较,差异有非常显著的统计学意义。见表3。

表3 2组学生对冠心病患者诊断结果比较 (例,%)

2.4 冠心病中医证型诊断考评结果2组学生对气虚、血瘀、痰浊胸闷痛、阳虚、气滞、热蕴、寒凝冠心病的诊断符合率差异均有显著的统计学意义。见表4。

表4 2组学生对冠心病患者中医辨证分型结果比较 (例,%)

3 讨论

医学数据挖掘是从预先建立的相关医学专业数据库中提取出所需的、有用的、有效的专业数据,这些数据能帮助医务人员提高诊疗水平的高级处理过程。数据挖掘技术有很多种,常用的技术有统计技术、关联规则、决策树、神经网络、粗糙集、遗传算法等,本研究采用决策树数据挖掘技术[12],通过我们收集的高血压病、冠心病中西医诊断数据集进行计算后构建决策树模型,提取分类规则,实现关联分析、分类、聚类、预测、时序模式和偏差检测等数据挖掘的功能,进行高血压病、冠心病离散数据的关联分析后,与专家诊断的结果对比分析,最终形成人们易于理解的诊断结果,而这些诊断的正确率不低于或高于专家诊断的结果[13-15]。

诊断在医学临床中对患者的用药及治疗方法的制定至关重要,许多疾病比较复杂,诊断相对繁琐。数据挖掘融入疾病诊断中,使得医生对患者的诊断准确率大幅度提高,尤其是对新手医生与医学生而言起到了辅助诊断功能。本研究的目的是通过数据挖掘技术建立高血压病与冠心病中西医诊断查询系统,帮助中西医班的医学生在临床经验不足的情况下,尽快掌握高血压病与冠心病中西医诊断技术,特别是中医辨证分型诊断,它是根据不同人的不同体质在同种疾病中临床症状却表现完全不同的特点而形成的中医独特诊断方法,一般要经过医生在临床实践中多年积累的丰富经验才能做出比较正确的诊断结论。本研究采用计算机数据挖掘技术,将我国高血压病、冠心病的中医辨证分型比较成功的经验[16]、西医高血压病、冠心病的实验室、影像诊断指标全部输入数据库,采用决策树中的聚类技术,将高血压、冠心病的相关数据进行聚类,然后通过关联分析,与经验诊断匹配,建立高血压病、冠心病中西医诊断查询系统。医学生采集患者的数据后,将患者的临床表现与实验室、影像检查结果输入查询系统,获得患者的诊断结果。

为验证数据挖掘教学法的效果,研究通过2组学生对高血压病分级、高血压病分期、高血压病合并症、高血压病中医证型;冠心病的诊断、冠心病心绞痛、心功能、心衰的分级、冠心病中医证型诊断符合率的测评结果,评价数据挖掘教学法的教学质量是否优于常规教学法。测评结果显示,观察组的学生在心肌梗死型冠心病、心力衰竭、心律失常型冠心病以及高血压病与冠心病的中医辨证分型诊断中,符合率远远高于常规教学的对照组。心肌梗死型冠心病、心力衰竭、心律失常型冠心病,光靠临床症状比较难判断,需要CT、核磁共振、血管造影、实验室等有关指标综合起来作出诊断结论,对没有临床经验的学生难度比较大。而高血压病与冠心病的中医辨证分型诊断属中医中的微诊断,临床表现错综复杂,并有交叉出现的情况,如肝气郁结证高血压病=头胀+胸闷+情志抑郁+精神不振+头痛+头晕+腹胀+胁肋胀痛+纳呆+大便不利+面色萎黄+舌质淡红+舌苔薄白+脉弦;气虚型冠心病患者以临床表现为:胸闷或痛劳则诱发、神疲、乏力、气短、自汗、脉弱、舌淡胖或有齿痕、心悸为标准特征[17-19]。但有的患者不是这些症状都有,有的患者可能其中有些症状不一样,没有经验的学生通过把脉,很难诊断,而通过数据挖掘技术建立的诊断查询系统,它可通过输入患者的症状,与肝气郁结证高血压病、气虚型冠心病的主症与辅症比较,再与老中医的检验匹配,经过聚类、关联分析,得出比较正确的诊断结论,因此数据挖掘组的学生高血压病、冠心病的中医辨证分型的符合率远远高于常规教学组的学生。

高血压病、冠心病诊断查询系统通过临床诊疗智能决策支持系统将临床路径和临床指南中关于高血压病、冠心病的标准、知识、规则和流程引入中西医临床教学活动中,针对医学生临床经验少、专业知识运用不灵活、较少直接参与临床诊疗活动的特点,该高血压病、冠心病诊断智能决策支持系统可以通过模拟真实病例场景,使医学生深化对医学知识的理解,掌握疾病的标准诊疗流程,迅速提高个人临床诊疗能力。

猜你喜欢
高血压病符合率数据挖掘
Beta-blocker therapy in elderly patients with renal dysfunction and heart failure
探讨人工智能与数据挖掘发展趋势
CT与MRI在宫颈癌分期诊断中的应用效果分析
CT、MRI在眼眶海绵状血管瘤与眼眶神经鞘瘤影像学鉴别诊断中的研究
基于并行计算的大数据挖掘在电网中的应用
中老年高血压病的预防及蒙医护理
一种基于Hadoop的大数据挖掘云服务及应用
高血压病中医规范化管理模式思考
高血压病中医病机探讨
中医辨证治疗原发性高血压病70例