高俊全
(河北医科大学第四医院,河北 石家庄050000)
在中医医学的不断发展的过程中累积了极多的患者病案数据,在这些数据资料中潜在着许多具有医学研究价值的内容,在当前现代化科学技术的推动下。中医学病案数据的收集整理由传统人工形式过渡到了数字化处理的方式,而数字化中医病案能够更加方便、快捷地存储病案数据,可以更好地满足科研人员的需要。因此,中医病案数据挖掘系统设计与实现在中医学科中具有重要的作用及意义[1]。
中医病案数据挖掘系统是集成档案管理、数据挖掘等功能为一体的数据管理处理系统,通过该系统中数据挖掘模块,能够对疾病进行科学的分析,并提取出疾病的主要症状,以此得到中药方剂组方规律、疾病症状与关联用药的联系,并探究出症状与中医证型之间的关联,为中医医务人员提供科学、合理的诊治策略,为中医学科中新规律、新技术提供坚实的支持[2]。
中医病案数据挖掘系统设计基于C#.Net 开发环境,采用浏览器和服务器架构模式。系统中包含病历档案管理以及数据挖掘两个主要功能模块(系统框架结构如图1 所示)。这样的结构能够为在实施病历档案管理的基础上为数据挖掘提供了大量数据支持;数据挖掘模块主要实现数据预处理、数据挖掘以及知识分析的功能[3]。
图1 中医病案数据挖掘系统框架示意图
该模块能够极大地满足实际中对于病历档案的收集、筛选、分类、储存以及检索等功能。在实际的应用中先有医师将纸质病历档案进行整理后录入到系统数据库后,系统将会对数据资料进行处理,便于后期对于病历档案数据挖掘以及检索的需要。
系统中数据挖掘模块的核心功能是对数据库进行知识挖掘分析,其中挖掘的过程可分为三个步骤:第一,数据的预处理,此阶段是检查所录入的病历档案数据一致性、数据中的无效值以及缺失值,并将这些错误进行识别、纠正、转化以及实施粗糙集属性约简处理等,从而保障所挖掘的数据的准确性、有效性;第二,数据挖掘,该步骤旨在实现数据关联规则的挖掘、对数据神经网路进行分析预测等目标;第三,知识分析,将所挖掘到的知识数据进行关联分析,求解对应的中药方剂组方规律、疾病症状与关联用药的联系,以此探究出症状与中医证型之间的关联。
本研究中将采用的基于属性重要性、互信息的MIBARK 改进算法是将决策表中个体属性所产生的互信息转变、属性的依赖程度作为属性重要性的衡量标准,并在不会造成分类质量受到影响的情况将其中冗杂属性进行剔除,以此实现良好的属性约简。
MIBARK 改进算法的主要描述为:输入- 决策表HIS = (U ,AT = C ∪D , V ,f ),其中U 为对象数据集,AT 为对象属性集,C 为条件属性集,D 为决策属性集;输出- 决策信息S =(U , A, V ,F ),其中U 为非空有限论域,A = C ∪d为属性集,C 为条件属性集,D 为决策属性。在进行数据预处理时能够对疾病进行科学的分析,并提取出疾病的主要症状,以此为后续数据挖掘奠定实施的基础。
通过计算机能够进行快速的逻辑运算,对于Apriori 算法实施改进:将系统数据库中个体采用位串表示,其中“1”表示数据库中个体数据出现,“0”表示未出现,改进后的Apriori 算法仅需要读取一次数据库后便可以获得初步的项位串。汇总结果为“1”的总量,作为支持度基数,将支持度基数高于标准值的候选结果为1 项集L1 项;由L1 转化为项序列,即 S = {L1中项位串集},针对各数据生成编码位串,若单项出现在转化的项集向内,其对应的项序列表示为“1”,未出现则为“0”;连接Lk-1,并将其中项变化进行逻辑“或”处理,之后汇总结果为“1”的总量,当为k时应加入至候选Ck 中;将Ck 与Lk-1 进行匹配,并进行逻辑“与”处理,获得与Ck 相对应的项位串,结果中“1”的总量便是候选项支持基数,将支持度基数高于标准值的候选项设为频繁k 项集Lk 的项;重复以上操作,直至Lk 内单项数量低于(k+1)。结束运算。通过Apriori 改进算法能够对疾病进行科学的分析,并提取出疾病的主要症状,以此得到中药方剂组方规律、疾病症状与关联用药的联系。
基于组织竞争学习的神经网络反向传播改进算法能够通过自适应的方式改进算法,实现快速收敛、防止陷入鞍点的情况。神经网络反向传播改进算法的核心是通过隐藏层误差计算修正最大误差的节点的权值,其它单元权值则需要进行反向修正。在计算进行迭代后会将误差函数值与前次计算结果项对比,若数值增加则说明学习率调整过大,需要在下次计算中进行相应的下调调整,反之增加幅度。中医病案数据挖掘系统首先会调用MIBARK 改进算法挖掘疾病症状、证型匹配等数据,提取出主症状集,之后采用神经网络反向传播改进算法构建预测模型,进行数据的分类预测、梳理,从而获得疾病症状与证型存在的匹配规律。
此模块主要作用为病历档案的录入以及实现相关数据的检索。病历档的案录入又可分为基本信息以及病历数据的录入,基本信息要求具有全面性,涵盖患者的详细资料,病历数据主要包括患者病历中的全部资料[4]。在该系统中,数据的检索除了能够精确的搜索到患者基本信息以及病历数据外,还具有打印功能。4.1.1 病历档案的录入。在进行病历档案的录入的信息主要包括患者的基本信息以及病历资料。录入过程是在系统固有的输入模板中实现,通过设定好的输入选项能够有效地规划信息的输入,并对具有模糊输入选项给予默认数值或是系统提示。录入具有断点记忆以及分析操作的功能,系统会选择已输入信息中的病历档案号作为数据的识别码,便于数据的更新及查找。此外,系统具有字典表,能够进一步规范所录入的数据,如自动规范药物名称以及对应的编号、规范疾病的症状证型的编码。4.1.2 数据检索。中医病案数据挖掘系统具有精准及模糊两种检索方式,可根据详细的条件检索到需要的数据。医务人员通过检索功能能够及时、准确地查询到患者的病历档案信息,从而能够结果患者以往的治疗情况给予正确的治疗意见,同时也能够通过查阅病历档案也能够发现在以往治疗中忽略的问题,此外,通过查阅具有丰富经验医师所录入的数据信息还能够丰富个人的诊断学识。需要注意的是,医务人员对所检索到的数据信息只有检索查阅的权限,无法进行修改,从而保障档案资料的原始性,当发生问题后也能够寻找到问题的根源所在。
系统中数据挖掘模块主要具有实现数据预处理、数据挖掘以及知识分析的功能(流程如图2 所示)。
图2 数据挖掘模块实现流程图
4.2.1 数据预处理。在实施数据预处理前,应通过数据库导入所需要类别的数据,并对这些数据进行规范化、量化分级处理,从中获取有效数据,具体流程为数据的筛选(剔除缺省以及错误信息)、数据转化(使用SQL语句将医学信息按照数据字典表转化成机器处理数据)。中医病案数据挖掘系统中具有数据横向转化功能,当数据转化完毕后将会被保存在数据挖掘库之中,便于后续的调用。
4.2.2 数据挖掘。数据挖掘主要针对规范处理后的数据,如疾病症状、证型以及中药数据集等,采用数据挖掘算法、关联分析知识和神经网络分类预测知识进行挖掘。其中在进行关联分析知识挖掘过程中将会采用系统中设置的算法以及结合持度、置信度阈值关联规则,并显示出频繁项集的关联分析计算结果(系统关联分析截面如图3 所示)。
图3 系统关联规则挖掘结果
4.2.3 知识分析
进行知识分析时需要结合挖掘知识库中的数据,通过所设定的分析条件得到对应的中药方剂组方规律、疾病症状与关联用药的联系,以此探究出症状与中医证型之间的关联。
通过对中医病案数据挖掘系统的设计与实现,能够达到在进行病历档案管理的同时进行数据挖掘的目的,从而得到药方剂组方规律、疾病症状与关联用药的联系,从而帮助医师能够为患者给予正确的治疗意见或提升诊断知识。研究证明,利用中医病案数据挖掘系统能够有效地满足医务人员工作中的需要,能够为病人提供更好的诊治方案。