医疗大数据的疾病关联分析

2018-01-28 10:15周洪
电子技术与软件工程 2017年18期
关键词:关联分析疾病诊断置信度

周洪

摘要

随着医疗卫生信息化的推进和发展,医疗信息系统已经从基础的财务收费,全面覆盖到药品、临床、电子病历各个业务领域,同时也积累了海量的医疗业务数据,如何对这些数据进行深层次的挖掘,找到其中的规律具有重要意义。近年来大数据技术取得了突飞猛进的发展,本文讨论应用大数据中的关联分析算法,研究医疗临床数据中疾病诊断之间的关联关系,为形成诊断知识库提供解决思路。

【关键词】数据挖掘 关联分析 疾病诊断 支持度 置信度

医疗卫生关系国计民生,是人民生活幸福水平的重要体现,在中国这样一个人口大国,看病难一直是困扰普通民众。医疗信息化系统运行积累了海量的数据信息,这些数据隐藏了很多有价值的信息,如何使这些数据辅助医疗机构做出科学决策、让它们发挥更大价值,成为当前的热点话题之一。对于医生这个职业,经验和知识的积累是非常重要的,我们是否可以利用大数据技术手段,挖掘出医疗行为的一些内在关系,然后转化为知识成为医生技能提升和知识传播的手段,加快医生的成长进程。关联分析通过表征事物特征的两个或多个变量的取值之间存在的某种规律性,找出数据之间隐藏的关联关系。临床上的某些疾病会同时呈现几种不同的病症,这些病症之间就表现为一定程度的关联性,而医生诊断病症的过程常常以观察症状为基础。因此本次研究就是利用居民就医相关的数据(重点是疾病诊断类信息),进行“居民所患疾病之间的关联分析”,形成初步的知识库,为后续医生在治疗过程提供诊断相关性的支撑。

1数据采集及预处理

本次采集的原始数据为诊疗标准数据,数据量为1392185条。结合任务需求,仅提取病人的id以及疾病的名称这两列有意义的属性列。另外在该阶段,我们还清洗无意义的行记录,例如同一病人重复的疾病记录,以及仅得一种疾病的记录等。第一步预处理后,数据量缩减到683703条。该诊疗数据以纵向格式存储,一个患者的不同时点资料以多条记录的形式保存,而进行关联关系分析时,需要以一个患者一条记录的形式形成数据集,所以在被分析利用前,必须对该数据格式以病人ID为条件进行纵横转置。转置后,数据量缩减到181983条。

2算法模型选择

在设计算法模型时,初始时计划选择Apriori算法,但在后期编码时发现该算法在构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数太多,效率比较低下。后通过搜索相关资料,发现FP-growth算法。该算法基于Apriori構建,但采用了高级的数据结构减少扫描次数,只需要对原始数据进行两次扫描,大大加快了算法速度。

其算法思想以及实现步骤如下:

(1)对于每个频繁项,构造它的条件投影数据库和投影FP-tree。

(2)对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为空,或者只包含一条路径。

(3)当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。

最终,决定选择FP-growth算法作为此次数据分析的算法模型。

在算法实现工具方面,出于掌握难易度、可分布式进行计算等方面考虑,本小组选择Mahout这一轻量级数据挖掘软件。它的关联规则挖掘中就包括了FP Growth算法。

3数据分析实现

我们先将数据库中的疾病数据导出,利用Mahout内置的FP-growth模块,对原始数据进行关联频繁项分析,由于原始数据的量不大,我们没有扩展使用Mahout集成的Mapreduce模式进行并行计算,通过对输出的hdfs序列文件进行反序列化后我们就能正常查看结果数据。

上述步骤最后得出的文件为关联关系分析后的各频繁项以及相应支持度统计数,为方便后续关联关系分析,我们基于原始result文件开发了辅助分析程序,可根据需求设定相应的最小支持度和最小置信度阈值,最终输出符合阈值设置的关联关系。如图1所示。

4疾病关联分析

通过基于大数据的挖掘分析技术,我们希望通过存数据分析的手段找出疾病诊断之间关联规则,并于现有医学知识进行验证,以期发现其中的规律。这些规则可能会揭示数据库中所含信息和一般规律,可以作为对新的病例诊断的参考依据。

通常我们在做关联规则发现的时候都会设定支持度和置信度阈值最小支持度和最小置信度,而关联规则发现则是发现那些支持度大于等于最小支持度并且置信度大于最小置信度的所有规则。支持度和置信度的意义在于,支持度是一个重要的度量,如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义。因此,支持度通常用来删除那些无意义的规则。而置信度则是通过规则进行推理具有可靠性。用c(X->Y)来说,只有置信度越高,Y出现在包含X的事务中的概率才越大,否则这个规则也没有意义。根据“指定最小支持度为0.001,最小置信度为0.8”的输出结果,我们可以很快的发现其中有11条结果明确的疾病并发症关系或病种的包含关系。如图2。

剩余4条记录中,有三条是和胃炎相关的,见图3。

那我们可以就胃炎与十二指肠球部溃疡、胃息肉、食管炎基于医学上的知识,进行进一步的分析。

胃炎:是多种不同病因引起的胃黏膜急性和慢性炎症,常伴有上皮损伤、黏膜炎症反应和上皮再生。胃炎是最常见的消化系统疾病之一[5]。

4.1十二指肠球部溃疡与胃炎关系

十二指肠球部溃疡:是指胃酸和胃蛋白酶接触的十二指肠粘膜,发生局限性的超过粘膜肌层的溃破。疾病病因主要是胃炎和其它刺激因素。长期的影响于胃粘膜,使胃黏膜、十二指肠黏膜产生溃疡性损坏。因此十二指肠球部溃疡=>[胃炎]之间存在一定的关联关系。

4.2胃息肉与胃炎关系endprint

胃息肉:是指胃黏膜表面长出的突起状乳头状组织,较小时常无明显症状,一般都是在胃肠钡餐造影、胃镜检查或其他原因手术时偶然发现。胃息肉最常采用Mings分类法分为再生性胃息肉及肿瘤性胃息肉两大类。第一类为再生性胃息肉一即为增生息性肉,发病较常见,其比例约76%?90%。分布于胃内的部位不定,多数倾向于发生在胃炎的部位。这也就证明了胃息肉=>[胃炎]之间存在关联关系。

4.3食管炎与胃炎关系

食管炎:即食道炎,泛指食管黏膜浅层或深层组织由于受到刺激或损伤,食管黏膜发生水肿和充血而引发的炎症。胃炎是可以引起食道炎的。由于化学治疗、放射治疗导致食管局部受损,或患者本身抵抗力下降导致结核杆菌、真菌或病毒感染也可引发食管炎,临床最常见的是胃酸反流引起反流性食管炎。所以说胃炎是会引起食道炎的。这也就证明了食管炎=>[胃炎]之间的关系。

通过胃炎与十二指肠球部溃疡、胃息肉、食管炎的医学知识分析,验证了我们基于MahoutFP-growth进行关联性分析一定的科学性。

还有我们还以对“指定最小支持度为0.001,最小置信度为0.7”的输出结果进行“高脂血症”相关的分析。其中我们可以找到4条与“高脂血症”相关的记录。如图4。

高血脂症,血脂是人体血浆内所含脂质的总称,其中包括胆固醇、甘油三脂、胆固醇脂、β-脂蛋白、磷脂、未脂化的脂酸等。当血清胆固醇超过正常值230毫克/100毫升,甘油三脂超过140毫克/100毫升,P-脂蛋白超过390毫克/100毫升以上时,即可称之为高血脂症。高脂血症是动脉粥样硬化的主要发病因素,它的直接损害是加速全身动脉粥样硬化,因为全身的重要器官都要依靠动脉供血、供氧,一旦动脉被粥样斑块堵塞,就会导致严重后果。常因侵犯重要器官而引起严重的后果,如冠心病、糖尿病、脑血管意外、顽固性高血压及肾病综合症、胰腺炎、结石症、脂肪肝等。动脉硬化的发生和发展,与血脂过高有着密切的关系。

“高脂血症”的分析,也同样验证了我们基于MahoutFP-growth进行关联性分析一定的科学性。目前我们的课题作业是在百万级数据的基础上分析的结果,由于数量不足,分析结果还存在很多不准确的地方,只能作为一种探索为后续更大数量的分析做些有益的尝试。

参考文献

[1]兰小敏.大数據时代医疗信息系统应用与研究[J].数字通信世界,2016(08).

[2]周志华.机器学习[M].北京:清华大学出版社,2016.

[3]吕雪旗,李龙澍著.FP—Growth算法MapReduce化研究[J].计算机技术与发展,2012.

[4]陈封能,斯坦巴赫,库玛尔著,范明,范宏建等译.数据挖掘导论Introduction to Data Mining[M].北京:人民邮电出版社,2011.

[5]张尤历编.消化内科:疾病诊疗指南[M]北京:学苑出版社,2008.endprint

猜你喜欢
关联分析疾病诊断置信度
硼铝复合材料硼含量置信度临界安全分析研究
超高频超声在浅表器官疾病诊断中的应用
《呼吸疾病诊断流程与治疗策略》已出版
正负关联规则两级置信度阈值设置方法
基于随机函数Petri网的系统动力学关联分析模型
基于Web及知识推理的宠物狗疾病诊断专家系统
CD10表达在滋养叶细胞疾病诊断中的临床意义
置信度条件下轴承寿命的可靠度分析
多假设用于同一结论时综合置信度计算的新方法✴