杨雨
摘要:监管并控制糖尿病患者的血糖水平对降低糖尿病的发病率具有重要作用,而现医院的管理比较随意,因此十分有必要对现有的医院收治的病人的糖尿病治疗模式进行分析评估。在该文中,我们首先对数据进行了预处理,深处无用属性、去除缺失数据等,将剩余的数据作为最终的分析数据集。其次,根据ICD对疾病进行分类,划分为循环系统疾病、呼吸系统疾病、糖尿病等9类。然后,我们对所有的特征变量与再次入院进行相关性分析,发现与再次入院率较为相关的特征有:得病之前的住院次数、诊断次数、得病之前的急诊次数、A1Cresult等。最后我们根据所做的研究对于医院如何降低患者的再次入院率给出了合理的建议。
关键词:再次入院率 ;相关性分析;糖尿病;数据预处理
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)20-0014-02
1 引言
控制住院病人的血糖水平对降低发病率和死亡率具有重要作用,许多医疗机构把严格的血糖指标納入重症监护室ICU级别的正式协议。但是,对于大多数非ICU住院病人的接收却没有这样做。事实上,按传统的方式,住院病人的管理比较随意,为了提高患者的安全性,有必要对现有的医院收治的病人的糖尿病治疗模式进行分析评估。
数据来自Center for Machine Learning and Intelligent Systems,名为Diabetes 130-US hospitals for years 1999-2008 Data Set的数据。该数据集为美国130家医院临床护理10年(1999-2008年)的数据,包含了50个患者的特征,如就诊病人的HbA1C检测、性别、年龄、种族、出院去处、入院来源、住院天数、诊疗医师的专业、初次诊断结果、葡萄糖血清检测等。
根据这些数据,我们将进行数据预处理,对各种疾病类型进行分组,探究再次入院率对各特征变量之间的关系,并讨论如何降低患者的再次入院率。
2 数据预处理与疾病分类
2.1 数据预处理
题目中所给的数据集合有较大的数据量,对此我们进行了以下几个方面的筛选:
1)部分属性缺失率很高
如体重的缺失率高达96.86%,支付方式、诊疗医师的专业的缺失率也都达到了39.56%、49.08%。较高的缺失率也从侧面表示了这些属性的重要性较低,在进一步的分析中没有存在的必要,因此我们选择对这三列属性进行删除。
2) 只保留病人第一次来医院看病的记录
通过对数据的整体观察,发现在病人编号部分有重复。由于每个病人都对应唯一一个id编号,重复的id表明该病人不止一次在医院进行就诊。为了确保我们所分析的病人都是第一次住院,非首次住院将对再次入院率产生影响,所以对于同一个id编号,我们只保留第一条数据记录,对另外的记录进行删除。
3) 删去临终前的病人记录
在患者出院去处中,我们发现有部分病人有hospice,即“临终关怀”(即将去世)。对于即将去世的病人而言,在出院之后及时病情再次恶化,他们也不会再次入院进行治疗。因此对这部分数据记录进行删除。
4) 去除diag_1为“?”的记录
diag_1是主要的诊断,所以以此为主要的分类依据,对于该属性为空的记录,进行删除。
经过以上的预处理,我们最终剩下了71054条数据记录构成了最终的分析数据集。
2.2 疾病类型的分组
我们查询了国际疾病与相关健康问题统计分类(ICD)编码列表,作为我们的分类依据,结合国际ICD-9编码与数据集中ICD-9编码的范围,我们将数据集中的疾病按表1方式进行分组。其中根据国际ICD-9编码,780-799代表症候、征候及不明情况,对于数据集中出现的该范围的特定数值进行了查找,并将其归入相应的类型。
在数据集中给出了3次诊断,其中“diag_1”为主要诊断,因此我们只根据主要诊断给出的诊断值数据按照表1进行分组,于是每个数据点添加了其主要诊断所属的疾病类型。
3 特征变量与再次入院率的关系探究
在本节中,我们要分析再次入院率与各特征变量之间的关系,首先我们需要从众多的特征变量中筛选出几个和再次入院率相关性较大的特征变量,再对它们进行更深入的分析。
我们用概率论中的协方差和相关系数的计算方法,来计算这些特征变量和再次入院率之间的相关性,相关系数越大,说明该特征变量与再次入院率的相关性越大。根据计算,我们发现患者的年龄、住院时长、得病之前的门诊次数、得病之前的急诊次数、得病之前的住院次数、诊断次数以及HbA1C值都与再次入院率有较大的关系。
其中,得病之前的门诊次数、得病之前的急诊次数、得病之前的住院次数、诊断次数和再次入院率都呈正相关,即得病前门诊次数、急诊次数、住院次数及诊断次数越多,再次入院率也越高。从实际情况可以很好地解释这一现象,经常看病或住院的人自身身体素质相较正常人而言自然会差一些。而看病次数越多,一定程度上也能表示这个人自身所得过病的数量或者种类越多。而在得了糖尿病之后,这类人在自身机能较弱的情况下,很有可能因为糖尿病而引发的并发症再次入院治疗。
患者住院的时间越长再次入院的概率越高,在住院时长大于8天之后,入院率就稳定在44%左右。可见患者的住院时长可以侧面体现患者的患病程度,但当时长久到一定天数之后,对患者的治疗效果相差不大。
年龄与再次入院率也呈明显的正相关,年龄越大,再次入院率越高。随着人们年龄的增长,身体免疫力逐渐下降,伴随着一些疾病的出现,再伴随着糖尿病的并发症,于是再次入院。
另外,我们还发现HbA1C与再次入院率也有较大关系。我们按照患者的患病类型进行探究。对糖尿病患者而言,HbA1C测定结果量高的,反而再次入院率较低。但呼吸系统疾病患者和消化系统疾病患者却呈现测定结果量越高,再次入院率越高。可以从侧面说明医院的医生对于糖尿病患者的HbA1C值关注度很高,但对于呼吸系统疾病患者和消化系统疾病患者却并未过多关注。因而医生根据HbA1C值对糖尿病患者进行了相应的治疗,使这类糖尿病患者的再次入院率减少。但对于另外两类疾病,虽然HbA1C值同样很高,却未进行相关治疗,导致这两类患者的再次入院率随着测定结果量的增多而升高。
因此无论是这三类中的哪种疾病,HbA1C的值对于再次入院率都有一定的影响。医生应提高对HbA1C测试及其测试结果的重视,而非仅限于糖尿病患者。
4 降低再次入院率的探究
根据以上对各特征变量与再次入院率的研究,我们对于如何降低再次入院率提出了以下建议:
1) HbA1C的检测应当普及,对糖尿病患者而言,测量结果越高反而入院率较低,可以作为再次入院率的另一预测指标。
2) 对不同年龄段的患者给予不同的治疗策略,对中老年人提高重视。
3) 对与治疗糖尿病相关的主要药物进行深入的研究,明确每种药物的作用,以及不同的服药量对患者会产生怎样的效果。明确区分对患者治疗效果产生正影响和负影响的药物,以提高对患者的治疗效果。
4) 对于看病经历较为丰富的患者,可以给予适当提醒,注意日常的身体素质提升,提早预防糖尿病及其并发症的产生。
参考文献:
[1] 谢式千,潘承毅.概率论与数理统计[M]. 北京:高等教育出版社,2008(6):119,168.
[2] 曹叔彦.CLIQUE 网格聚类算法在医学空间数据中的应用[D].山西:山西医科大学,2015(5).
[3] 陈潋.面向糖尿病的临床大数据分析研究与应用[D].上海:东华大学,2018(4).
[4] 赵晓华.基于大数据下 2 型糖尿病及并发症患者就诊信息的挖掘研究[D].广州:广州中医药大学,2016(4).
[5] 何禹德.基于数据挖掘技术的糖尿病临床数据分析[D].长春:长春工业大学,2016(4).