基于聚类分析的疾病诊断相关分组研究

2018-02-03 12:17郑碧如

电脑知识与技术 2018年2期

郑碧如

摘要：疾病诊断相关分组是一种综合考虑了病例的个体特征，以病例的诊断和手术操作划分的组合，以此制定合理的医疗收费标准。在该文中，以主要诊断为冠状动脉粥样硬化性心脏病的病例为数据材料；利用CHAID决策树进行特征选择；再分别对无手术组和手术组用k-means聚类算法对其进行聚类分析并划分组。最后利用变异系数值和方差分析对结果进行检验，其在组间、组内医疗费具有较好的差异性和同质性。

关键词：疾病诊断相关分组；特征选择；k-means聚类；方差分析

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）02-0246-03

Study on Disease Diagnosis Related Groups Based on Cluster Analysis

ZHENG Bi-ru

（School of Mathematics， South China University of Technology， Guangzhou 510641，China）

Abstract： Disease diagnosis related group is a combination with comprehensive consideration of the individual characteristics of the case， which is divided the cases by their diagnosis and surgical operation. In this paper， the data materials is the disease cases whose main diagnosis is coronary atherosclerotic heart disease； firstly， feature selection in data by CHAID decision tree； then the k-means clustering algorithm was used to cluster and analyze the groups for the non-surgery group and surgery group respectively. Finally， the results were tested by coefficient of variation and variance analysis， that have difference between the two groups and homogeneity in the same group about medical fees.

Key words： diagnosis related groups； feature selection； k-means clustering； variance analysis

疾病诊断相关组（Diagnosis Related Groups， DRGs）是以病例的诊断和手术操作作为病例组合基本依据，综合考虑了病例的个体特征，如：主要诊断、次要诊断、合并症、并发症、年龄、性别等，将临床过程相近、费用消耗相似的病例分到同一组中[4，5，6]。DRGs一方面能够反映病例的临床实际情况、诊疗需求和医疗服务利用，并能够比较客观地反映治疗效果；另一方面，因为医疗服务提供的过程伴随着医疗资源的消耗，反映临床实际的DRGs 也能够比较真实地反映医疗资源的消耗[1，2]。

在本文中，针对主要诊断为冠状动脉粥样硬化性心脏病的病例数据，先对其进行数据预处理，再应用统计分析算法CHAID决策树，进行特征选择，保留重要的特征。由于是否对病人进行手术操作，其医疗费具有较大的差异，而这部分差异重要是主要体现在医疗器材耗费，因此将数据集划分为无手术组和有手术组，再分别应用k-means聚类进行启发式分组。最后，通过变异系数和方差分析进行检验分组结果的组间、组内的医疗费具有较好的差异性和同质性，由此可见，通过上面的方法可很好地进行DRGs，并为其制定合理的参考医疗费。

1 数据来源与方法

1.1 数据来源

本文的数据来于广东省某三甲医院的病患住院病案首页的数据。在病人住院病案首页中，主要包括：性别、年龄、实际住院天数、主要诊断、其他诊断、手术及操作、手术级别以及病例分型等信息。医疗费包括：综合医疗服务类、诊断类、治疗类、医药类、血液和血液制品类和医疗耗材类。本文主要针对主要诊断为冠状动脉粥样硬化性心脏病的病例，依照国际疾病分类（ICD-10），該疾病的代码I25.103。

1.2 方法

在文献[2，4，7]中应用了CHAID（Chi-squaredAutomatic Interaction Detector，卡方自动互动检验法）算法对整个数据集进行分组，该方法是依据局部最优原则，利用卡方检验来选择对因变量最有影响的自变量作为分支节点，但是该方法不能很好地处理连续型特征，不过可利用该方法进行特征选择，挑选出重要特征为后期做准备。再将数据集划分成有手术组和无手术组，应用k-means[9]进行聚类分析，探寻各个簇的内部特点，启发式寻找属性的划分界限，依此划分该疾病诊断相关分组。

DRGs 的组内同质性评价采用变异系数（coefficient of variance， CV）[8]，cv值越小，表示组内同质性越高。

[cv=stdmean] （1）

其中mean，std分别是住院医疗费的均值和标准差。

2 数据预处理

由于入院病情是对患者入院时针对某病病情的评估情况，每个疾病诊断都有与之相对应的入院病情。对于入院病情为“无”的病例，其填写错误率较高[3]。一般情况下，还有以下两种不正常现象：（1）无手术操作，却有手术治疗费、麻醉费、手术费以及手术用一次性医用材料费；（2）有手术操作，却没有手术治疗费、麻醉费、手术费以及手术用一次性医用材料费。出现上述情况的病患实例很大可能出现数据录入错误，因此将这类数据删除。endprint

3 疾病诊断分组实验

3.1 运用CHAID做特征选择

应用SPSS 20 统计软件中的数据挖掘决策树模型——CHAID，以表1中的属性为自变量，以医疗费作为因变量，对样本数据进行局部最优分割，建立决策树。所得CHAID决策树的最优分支属性为住院天数、有无手术操作和病例分型等。该模型是建立在连续属性离散化的基础上的，对连续型数据进行离散化，必定会破坏连续型变量的内在性质。不过由此可知住院天数、有无手术操作是重要属性。医疗耗材费和医药费是医疗费的主要部分，对与有无手术操作而言，医疗耗材费上有很大的差异。因此，在下文将对原数据集划分为有手术组和无手术组，再以连续型特征为主，以住院天数、年龄、其他诊断疾病个数、手术及操作数为特征进行k-means聚类分析。

3.2 无手术分组实验

由3.1可知，病例分型是重要的属性，其与病人的其他疾病诊断个数成正相关关系，因此对于无手术操作组，以年龄，住院天数和其他诊断疾病个数作为聚类分析的特征。由于k-means是基于欧氏距离的，对特征的量纲比较敏感，因此要对其进行归一化处理，本文采用min-max标准化（Min-Max Normalization），转换函数如下：

[xnew=x-minmax-min] （2）

其中x是初始值，max，min分别为样本数据的最大值，最小值。

运用k-means进行聚类，取k=3，聚类后各个簇的情况可见表2：

由表2可看出各个簇之间的医疗费均值存在很大的差异，但是在簇2，3中，出cv值大于1。结合图1中对3个簇的空间分布可视化，可看出在Day和Age这两个维度上存在分界，回到原始数据中，可发现各个簇具有以下特点：

簇1：绝大多数Day大于10，Age大于70，Disease多于10

簇2：绝大多数Day少于10，Age小于70，Disease少于10

簇3：Age大于70，Disease少于10

在没有手术操作的病患中，住院天数是影响收费最主要的因素之一，住院天数多于10天的病人的医疗费均值是62230.91元，而住院天数少于10的病人的医疗费均值只有9701.82元。针对住院天数少于等于10天的病人，由k-means的聚類结果，可以选定70岁进行分组划分，即对无手术操作的疾病诊断相关分组为以下3组：

N_1：Day >= 10

N_2：Day < 10，Age >= 70

N_3：Day < 10，Age < 70

从表3可看出，各组的医疗费均值有明显的差距，无手术操作的疾病诊断相关分组的cv值均小于1，可见组内的差异性较小。因此可把各个组的医疗费均值作为该组的收费参考。

3.3 有手术分组实验

对于有手术组，由于各个手术操作都有与之相对应的手术级别，依据手术技术难度、复杂性和风险度，将手术分为四级，等级越大，手术的难度就更大，风险度更高，手术的级别也影响着医疗费用。而病人可能有多个手术操作，各个手术操作的级别有高有低，为了更好地衡量病人手术的总体难度和风险，设[Ni]表示手术级别为i的手术个数，构造手术风险总值SurValue（见式3）。图2为有手术组的手术风险值的散点图。

[SurValue=i=14i?Ni] （3）

下面以住院天数，年龄，其他诊断疾病个数，手术风险值以及手术操作个数作为聚类分析的特征，对其进行（2）式的归一化处理，取k=5，即将其划分为5个簇，最终聚类后各个簇的情况可见表4。

由表4可看出各个簇之间的医疗费均值存在明显的差异，但在簇1，3中，出现cv值大于1的情况。选取Age，SurValue和Day三个属性对聚类结果进行可视化（见图3），在SurValue这个维度上存在明显得分界，在Age维度上簇出现重叠，不过还是存在界限。回到原始数据中，各个簇具有以下特点：

簇1：Day < 10天，Age < 70，Disease < 10，SurValue < 10

簇2：Day < 10，Age < 70，Disease < 10，SurValue > 10

簇3：Day < 10，Age > 60，Disease < 10，SurValue < 10

簇4：Day < 10，Age > 60，Disease < 10，SurValue > 10

簇5：Day > 10，Age > 60，Disease > 10

在有手术操作的情况下，住院天数还是医疗费最主要的影响因素，再者就是手术风险值和手术操作个数。住院天数多于10天的医疗平均费用是100055.43元，住院天数为6～10天的平均费用为46651.39，而少于等于5天的平均费用为35558.61元，因此住院时间可以分割为三部分。根据聚类的结果，再结合有手术组的手术风险值散点图（图2），可知病患的手术风险大致被10分成割两部分。因此有手术操作的疾病诊断相关分组为以下5组：

Y_1：Days > 10

Y_2：Days： 6～10，SurValue >= 10

Y_3：Days： 1～5，SurValue >= 10

Y_4：Days： 6～10天，SurValue < 10

Y_5：Days： 1～5天，SurValue < 10

从表5可知，出现Y_4与Y_5两组的cv值大于1，在表6中，基于k-means的DRGs分组的方差分析中，P < 0.001，表明各组差异具有统计学意义，即该分组具有合理性。因此，对于冠状动脉粥样硬化性心脏病的有手术组可将其划分为5组，并可以其各组的均值作为医疗费的参考费用。endprint

4 结论

由于CHAID在处理离散数据具有很好的性能，并且是通过卡方檢验对病例数据选取局部最优的属性进行划分，因此可通过CHAID算法进行特征选择，选取住院天数，年龄等属性，对无手术组，有手术组分别应用k-means进行聚类分析，以此启发选择各属性用于分组界限，并通过cv值和方差分析做进一步的验证所得分组的医疗费在组间异质性和组内同质性较好，具有一定的合理性。但是k-means要预先选定k值，只能处理连续型数据，对聚类形成的簇的解释说服力不强，但是能对疾病诊断相关分组起到了启发作用。

参考文献：

[1] 李珑，徐锡武，王辰.疾病诊断相关组概述及其在我国的适用性分析[J].中国医院管理，2013，33（1）：51-53.

[2] 田伟，张媛，尹桂华.基于疾病诊断相关组合的慢性缺血性心脏病分组方法及效果的研究[J].中国卫生产业，2016（24）：188-190.

[3] 王秀茹，王红生，彭晔.住院病案首页中入院病情填写质量分析[J].中国病案，2016；（07）：17-18+44

[4] 高建民，郑古峥玥，詹梅，李倩.疾病诊断相关分组分类节点变量的选择及其分组结果的合理性评价[J].中国卫生经济，2013（1）：16-18.

[5] Palmer G， Reid B. Evaluation of the performance of diagnosis-related groups and similar casemix systems： methodological issues[J]. Health services management research，2001，14（2）：71-81.

[6] Mihailovic N， Kocic S， Jakovljevic M. Review of diagnosis-related group-based financing of hospital care[J]. Health services research and managerial epidemiology， 2016，5（3）：1-8.

[7] 韩晓梅，王秀梅，阿布都沙拉木·依米提，刘志云.宫颈癌患者住院费用的疾病诊断相关分组组合方式研究[J].中国肿瘤， 2016 （9）：677-681.

[8] 魏凌云，韩栋，徐金龙，章莹.妇婴疾病诊断相关组应用与评价[J].中国卫生经济，2016（5）：81-83.

[9] 周志华.机器学习.北京：清华大学出版社，2016： 202-229.endprint