王本有,黄和平
(1.皖西学院 电子与信息工程学院,安徽 六安 237012;2.六安市人民医院信息管理科,安徽 六安 237001)
我国人口众多,拥有世界上五分之一的人口,因此所面临的医疗问题非常严峻.我国政府对此高度重视,并不断地推出新政策来促进我国医疗服务水平的提高和医疗资源的平衡[1],取得了长足的进步,但医疗资源和医疗压力在城乡和不同区域间的差距依旧没有消除[2].本文对医疗垃圾数据进行统计分析,在时间上和空间上探讨中国某地区不同医院间的医疗压力不平衡的现状[3].
数据挖掘[4],即 DM(Data Mining),是从数据库中发现知识,通过算法从海量数据中发现隐藏的、未知的,并有潜在价值的信息的非平凡过程.这包括数据集成、分类、聚类、预测变化、检测异常等.文献[5]提出了一种基于系统动力学技术的医院废弃物管理仿真模型,用来统计不同类型医院的垃圾产生量,预测未来产生的废物和治疗费用,相关因数包括:床位数、服务水平、人口数量、出生率、死亡率等.文献[6]发现卫生机构数量在不断增加,一次性医疗产品的使用量也在不断增加,导致了卫生保健废物产生率的增加.研究发现医疗废物的产生率与住院病人数有很强的线性相关性,与医院的门诊病人有较弱的相关性.文献 [7]运用人工神经网络(ANNs)和多元线性回归(MLR)两个预测模型,预测医疗废物生成的速率.文献[8]阐述台湾医院医疗废物产生的相关因素,预测平均每天每床产生垃圾重量在2.6到4.1公斤.床位数量是重要的预测因素,发现在医疗中心,产生的污染废物的平均数量是最高的.
参考以上文献,本文旨在分析医疗压力的不平衡性,增加了医院职工数作为特征字段,将医疗垃圾分成3类分析,保留了医院类型、床位数等字段,运用时间序列对垃圾产生量进行分析和预测,实证了不同类型医院的贡献度差异,发现了医疗保险报销比例和病床数量是垃圾产生率的重要因素;发现了垃圾呈上升趋势,但中心医院的贡献度增加很少,表明了分层医疗改革取得了较好效果.
本数据是中国某地区2010年10月至2016年8月的医疗垃圾处理记录,总共有近64万条.
1.1.1 医疗垃圾采集
该地区的医疗垃圾有授权定点处理单位,负责处理地区内68家医疗机构产生的垃圾.垃圾有专人进行分类包装,用专用的包装箱,包装箱上粘贴有条形码,该条形码共有共5位信息,其中3位用作医院代号,1位代表所在行政区,最后1位是垃圾分类.垃圾在处理前必须进行登记,通过专用的计算机进行扫描、记录称量,并自动录入登记日期,数据格式如表1所示.然后交给专业技术人员通过专用设备进行处理.
表1 垃圾数据表字段及功能
1.1.2 医疗垃圾分类
医疗垃圾是指由医院产生,是接触过病人血液、肉体等的污染性垃圾.医疗垃圾的危害性是普通生活垃圾的成百上千倍[9].如果对医疗垃圾处理的不合适,将对环境造成严重污染,也会引发传染病.本文将医疗废物分成感染性,BCID为0;损伤性,BCID为1;病理性,BCID为2.
感染性废物是指被血液和其他体液污染的废物;损伤性废物是指医用针头、缝合针、玻璃试管等;病理性废物是指人体组织、器官或体液,被污染的动物尸体等.
1.1.3 医疗垃圾清理与集成
医疗垃圾有授权定点处理单位,通过计算机扫描条形码,垃圾重量自动录入数据库,记录有序.数据清理主要集中在:第一,数据重复,备份后的数据在录入平台没有清理,部分数据重复,根据时间清理了重复记录;第二,个别医院没有持续的5年数据,如企业改制,企业内部的医院撤销了,私立医院倒闭了,去除了信息不完整的医院有3家.
数据集成:第一,数据合并.行政区域的重新划分,有4家医院合并成2家,按日期将数据合并,归属到现在的医院;第二,在垃圾数据汇总后,进行聚类和贡献度等分析,数据库中加入了医院职工数和床位数,集成了新的数据库.
本文中涉及的医疗机构数据由该地区卫生局提供,城市有17,046位专业技术人员,其中医疗服务和医疗管理部门有3,789位,如从事于血站,计划生育,妇幼保健等,农村仅有2,233位.根据医疗机构床位数据,该地区城市医院拥有床位数为14,661张,其中医疗服务和医疗管理部门有床位895张,农村医疗有床位数为3,035张.中国医疗资源高度集中于城市,农村医疗服务供给相对不足[10][11].
1.2.1 医疗机构基本情况
本次数据中所包含的医疗机构有68家,包括公立医院、卫生院、妇幼保健院、血站、疾病控制中心、私立医院等.其中有2家是三级甲等医院,12家二级甲等医院,6家二级乙等医院,25家一级医院,服务机构18家,数据处理剔除了5家信息不完整的医院.医院分布在市区、县城和乡镇.
1.2.2 医院编码
BCID为医院所在区域编码,在垃圾数据表中定义为1位,取值1-9,代表行政区划分,市区为1,市瞎8个县区,分别为2-9.
BHID为医院代码,用三位阿拉伯数据表示,市中心医院为001.
通过对垃圾数据的统计,展示了3类垃圾的分布情况,该地区的垃圾日产量,市中心医院每类垃圾占总量的比例.
图1 感染性垃圾时间重量曲线
图2 损伤性垃圾的时间重量曲线
图3 病理性垃圾的时间重量曲线
医疗垃圾由定点单位专门负责处理,政府监督,分类、包装、运输等环节规范有序.通过条形码采集垃圾信息,计算机同步录入垃圾重量,避免了手工操作的失误.但在2016年5、6两个月,企业设备维护,数据缺失.企业提供了手工记录,记录凌乱,信息不完整,如图1-3为3类垃圾按日重量分布图.
把采集的数据绘制出图形,能直观反映数据的变化,可以看出来感染性垃圾和损伤性垃圾整体呈慢慢增长的趋势,感染性垃圾增长幅度更大一些.感染性垃圾平均每天产生的垃圾重量大于2500kg,损伤性垃圾平均每天产生的垃圾重量大于500kg,病理性垃圾平均每天产生的垃圾重量大于15kg.
为了解市中心医院的医疗垃圾产量与该地区63家医疗机构垃圾产量的关系,分类对垃圾量进行了统计,垃圾重量采用年均值,如表2所示.
表2 所有医院垃圾总重量的均值和市中心医院垃圾总重量的均值及其比例
从表2可以看出,市中心医院产生的垃圾量远超过63家医疗机构产生的垃圾重量的平均数.其中感染性垃圾占比平均为15.46%,损伤性垃圾占比平均为23.88%,病理性垃圾占比平均为34.36%,最高达到38.38%,也就是说,该地区超过三分之一的病理性垃圾是由这一家医院产生,而且,它所占的比例没有下降的趋势.市中心医院产生的医疗垃圾的总重量占该地区的医疗垃圾总重量的比例虽然很高,但5年里比重总趋势在不断减小.
图4可看出5年垃圾产量变化趋势,用纵轴为年平均重量,横轴为年份.蓝色曲线为63家医疗机构总的医疗垃圾重量的年均值,红色曲线为市中心医院的医疗垃圾重量的年均值.
图4 医疗垃圾总量的年平均重量曲线
从表2和图5都显示该地区医疗垃圾总量的年均值在随年份不断地增加,虽然市中心医院的医疗垃圾总量的年均值也在增加,但斜率明显小于所有医院医疗垃圾总量的年均值增长斜率.可以说,医疗需求在不断地增加,但市中心医院的医疗压力增长趋于平稳.随着医疗改革的深入,部分医院逐渐被市民接受,在医疗服务中承担的任务逐步加大.
通过对垃圾数据的相关性、聚类、贡献度和城乡区别等方面的分析,掌握垃圾数据变化规律,为管理部门预算、决策和监管提供数据支撑.
图5 三类垃圾重量占总重量的比例
从图5可以看出感染性垃圾最多,占总量的79.96%,损伤性垃圾占总量的19.51%,而病理性垃圾只占0.53%.
相关性是指变量之间的一种非确定性关系.用相关系数表示变量之间的线性相关程度.相关系数(Correlation coefficient)是由著名统计学家卡尔·皮尔逊(Pearson)设计的统计指标[10].因为相关表和相关图无法确切地表示两个变量之间相关的程度,在二元变量的相关性分析过程中,皮尔逊相关系数是最常用的,其计算公式如下:
相关系数的值介于–1与+1之间,即–1≤r≤+1.一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7 为显著性相关;0.7≤|r|<1 为高度线性相关.
对三类垃圾做了相关性的计算,得到如表3中的数据.我们发现感染性垃圾和损伤性垃圾高度线性相关,而病理性垃圾与感染性和损伤性垃圾显著性相关.
表3 三类垃圾相互关联系数
聚类分析(Cluster Analysis)是对样品或指标进行分类的一种多元统计分析方法.划分的原则是使得每个组内的样本之间距离最小而每个组之间的距离最大.本文运用K-means算法对医疗垃圾数据进行聚类分析[10].本文聚类的特征数据为医院级别,职工数,床位数,感染性垃圾重量,损伤性垃圾重量,病理性垃圾重量.聚类只对45家医院,不包括18家医疗服务机构.根据实验效果,本文K值取4.即从数据对象中任意选择4个对象作为初始聚类中心,循环执行下面两个步骤直到聚类不变为止.
(1)计算每个对象与中心对象的距离,将相应对象划分到离他最近的中心.
(2)重新计算每个聚类的均值(中心对象),直到聚类中心不再变化.这种划分使得表达式2最小:
聚类结果如图6所示,结果证实了该地区居民最相信的2家医院为一类,级别3A,其产生的垃圾量最多,也是医疗压力最大的医院;其次,该地区3家2A级医院为一类,其报销比例较高,产生的垃圾量和医疗压力较大;第三类,是2A级县人民医院,为引导普通病人就诊,缓解前2类医院的就诊压力,增大了医疗保险报销比例,其垃圾量和医疗压力基本平衡;最后一类为乡镇和民营医院,医疗垃圾产量很少.聚类所得出的结果验证了医疗资源和医疗压力的不平衡现象.
图6 聚类中心图
贡献度分析又称帕累托分析,帕累托规则是20/80定律[17],即80%以上的产出来自20%的生产单位.贡献度分析只包括45家医院,排除了18家医疗服务机构.
图7 医疗垃圾重量、职工数、床位数的贡献度曲线
图7帕累托定律分析结果,可以看出前9家医院占总垃圾比例的81.40%,占总职工比例的65.27%,占总床位比例的65.35%.这9家医院集中在城区,9家医院产出的垃圾量远高于职工和床位比例.在地方医疗服务中,表现及其不均衡性.导致城区9家医院承受很大的压力,医生负担很重.
为证明城乡医院之间垃圾的产出、医院的职工数、床位数,在各自的比例中是否基本保持一致,把医院分为城区(市区和县城)和乡镇,用以上三个特征进行对比分析.
3.5.1 城区
图8 城区垃圾量,职工数,床位数比例图
从图8可以看出在该市市区前三家医院垃圾量所占比例明显高于职工数和床位数所占比例,其他几家医院垃圾量所占比例大致等于职工数和床位数所占比例,23家医院中只有4家医院垃圾量所占比例远低于职工数和床位数所占比例,它们所面临的医疗压力较小,它们所拥有的资源相对多.
3.5.2 乡镇
从图9可以看出,22家医院中只有4家垃圾量比例高出职工人数和床位数比例,其他的卫生院比例相反.换句话说,乡镇医院闲置,它们的医疗压力很小,医疗资源被浪费了,同时乡镇医务人员水平也得不到提高[11].
图9 乡镇垃圾量,职工数,床位数比例图
中国医院之间医疗水平、服务质量差距太大,使得我国民众都喜欢涌入大城市,去级别高的医院看病.为缓解城市大医院的压力,中国的医疗改革在不断完善分级诊疗体系,加大扶持定点医院的人、财、物优质资源建设,加大优质医疗人力资源在城乡间流动,加大在定点医院消费的报销比例,引导居民消费偏好,提高城乡居民对医疗服务的受益度,缓解“看病难,看病贵”问题.
本文通过医疗垃圾数据的实证分析,了解到居民对不同类别医院的信任度不同,就医偏好也就不同,导致地方的中心医院医疗负担最繁重,城区医院承担区域内大部分医疗任务,乡镇医院比较清闲,也造成了一定的资源浪费[12].通过5年内采集的医疗垃圾数据,结合医院职工数和床位数,通过聚类和贡献度分析,城乡医疗压力分析,垃圾量预测,有一定的实际意义,但由于数据不够丰富、细致,后续研究将采集更加丰富的医疗数据,深入研究.