熊文波
(北京邮电大学网络与交换重点实验室 北京 100876)
医院病案首页数据质量的调研及提高
熊文波
(北京邮电大学网络与交换重点实验室 北京 100876)
随着移动医疗的发展和医疗服务模式的不断改革,随访成为许多医院与患者沟通的方式,肿瘤随访是医院针对肿瘤患者的窗口。病案首页是病人疾病发生、发展及结局的原始记录,记载着疾病的宝贵信息,病案随访是科研资料的来源和医患沟通的平台。然而,许多医院的病案首页数据存在着不同程度的数据质量问题,通过从医院管理和数据清洗来提高病案首页数据质量。
移动医疗;肿瘤随访;数据质量;数据清洗
近几年,互联网产业蒸蒸日上,逐渐与人们的衣食住行紧密联系起来。而随着互联网产业的迅速增长,移动互联网的概念应运而出,并与传统行业如医疗行业结合起来,“移动医疗”渐渐浮现到人们面前。国际医疗卫生组织定义移动医疗(m-Health)为通过使用移动通信技术,提供医疗服务和信息。
肿瘤,一直是个令人“谈之色变”的话题。随着环境污染、不良生活方式与精神压力过大,我国肿瘤患者逐年增加,癌症患者逐渐年轻化和老龄化,每天大约有8550人成为癌症患者,肿瘤已经逐渐成为一种“流行病”。随访是医院根据医疗、教学、科研的需要,与诊治后的病人保持联系,对病人的疾病疗效、发展状况继续进行追踪观察所做的工作。肿瘤随访是肿瘤登记工作中的重要内容之一。通过随访,可以了解肿瘤患者的愈后、转移情况、远期疗效追踪、生存状态、死亡状态等信息。并对患者进行康复指导和人文关怀,能在一定程度上提高癌症患者生存质量,并提高五年生存率指标。
随访系统是以医院病案系统中患者信息为基础,帮助医护随访人员科学的管理和随访患者的系统。通过随访系统,医护人员能通过电话、短信、微信的方式对患者进行肿瘤随访。医院患者住院病案在临床、教学、科研、医疗保障服务和法律纠纷处理中的作用越来越重要,而病案首页是患者医疗信息的高度浓缩。病案首页填写质量直接影响着医疗信息的真实可靠,也客观地反应医院医疗质量的高低。
病案首页形成于各个数据信息发生地,既是病历文书的重要组成部分,又是基本的医疗信息登记统计载体,包含住院患者基本情况、诊断、手术、抢救、诊断符合、转归、费用等信息,数据密集而且重要。
肿瘤随访是以病案首页里信息为基准,病案首页的质量关系着患者的随访效率和患者生存状态的准确率。然而,病案质量问题一直是医院信息系统里一个不可避免的问题。1999-2008年10年间在国内医学中文期刊上以病案首页为专题发表的论文达260篇,其中核心期刊56篇,涉及首页填写问题、缺陷的89篇[1]。通过对二十余家肿瘤专科医院病案首页的观察,发现各家医院病案首页数据都或多或少存在不同程度问题,其中还包括一些省肿瘤医院。笔者从这二十余家肿瘤专科医院中抽取629038份病案,统计肿瘤随访必需字段的缺失情况。主要统计病案首页中78个字段,包括基本信息、住院信息、诊断情况和手术相关信息。
病案首页基本信息主要包括病案号、患者姓名、籍贯、地址、联系人等信息,字段的缺失情况见表1。
表1 基本信息字段缺失情况Tab.1 the missing situation field of basic information
病案首页诊断信息主要包括患者住院次数、诊断编码、诊断内容等信息,由于每个患者可能存在多次诊断信息,这里的统计样本为3108398份诊断记录,字段的缺失情况见表2。
病案首页住院信息主要包括患者住院次数、入出院信息、入出院诊断信息和医生签名信息等,由于每个患者可能存在多次住院信息,这里统计数据为1421930次住院记录,字段的缺失情况见表3。
病案首页手术信息包括手术时间、手术医生、手术名称等信息,手术统计样本为197308份,字段的缺失情况见表4。
表2 诊断情况字段缺失情况Tab.2 the missing situation field of diagnosis
表3 住院信息字段缺失情况Tab.3 the missing situation field of absence of hospital
表4 手术信息字段缺失情况Tab.4 the missing situation field of operation information
数据质量的好坏决定数据价值的高低,数据质量体现在以下几个方面:(1)准确性,数据能否正确描写数据的属性;(2)完整性,数据是否缺失部分或数据不存在;(3)及时性,关键数据能否及时得到获取;(4)重复性,数据是否存在重复记录或部分记录字段与其他记录重合;(5)一致性,是否描述同一对象的值有不同的表现或存在记录冲突情况;(6)规范性,数据是否以非标准格式进行存储,或相同属性数据存在多种数据格式[2]。
从上表的数据可知,抽取的二十家医院的病案首页数据质量存在不同程度的问题,而笔者统计的医院大部分为三甲肿瘤专科医院,由此推之,全国大部分的医院信息系统都存在数据质量问题。医院数据质量存在不同程度问题,主要为管理不规范、质量监控不强所造成的。表现为:(1)数据录入问题,数据录入不准确、不一致,出现数据字段的缺项、漏项,甚至数据错误;(2)标准把握不严,医护人员对患者病案信息中的必需字段准确性不重视,存在敷衍的工作态度;(3)基础字典维护不及时[3]。
数据质量问题不仅影响医院信息系统的应用效果和可信度,而且影响信息资源的可利用程度,医院目前面临海量的医疗数据,可用性却十分有限,其原因就在于存在许多录入不一致、操作不规范的问题数据,束缚了信息资源的有效利用,造成信息资源的浪费。而医院病案数据质量问题直接影响着肿瘤随访的效率和准确性,如何提高医院病案数据质量成为肿瘤随访的一个关键点。
提高医院病案首页质量可以从两方面进行,一方面从医院管理着手,体现在:(1)强化使用人员的操作能力和工作责任心;(2)加强数据录入的标准化,减少统计工作的人工干预;(3)建立、健全数据审核监督机制[4]。另外一方面是对医院病案首页数据进行数据清洗,使其数据规范有效。
数据清洗,是通过分析“脏数据”的产生原因和存在形式,利用现有的技术手段和方法检测“脏数据”,将“脏数据”转化为满足数据质量要求或应用要求的数据,从而提高数据集的质量[5]。对病案首页数据清洗是实例层数据清洗,主要消除数据集中的异常记录和消除数据集中的近似重复记录。对异常数据清洗的流程如图1所示。
在对数据进行异常检测过程中,主要是对数据进行非空校验、逻辑校验和存在性校验。其中,非空校验是根据该数据项肯定有值而内容出现漏填缺项情况,例如患者信息表中性别属性项是必然存在的;逻辑校验是针对彼此有关联数据项之间的数据合理性或数据复合一定规则而进行校验的,例如患者信息表中年龄和婚姻状态存在一定的关联;存在性校验是检测数据项中的内容与其对应的字典之间,是否存在一致性,例如患者信息表中关系属性值与其对应字典表关系表的一致性。
图1 异常数据清洗流程Fig.1 Abnormal data cleaning process
在对异常数据进行清洗时,主要是对其进行非空清洗、逻辑清洗和存在性清洗。其中,非空清洗是将不存在的或缺失的字段置为NULL。逻辑清洗是对存在逻辑错误的数据进行修正,清洗策略包括:(1)统计分析的方法修正异常值或错误值,如根据统计肿瘤患者的年龄范围,修正病案首页中患者年龄超出范围的异常值;(2)使用不同属性间的约束条件修正错误值和异常值,如根据患者年龄和婚姻状态之间的关系,若患者年龄为5岁,婚姻状态为已婚,可将婚姻状态修正为未婚;(3)使用业务特定规则修正错误值或异常值,如根据患者诊断信息中诊断信息虽然有多条,但不存在一条诊断信息对应多个病种的情况。存在性清洗主要是使用外部数据修正错误值或异常值,如患者籍贯值为北京海甸,可根据外部字典表将其修改为北京海淀。
对医院病案数据集的重复清洗策略采用的是基本近邻排序算法[6],程序流程图如图2所示,算法核心步骤为:(1)创建排序关键字,对于从医院信息系统中采集的数据,任意选择其中一张数据表,选取数据表属性列中一个或多个属性值为关键字,使得关键字能够唯一的代表数据表中的每一条数据项,如果关键字的选择不精确,会影响后期的排序效率;(2)对数据表数据项进行排序,根据步骤(1)选择的关键字,对数据表中的记录进行排序,这样数据表中潜在的、可能重复的数据项都被尽可能的调整到相邻的区域内,有利于后期的数据重复项合并;(3)合并重复数据项,在排序后的数据表记录上固定一个窗口大小为w的滑动窗口,将滑动窗口中的第一条记录与余下的w-1条记录进行比较,如果检测到重复记录,则对其进行合并,否则将滑动窗口中的第一条记录滑出窗口,窗口下移,最后一条数据记录的下一条进入窗口,再进行下一轮重复比较,直到数据表的数据记录全部移入窗口后停止比较。这里面进行数据合并时,保留数据表记录中属性值非空值较少和错误记录较少的项,且保留最新的数据记录。
图2 数据重复处理流程Fig.2 Data Duplication process
随访系统是以病案首页数据为基础信息的,高质量数据能帮助医护人员更好的进行随访,能更加规范、有效的对患者进行随访,提高了医院的随访效率,从而响应国家政策,推动医疗改革。
[1] 王平根, 于华. 病案首页质量全方位逻辑分析与探讨[J].中国卫生统计, 2010, 27(4): 390-394.
[2] 林靖生, 郭茜. 医疗行业数据集成中的数据质量问题的研究[J]. 中国数字医学, 2009, 4(1): 70-72.
[3] 王建英, 王玮, 陈宗敏, 等. HIS系统数据质量问题及对策[J]. 中国病案, 2013(2): 46-47.
[4] 徐汀. 数字化医院数据质量问题的分析及对策[J]. 科学管理, 2015, 30(4): 135-137.
[5] 包从剑. 数据清洗的若干关键技术研究[D]. 江苏:江苏大学, 2007: 10-14
[6] MA Hernández, SJ Stolfo. Real-world Data is Dirty: Data cleansing and The Merge/Purge Problem[J]. Data Mining and Knowledge Discovery, 1998(2), 9-37.
The Investigation and Improvement of Data Quality of Medical Records
XIONG Wen-bo
(State Key Laboratory of Networking and Switching, Beijing University Of Posts and Telecommunications, Beijing 100876)
With the development of mobile medical and the continuous reform of medical service model, follow-up becomes the way of communication between many hospitals and patients, tumor follow-up is the window of hospital for cancer patients. The first page of the medical record is the original record of the occurrence, development and outcome of the disease. It records the invaluable information of the disease. The follow-up of the medical record is the platform of the research data and the communication between doctors and patients. However, many hospitals have different degrees of data quality problems in the medical record homepage data, which can improve the quality of medical data and improve the follow-up efficiency of medical staff by improving hospital data management and data cleaning.
M-health; Tumor follow-up; Data quality; Data cleaning
TP399
A
10.3969/j.issn.1003-6970.2016.12.045
熊文波(1990-),男,硕士研究生,主要研究领域为移动医疗。
本文著录格式:熊文波. 医院病案首页数据质量的调研及提高[J]. 软件,2016,37(12):210-213