武瑞仙 周红
【摘要】随着社会经济的发展和大数据时代的到来,各行业的数据量越来越大,医疗卫生领域尤为明显。数据数量的增长同时,数据质量的控制也给广大研究人员带来一定的困扰。本文在充分文献分析的基础上,探讨了常见的数据质量问题及其清洗方法,总结了数据清洗六个步骤,旨在为卫生研究人员提供参考。
【关键词】医学数据;数据质量;数据清洗
中图分类号: R197.3 文献标识码:A 文章编号:1672-3791(2016)02(c)-0000-00
一、医学研究数据
医学研究数据指的是在医学研究中观测个体的某种特征或属性的观测值。更准确地讲,是医学研究中所有观测个体的观测值的集合。医学研究数据作为医学研究的核心对象,和整个研究的目的、设计和收集整理都密切相关,是医学研究最重要的组成部分之一,医学研究数据的质量也在很大程度上决定了医学研究的质量。在实际研究中,搜集到的数据质量往往和预期目标存在较大差距,这些问题来源于医学数据的整个产生过程。
二、常见质量问题
医学测量过程包含三个核心要素:测量对象、测量规则和测量值。医学研究数据质量问题多来源于两个方面:一是测量错误,产生的原因一般是医学测量过程中测量规则不当或是测量人员失误。测量规则不当导致的误差的大小和方向往往恒定不变或遵循着一定的规律变化,即通常属于系统误差。
二是输入错误,是由数据录入人员疏忽而造成的。在录入流程不健全的情况下,尤其容易产生输入错误。输入错误导致的常见医学数据质量问题有:
(1) 不完整数据:一些应该有的信息缺失,如机构名称、区域信息缺失等。
(2) 错误数据:即录入数据与原始测量数据存在不一致。
(3) 重复数据:即“相似重复记录”,指同一个研究对象在原始数据集中用多条不完全相同的记录来表示,由于它们在格式、拼写上的差异,导致数据库管理系统不能正确识别。
可以看出,医学数据质量问题来源于整个医学研究过程,而随着医学研究的规模日益扩大,研究设计和实施的复杂性逐渐提高,医学数据的质量也往往难以保证。而对于医学数据中一些常见的质量问题,可以通过医学数据清理对重复数据进行探测和判定;对缺失数据进行填补;采用分箱、聚类、回归等多种手段对异常记录处理,消除异常值,最终提高医学数据质量,满足研究分析需求,更好地达到研究目的。
三、数据清洗的基本内容
数据清洗的对象主要有重复的数据、不完整的数据和错误的数据,在卫生领域中,这三类“脏数据”的处理是数据清洗的重要组成部分:相似重复记录清洗是保证数据可用性的重要内容,在卫生领域,经常出现同一个病人有多个检查表或病历信息,对于冗余信息剔除及可用信息的合并是重复记录数据清洗的核心;缺失数据清洗则有助于医务工作者了解数据收集的完整性,及时对必填信息和关键信息的收集过程加以控制,提高数据可用性;而异常数据的探测和清理则是判别和控制数据逻辑错误的重要手段。
四、数据清洗的基本流程
1.数据分析:数据分析是数据清洗的前提与基础,通过详尽的数据分析确定数据检测算法、清洗策略等,还可以使用分析程序来获得关于数据属性的元数据,从而发现数据集中存在的质量问题。
2.定义数据清洗规则与工作流:根据上一步数据分析得到的结果来定义数据清洗规则和工作流等,其中包据确定数据源的个数,存在质量问题的医学研究数据的多少程度,选择合适的检测算法、清洗策略、评估方法,需要执行的数据转换和清洗步骤。
3.数据检测:根据确定的检测算法检测数据库中的重复记录和异常记录。
4.数据清洗:执行预先定义好的并且己经得到验证的清洗策略、转换规则和工作流等。数据清洗一般的类型转换主要包括:
4.1对自由格式的属性字段进行属性分解,自由格式的属性字段一般包含着很多的信息,而这些信息有时候需要进一步分解成多个属性字段。
4.2处理输入和拼写错误,并尽可能地使其自动化,基于字典查询的拼写检查对于发现拼写错误有很大帮助。
4.3标准化:为了使实例匹配和合并变得更方便,应该把属性值转换成一致的和统一的格式。
5.数据清理流程评估:对定义的检测算法、清洗转换规则和工作流的正确性和效率进行验证和评估。可以在数据源的数据样本上进行清洗验证,当不满足清洗要求时,要对检测算法、转换规则、工作流或系统参数进行调整和改进。
6.干净数据回流:当数据被清洗后,干净的数据应该替换数据源中原来存在质量问题的医学数据,这样不仅可以提高数据库的数据质量,还可避免将来再次抽取数据后进行重复的清洗工作。
五、结束语
本文简要的就医学研究中数据常见质量问题、数据清洗内容及基本流程等几个方面介绍了医学数据常见质量问题的处理方式,揭示了数据质量问题的本质和标准化的清理流程,可操作性强。医学领域数据事关人民的生命健康安全,其统计分析结果往往作为制定医疗措施的重要依据,因此,确保数据的真实可信十分必要。
参考文献
[1]周奕辛.数据清洗算法的研究与应用[D].青岛大学硕士毕业论文.2005.
[2]李镒冲,姜勇,张梅,等.SAS软件在中国慢性病及其危险因素监测数据清理中的应用.现代预防医学[J].3835-3842.
[3]叶鸥璟,李俊怀. 中文数据清洗研究综述.计算机工程与应用[J].2012.48(14):121-129.