叶琳 罗铁清
摘 要: 为提高临床智能辅助决策系统辅助医生决策的能力,从医疗数据治理方向入手,采用文献检索和网络调查相结合的方法深入探析医疗数据的治理、研究动态、相关技术及应用等内容。结合已有研究,从医疗数据治理的关键问题出发,重点阐述医疗数据治理技术,包括数据标准化、数据脱敏、数据清洗和数据结构化的具体方法,及其在临床智能辅助决策系统的数据治理方案中的应用。
关键词: 数据治理; 数据标准化; 数据脱敏; 数据清洗; 数据结构化
中图分类号:R-05 文献标识码:A 文章编号:1006-8228(2021)05-10-03
Overview of medical data governance
Ye Lin, Luo Tieqing
(School of Informatics, Hunan University of Chinese Medicine, Changsha, Hunan 410208, China)
Abstract: In order to improve the ability of clinical intelligent decision-making system to assist doctors' decision-making, this paper analyzes the management, research trends, relevant technologies and applications of medical data with the method of combining literature retrieval and network investigation. Combined with the existing research, focusing on the key issues of medical data governance, the medical data governance technologies, including the specific methods of data standardization, data desensitization, data cleaning and data structuring, are described, as well as their application in the data governance scheme of clinical intelligent decision-making system.
Key words: data governance; data standardization; data desensitization; data cleaning; data structuring
0 引言
醫疗卫生行业要想从信息化到智能化转变,助力实现“健康中国2030”,其发展模式需从规模驱动模式转变为以医疗质量和服务效率为核心的新模式,医疗数据是模式转变的基础性资源。当前,医生需要利用临床智能辅助决策系统为患者进行诊断和治疗,该系统主要承担数据采集与分析、临床知识库检索、患者信息管理、辅助决策等服务,这些工作都依靠大量医疗数据才能完成。如果医疗数据存在问题且缺乏有效的治理方法,最终就会导致系统决策失误。因此,医疗数据治理工作势在必行。
1 医疗数据治理概述
借鉴文献[1]中对数据治理本质的阐述,我们可以理解医疗数据治理工作是在国家卫生健康委员会的指导下,对医院、体检、互联网健康等机构中医疗数据收集、分析、应用的过程进行监督和管理,通过不断创新和完善治理技术来提高医疗数据质量,为医疗行业创造更大的价值。
2 医疗数据治理研究动态
通过检索相关文献,跟踪学术动态可知,加拿大颁布的《个人健康信息保护法》[2]、美国发布的《大数据研究和发展计划》[3]和《美国联邦政府医疗信息化战略规划(2015-2020)》[4],推动了国外医疗数据治理的发展。我国国家卫生健康委员会发布《全国医院信息化建设标准与规范(试行)》[5]指出,医疗信息化建设过程中要依据数据标准和相关技术规范。我国国务院印发的《关于促进和规范健康医疗大数据应用发展的指导意见》[6]提出要提升健康医疗服务效率和质量,扩大资源供给、《“健康中国2030”规划纲要》[7]和《关于促进“互联网+医疗健康”发展的意见》[7]为医疗数据治理工作部署方案。
综上所述,“数据治理”理念已经涉及医疗领域,国内外目前还只是对其政策方面展开大量的研究,应用方面如数据治理技术用于提高临床智能辅助决策系统中数据质量的研究少之又少,这便是我们接下来所要研究的重点。
3 医疗数据治理的关键问题与技术
3.1 医疗数据标准化
数据标准化是实现医疗行业智能化工作的前提条件。目前医院内部各信息平台中数据的标准化程度较低,很大程度上会影响临床智能辅助决策系统辅助医生决策的能力。医疗数据标准化对象包括诊断名称、手术名称、药品名称、检查名称、检验名称等,这些医疗术语的表达应参照一些规范标准,如《电子病历应用管理规范(试行)》[8]、《GB/T 14396-2016疾病分类与代码》[9]、《病历书写基本规范(2010年版)》[10]等。医务人员只有按照上述规范标准来记录数据,临床智能辅助决策系统才能获得标准化程度较高的医疗数据。
3.2 医疗数据脱敏
医疗卫生智能化建设高速发展的同时临床智能辅助决策系统的安全隐患日益突出。从医院内部各信息平台中获取的大量文本数据可能涉及患者隐私信息,这些信息对医药公司、广告、中介、保险等行业具有商业价值,那么医药公司、广告、中介、保险从业人员可能收买临床智能辅助决策系统的使用者、系统维护或开发人员获取患者隐私数据。因此,临床智能辅助决策系统需要利用数据脱敏技术对医疗数据进行脱敏,使能够接触到数据的人员无法盗取数据进行非法敛财。系统需要重点脱敏患者信息,包括患者姓名、身份证号、手机号码、家庭地址等。王卓[11]等人将所有数据脱敏技术归为静态和动态两类。佟玲玲[12]等人提出K-匿名、L-多样性、T-保密等不可恢复脱敏算法以及对称加密、非对称加密、保形加密等可恢复脱敏算法。吴克河[13]等人提出一种基于敏感数据度量的改良版数据脱敏技术。叶水勇[14]提出基于Flume和Sqoop数据采集方式的智能化脱敏技术同时与K-Anonymity、L-Diversity、T-Closeness等脱敏算法[15]复用来实现最优化脱敏。
文献[12]中提出自动化数据脱敏算法,其虽是目前主流脱敏技术,但没有对数据语义予以考虑,为了更好地保护复杂语义下高敏感度的敏感属性值,可以借鉴文献[13]提出对敏感属性值进行分类加权后,使用等价类分裂算法思想实现基于敏感信息度量的脱敏技术来解决此缺陷。文献[14,15]阐述的机器学习技术与算法结合使用可以更好的实现系统自动化脱敏。未来,临床智能辅助决策系统的开发可以借鉴这些算法实现数据自动脱敏。
3.3 医疗数据清洗
医疗数据蕴含巨大的价值,其在实际利用过程中有时却很难体现出来,究其原因是医院各信息平台内部数据质量不高,比如医生数据输入过程中会出现缺录、同一数据在不同信息平台中存在不同的表达形式、医生在诊疗过程中采用复制粘贴的方式进行不同维度的数据录入等情况,那么平台中就可能存在很多“脏”数据。这些“脏”数据在临床智能辅助决策系统中利用率不高,此时数据清洗的工作就变得越发重要了。孔钦[16]等人指出利用缺失值填充算法进行挖掘来填补缺失值。林予松[17]等人提出压缩方法减少无关数据、分词和权值的字段匹配算法来删除重复数据,其中分词和权值的字段匹配算法核心思想是將重心词后移进行清洗,不适用于重心词前移的情况,因此该算法数据清洗准确度较低需要改进。
临床智能辅助决策系统可以参考上述方法对不完整、不相关、重复数据进行清洗。系统可以采用特殊值或者算法模型进行缺失值填补,该方法是系统将从医院各信息平台中获取的数据进行建模展示出具有缺失值的属性列,对于属性列中数值数据,使用者可以在系统中选择均值、平均值、众数等特殊值选项进行自动填补,对于属性列中非数值数据系统设置EM(Expectation-Maximization)或MI(Multiple Imputation)或KNN(K-NearestNeighbor)等算法[16]选项进行建模实现自动化填补。系统采用压缩方法[17]将数据库表中与研究结果无关的表、属性、记录删除并保留能够帮助医生辅助决策的数据表,该方法很好的减少无关数据和降低数据复杂度。系统可以采用基于分词和权值的字段匹配算法[17]计算两个字段之间相似度来判断是否为重复数据,首先利用分词器对两个字段分别进行分词处理,将字符串变成分词串并计算分词相似度,其次分别按照重心词前移规律匹配法和重心词后移规律匹配法求权值相似度并将两次计算的权值相似度加权平均,得出最终的权值相似度,最后观察两个字段的分词相似度和权值相似度是否大于某一阈值来判断是否是重复数据并将重复数据自动删除。
3.4 医疗数据结构化
目前全国多家医院使用支持全结构化录入的医疗数据采集系统,但系统中仍然存在大量计算机无法识别的数据。这些数据中最典型代表是电子病历中的文本数据,其产生的主要原因是系统的模板限制了医生的思维,医生仍习惯采用自由文本或半结构化录入的方式来完成日常病历书写工作。因此需要利用结构化技术将非结构化文本数据转化成计算机能够识别的语言供决策系统使用,最终系统才能产出精准的决策。
文献[18]中基于规则的模式匹配信息提取方法核心是利用正则表达式匹配提取结构化数据,此方法虽然简单易实现,但前期字段配置依赖临床经验进行归纳总结并且配置效果直接影响提取结果,因此该方法通用程度不高。文献[20]中基于层叠条件随机场模型方法的信息抽取技术虽然也能准确、快速识别多种文本信息,但其面临识别词语的流程较为混乱导致识别率较低、复杂的医学报告信息的识别率较低以及语法规则定义需要有丰富临床诊疗经验的医生进行指导等问题,因此该方法也无法通用。文献[19]中构建的结构化抽取模型在切口数量抽取上对医疗文本信息抽取有效,但该模型无法验证其应用在其他类型数据抽取上对医疗文本信息抽取是否同样有效,因此该方法是否通用还有待进一步验证。
由此可见,即使目前研究出许多文本数据结构化方法,由于医疗文本信息的复杂性和高难度,现有的结构化技术大多不够成熟和有效,无法进行广泛的使用,未来需要研究出标杆技术应用到临床智能辅助决策系统数据结构化处理中去。
4 结束语
本文对医疗数据治理概述、研究动态、关键问题、相关技术及应用做了详细的介绍并对目前医疗数据治理技术提出了改进意见。目前,市面上虽然已开发出一些辅助决策系统,但由于医疗数据不完整、不正确、重复率较高等问题,数据放入系统中常常导致结果与人工给出的诊断结果和治疗方案出入较大,医生使用系统给出的决策方案可能会造成很严重的医疗事故。因此,未来将标准化、脱敏、清洗和结构化等数据治理技术应用到临床智能辅助决策系统的研究具有重要的意义。
参考文献(References):
[1] 吴信东,董丙冰,堵新政等.数据治理技术[J].软件学报,2019.30(9):2830-2856
[2] 郭珉江,代涛,万艳丽等.加拿大卫生信息化建设经验及启示[J].中国数字医学,2015.10(7):15-19
[3] 代涛.健康医疗大数据发展应用的思考[J].医学信息学杂志,2016.37(2):2-8
[4] 于琦,景胜洁,邰杨芳等.我国健康医疗大数据政策文献的多维分析[J].中国全科医学,2019.22(26):3209-3216
[5] 明确医院信息化建设内容和建设要求[J].医学信息学杂志,2018.39(4):94
[6] 何毅,王曙光,刘文浩.健康医疗大数据的探索与实践[J].中华骨与关节外科杂志,2017.10(6):482-487
[7] 吴浩,刘新颖,张世红等.“互联网+社区卫生健康管理服务”标准化建设指南(二期)[J].中国全科医学,2018.21(16).
[8] 孙慧子,董晓明,张淑英等.《电子病历应用管理规范(试行)》对电子病历法律效力影响[J].中国医院管理,2018.38(4).
[9] 谢雨杉,王利亚,李莘等.基于语义相似度的ICD-10编码归一化[J].中国病案,2018.19(9):18-21
[10] 阮鹤瑞,刘晓明,金疆山等.病案首页填写缺陷分析及对策建议[J].中国病案,2015.16(2):20-24
[11] 王卓,刘国伟,王岩等.数据脱敏技术发展现状及趋势研究[J].信息通信技术与政策,2020.4:18-22
[12] 佟玲玲,李鹏霄,段东圣等.面向异构大数据环境的数据脱敏模型[J].北京航空航天大学学报,2020.12:1-12
[13] 吴克河,朱海,李为等.基于敏感信息度量的t-保密脱敏技术改良[J].信息技术,2019.43(11):5-9
[14] 叶水勇.数据脱敏技术的探究与实现[J].电力信息与通信技术,2019.17(4):23-27
[15] 叶水勇.数据脱敏系统的研究与实现[J].电力信息与通信技术,2019.17(6):31-36
[16] 孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018.28(5):1-4
[17] 林予松,王培培,刘炜等.医疗体检数据预处理方法研究[J].计算机应用研究,2017.34(4):1089-1092
[18] 吴欢,应俊,王逸飞等.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020.41(7):746-751
[19] 卢淑祺,窦志成,文继荣.手术病例中结构化数据抽取研究[J].计算机学报,2019.42(12):2754-2768
[20] 梁立荣,李长伟,沈晔等.基于层叠条件随机场模型的电子病历文本信息抽取[J].计算机应用与软件,2019.36(10):47-54,112