张 振 杨翠湄 徐 静 李 琳 周 毅
(惠州学院计算机科学与工程学院惠州 516007) (广州市卫生健康技术鉴定和人才评价中心广州 510180) (中山大学中山医学院广州 510080)
随着我国医疗卫生事业信息化的不断发展与完善,健康医疗大数据与人工智能蓬勃发展,智慧医疗成为医疗行业发展趋势。数据治理是实现智慧医疗的前提,是充分挖掘发挥健康医疗大数据价值以及服务于公众的关键[1]。数据治理是数据管理方法,也称为“信息治理”,其用于管理个体全生命周期中的健康信息,《DAMA数据管理知识体系指南》将其定义为数据资产管理的权威性和控制性活动。数据治理是对数据管理的高层计划与控制,包括在数据管理和使用层次进行规划、监督和强制执行[2]。医疗数据治理对于医疗行业至关重要,无论是医者还是患者,在正确的时间以正确的方式获取正确的诊疗信息才能做出正确的临床决策。运用数据生命周期治理理念优化组织架构、建立标准体系等措施可以提升医院管理效能,更有利于医生做出正确的临床判断[3]。由于电子健康信息可以通过互联网实现互通,数据量呈指数级增长,可以在极短的时间内操作和分析数据,提升数据信息价值。
为了明确当前健康医疗大数据的治理现状、存在问题以及发展目标,本文搜索收集2013-2022年以“健康医疗大数据”“数据治理”“医疗信息化”等为关键词的文献,在此基础上分析健康医疗大数据应用发展现状,阐述相关数据治理现状,从定义、结构、问题等层面分析其发展状态,针对主要问题提出相应对策。
根据健康医疗大数据的来源和作用,其可以分为4类,即诊疗辅助类、健康监测类、公共卫生类、定向生物医学类[4]。健康医疗大数据的来源主要有现实世界中的临床数据、科研数据等数据集或数据库。健康医疗大数据最初来自于手工记录,互联网与医疗日渐深度结合促使数据爆发式增长,在此过程中健康医疗大数据发展应用问题显现,如网络数据大多隐藏在复杂布局模式中,需要从中获取有价值的信息、挖掘其隐藏价值。虽然现有技术手段可以解决一部分难题,但是要提高健康医疗大数据实用性,需要从产生来源上着手。医疗或研究机构需要对数据有准确的认识和合理的定位,在合适的时间使用适宜的技术以提高其实用性[5]。健康医疗大数据将相似病症的患者联系起来,使医生能够获取症状、副作用、住院信息、药物信息、临床报告反馈以及药物疗效等信息,为患者提供更加精确的治疗方案,见图1。健康医疗大数据来源越来越多样,如可穿戴设备产生的数据等[6-7]。如果把传统的数据库管理方式比作“池塘捕鱼”,大数据则是“大海捕鱼”。其中的“鱼”是指待处理的数据,“捕鱼”环境变化直接造成了“捕鱼”方式的差异[8]。数据分散、来源相同、非结构化给健康医疗大数据发展带来新机遇,同时也提出新挑战。只有处理好不同来源、结构的健康医疗大数据,使其充分融合,提供更完善、全面的信息,才能创造更多医疗价值,更好地推动健康医疗大数据发展。
图1 相似病例为医生提供治疗方案参考
健康医疗大数据具有大数据的5个特征,分别是大体量(Volume)、多样性(Variety)、时效性(Velocity)、准确性(Veracity)、大价值(Value),即“5V”[9]。此外健康医疗大数据还具有阶段性、时效性、冗余性等特点。健康医疗大数据种类复杂多样且包含一定主观性,导致其存在一定阶段特性;疾病的发生、发展及其病理信息都与时间有较强关联。此外辅助医疗的相应仪器设备跟时间密切联系,导致健康医疗大数据的时间性较强;信息孤岛、信息烟囱以及疾病的多发性常会导致存在大量无效且冗余的数据,如慢性病患者的重复检查会导致此类情况产生[4]。同时健康医疗大数据信息还具有一定敏感性[10]。
随着社会发展,公众生活水平提高的同时对生活质量要求越来越高[11],利用大数据、云计算、物联网、人工智能等技术为医疗服务提供信息已成为普遍趋势。截至2021年我国医疗卫生机构数量已达103.1万家。为加快健康医疗大数据发展,2019年全国各地市相继出台大数据相关政策性文件近200个[12],如国家卫生健康委员会实施“1+7+X”健康医疗大数据应用发展的总体规划(即建设1个国家数据中心,7个区域中心,并制定若干应用发展中心规范)[13];在卫生行业监管方面,各地逐渐建立公共卫生、疾病预防、健康体检、卫生监督等数据中心;在医疗机构内部,决策模式已转变成数据驱动型;在患者健康方面,使用便携医疗设备便可以向医疗机构提供医疗健康数据[14]。在疫情防控方面信息化手段的有效利用发挥了重要作用,有学者指出应继续充分利用云计算、大数据、物联网、5G等先进技术满足互联网医院、远程医疗等需求,为疫情防控工作提供有力支撑[15]。
目前国际上对大数据发展重视程度较高,各国都积极采取措施抓住发展机遇。2012年部分国际组织和发达国家接连发布系列大数据技术研究计划,联合国推出《大数据促进发展:挑战与机遇》,同年《大数据研究发展计划》《数据价值链战略计划》《英国数据能力发展战略规划》在美、英等国推行,大力推进大数据研究应用[16]。
数据治理是大数据时代下数据的一种管理方法,数据的使用组织要平衡两个要求——收集和保护数据信息,并从其中获取价值。《DAMA数据管理知识体系指南》一书中指出,数据治理是对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动。随着大数据、云计算、物联网、人工智能等技术不断发展,我国医疗行业信息化建设不断完善,健康医疗大数据结合人工智能展示出前所未有的生命力。随时都有大量医疗健康数据生成,将其不断收集与完善则可整理存储为电子健康档案数据,运用数据生命周期治理理念,优化组织架构、建立标准体系,经过规范化管理后对于医疗、管理、科研等方面具有重要的价值,这就是健康医疗大数据的治理[17]。具有结构性、组织性的患者健康信息可以大大提高医疗机构运营效率、降低医疗成本并提高患者就诊的安全性和质量,这是健康医疗大数据治理的意义所在。
我国数据治理相关研究很多,但在医疗领域应用较少,一般较多应用于通信、金融、互联网等领域。尽管相关工作已开展多年,而且医疗机构数量较多,但医疗数据却一直处于闲置状态,并没有被应用产生进一步价值,反映出大多数医疗卫生机构信息化能力不足,我国健康医疗大数据发展还处于数据治理的早期阶段。
目前医疗成本高、就医程序多、医护资源少、知识普及范围小仍是我国医疗领域的短板。对于国内所处的数据治理阶段而言,有学者提出大数据治理参考模型应包含原则、关键域、实施和评估4个要素,几乎涵盖健康医疗大数据治理工作的方方面面[18]。我国信息技术服务标准(Information Technology Service Standards,ITSS)信息技术治理工作组(Fundamental Standards Working Group,WG1)曾提出数据治理要素模型,明确数据治理3个主要方面,并在国际上形成共识[19],见图2。我国智慧医疗建设正在不断发展中,但与国际水平相比还有一定差距,要加快国内健康医疗大数据发展步伐,目前最优解是建立完善的数据治理体系,充分利用闲置的医疗数据并转化为有价值的数字资产。
图2 数据治理3要素
部分国际组织在健康医疗大数据治理领域不断进行研究和实践。目前各国在数据提供和使用方面存在显著差异。例如美国已建成覆盖本土12个区的电子病历数据中心、9个医疗知识中心、8个医学影像与生物信息数据中心[14]。在22个接受经济合作与发展组织(Organization for Economic Cooperation and Development,OCED)调查的国家中,数据可获得性、成熟度和使用率最高的医疗信息系统位于丹麦、芬兰、冰岛、以色列、韩国、新西兰、挪威、新加坡、瑞典和英国[20]。美国许多医疗机构提供安全存储患者健康信息的数据库,且制定相关程序以确保数据的安全存储、正确使用和访问符合相关法律。但上述医疗机构大多数没有进行数据管理方面的研究,仅限于数据传输和隐私安全标准的制定,更倾向于强制合作,建议数据管理系统包含原则、政策、标准、流程、技术等[21]。此外有国际组织建议通过数据仓库管理确保数据完整性并保护患者隐私信息[22]。
随着谷歌、苹果、国际商用机器公司(International Business Machines,IBM)等大型科技公司开始研发个人健康设备[23],健康医疗大数据数量呈爆发式增长,但其并不能直接转化为有价值的数据,缺少足够的管理政策和明确的责任人,健康医疗大数据治理依然不够完善,新问题不断出现导致数据缺口持续存在。从全球来看,持续的数据缺口和不同背景数据的凌乱分布阻碍了全球健康医疗大数据的发展。医疗数据使用涉及多方利益竞争。一方面,大型科技公司与医疗卫生机构合作,个人便携健康设备的兴起直接导致个人健康数据激增;另一方面,有价值的健康数据较少、信息管理难度较高,数据缺口巨大。各种复杂问题的逐渐显现推动新的技术、组织和政策环境形成。分析目前健康医疗大数据在国内外的发展情况可知,包括我国在内的许多国家虽然已着手研究数据治理在医疗健康行业的结合应用,但关于智慧医疗建设的研究依旧处于初步发展阶段,我国智慧医疗建设依然具有巨大发展空间,数据治理与医疗健康行业的结合发展也有较长的路要走。
数据治理长期存在一些问题,包括数据的知识产权、数据共享、数据再利用和数据存储等,需要优化数据治理过程。数据治理的最终目的是提升数据成熟度,而提升数据成熟度可以从多个方面进行,本文将基于数据质量、内容管理、数据安全、主数据管理、数据共享5个数据治理问题提出相应对策,探究健康医疗大数据未来发展趋势。
3.3.1 数据质量 数据质量涵盖准确性、完整性、一致性、时效性、可信性和可解释性等关键因素,其影响医疗健康信息技术发展。为了提高数据时效性,医务人员在实际工作过程中将所有数据信息记录在工作平台系统中,并按照一定规则和标准汇总到卫生健康委员会的数据处理部门[24]。实际上部分医院存在对数据资产价值认识不足、利用不充分、忽视数据质量等问题,导致系统中存在大量“脏数据”。其中数据治理执行标准不统一或者不按标准执行、数据完整性差、信息割裂形成信息孤岛、信息不准确等因素是导致数据质量低的直接原因[25]。为保证数据质量,要做到数据规范、准确、完整及有效整合,提升临床数据应用水平。可以实施两个方面措施:一是临床决策辅助,推广电子病历使用并提升使用率,有助于深化临床数据应用;二是临床科研支撑,构建规划统一的临床科研数据库[26]。2018年国家卫生健康委员会发布《关于印发电子病历系统应用水平分级评价管理办法及评价标准的通知》,指出医疗质量和数据质量至关重要。有效提升数据质量就要进行数据治理,建立数据治理支柱、数据治理周期、数据治理实施方法、完善的数据治理体系[27-28]。
3.3.2 数据内容管理 医疗数据内容包括人们针对疾病防治以及健康管理过程中形成的所有与健康医疗相关的数据[29],对于其管理还有很多技术方面的问题需要解决。例如应及时整合、更新病房医疗设备所获得数据。设备需支持网络输出的硬件接口并逐步将监护仪、呼吸机、输液泵、床边血气分析等重要设备的数据输出集成到相关信息系统中。除技术措施外,管理数据内容还需要强有力的措施[5]。数据管理方面,从用于分析的数据管理解决方案到可操作的数据库管理系统,其解决方案形式多种多样,每种方式都有其特定的功能、优点和缺点。首先,由于各机构工作对数据信息采集的机制和侧重点存在差异,容易出现同一数据对象重复采集的问题。其次,标准规范不统一、法律规范不完善影响医疗健康数据治理发展。再次,组织或机构主体技术差异导致数据治理发展失衡,如大城市往往会比小城市获得更先进的医疗资源。最后,相关机制不健全、组织自身管理不到位等问题导致整个社会中组织的力量很难被充分挖掘,影响数据治理在医疗健康行业的效能。进行大数据治理的重要环节是遵循统一标准管理。为保证数据的规范性、流通性、安全性以及共享性,数据治理要构建合理、合法的运行机制和体系结构,以此减少数据在采集、共享、管理等过程中可能出现冲突的问题[30]。要建立完整的医疗大数据治理管理机制,明确数据信息收集处理规范和基本原则,规范其法律边界,以保证健康医疗大数据治理健康发展,为健康医疗大数据治理提供支撑,见图3。
图3 数据治理结构
3.3.3 数据安全 在全球范围内大数据分析是一项重要技术,广泛应用于医疗等各业务领域。在健康医疗大数据治理过程中,数据安全成为高风险点,应得到充分关注,并通过大数据方法加以解决。数据安全治理法治化的前提是有法可依,国家卫生健康委员会在2018年9月制定的《国家健康医疗大数据标准、安全和服务管理办法(试行)》规定我国公民的医疗数据要在保障公民知情权、使用权和个人隐私的基础上进行规范管理和开发利用。该法规明确了国家、机构或组织等对数据信息的权利[2]。医疗健康领域尝试使用一种基于双线性配对密码体制的三方一轮认证密钥协议以在云中提供安全的医疗健康私有数据,见图4。该方法可以在参与者之间生成会话密钥并进行安全通信,通过使用诱饵技术安全地访问和存储私有医疗数据。当攻击者识别处理诱饵库时,通过加密原始文件提供双重安全保障。该方法可为任何用户提供诱饵数据库,同时隐藏原始数据,只有通过成功验证才能为安全用户所使用[31]。
图4 基于双线性配对密码体制的三方一轮认证密钥协议
3.3.4 主数据管理 主数据是唯一可识别并实现准确、跨业务共享的信息。几乎所有用户都可以轻松地对其进行共享并无需进行数据转换,整个组织的每个人都认可其定义、标准、准确性和权威性。主数据管理的原则是将企业信息作为一种战略资产加以管理,从而提供端到端的业务监督、战略能力的基础。主数据管理不仅是信息技术问题,更是业务需求,可以简洁明了地监管数据,更好、更容易地获取数据,有助于简化流程、加快由数据驱动的战略决策产生,其具有清晰性、一致性特点,可推动健康医疗大数据加速发展。为了更好地掌握数据,保证数据的准确性和完整性,需要解决信息孤岛问题。医疗健康主数据管理可分为患者主数据和业务主数据两种。其中业务主数据包括机构数据标准以及区域、行业标准等。除使用主索引作为工具管理患者主数据外,还可以使用电子住院证实现对患者主数据的关联查询。主数据的正确利用可以提升数据分析成功率和利用率[5]。
3.3.5 数据共享 多组织之间医疗信息共享是开展数据挖掘的前提条件,目前数据共享可分为自行收集、无偿提供、自愿公开3种方式,其具有不稳定性、被动性等缺点。当前健康医疗大数据共享性差的主要原因有以下4点:第一,主导权不确定,一个由多个机构提供数据来源的平台让任何一方主导都会导致别的机构可能出现不满;第二,数据泄露风险大,在共享前提下难以避免隐私数据泄露风险;第三,数据获得权问题,如果无法明确数据信息的源头、使用方、管理方及受益人则无法对使用者精准授权,影响数据共享性;第四,缺乏激励机制,如果没有能量化各数据提供者对数据信息整合平台所做贡献的机制,那么其所提供数据质量无论好坏获益均相同,这将影响各方共享数据信息的积极性[32]。有学者指出应用是大数据的出发点和归宿,大数据应用不能忽略其商品属性,这将是医疗健康数据共享的关键突破点[33]。对于医疗健康数据共享这一难题,更多学者认为需要在双方订立合同的基础上平等地进行数据交易,使数据变成商品, 真正地带动大数据产业发展[34]。
随着医疗信息化发展,健康医疗大数据呈现爆发式增长。这对人口健康信息化服务和管理能力提升带来机遇和挑战。一方面,国内外均发布了健康医疗大数据治理的相关政策、制定了相关标准、成立了健康医疗大数据联盟和学术组织;另一方面,健康医疗大数据治理的体系仍未健全,如“数据孤岛”等现象影响数据的获取和管理,数据隐私安全问题亟待解决。伴随医疗数字化发展,大数据的价值及其对健康医疗事业发展的推动作用日益受到重视。健康医疗大数据治理结果直接影响公众生命健康,因此应提升对数据质量和管理的要求,在更大范围开展健康医疗大数据治理的跨学科合作,并将建立健康医疗大数据治理体制提上日程,促进数据治理发展。