李 芬 郑丽英 朱碧帆 侯晓慧 覃湫珺 张立强 张 娟 耿 韬
(1上海市卫生和健康发展研究中心(上海市医学科学技术情报研究所)上海 200040;2复旦大学公共卫生学院 上海 200032;3首都医科大学国家医疗保障研究院 北京 100037;4上海市医疗保险监督检查所 上海 200042)
随着移动互联网、物联网、云计算等信息技术的高速发展、广泛应用和深度融合,医保大数据规模迎来爆炸式增长[1]。作为医疗领域的新型生产要素和基础战略资源,医保大数据在医保管理中发挥着重要的作用。在此背景下,国家建立了标准化的医保信息业务编码,形成跨区域、跨层级、跨部门、跨业务的全国医保“通用语言”,促进了精细化、科学化管理,数据的质量、标准化水平不断提高。
但是,数据挖掘技术在医疗保障领域的实践应用中仍面临一些挑战,如我国医保管理存在基金运行压力增大、部分医疗服务违规开展、欺诈骗保行为频发等问题[2]。目前,我国各地就医保大数据挖掘展开了多种探索,医保信息平台建设、数据挖掘技术快速发展,呈现多元平台、多源数据、交互操作的特点。充分利用医保大数据进行深度挖掘分析,能为医保政策制定和完善提供数据支撑,有助于优化医保管理手段与路径。
国际上医保大数据的应用聚焦于医保基金分配、资源管理和资金监管等方面,建立资金分配模型用于医保资金总额的预测和分配;创建哨兵系统实现对上市医疗产品等医保资源的有效管理;构建欺诈预防系统,在识别异常可疑的账单以及浪费、滥用等医疗行为中发挥了巨大的作用。
医保资金分配包括总额分配和专项资金分配。英国在20世纪70年代就探索建立国民医疗服务体系(National Health Service,NHS)资金分配数据模型。基于NHS行政大数据(主要是患者个体数据,包括医疗服务使用情况和费用数据),每年有超过1000亿英镑的医疗资金通过数据模型分配到全国的临床委托服务组织(Clinical Commissioning Groups,CCGs)。具体的预算分配以全科医生(general practitioner,GP)签约的居民数为基础,根据签约居民的年龄、需要因素(健康状态、死亡率、贫困引起的额外需要等)、不同地区的成本差异,兼顾卫生公平性和未满足需要进行测算和调整[3]。
美国癌症防控专项资金同样基于数据模型分配。利用死亡率数据(包括不同地区的超死亡率、可归因的死亡人数等)描述各州癌症问题的严重程度,从而制定总体的癌症筛查方案;根据发病率数据估计下一阶段癌症发生风险,安排面向高危人群的筛查项目(二级预防);根据危险因素监控数据,预测中长期的疾病风险,开展综合性的预防干预项目(一级预防),最终科学、经济地实现癌症预防和控制目标[4]。
2008年,美国食品药品监督管理局(Food and Drug Administration,FDA)启动了哨兵系统(sentinel system),利用分布式数据库定期收集保险公司、医院网络、综合交付网络等的行政和索赔数据、电子健康档案、实验室结果和住院记录等数据。系统网站提供标准化的通用数据模型、分析工具和数据源代码,基于分布式网络,医药产业和学术界研究人员可以直接与个别数据合作伙伴合作,或与哨兵运营中心合作[5],通过进行多站点观察或干预研究主动监测和评估上市后医疗产品(包括药品、生物制剂和医疗设备)的安全性、有效性和质量,为药品标识、药品安全沟通、药品咨询委员会会议和其他监管决策提供重要信息[6]。该系统的运行包括“信号生成—信号细化—信号评估”三个步骤,通过数据挖掘识别所有医疗产品的不良反应事件,随后进一步分析已识别的潜在安全信号,以确定是否存在医疗产品暴露与不良结果之间关系的证据,在前瞻性持续监测后全面评估因果关系,最终找出高度可疑的问题产品[7]。
美国卫生与公众服务部及其医疗保险和医疗补助服务中心在2011年建立了医保欺诈预防系统(Fraud Prevention System,FPS),旨在支付前对联邦医疗保险按服务付费账单进行大数据挖掘,通过建立规则(建立规则以筛选欺诈账单和行为)、监测异常(监测同组中的异常值)、预测(基于已知案例建立预测模型,发现异常群体和行为)和社会网络分析(基于相关链路分析,识别、分析和可视化数据间的内在关联和模式)等方法,及时识别异常和可疑账单。上线一年内,FPS系统识别并拦截了约2.1亿美元的异常医保账单,对938家可疑医疗机构采取暂停支付、移交司法部门等行政措施[8],有效保障了医保基金安全。
近年来,国家医保局高度重视医保大数据的汇聚应用,顶层设计信息平台,发布业务编码规范,自上而下开展数据治理,大数据的量与质得到快速提升,标准化程度不断提高。目前,全国统一的医保信息平台已基本建成,有效覆盖近40万家定点医疗机构、40万家定点零售药店、13.6亿参保人[9],实现了跨区域、跨层级、跨部门、跨业务的数据汇集。医保大数据蕴藏着巨大价值,各地开展多种探索,如天津建立“电子围栏”防范欺诈骗保行为,太原实行静脉认证制约盗刷社保卡行为,上海运用“医师画像”来监督医疗机构以及医生行为等,取得显著成效。通过关键知情人访谈,本研究重点梳理介绍上海、重庆、海南等典型地区医保大数据的组织架构、医保监测平台建设以及应用场景。
上海、重庆和海南三地均成立工作组推进医保信息化和数据挖掘工作。上海设置了专业化部门开展数据挖掘开发工作,建立了产学研联动机制;重庆建立了第三方队伍;海南强化多部门联动。
上海市医保局基金监管处、信息处及相关业务处室建立了联动工作机制,纵向设置医保事业管理中心、医保监督检查所;横向联动市公安局、民政局、卫健委等部门建立数据对接、联合执法等工作机制;对外联动高校及科研机构开展课题研究;与信息公司合作开发,将研究成果转化为实际的应用。
重庆市人民政府与国家医保局共同建设了国家医保智慧实验室,重庆市医保局专门组建了信息化工作组,统筹局机关和事业单位技术支撑保障、网络安全、运维等专业服务。此外,通过向信息公司购买服务,引进了一批专业人才,为医保信息化建设提供安全稳定的技术支撑。
海南省医保局成立了信息化工作小组推进医保信息平台的建设工作。由信息处牵头搭建信息平台、构建信息挖掘框架,业务部门根据业务发展需求,以应用和目标为导向开发应用场景,形成了信息处负责“盖房子”、业务处负责“装修”的工作机制。
三地区均按照国家的顶层设计搭建了相应的信息平台,但是由于功能定位、信息基础差异,平台建设呈现不同的特点。海南探索打造了全新的信息平台;重庆信息平台的建设是在国家信息平台的基础上进行本土化;上海在原有的智能监测系统上,加强与国家平台的对接,并不断探索创新数据挖掘方法。
海南省医保信息平台基于全国统一的医保信息平台系统架构,按照“应用尽用、能配尽配、最小必须”原则,根据实际需求扩展建设功能、配套功能和本地生产库,数据规范遵照国家业务编码标准,统筹推进本土化建设。运用基于生物识别、视频监控的智能引擎及大数据分析决策等新技术,开发了智能审核、智能识别、智能监控、智能分析、监督执法、统计分析六大功能模块,完整支持事前提醒、事中预警、事后审核的全程闭环监管体系。
重庆市对于国家医保智慧实验室的建设制定了统一的技术框架和标准规范,通过电子政务外网和医保专线全面实现和国家平台的互连互通,推进贯标与“两定”接口改造一体化,实现国家标准编码和标准接口全市应用。实验室构建了国家医保测试区和医保应用创新适配区,其中国家医保测试区为国家医保平台应用系统提供开发、测试和预发布的基础支撑环境;医保应用创新适配区则为各省(市)医保应用提供需要适配的中间件、数据库、大数据以及数据迁移提供测试验证环境。
上海市医保信息平台搭建在大数据中心“政务云—专有云”上,依托“一网通办”“一网统管”,与卫生健康、药监、民政、人社等部门的信息进行共享和数据对接。建立了医保智能监控知识库,包括知识库、监控规则库、分析指标库和大数据主题模型库,应用知识图谱和无监督机器学习等方法构建基于知识图谱的规则逻辑风控预警模型,全面推进医保智能监管。设置总览、智能监控、行政执法、信用监管和综合评价五大版块,贯穿线索发现、调查取证、违规处理、结果应用四大环节,具备事前提醒、事中控制、事后追踪三大功能。
重庆市探索搭建适合本地的招采子系统、“重庆渝快保”平台及高血压糖尿病管理平台,在监管方面尚处于研究阶段。上海、海南都探索建立了知识库、规则库,探索多卡聚集等群体分析模型以识别异常就医行为。上海还探索用于资源分配的医保总额预算模型。
海南省医保智能监管系统着重建设了知识库和规则库作为重要支撑,最初规则有3000余条。根据规则审查与人员审核结果符合情况、医疗机构反馈情况不断修正规则,截至2023年4月,规则库共有规则1300余条,覆盖了事前提醒、事中预警、事后审核各监管环节。同时,医保智能监管系统又开发应用了多个数据模型,如群体行为分析中的群体住院骗保模型,即同一群体在同一时间段内以相似的高报销比例病症住院等。
上海市利用医保大数据开展医保资金分配和医患行为分析。医保预算总额分配模型,即综合运用资源布局、经济运行、医疗产出等指标,通过多因素分析和高频数据双模型预测,预测所得基金支出用于预算分配。分别针对医师、患者建立了可疑问题模型,通过大数据挖掘发现的可疑线索,跟踪调查取证、约谈、确认违规行为并处理。“医师画像”针对理疗、康复、中医治疗等三大类服务建立无监督机器学习,对疑点医生打分,根据分数建立红、橙、黄三级预警机制。多卡聚集模型是根据骗保嫌疑人持多张社保卡到多家定点机构频繁购药行为特征而建立,利用模型判断识别可疑行为,最终锁定嫌疑人。
本文基于内外部竞争环境和竞争条件,分析我国医保大数据挖掘应用的优势(strengths)、劣势(weaknesses)、外部机会(opportunities)和威胁(threats),为制定发展策略提供依据(见图1)。
图1 医保大数据挖掘SWOT分析
我国医保大数据挖掘具备共建、共治、共享的体制优势。国家出台一系列政策文件和规范,从组织领导到基础设施,从平台建设到运维管理,从数据标准到跨地区、跨部门共享机制,医保信息平台由上至下迅速铺开,医保大数据覆盖范围广,数据质量高。
我国医保大数据挖掘和应用存在地区适应性不强、数据挖掘深度不够、多源数据交互不足、专业性人才缺乏等问题。各省份医保信息平台建设周期较短,距离“好用”“善用”还有较大差距。医保信息平台普遍建在省一级,但医保具体工作主要在地市一级落地,基础版本与地市实际业务管理需求有一定距离,应用场景相对单一。另外,医保相关数据分布较为分散,其调取、整合与分析对人员专业能力要求较高,但人才队伍建设滞后。与卫生健康、疾控、公安、税务等部门的数据共享不足,多源数据交互的质控、标准化水平有待进一步提高。
政府、社会对医保大数据的认识、重视提升到新的高度,形成政府引领、多方参与的格局。一方面,政策不断落地支持医保改革,促进医保数据开放共享,并助力建成全国统一平台。《“十四五”全民医疗保障规划》《医疗保障基金使用监督管理条例》《医疗保障基金智能审核和监控知识库、规则库管理办法(试行)》等文件陆续发布,要求不断延伸医保信息平台服务的深度和广度。另一方面,医疗大数据投资快速发展,中国健康医疗大数据应用市场规模快速增长,行业研发投入力度也在不断加强,这将进一步提升医保大数据的挖掘和技术应用水平,从而推动技术的不断创新和发展。
一是医保大数据多源化、广泛化、标准化、共享性、安全性带来的挑战。出于安全性考虑,大部分地区医保数据应用采用单向传递模式,导致地市一级医保部门仅有只读数据库的查询使用功能,多部门数据共享也存在一定壁垒。但数据共享也可能导致数据的跨机构传输和暴露,增加数据隐私被侵犯的风险,有待于进一步完善管理制度和技术手段。二是医保数据应用场景相对单一,集中在医保支付和医保监管领域,对于药品耗材等医保资源管理、医保资金的有效配置、宏观决策体系支撑等领域的应用不足。需进一步基于更大量级的数据、更高算力和更加创新的算法,实现更大程度上以数据为出发点,以数据驱动的人工智能化应用。
医保大数据赋能医保管理高质量发展,需要顶层搭建平台、多方联动治理、明晰挖掘流程、拓展应用维度,多个层面配套支持完善大数据应用生态(见图2)。
图2 医保大数据挖掘流程与应用场景框架
医保大数据建设和挖掘应用不仅是一个技术问题,更涉及数据资源整合、平台架构和治理机制等。一是进一步加强顶层设计,构建矩阵支撑体系。以国家医保信息平台为依托,进行本土化创新,满足纵向、横向数据共享交换需求。二是分类推进,因地制宜转型升级。我国各地医保信息化进程不一,在数据资源、基础设施、技术水平和人员队伍等方面均存在较大差异,应因地制宜、分类推进医保大数据建设。
建立医保大数据挖掘、医保管理应用组织体系及联动机制,有效推进数据开发利用和成果转化。纵向上,加强医保部门“国家—省—市”联动,以及医保不同业务部门、行政机构和事业单位合作;横向上,加强与公安、卫生健康、民政等部门协同,理顺“产、学、研、用”一体化合作机制。
数字化赋能需进一步扩展数据内容、提高数据质量、深化数据利用和法制治理。一是加强多元数据整合,提升数据质量。建立跨部门、跨区域的数据联通和共享协议,做好大数据分级分类统筹管理。重视主数据的价值,通过唯一标识码(例如,以身份证为唯一标识码)联合不同数据源,建立统一的数据格式和编码规范,自上而下贯标,确保数据的准确性、完整性和一致性。二是引入新技术,深化数据挖掘应用。联合高校及科研机构、技术公司等合作平台,以业务需求、解决问题为导向设计创新算法和模型。例如,基于图像识别的医学影像分析、基于自然语言处理的医疗文本挖掘等。为了进一步提升数据挖掘结果的可靠性,在投入实际应用前进行验证和评估,定期回顾评估已应用的大数据挖掘技术,并持续改进优化。三是推进数据法制化管理。在医疗大数据治理过程中,数据安全成为高风险点,要通过“制度+科技”加以解决,通过法规和政策明确医疗数据的知情权、使用权和个人隐私权等。随着大数据挖掘在医保领域的不断深入,数据使用中将可能不断出现新的问题,需要相关部门及时跟踪,不断完善法治建设,明确国家、机构、组织、个人对数据的权利范围。
综合各地医保大数据挖掘应用经验,可概括为四个环节。其一,准确定位、明确问题。对问题的本质进行准确提炼和总结,对逻辑关系进行提取和具象。其二,合理设计构建模型。把问题细化分解,将每一个核心业务活动定位到发生问题的根本矛盾点,以不同问题维度组合,有针对性地构建模型。其三,数据探查、设计分析路径。把抽象问题带入现实并初步获得数据探查结论。协同数据挖掘人才资源,汇总大数据分析路径。其四,模型推广与优化。在总结上述工作基础上,不断优化更新数据模型以在更大范围推广。利用先进信息技术,挖掘解读数据背后的深层含义,切实解决医保管理决策的难点,真正合理、科学地优化监管资源配置。
当前,大数据挖掘在医保管理中的应用主要是监管、费用监测,在引导医疗行为、提升服务效率和质量等方面作用有限,下一步可在医保资金分配和医疗资源管理方面进行挖掘。在医保资金总额分配上,注重发挥改革引导、健康需要导向的作用,纳入“改革因子”引导结果方向;引入年龄结构、健康状况等“现实需要”因素进行模型调整。在医疗资源管理上,我国目前主要利用远程、人脸识别、生化指标匹配等技术识别违规医疗行为。未来发展不仅要加强深度,进一步分析医疗资源使用合理性、正负性事件间关联、资源使用与疗效间因果关系,精准防范医疗风险,提升健康效果,还要扩宽广度,打通运营(医院、药店)、行政(医保、卫生健康)、执法(药监、公安)等监管各环节,贯通全链路的智慧监管,提升监管和执法效率。
医保大数据体量庞大、类型繁多、来源庞杂、专业度高,结构化与非结构化数据混杂,对人才的专业性和综合性需求愈加凸显。应推动高校加大对复合型人才培养力度,以项目为载体发展人才与多学科团队,充分调动社会各方人员能动性,在“可用不可见”的隐私计算技术保护个人隐私信息前提下建立开放平台,鼓励多元队伍共同开展研究,有效弥补大数据人才缺口。
此外,加大政策宣传,建立政府领导、多方参与、资源共享、协同推进的工作格局。研究制定政府支持政策,从财税、投资、创新等方面对医保大数据开发应用给予必要支持。推进国际大数据交流合作,积极引进先进技术,提升我国大数据应用水平、产业核心竞争力和国际化水平。
数据挖掘是强大的工具,挖掘结果的可靠性是应用于管理决策的前提,而结果的可靠性又依赖于实践反馈。新形势下医保管理面临诸多挑战,要充分利用医保大数据及其挖掘技术,推动医保从“管理”迈向“治理”。大数据挖掘应用于医保管理将向平台化、智能化发展,从治理、技术、人员和应用层面全方位激活数据要素潜能,以健康为导向、以业务为靶点,按照数据挖掘应用流程从资金分配、资源管理、医保监管多维度驱动医保管理变革,通过实时交互、双向反馈,不断提升医保管理效能。