◆王焕力
(中国科学技术大学附属第一医院信息中心安徽 230000)
《关于加快推进人口健康信息化建设的指导意见》明确要求充分利用物联网、云计算、大数据等新技术,提升居民健康信息化应用水平[1]。在“互联网+医疗健康”发展中,第三方支付和互联网医院等信息化建设带来医疗支付交易碎片化、数据大量化、结算账户分散化等问题。集团医院分院区财务各自为政,存在问题被进一步放大,现有财务信息系统已经不能满足集团医院经营管理需要[2]。利用大数据技术建立医疗支付统一平台,集团财务对分院区统筹管理,做好各院区的财务对账,资金划拨,提高财务数据透明度、加强财务监管和运行监督、保证资金安全。同时利用大数据研究方法,对医院财务运行数据做分析、挖掘和利用,有效地服务于集团医院的经营管理和财务决策,促进医院发展。
数据作为医疗支付大数据平台的基础,为获取到优质数据,平台采用了针对性方法进行处理如下:
(1)大量(Volume)的医疗支付数据。平台对医院收入数据要求统一编码规范[3],提供标准的银行支付、移动支付、医保支付、资金批量代付等接口,将多个分院区的门诊、急诊、体检、住院、餐饮、小卖部、停车缴费等各种场景的支付数据全部纳入平台。对于支出数据,平台对接院内资金管理系统、银企直连系统、稽核系统等,最终实现多个分院区的资金收入与支出进行集中和统一管理。
(2)种类和来源多样(Variety)的医疗支付数据。数据按结构可分为结构化和非结构化方式,其中结构化数据包含充值交易、挂号交易、银企直连、医保结算等业务。非结构化数据包括药品供应商提供的纸质结算单扫描件、银行现金存款单扫描件等,这些种类和来源多样的医疗支付数据可使用分布式部署数据库、阵列式存储、数据切分、Cassandra(非结构化的非关系型数据库)等方式进行保存。
(3)真实准确(Veracity)的医疗支付数据。支付成功的订单记录交易检索号或流水号;支付异常订单可采用自动补偿机制或事务方式进行处理,保证交易原子性[4],杜绝单边账发生。平台使用多方对账模式(包含HIS方、支付渠道方、业务系统方等),平账后将多院区归集资金分账数据发送至资金清算平台,确保支付数据真实准确。
医院业务系统数量和种类繁多,例如为患者提供服务的线上就医系统、互联网医院系统、医院综合运营管理系统等,这些系统产生大量的数据需清洗后才能使用,处理方式如下:
(1)对数据进行结构化处理。原系统票据数据类型和种类的较多,大部分为纸质结算单、纸质对账单等,这种非结构化的数据基本需人工处理,无法实现电子化留存,无法用于后期大数据的应用。近几年深度学习技术的发展,单据识别(Invoice Optical Character Recognition)技术已经逐步普及,通过OCR技术将非结构化数据转为结构化数据处理,后期快速大数据特征提取及应用。
(2)对数据进行标准化处理。由于各支付渠道无法统一接口规范,导致账单格式和内容各不相同,部分医保类型甚至缺少对账用的明细账单,平台无法对这类未清洗的数据进行使用[5]。非标准化数据通过数据文件层、数据提取设置层、数据校验入库层后可转为标准化数据。数据文件层使用系统接口抓取或手工上传文件的形式获取到非标数据;数据提取设置层通过可视化页面,设置数据提取规则,比如可以设置金额+就诊号+日期+随机数四者联合作为唯一索引;数据校验入库层对错误的数据进行筛查,如收款交易为负数的数据不能入库。
以往各分院区财务依据业务场景逐个对结算银行进行对账,集团再进行汇总合并核对分院的账,基础对账工作耗时且错误率高。通过医疗支付大数据平台统一支付接口,集团财务无须手动核对分院区账务,实现结算账户的统一管理,跨院区的单边账和退费的集中处理。平台获取到各分院所有的支付数据后,可实现诸如预交金模式的资金稽核管理,通过患者分院区预交金使用明细规则出具日清分核查报表。
医疗支付大数据平台涵盖医院全场景的收入与支出,数据经过结构化处理与正确性验证,可直接用于各种维度的统计与分析,解决以往集团对分院区财务资金无法实时应用分析的痛点。
通过支付大数据分析实现财务的精细化管理,例如:
(1)平台支付数据经标准化入库后输出财务标准运营指标,按年计算医保回款率(实际年度医保到账总额/年度医保支付净额)。
(2)使用K均值聚类算法(k-means)发现患者在支付环节花费较长时间的共性原因,比如集中在某个科室且支付方式为自助机支付,那么可推测是该科室的自助机摆放位置或者数量需要调整,最终提升患者支付体验。
(3)还可以根据过往数据做出一些预测,例如根据以往同期商保支付数据预测当期商保预估支付的金额后,医院可以与商保中心沟通预支预付款,减少资金垫付[6]。
通过机器学习方法对大数据平台数据进行挖掘,利用预测指导模型对集团财务部门实现指导和决策,具体步骤如下:
(1)确认需要预测的问题和指标。通过大数据预测特定患者存在支付困难,让医院管理团队及早发现并协助患者解决支付问题,用于减少坏账的发生和增加资金沉淀[7]。
(2)通过对数据特征码的特征提取和选择评估,可以获得一批可以用来预期要解决问题的特征。例如对于存在支付困难度的患者,特征码可以是支付时间、年龄、支付渠道、支付方式、支付金额、支付地点、是否车祸患者等属性,同时特征码也可以是需要经过一定统计计算的量,例如住院合计支付过的人数、住院预交金透支次数等,甚至还可以是一些较复杂的算法得到的结果,例如通过 KNN (knearest neighbors algorithm)算法得到的是否省外患者、是否缴费积极患者。
(3)提取正确的特征后,通过模型建立从特征到目标之间的关系。针对预测型的问题,单个的模型又通常叫作预测器,例如车祸患者的住院缴费单是由多人支付完成,按照医院经验这类人群容易出现因纠纷而造成坏账的情况。现阶段平台以医院经验模型为主,因为机器学习尤其是监督型学习,需要大量的结果反馈,在解决很多实际问题的时候,大量的反馈需要投入过多人力资源且有可能对患者造成打扰。未来诸如神经网络(常用的如后向神经网络)、线性分类器(如LR)、支持向量机(SVM)、线性回归等算法模型同样可用于模型到目标的关系中。
(4)不管是根据医院经验创建的经验模型,还是机器学习的算法模型,单一模型的预测结果往往不尽人意,例如上文车祸患者如果有多人支付的经验模型,只对车祸患者有效。但是如果将成百上千个模型融合起来,就可以取得覆盖更全、准确度更好的预测效果。模型需要大量的训练,训练需要结果反馈,结果反馈包含正确结果反馈与错误结果反馈,错误结果反馈,在实际应用中相对比较容易,比如要和每一个模型预测结果为有支付困难的患者沟通确认,成本较高,还有可能打扰到预测错误的患者,但未预测到的错误结果(如产生了坏账)更容易发现,因此平台采用AdaBoosting算法方法来融合模型。经过平台不断调整模型和医院对模型预测结果的及时反馈,模型训练一段时间后可以得到比较稳定的预测结果。也因此医疗支付大数据平台的建设与应用,不光需要信息科技专业的人员,还需要具备丰富实践经验的医院其他部门的协助,才能取到好的效果。
综上所述,通过医疗支付大数据的探索和应用,解决医疗信息化建设过程中产生的交易碎片化、数据大量化、结算账户分散化等问题。集中并规范了收支数据,从而为集团和分院区提供标准、准确、精细化的财务指标,有效监控了集团院区的经济活动,达到精细化管理的目的,为防范和控制财务风险、提高经济效益和社会效益做出了突出贡献。通过对医疗支付大数据应用平台的数据进行挖掘与分析,优化就医过程的支付体验[8],利用机器学习预测模型预测患者未来支付能力,有效提升医院回款速度同时降低了医院的坏账率,有效地服务于医院的经营管理和财务决策。