◎龚锦道
随着国内医疗保险行业的飞速发展,覆盖面也正在持续扩大,医疗保险基金欺诈骗保形势也随之越来越严峻。由于违规骗保的方式非常多,而且违规操作隐秘,加上国内针对医保基金防骗防诈的有关经验略微落后,因此一直以来医保基金防骗防诈的任务都面临比较严峻的考验。当前阶段对医保欺诈行为的审核,很大一部分仍然需要依靠医保管理机构的相关工作人员检查大量的医保记录,根据以往的工作经验进行查验。这种查验过程不但工作量非常大、效率较低下,而且不足以完全确保骗保行为被正确判断,因此需要构建医保防欺诈智能审核系统从而强化信息审查,改善医保防欺诈工作的技术水平,为医保欺诈审核与监管提供现代技术支撑。本论文主要介绍医保防欺诈智能审核系统的总体设计、主要功能模块设计及成果预测展示。
针对目前存在基本医疗保险基金监管乏力,同时全国医院信息化系统中存储了大量患者的医保数据,医保数据资源并没有得到充分利用的现状,对海量医保使用的病例数据进行异常识别,实现智能化的医保数据智能审核、医保数据查询、新医保记录预测、医保基金趋势预测、医保基金统计分析,以及基本医疗保险基金收支预警,构建能够减少基金欺诈、分辨医保骗保的技术支撑。提供基本医疗保险医疗服务管理和质量控制服务的决策依据和技术支持,为政府多部门联合决策提供数据支撑,通过海量复杂的已知医保数据建立某种数据模式,从而预测骗保行为的可能趋势,进一步保证基本医疗保险基金的合理有效利用提供有力的技术支撑。
基于医保欺诈数据,医保防欺诈智能审核系统选取目前Python的主流Web开发框架Django进行医保审核系统的实现;使用MySQL作为底层的数据库以及医保数据的持久化管理软件。该系统主要的功能模块包括:智能分析模块、智能服务模块、可视化模块,本文所设计的系统架构如图1所示:
图1 医保智能审核系统架构
医保智能审核系统框架主要包含数据处理层、数据智能分析层、应用展示层和用户层。数据处理层通过对从数据库中提取的数据进行数据清洗,主要包含缺失值处理、噪声处理以及数据规约与压缩,再对清洗过后的数据进行特征处理,主要包含特征选择、特征降维、特征工程三个步骤,得到最终可直接用于分类模型训练的医保数据。数据智能分析层是系统的核心算法层,主要利用本文提出的改进算法ALO-KM、KM-LR,以及传统的机器学习算法GradientBoosting、随机森林等算法对处理过后的医保数据集中费用异常和违规行为进行检测,并给出检测结果供相关审核人员进行决策。应用展示层通过构建医保数据管理及搜索、医保分类模型训练、新记录上传审核、审批基金趋势预测、医保基金统计分析以及医保基金筛选预警等可视化模块,为相关用户提供应用服务。最后用户层中为相关用户如医务人员、智能部门等提供系统的使用接口,帮助用户对医保费用异常等行为进行高效检测。
在对医保防欺诈智能审核系统的总体结构和功能模块进行分析时,应该通过从一个用户进行使用的角度来将系统中所有相关的功能与服务来设计规划,从而对系统的模块进行进一步的分析设计,通过对该系统的分析与研究,从而对医保智能审核系统有更进一步的了解。功能模块分析就是在设计系统功能模块的基础上把它细化、分化,在这个过程中找到问题并解决问题,发现缺陷并弥补缺陷,在完成各个功能模块的基础上优化每个模块接口的处理过程。本文搭建的医保防欺诈智能审核系统中各功能模块大致可分为智能分析模块、智能服务模块、可视化模块。
基于医保大数据的分析审核,能够提供对结算数据,电子病历数据,药品进销存数据,参保人参保数据,经办数据等全体量的数据综合分析挖掘,将数据挖掘和机器学习技术应用到医保欺诈检测中,挖掘病人就诊记录中的潜在价值,对医保使用记录中欺诈与违规等不合理的行为进行查验。
智能分析模块主要是利用多种算法所组成的智能分析算法核心。智能分析算法核心主要分为两部分,一部分包含对现有医保欺诈数据进行模型拟合的算法,如本文提出的KM-LR、ALO-KM算法,以及SpectralClustering、GradientBoosting、KNN、决策树、随机森林等算法,用经过数据处理和特征处理后的医保样本进行训练并进行优化,最终得到用于医保防欺诈审核的分类模型;另一部分主要是针对医保数据中医保基金的审批趋势情况进行预测,该功能使用自回归整合滑动平均模型(AutoregressiveIntegratedMovingAverageMode,ARIMA)来实现,它是一种用来进行时间序列分析预测的模型,利用ARIMA算法对医保基金数据进行建模,对基金审批情况进行预测。
(1)医保审核模型在线训练模块。
医保审核模型在线训练模块主要基于处理过后的医保数据,对本文提出的ALO-KM、KM-LR算法,以及SpectralClustering、GradientBoosting、KNN、决策树、随机森林等算法进行在线拟合,得到可靠高效的医保异常审核模型,为后续的医保数据审核提供模型基础,医保审核模型在线拟合模块处理流程如图2所示。
图2 医保审核模型在线拟合模块处理流程
如图2所示,用户可以根据自己的需求选择不同的算法,对当前数据库中经过处理的医保数据进行在线模型拟合,以规避反复使用一个陈旧的模型对日益累积的新数据进行审核时效果有所下降的弊端。新训练好的模型会暂存在系统中,以供后续的新医保记录进行审核,到下一次模型训练时将会被自动覆盖。进行模型拟合时,把经过数据预处理和特征处理之后的医保欺诈数据样本划分为训练集和测试集两部分,其中训练集用来训练分类模型,再用测试集对模型进行测试可以得到当前模型在测试集上的G-mean、BER、分数与混淆矩阵,使用户可以方便清晰的了解到当前模型的分类性能,为后续对其他新的医保样本审核结果提供可靠的依据。之所以采用这四种分数作为各个算法优劣的评价指标,是因为医保欺诈数据属于正负样本不平衡的数据,而这几种分数是评估一个不平衡类分类算法综合性能的评价指标,可以同时考虑到多个方面。
(2)医保报销审批基金在线预测模块。
医保报销基金审批金额的趋势预测模块,主要是通过对医保数据进行统计提取后,对提供的按审批日期进行排序的医保基金报销审批金额,利用ARIMA算法对基金的审批金额趋势进行预测,通过提前对基金审批趋势的了解,可以根据最近的基金审批情况,在一定程度上模拟出接下来的审批金额变化,从而让决策部门更早的发现基金运行中潜在的问题,并及时调整政策进行处理,其处理流程如图3所示。
图3 医保审批基金在线预测处理流程
智能服务模块主要是以底层的智能核心算法为支撑,实现医保智能审核系统中围绕审核医保欺诈数据的相关核心功能及服务,主要包括医保数据展示及搜索、医保基金统计分析、医保记录上传审核以及医保基金费用预警等服务。
(1)医保数据展示及搜索模块。
你遇到困难了?那是一件好事!为什么?因为,通过不断地克服困难所取得的一次又一次胜利是你成功的阶梯,每一次胜利都会帮助你增长智慧和积累经历,每次你遇到困难都用积极的心态克服困难,那么,你就会成为一个更好、更重要、更成功的人.
本模块通过MySQL作为底层数据库,可以为用户分页显示现有的医保数据记录。并且可以通过骗保记录单号或个人编码来搜索查看相应的记录,对当前页面的医保记录进行打印或导出。
(2)医保基金统计分析模块。
本模块能提供层次丰富、维度多样的统计分析图表,从不同的维度将数据转化为更容易理解的图形解释,使数据更容易被理解,对基金的使用情况进行侧面的分析展示。提供的维度包括对患者的药品费、检查费、治疗费、床位费、手术费等各种费用。通过这些不同的维度对基金报销的审批情况进行分析,能更好地让决策部门掌握医保基金使用的全局,并更好地定位其中存在的问题,为制定科学有效的决策提供强有力的数据报表分析支持。可以采用可视化工具包或第三方可视化工具对中间结果和最终结果进行数据可视化展示,本文中该模块使用Highcharts图表库设计了有一定交互性的柱状图和饼状图,对比了骗保患者与没有骗保的患者在药品费、检查费、治疗费、床位费、手术费等费用上的差异,以及各项费用占总费用的比例,形成了简洁明了的汇总分析,有助于更好地识别异常行为。
(3)医保记录上传审核模块。
本模块主要是利用医保审核模型在线拟合模块中训练得到的分类模型,对新上传的医保样本进行在线的快速审核。由于上传的医保数据多为没有经过处理的原始数据,因此需要先对上传的样本数据进行预处理,再进行预测,最终向用户分页展示出审核结果,即是否涉及骗保,本系统中仅支持上传。csv格式的医保数据文件。医保记录上传审核模块的处理流程如图4所示。
图4 医保记录上传审核处理流程
(4)医保基金费用预警模块。
对各模块进行可视化,主要是为用户提供清晰、简洁、明了的可视化界面,为用户提供方便有效的医保智能审核服务交互并展示各个服务的结果,医保系统界面一致、可靠、高效,有良好的用户体验,以便用户能轻易上手进行操作并且保证用户操作的有效性,主要包括医保数据展示,模型训练结果展示,新记录审核结果展示,医保基金审批金额趋势展示,统计图表展示,医保基金筛选预警展示等。
医保防骗智能审核系统的可视化模块使用主流Web开发框架Django及其MTV模式进行可视化界面的实现,前端页面使用了JavaScript、Bootstrap、Ajax等技术。
(1)医保数据展示界面可以通过在搜索框输入骗保记录的顺序号或个人编码来查询数据库中相应的医保记录信息。
(2)医保审核模型训练模块分成两部分,一部分集成A LO-KM、SpectralClustering、AgglomerativeClustering等算法对无监督模型进行训练;另一部分集成KM-LR、GradientBoosting、KNN、决策树以及随机森林等算法,对有监督模型进行训练,并进行测试。通过选择不同的算法来拟合医保数据分类模型。
(3)医保记录上传审核模块利用已经训练好的机器学习算法模型,对新上传的医保样本数据进行审核,预测医保样本是否涉及骗保。
(4)医疗保险基金审批金额趋势预测模块通过应用ARIMA算法,对医保报销审批金额时间序列进行预测。首先利用大数据挖掘算法、统计分析技术对医保数据集按时间进行汇总分析,得到按时间排序的每天医保审批金额的总值,然后把该基金审批金额的总值应用在ARIMA算法中,对基金的消耗趋势进行了解,可以得到真实值和预测值变化的拟合过程。
(5)医保基金统计分析模块使用Highcharts图表库提供了层次丰富,维度多样的统计分析报表,从不同的维度,侧面对基金的使用情况进行分析展示。为用户展示了经过医保数据样本的详细特征信息,包括个人编码、交易时间、检查费发生金额、手术费发生金额、本次审批金额等相关信息。并提供了多样的数据分析对比图表,更好地让决策部门掌握基金使用的全局情况,并更好地定位其中存在的问题,为制定科学的决策提供强有力的数据报表分析支持。
(6)医保基金预警筛选模块通过系统定义的记录筛选指标,并对每个指标设置一个阈值,当指标的值超过阈值则筛选出异常样本,此处该模块定义的筛选指标包括药品花销,治疗花销,住院花销,床位花销,手术花销等。
本文主要初步研究设计了人工智能在医保防欺诈数据的智能审核应用,对其进行了初步的总体设计、功能模块设计与实现。总体划分为智能分析模块、智能服务模块、可视化模块,并对其中的每个功能模块进行了介绍阐述。本文的实现证实基于医保欺诈数据的医保防骗智能审核系统具备可行性,为医保欺诈审核与医保基金的合法利用提供现代化、智能化的技术支持,为医疗保险管理机构制定及修改政策、有效利用医保数据资源、提升审核查验质量提供数据支持,具有一定的现实意义。