曹鲁慧,秦丰林,闫中敏
1.山东大学 信息化工作办公室,济南 250100
2.山东大学 软件学院,济南 250100
医疗保险欺诈每年对许多国家造成的经济损失高达数千亿美元,严重威胁医保基金的合法使用,妨碍政府医保政策的有效实施。随着信息化的发展,越来越多的用户属性信息和行为信息被积累下来,医疗保险欺诈识别成为学者们的研究热点。医保欺诈识别旨在医疗保险大数据中抽茧剥丝,从绝大部分正常合理的医疗数据中区分出极少量的欺诈记录,由于数据量大、数据分布不均、违规行为相对隐蔽,使得医疗保险大数据中的欺诈检测成为一项具有挑战性的工作。
目前国内医保领域的医疗服务反欺诈应用系统主要通过专家定义的欺诈检测规则来圈定疑似欺诈行为,规则中阈值、权重的选择非常困难,而且现实中大部分欺诈行为比较隐蔽,按照规则一刀切计算代价非常大但准确率却极低。
已有的欺诈识别算法大多将其看作二分类问题,将记录分成合法/欺诈两个类别。但在医疗保险背景下,由于供需双方存在严重的信息不对称现象,欺诈者会努力模仿合法用户的行为,而且欺诈者的比例很小,传统的基于分类的欺诈识别算法不再适用。
近年来,随着深度学习的发展,学者们广泛使用递归神经网络(RNN)利用患者就医行为序列构建预测模型,预测患者接下来的就医行为。但是,RNN无法有效解决长期依赖关系。当患者的就医行为序列过长时,RNN模型的预测性能会随之下降。
不同就医之间具有依赖关系。将时序信息结合到算法中能够提高欺诈识别的准确率。区别于传统的事件序列数据(如股票价格等),病人的住院数据时间间隔是不均匀分布的。两次住院记录间的时间间隔可能是几天、几月甚至几年。时间间隔的长短对后续事件的影响程度是不同的,间隔时间越长,对后续的影响程度越小。图1 显示了一个病人在某个时间段内的就医行为序列,可以看出从时间分布上看,就医行为由于偶发性等原因分布并不均匀。此外,疾病和药品/诊疗项目种类繁多,医疗保险数据是异构的。若能够根据患者的就医行为序列历史预测其下一次就医行为,能够有效帮助进行医疗保险欺诈的预防工作。
图1 患者就医序列
针对上述问题和挑战,本文旨在解决以下关键问题:如何考虑时间间隔对医疗行为的影响以提高预测的准确程度;如何通过预测结果与现实就医行为的对比来筛选出可疑的欺诈记录。为了解决这些问题,提出了一个基于TLSTM的医疗保险欺诈识别模型。该模型使用过去五年中患者的医疗保险数据作为样本。改进LSTM 提出TLSTM 算法,引入注意机制和时间调整因子来共同加权不同时刻的隐藏状态,显著提高了预测性能并获得较高的欺诈识别准确率。
总之,本文的主要贡献如下:
(1)在LSTM 的基础上,引入注意机制和时间调整因子来共同加权不同时刻的隐藏状态,显著提高了预测性能。
(2)将患者的就医行为与预测的就医行为结果进行对比,通过其相似程度确定患者存在欺诈的概率,无需花费很大精力获得大量有标签数据作为训练集。
基于深度学习的医疗欺诈检测能够根据历史记录识别出各种复杂类型的医疗保险欺诈。
Choi[1]提出基于graph的注意力模型GRAM补充电子健康记录医学本体所固有的分层信息,代表一个医学概念作为本体通过注意力机制的组合模型。Kermany[2]建立了一个基于深度学习框架的筛查普通可治疗致盲性视网膜疾病的诊断工具。该框架利用转移学习,使用传统方法的一小部分数据来训练神经网络。将这种方法应用于光学相干断层扫描图像数据集,证明其性能与人类专家在分类年龄相关性黄斑变性和糖尿病性黄斑水肿方面的性能相当。Litjens[3]将“深度学习”作为一种提高组织病理学幻灯片分析的客观性和效率的技术。Golden[4]比较了几种机器学习方法来检测医疗保险欺诈。采用监督式、无监督式和混合式机器学习方法进行比较研究,使用四种性能指标和通过过采样和80-20 欠采样方法减少类失衡。
Baytas[5]提出了一种患者亚型模型,该模型利用TLSTM来学习患者顺序记录的强大单一表示,然后用它将患者分组为临床亚型。Pham[6]介绍Deepcare,一种端到端深度动态神经网络,可读取医疗记录,存储以前的病史,推断当前的疾病状态并预测未来的医疗结果。Ma[7]提出了Dipole,是一种端到端,简单且健壮的预测患者未来健康信息的模型,用双向递归神经网络来记忆过去入院记录和未来入院记录的所有信息,并引入三种注意机制来测量不同入院记录对于预测的关系。Liu[8]提出了一个深度加强学习框架,以通过观察医学数据估计最佳动态治疗方案。该框架比现有的强化学习方法更灵活,更适应高维空间,以模拟现实生活中异质疾病进展和治疗选择的复杂性,其目标是为医生和患者提供数据驱动的个性化决策建议。Lasaga[9]展示如何有效地利用RBMs 来找出不严格遵循给定诊断对应治疗方案的异常处方。Guo[10]对连续行为产生的属性行为序列进行建模,以捕获序列模式,将那些偏离序列的行为视为欺诈行为。Zheng[11]提出了一种基于生存分析的欺诈早期检测模型SAFE,该模型将动态用户活动映射到生存概率,并保证生存概率随时间单调递减。Yan[12]提出了一种新的混合离群点检测方法,即基于剪枝的k近邻(PB-KNN),它将基于密度、基于簇的方法与KNN 算法相结合,进行有效的离群点检测。
上述相关研究都获得了令人满意的欺诈识别效果,然而,它们大都针对于特定疾病类型进行欺诈识别,此外,没有考虑就医行为序列中的长时依赖问题。因此本文考虑不同时间间隔对于就医行为预测的影响,并提出针对于全部疾病类型而非单一疾病类型的欺诈识别算法。
本章中,首先介绍了医疗保险数据的结构一些基本的符号。然后描述了基于LSTM 的医疗保险欺诈识别算法细节。
医疗保险数据包含三部分信息:(1)患者的基本信息;(2)患者的就医记录信息;(3)欺诈标识状态。
患者的基本信息指患者的年龄、性别、住址等属性信息。形式化表示为pi=(agei,sexi,addressi,…)。
患者的就医记录信息可以表示为就医序列,由按时间递增顺序产生的一系列就诊行为组成。每次就诊行为由疾病诊断和采用的药品/诊疗项目组成。患者pi的就医记录信息形式化表示为pv=(v1,v2,…,vt),每次就诊行为可表示为vj=(hj,dj,cj1,cj2,…,cjn),hj表示该次就诊的医院,dj代表患者该次就诊的疾病诊断,cj1,cj2,…,cjn指的是该次就诊中所使用的药品/诊疗项目代码。每个诊断代码都可以映射到国际疾病分类(ICD-9)的节点,以及每个药品/诊疗项目代码可以映射到当前过程术语中的节点(CPT)。
输入为患者在时间段T内的就医记录,旨在通过预测t+1 时刻的用户就医行为,然后与其实际行为进行对比,相似度越小,存在欺诈的可能性越大。
递归神经网络(RNN)是一种深层网络结构,其中隐藏单元之间的连接形成一个定向循环。这个反馈循环使网络能够将隐藏状态的前一个信息作为内部存储器。因此,对于系统需要存储和更新上下文信息的问题,RNN 是首选的。基于隐马尔科夫的模型也具有类似的功能,但区别于传统的隐马尔科夫模型,RNN不做马尔可夫特性的假设,可以处理可变长度序列。此外,原则上,过去输入的信息在内存中不受时间限制。然而,长期依赖性的优化在实际中是不可能实现的,因为在这种情况下,梯度值将分别变得过大或者过小。为了能够在不违反优化过程的情况下合并长期依赖关系,会产生差异。其中一个流行的变种是长短期记忆网络(LSTM),它能够处理具有集成结构的长时间依赖关系。一个标准的模块对忘记、输入、输出门和存储器单元进行了计算,但是结构要求在元素之间的间隔时间内均匀地分布。因此,在纵向医疗数据中存在的时间不均匀性不适用于该逻辑结构。例如,患者的就医行为日期的分布是高度不均匀的,这样记录之间的时间间隔可以从一天到几年不等。由于连续两次医院就诊之间的时间间隔是医疗领域决策的重要来源之一,LSTM体系结构会将正常的时间间隔纳入到时间数据所需的审计数据中。为此,提出了TLSTM算法,能够处理就医行为间隔分布的不均匀性。
首先,算法利用改进的LSTM算法预测患者在t+1时刻的行为预测。
图2显示了算法的主要步骤。给定患者从1到t时刻的就医行为记录,i时刻的就诊行为可以映射为一个向量veci。将其作为TLSTM 的输入,获得隐藏状态Hi。通过attention机制,可以计算当前i状态的相对重要权重。最终,算法输出t+1时刻的就医行为预测结果。
图2 算法结构
Embedding Layer嵌入层用于将输入的患者从1到t时刻的就医记录映射为向量vec。若使用该药品/诊疗项目,则向量中对应值为1,否则置为0。对于输入x=pv=(v1,v2,…,vt),其映射向量vec可以表示为:
A表示药品/诊疗项目的权重矩阵。
RNN 为建模患者就医时序数据提供了可能,但RNN 的预测性能会随着时序序列的长度增加而下降。LSTM可以克服该缺点,但它没有考虑不同时间间隔对预测结果的不同权重。为了解决以上挑战,提出引入时间间隔的TLSTM,它考虑时间序列间不同时间间隔对预测的不同影响程度。图3为TLSTM的示意图。
注意力机制模拟人脑注意力的特征。该核心思想是更多地关注重要内容,而不是关注其他内容。在住院行为预测的过程中,传统的神经网络模型忽略了访问时间间隔长度的影响关于建模的序列,因为每次访问对当前时刻的贡献不一定是一样的。因此,考虑到并非所有特征都有助于预测,将注意力分数和时间调整因子添加到LSTM框架,在患者就医序列的建模过程中用于确定隐藏状态的强度。
图3 引入时间间隔
TLSTM能够根据疾病类型和时间间隔控制前面信息的通过程度。算法实现过程如下:
首先,通过忘记门的Sigmoid 层决定要从细胞状态中丢弃什么信息。它查看ht-1(前一个输出)和xt(当前输入),并为单元格状态Ct-1(上一个状态)中的每个数字输出0和1之间的数字。1代表完全保留,而0代表彻底删除。Δt表示行为间的时间间隔,不同的时间间隔对信息的保留程度产生影响。时间间隔越久,信息保留程度越小。
然后决定要在细胞状态中存储什么信息。这部分分为两步。首先,称为“输入门层”的Sigmoid层决定了将更新哪些值。接下来一个tanh 层创建候选向量Ct,该向量将会被加到细胞的状态中。在下一步中,结合这两个向量来创建更新值。
更新上一个状态值Ct-1,将其更新为Ct。将上一个状态值乘以ft,以此表达期待忘记的部分。
输出将基于细胞状态,但将是一个过滤版本。首先,运行一个Sigmoid层,它决定了要输出的细胞状态的哪些部分。然后,将单元格状态通过tanh(将值规范化到-1 和1 之间),并将其乘以Sigmoid 门的输出,至此输出了决定的那些部分。
获得输出的预测就医行为之后,计算该患者在t+1时刻的实际就医行为与预测的就医行为之间的相似度。若相似度较高,说明该次就医行为存在欺诈的可能性较低,反之,存在欺诈的可能性较高。
在真实数据集上评估提出的模型。为了保护隐私和安全,对相应的患者和医院的实验数据进行匿名化,如使用Hospital-A、Hospital-B来代表医院的名称。
中国山东省某地区的健康保险数据用于实验,主要选择了患者2014 年至2018 年总费用最高的四大疾病。四种疾病包括肿瘤、冠心病疾病、糖尿病和肺炎。这些就医数据包括诊断,医院和药品/诊疗项目。为方便起见,使用TD来表示肿瘤数据集,CHDD代表冠心病数据集,DD 代表糖尿病数据集,PD 代表发送肺炎数据集。表1描述了有关数据集的统计信息。
与已有医疗保险欺诈识别方法进行比较,以便评估TLSTM模型的性能,方法描述如下。
朴素贝叶斯(NB)[13]:将欺诈识别看作二分类问题。
梯度提升树(GBDT)[14]:基于迭代所构造的决策树算法。
RNN[15]:这是传统的单向递归神经网络,在不使用任何注意机制的情况下输出未来的就医行为。
TLSTM:本文提出的模型,考虑时间间隔对医疗的影响。
表2展示了利用TLSTM预测就医行为所在医院的结果实例。
表2 医院预测
将患者的就医行为与预测的就医行为结果进行对比,通过其相似程度确定患者存在欺诈的概率。若相似度较高,说明该次就医行为存在欺诈的可能性较低,反之,存在欺诈的可能性较高。采用准确率、召回率和F-meausre作为评价标准来评估算法的性能。对于所有带参数的方法,通过进一步将训练集划分为80%用于模型拟合和20%用于参数验证来优化参数10 次交叉验证。图4 显示TLSTM 算法与对比算法的性能比较结果。从图中可以看出,本文的算法较已有算法显著提高了欺诈识别的准确程度。
图4 性能对比
近年来,随着中国人口数量的迅速扩大,医疗保险的参保患者人数也不断增加。如何通过患者的就医行为分析发现疑似欺诈记录已成为医疗保险的重要研究热点。当患者就诊序列的长度很大时,RNN 的预测能力会显著下降。此外,该方法忽略了访问序列中时间间隔对其的影响。基于TLSTM的医疗保险识别模型解决了这些问题。将用户的历史就医行为序列作为TLSTM模型的输入,预测患者再入院原因及诊疗方案,通过比较模型输出与用户当前就医行为的差异程度,来判断用户存在欺诈的可能性。实验表明,该算法在欺诈识别准确度上明显优于已有算法。