宋恒晓, 蔡岩
(1.衡水市人民医院 医保科(城乡结算处),河北 衡水 053000;2.河北师范大学 软件学院,河北 石家庄 050024)
有效的经济规划是确保医疗组织财务可行性的必要基础。大型医疗机构如果能够制定出合理和准确的财务决策,则能够在应对市场的变化时具有显著的竞争优势。在医疗机构内部,财务风险控制是维护医院的正常运营和可持续发展的关键[1],是公立医院长期总体规划能够安全执行的重要保障。
目前主流方法是对财务管理系统进行改进,通过服务端的记录、统计和计算来实现财务的自动化数据分析,以解决用户从海量财务信息中快速获取价值数据并进行预警的问题[2-4]。例如,庾致玮[5]提出的利用基于熵权方法来构建大型金融风险预警系统,对房地产公司的财务预警能够基本符合现实情况。Qu M等[6]针对传统主成分分析方法只关注全局结构特征而忽略局部结构特征的问题,提出一种基于改进核主成分分析的公立医院财务风险预警模型,以提高风险评估能力。蔡欢等[7]提出了基于遗传算法优化径向基函数(Radial Basis Function,RBF)神经网络的公司财务预警模型,主要利用遗传算法对径向基函数神经网络模型进行改进。实证结果表明,基于遗传算法的径向基函数神经网络模型的预测准确率有所提高。然而,上述已提出的方法均没有分析并解决大数据技术下财务数据的复杂性问题,并且大多数仅对短期预测有效[8-10],因此无法满足公立医院长期发展需求。
因此,针对公立医院财务风险较为集中的特点,本文提出构建基于深度卷积网络的预测模型,并采用狼群算法优化(Wolf Pack Algorithm Optimization)偏向参数,将偏向参数作为狼群进行训练,以便提高其参数优化效率,最终的实验结果验证了其可行性。
公立医院财务管理系统中各部门之间数据的用途和格式均存在较大差异,此外,还包含大量对于财务预警没有关联的冗余数据,因此必须在数据分析之前对系统中现有的所有报表进行数据清洗。
针对公立医院财务风险较为集中但是存在缺失、格式不统一和重复内容等问题,本研究采用4个过程来实现数据清洗功能,具体如下。
1)步骤1:缺失值补全。根据经验分析,将判断是否存在缺失的条件设为0.8,且根据0.8的条件对输入的财务数据特征序列进行分类,过滤并保留小于0.8条件的特征列,需要注意的是,这里删除序列的缺失值需要以“0”值进行填充补全。
2)步骤2:格式标准化。对输入财务数据的保存格式进行标准化处理,例如每一条数据的录入时间的格式均修改为“2020-11-08”;
3)步骤3:重复内容删除。在步骤2结束之后对数据进行第二次重复的筛选,这次筛选的目的是剔除掉具有重复内容的特征列[11],需要注意的是,在剔除多个重复的特征列时必须保留一个,从而避免过度删除。
4)步骤4:非必须数据删除。删除掉数据样本中不处于财务预测周期中的数据特征列,从而大幅降低需要处理的数据规模。
最后,利用逗号对处理后的数据进行固定长度的分隔,从而形成文本数据,这种方法有利于数据的降维。
为了尽可能地减少过拟合现象的发生,就需要加强预测关系映射的样本列的关联度。
由于财务预警任务属于非线性应用问题,因此本研究尝试使用在非线性问题中表现较好的L1范数正则化来完成特征选择。首先,计算数据清洗后特征序列的L1范数评分值。然后,适应度的阀值设置为0.6,也就是说过滤掉评分值小于0.6的特征,从而进一步促进数据降维。最后,过滤后的特征序列中仅剩下如“68.12,床位费用”“2 000.37,药品费和门诊收入”等关键信息。
在清洗和特征选择后,财务数据已经进行了有效的降维处理,但是数据特征的取值范围仍存在不同的问题,无法进行后续的模型预测。因此,本研究通过简单快捷的均值方差归一化方法对清洗和特征选择后的样本进行归一化,具体计算式如式(1)。
(1)
其中,min表示最小值;max表示最大值;X表示输入特征值;Xscale表示归一化后的特征值。
对大型公立医院来说,财务预测问题呈现出规律性的周期性模式,类似于资本运行的时间窗模式。因此,本研究借鉴图像处理技术中常用的滑动窗口技术,对数据样本进行滑动处理。这种技术在基于神经网络模型的图像识别应用中经常出现。窗口长度具体选择为1年,滑动样本生成的示例如图1所示。
图1 滑动样本生成的示例
在数据清洗、特征选择和归一化预处理后,通过2年时长的窗口生成财务预警模型的输入序列X=(x1,x2,…,xn),其中n为样本的数量,每个样本都需要第l层的卷积处理,具体方式如式(2)。
(2)
其中,Bl为第l层的预置值;wji为第j个输入样本所对应的偏向参数[12-13],函数f(·)的计算方式如式(3)。
(3)
网络模型通过具有n个样本的m个特征卷积池化进行预测分析,主要分为2种形式[14],如式(4)、式(5)。
(4)
(5)
其中,h×w为卷积核的大小。为了降低计算的复杂度,本研究利用式(5)的方式进行池化处理。设M=n/(h×w),输入序列X经过卷积池化后新的序列表示如式(6)。
X′=(x1,x2,…,xM)
(6)
新的样本序列X′利用式(2)完成转换过程。
令yk表示输出层中第k个节点的预测值,那么如果真实值为dk,则误差项δk的计算方式如式(7)。
δk=(dk-yk)yk(1-yk)
(7)
在财务预警模型进行训练时,网络模型中全部节点的误差E的计算式如式(8)。
(8)
为了减小卷积神经网络模型的输出误差,传统方法主要利用梯度递减方法对式(2)的偏向参数进行多次迭代,从而找到最佳的网络架构,然而传统方法需要具有专业经验的工程师人工调节,导致精度和工作效率无法满足实际需求。
(9)
其中,Ci表示第i个病人的医疗费用估计误差。
在集合Q中随机选取Tnum个狼作为领航者,那么领航者的迁移过程如式(10)。
(10)
其中,h为迁移的方向;S为权重值。i=1,2,…,Tnum,g=1,2,…,h。
根据领航者的前进方向,其他狼的迁移过程如式(11)。
(11)
其中,dk为第k个狼和头狼之间的距离,且dk∈(0,Dk)。i=1,2,…,N-Tnum-1。Dk可表示为式(12)。
(12)
其中,ω为距离权重。
最后所有狼开始向目标聚集,迁移过程如式(13)。
(13)
其中,λ表示一个随机数,取值范围为[-1,1]。z=1,2,…,N-1。
所提财务预警流程如图2所示。
图2 所提财务预警流程
为了验证所提预警模型在实际医院财务应用中的有效性,在全国范围内选择了5家省级三甲医院,统计了5家医院近4年的财务数据,其中70%作为训练用数据集,其余部分作为模型测试用数据集。如上所述,实验过程中预测窗口的长度设置为1年。
实验通过均方根误差(Root Mean Square Error,RMSE)和拟合优度(R-Square,R2)作为量化评估指标。
RMSE的定义为式(14)。
(14)
R2的定义为式(15)。
(15)
在不同网络层数下的预测性能比较如表1所示。
表1 在不同网络层数下的预测性能比较
从表1可以看出,随着层数的增加,测试集的预测性能逐渐提高,在层数为3时达最佳,R2为92.36%,RMSE为3.30%。当层数为4时又开始下降。因此,最佳的层数设置为3,后续实验中卷积神经网络模型的层数均设置为3。
此外,实验还采用了熵权方法、B核主成分分析和遗传优化RBF神经网络模型以便进行预测性能对比。如上所述,狼群优化卷积神经网络模型中隐含层层数设定为3层。4种方法的预测性能比较如表2所示。
表2 4种模型的预测性能比较
如表2所示,本研究所提狼群优化卷积神经网络在4种预测模型中表现出最好的综合性能,测试集的R2最大,为91.53%,同时RMSE最小,为3.31%。
本文提出了一种基于深度卷积网络的医院财务预测模型,并采用狼群算法优化偏向参数,将偏向参数作为狼群进行训练,以便提高其参数优化效率。仿真实验结果表明所提预警模型的R2为91.53%,RMSE为3.31%,相比其他模型表现出更好的预测准确性。未来将尝试不同深度学习模型和其他先进群体智能算法的结合。