大数据驱动的老年人护理需求预测模型开发*

2020-11-18 07:02宁珂雪蒲华秀龚海燕
医学信息学杂志 2020年4期
关键词:四川省机器神经网络

杨 娟 宁珂雪 蒲华秀 龚海燕

(四川广播电视大学 成都 610000) (四川大学锦城学院 成都 610000)

1 引言

人口老龄化现已成为我国极为严峻的社会问题。截至2018年我国60岁及以上人口已达2.49亿,失能老人超过4 000万。四川省是人口大省,60岁及以上老年人数超过2 000万,失能老年人超过300万;另一方面,作为劳务输出大省,四川空巢老人较多,对于专业护理服务呈现庞大而刚性的需求。传统基于问卷调查收集老年人护理需求的方式存在信息滞后、信息散乱、护理项目不合理、服务价格随意性大、护理效果无法跟踪等诸多问题,亟需利用新兴技术全面分析老年人健康状态、优化护理方案、预测护理需求。本文通过人工智能与机器学习等技术分析四川省基层医疗机构信息系统中2014-2019年老年人海量健康数据,构建护理需求预测模型。

2 研究目标与内容

2.1 目标

通过分析四川省基层医疗机构信息管理系统中海量公共卫生服务数据,全面掌握全省55岁以上人群健康状态与护理需求时空分布,利用机器学习和人工智能技术揭示健康状态的发展态势,构建四川省老年人护理需求预测模型,为整体描述全省未来老年人护理需求数量与类别分布、个性化护理服务定制、引导社会要素流入护理供给侧和构建老年护理市场化机制提供参考。

2.2 内容

2.2.1 刻画2014-2019年55岁以上人群“三间分布” 根据全省21个地市州 55岁以上人群的生活自理能力、认知功能、抑郁量化以及随访体检数据对其健康状态指标进行描述性分析,刻画老年人健康状态的时空分布。

2.2.2 分析健康指标变化,构建具有护理需求的人群画像 研究2014-2019年之间55岁以上人群公共卫生健康数据,基于机器学习算法设计开发全省老年人健康指标演进模型,根据模型系统构建未来需要护理的老年人群画像。

2.2.3 预测未来护理需求分布 结合老龄化进程、主要健康指标变化以及基于专家知识的护理方法,利用人工智能和机器学习技术构建护理需求模型,从整体水平上预测未来1年四川省老年护理市场总需求和个性化需求,有效促进老年人护理服务市场化发展水平。

3 关键技术

3.1 概述

首先进行数据清洗和多元数据融合,其次描述健康状态指标分布特征,再次分析四川省健康状态主要指标的变化趋势,最后通过机器学习预测未来1年全省护理需求态势。所涉及的关键技术包括:多源数据融合、健康指标分布统计学研究、基于机器学习构建预测模型、效果评价指标。

3.2 多源数据融合反馈技术

护理需求要素的日常变化以及由各种疾病引起的病源性护理需求等与养老护理运营及其效率密切相关,且随着经济发展,行业管理精细化水平逐步提升,对按需护理服务精度的要求也越来越高,需要多源数据的监测和汇总。多源数据融合,见图1。现阶段护理需求要素收集和评价手段都是单一化的,如何联合这些单一化的手段得到一项综合性、具有市场反馈机制的多源数据融合采集技术,是提供按需护理的重要手段。

图1 多源数据融合

3.3 健康指标分布统计学研究

在实际中由于健康指标的复杂性,研究对象往往表现为多指标数据。多指标数据的结构更加复杂,严格上应用三维表来表示,在平面上可以将其转换为一个二级二维表的形式,见表1。研究总体共有N个,每个样本的特征用p个指标表示(X1,X2,…,Xj,…,Xp),时间长度为T,则Xij(t、N)表示第 个样本第j个指标在t时间。

表1 健康指标分布统计学研究

3.4 基于机器学习构建预测模型

3.4.1 概述 随着机器学习广泛应用,受益于各种算法,研究如何高效地将训练好的机器学习模型部署到生产环境。从数据采集开始,经历数据分析、变形、验证、拆分、训练、模型创建、模型验证、大规模训练、模型发布、提供服务、监控和日志,再到构建完整机器学习预测模型,见图2。根据健康指标特征(长期趋势、季节性和自相关性),采用机器学习算法预测未来健康指标的演进趋势。拟采用的机器学习方法主要有长短期记忆网络、误差反传算法神经网络和最小二乘支持向量机,对其预测效果进行评价。

图2 机器学习预测模型

3.4.2 长短期记忆网络(Long-Short Term Memory, LSTM) 循环神经网络(Recurrent Neutral Network, RNN)的一种。神经网络是一种节点定向连接成环的人工神经网络(Artificial Neutral Networks,ANNs)。循环神经网络内部状态可以展示动态时序行为,与其他网络的不同之处在于其隐含层是能够跨越时间点的自连接含层,隐含层的输出不仅进入输出端,还进入下一个时间步骤的隐含层,所以能够持续保留信息,根据之前状态推出后面的状态[1]。RNN 每个时间状态的网络拓扑结构相同,在任意t时间下包含输入层、隐含层、输出层。RNN隐含层的输出一分为二,一份传给输出层,一份与下一时刻输入层的输出一起作为隐含层的输入。

3.4.3 误差反传算法(Back-Propagation,BP)神经网络 ANNs作为智能信息处理的工具之一,是模仿人的大脑神经系统信息处理功能的智能化系统,具有并行处理、容错性、自学习功能,已在模拟识别、自动化控制、知识处理及运输与通行等领域取得很好的效果。BP神经网络是 ANNs 中最具代表性和应用最广泛的一种。通常由具有多个节点的输入层、隐含层和多个或一个输出节点的输出层组成[2],见图3。

图3 BP神经网络原理

3.4.4 最小二乘支持向量机(Least Squares Support Vector Machine, LSSVM) 是一种简单的支持向量机(Support Vector Machine, SVM)。在支持向量机的基础上,通过最小二乘法,利用误差平方和选择超平面,构造平方损失函数最小二乘支持向量机,同时将SVM的不等式约束条件转换为线性等式,将二次规划问题转化为线性求解,其求解速度比SVM更快、效率更高[3]。四川省老年人护理需求特征的 LSSVM 预测模型基于该省基层医疗机构信息化系统(以下简称系统)采集的数据建立,同时还要考虑到系统所采集老年人群的变化,因此选取的输入因子包括:前i(i=1,2,3,4,5)年的5年数据。根据四川省 5 年(2014-2019 年)的资料作预测研究,得出仿真结果,再将试预报值与实测值进行对比分析。LSSVM 建模的关键在于参数γ和核函数参数δ的确定。研究表明由于径向基核函数(Radial Basis Function, RBF)对数值限值条件相对较少,模型复杂度降低,从而大大提高训练速度。采用 RBF 作为模型的核函数,其算法实现过程如下:(1)确定参数γ和δ的取值范围。(2)在参数最大取值范围内构建参数对(γ i,δ i)的二维网格平面。(3)输入每个网格节点的参数对(γ i,δ i)到 LSSVM 中,采用学习样本进行学习,并输出学习误差。取最小误差对应的节点值(γ i,δ i)为最优参数对。(4)以(γ i,δ i)E min 为中心,构建新的二维网格平面,选取数值相近的参数值进行学习,可获得更高精度的学习结果。

3.4.5 预测评价指标 依次为:平均绝对误差(Mean Absolute Error, MAE),平均绝对百分比误差(Mean Absolute Percentage Error, MAPE),均方根误差(Root Mean Square Error, RMSE)和 R2,其计算公式为:

其中Yt为t年度护理需求的老年人群,yt为机器学习算法预测的t年达到护理需求的老年人群。Ymean为需要护理的老年人的年均值线。

4 技术路线(图4)

图4 技术路线

5 结语

本研究计划在全省范围内系统、全面分析55岁以上人群的健康状态,从数据层面揭示整体健康状态主要指标的变化轨迹,为政府相关部门制定养老助老政策、构建护理服务市场化机制提供参考依据。尝试将大数据、机器学习等新兴技术应用到老年人健康状态与护理需求预测,弥补传统问卷调查、样本统计、专家知识等研究方式的不足,进一步提升护理需求评估全面性、需求信息发布集中性、护理行为规范性。该技术经产品化后,如果在全省范围内实施,既是对四川省基层医疗机构信息化管理系统功能的有力扩展,也能从全省整体水平上预测未来全省老年人护理需求态势和智能生成个性化护理方案,帮助护理需求侧与供给侧在一定约束条件下交易成本更低、护理效果更好。根据未来发展态势,一方面能够指导老年人加强自身锻炼,避免或减少未来高费用的护理项目,控制晚年生活成本,提高生活质量;另一方面引导社会资源根据护理项目的发展态势提前布局投入,为未来护理需求储备技术和人力。

猜你喜欢
四川省机器神经网络
机器狗
机器狗
前三季度四川省五大支柱产业保持平稳较快增长
神经网络抑制无线通信干扰探究
四川省土木建筑学会
基于神经网络的中小学生情感分析
四川省 多举措增强2500万 农民工获得感
未来机器城
基于神经网络的拉矫机控制模型建立
基于支持向量机回归和RBF神经网络的PID整定