Apriori算法在移动教职工健康管理平台中的应用①

2018-08-03 05:18
关键词:服务端教职工关联

, , ,

(安徽机电职业技术学院信息工程系,安徽 芜湖 241000)

0 引 言

近几年,随着国家对教育的大力投入,教师待遇有了显著提高,学校也增加了对教职工的健康投入,基本做到了定期体检[1][2]。为了建立教师健康档案,更好地对教职工进行健康评价和干预管理,很多学校引入了移动教职工健康管理平台。对于健康管理平台在使用中产生的大数据集,需要使用数据挖掘算法对其进行价值提炼[3],探讨教职工健康问题之间的潜在关联,为教职工提供更多的健康指导数据。

健康管理平台选用经典关联规则Apriori算法对健康数据进行关联分析,重点关注特殊教职工人群,并通过云计算技术与网络数据进行对比,给出合理的健康评价和干预措施,平台具有自动扩展收缩、负载匀衡、安全性高、扩展服务方便等优势。

1 健康管理平台模型与功能

1.1 系统模型

健康管理平台系统分为终端应用层、服务端系统、健康数据关联分析模块和云计算平台四个部分,如图1。

1.1.1 终端应用层

健康管理平台终端分为移动端和PC端两部分,实现健康数据的采集和输出。移动端主要包括智能手机、平板等,可通过自带传感器采集用户健康数据,并将数据通过无线网络传输到服务端系统,同时,还可以向服务端请求数据,实现用户交互功能;PC端的使用者主要包括体检医院、校医院、系统管理者和用户,通过与服务端的数据交互,可实现体检数据的录入、健康数据的检索、用户权限的设置等。

图1 健康管理平台系统模型

1.1.2 服务端系统

服务端系统用于处理来自终端的数据请求,通过访问数据库和健康数据关联分析模块,将用户数据以HTML页面的形式返回终端数据。服务端系统可实现应用功能与业务逻辑相分离,保证数据的准确性和安全性。

1.1.3 健康数据关联分析模块

为了实现体检数据的利用率,需要深度挖掘数据价值,发现数据之间的潜在关系,为教职工提供健康评价和干预措施。经典的关联规则算法Apriori是一种频繁项集算法,用于挖掘布尔关联规则,将其应用于健康数据关联分析模块,可分析每位教职工的周期性体检数据,关注他们的生活习惯对健康变化的影响,还可以分析教职工疾病,如患高血压、高血脂、肩周炎、颈椎病等之间的关联规则,帮助进行健康干预和疾病提醒。

1.1.4 云计算平台

云计算平台的应用,更好的集成了计算需要,不对客户终端特别是移动终端的计算能力做过多要求,客户终端只需要进行简单的数据采集和传递就可以了,提高了健康管理平台的兼容性和用户体验度。并且云平台具有自动收缩、负载均衡、安全性高、扩展方便的优势,方便后期平台的维护和扩展。

1.2 系统功能设计

通过调研,移动教职工健康管理平台的系统功能设计如图2所示。

图2 健康管理平台系统功能

主要功能包括:数据采集、健康管理和数据管理。数据采集包括体检数据和传感器数据的采集。体检数据由体检医院提供,用户移动终端自带的气压传感器、心率传感器、血氧传感器、加速度传感器、温度传感器等可向服务端提供用户地理位置、用户心率、用户运动情况、用户体温、用户血氧分压等一系列基础数据;健康管理功能可以为用户提供健康提醒、疾病预防和数据对比服务,当用户有不利于健康的生活习惯,或者身体某指标异常时,可实时对用户进行健康提醒;当用户处于传染病高发区域或季节,或者是某疾病的高发对象时,可实时对用户提供疾病防治信息;为不同的用户角色设置不同的数据管理权限,普通用户仅能进行数据查询,管理员可以进行数据修改和删除,最大程度地保障了数据安全。

2 数据预处理与Apriori关联规则算法

2.1 数据预处理

在进行关联分析之前,服务端系统需要对采集数据进行预处理,使之符合Apriori算法处理的需求。具体包括(1)同类属性识别。由于数据来源的不同,提交的同一类数据属性名称可能不同,服务端系统需要把它们转换为同一属性名称。(2)数值单位转换。对于不同的数据源,数值单位可能不同,比如,身高数据提交的时候,以米和厘米为单位,数值分别为1.65和165,服务端系统要能准确地识别它们并转换为标准单位下的数值。(3)去除无用数据。如果数据间具有推导关系,服务端系统就要去除可推导数据,比如出生年月由年龄可以推导出,就可以去除掉。(4)数据去连续化。通过用户终端传感器和医院体检采集来的数据可以划分为离散型和连续型两大类,对于连续型数据,必须对其进行离散化,将其映射为保留原有次序的整数区域,使之符合布尔关联规则Apriori算法的要求,比如,将连续型数据“年龄”划分为[0,6] [7,17] [18, 40] [41, 65] [66,max]。

2.2 Apriori关联规则算法

Apriori是一种经典的布尔型数据关联规则挖掘算法,由Agrawal&Srikant于1994年提出,用于寻找出大数据集中数据间的关联或联系。Apriori算法先设定最小支持度和最小置信度,将关联规则的发现分为两步:第一步是找出所有支持度不小于用户指定的最小支持度的频繁项集[4][5],支持度Support(A->B)见公式(1);第二步从频繁项集中构造其置信度不低于用户给定置信度的强关联规则,置信度Confidence(A->B)见公式(2)。即同时满足最小支持度和最小置信度。算法易实现,基本步骤可分为连接和剪枝。Apriori算法伪代码如图3所示。

Support(A→B)=P(A∪B)=

(1)

Confidence(A→B)=P(B|A)=

(2)

图3 Apriori算法伪代码

3 Apriori算法在移动教职工健康管理平台中的应用

Apriori算法可对大数据集进行关联分析,挖掘发现数据间潜在的关联规则。在移动教职工健康管理平台中,有多处应用。比如,可以挖掘用户的行为数据与疾病之间的潜在关联;可以挖掘特定人群与特定疾病之间的潜在关联;可以挖掘特定季节和区域与疾病之间的潜在关联;可以挖掘疾病与疾病之间的潜在关联。篇幅关系,仅介绍Apriori算法对疾病与疾病之间的关联挖掘。

3.1 Apriori算法关联挖掘疾病规则

对某高校2013-2016年的6700条体检数据进行预处理,具体包括同类属性识别、数值单位转换、去除无用数据、数据去连续化,并用C++对Apriori进行编程实现,设置最小支持度为22%,最小置信度为34%,得到关联规则六条,置信度保留两位小数,由高到低排序。

心功能不全→冠心病,可信度: 0.57

(1)

冠心病、脑梗塞→高血压病,可信度: 0.53

(2)

心率失常→冠心病,可信度: 0.46

(3)

高血压病,脑梗塞→冠心病,可信度: 0.45

(4)

冠心病→高血压病,可信度: 0.37

(5)

颈椎病,高血脂病→腰椎间盘突出,可信度: 0.31

(6)

3.2 关联结果分析

(1)当用户患有心功能不全,健康管理平台应该定期提醒用户做冠心病筛查并给出生活注意事项。

(2)当用户患有冠心病和脑梗塞,健康管理平台定期提醒用户测量血压,并给出预防建议。

(3)当用户患有心率失常,健康管理平台定期向用户普及冠心病知识,并提醒用户定期筛查。

(4)当用户患有高血压和脑梗塞,健康管理平台定期提醒用户筛查冠心病,并普及疾病知识。

(5)当用户患有冠心病,健康管理平台定期提醒用户测量血压,关注用户饮食习惯,普及疾病知识。

(6)当用户患有颈椎病和高血脂病,健康管理平台定期提醒用户关注腰椎健康,给出腰椎间盘突出的防治知识。

4 结 语

移动教职工健康管理平台分为终端应用层、服务端系统、健康数据关联分析模块和云计算平台四个部分,主要功能包括数据采集、健康管理和数据管理。介绍了数据预处理方法和Apriori关联规则算法,并以教职工疾病之间的潜在规则关联挖掘为例,阐述了Apriori算法在移动教职工健康管理平台中的应用。平台具有兼容性高、用户体验好、负载匀衡、安全性高、扩展方便等优势。

猜你喜欢
服务端教职工关联
渭南师范学院“喜迎二十大 奋进新征程”教职工书画作品选登(一)
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
集大教职工抗疫优秀作品选登
“一带一路”递进,关联民生更紧
从教职工福利谈高校工会工作的创新
新时期《移动Web服务端开发》课程教学改革的研究
奇趣搭配
智趣
浅谈教职工思想政治工作
摸清黑客套路防范木马侵入