基于关联规则数据挖掘的大学生体育锻炼行为 阶段体质健康知识发现

2020-07-31 07:46张崇林王世香胡达道
关键词:序号数据挖掘关联

张崇林,王世香,王 卉,胡达道

(1.井冈山大学体育学院,江西,吉安 343009;2.井冈山大学体质研究中心,江西,吉安 343009)

1983 年,Prochaska 和DiClemente 提出阶段变化理论,认为行为变化由变化阶段、均衡决策、变化过程和自我效能(self-efficacy)等4个因素组成。将该理论应用于体育锻炼行为,认为体育锻炼行为变化经历了5 个阶段,即前预期阶段、预期阶段、准备阶段、行动阶段和维持阶段[1]。体育锻炼行为的研究属锻炼心理学范畴[2],就心理因素与体育锻炼之间的内在关系论,研究显示,不同体育锻炼行为阶段,改变策略、决策平衡(正向、负向效应)和自我效能4 个变量的均值均达显著差异水平,说明心理因素在体育锻炼行为变化阶段发挥的作用存在差异性[3]。

在信息高度发达的现代社会,如何从海量数据中发掘有用的信息,传统统计方法难以满足需求。数据挖掘成为大数据基础上知识发现的重要手段。关联规则数据挖掘即在大数据中,通过设定关联规则,挖掘数据集中关联映射关系,发现知识[4],更好地为决策支持服务。

大学生群体是未来国家建设的重要力量,其拥有丰富的锻炼资源,但是自1985 年,大学生体质健康持续下降[5],引起域内专家学者广泛关注,解决大学生体质健康问题刻不容缓。本研究拟对大学生体育锻炼行为进行调查,同时测试大学生体质,通过关联规则数据挖掘,发现不同体育锻炼行为大学生体质健康关联规则,为大学生体质健康决策支持服务。

1 研究对象与方法

1.1 研究对象

以学生自由选课形成的大学体育课上课班级为单位,从井冈山大学非体育专业抽取大一和大二女生651 人、男生557 人为研究对象,严格排除以下情况:(1)长期服用改变体成分的药物如治疗内分泌疾病和自身免疫性疾病的类固醇药物;(2)消耗性疾病如癌症或器官衰竭;(3)怀孕(女生);(4)植入性电子医疗器械。

1.2 问卷调查

在《国际体力活动问卷》(International Physical Activity Questionnaire,IPAQ)基础上,增加问题“您的体育锻炼情况(体育课除外)”,备选答案为:A.近6 个月没有锻炼的想法;B.近3 个月有锻炼计划;C.近1 个月有锻炼想法,并积极进行装备、器械准备;D.我有进行体育锻炼。如果被试选择D,则继续填写表格,包括运动项目、运动频率、有每次持续时间、运动自我感觉(调查运动强度)、坚持时间等问题。在“坚持时间”备选项分别为:A.小于1个月;B.1-3 个月;C.3-6 个月;D.大于6 个月。结合司琦等人[1]体育锻炼行为阶段划分理论,对大学生体育锻炼行为进行调查。

1.3 体质测试

体质测试指标及方法同课题组文章[6]。测试与问卷调查同时进行,于2017 年3-6 月在井冈山大学体质研究中心完成,本研究得到井冈山大学医学伦理委员会批准,受试者测试前均签署《知情同意书》。

1.4 关联规则建模

用Clementine12.0 数据挖掘软件,建立关联规则数据挖掘模型。

1.4.1 数据库的构成

每个测试对象确定唯一的标识(TID),则每个TID 含如下信息:体育锻炼行为阶段(1 字段)、性别(1 字段)、体质测试指标(11 字段。测试指标中的身高、体重派生BMI,BMI=体重(kg)/身高(m)2,VO2max 和肺活量分别处以体重构成相对VO2max和相对肺活量),构成数据库D。

1.4.2 数据字段规范化处理

Clementine12.0 数据挖掘软件在建模时,要求对输入变量与输出变量的数据进行类型一致化和无量纲化处理。关联规则数据挖掘输入字段的类型一般要求为数值型(number),可按《国民体质测定标准》[8-9],实现了体质测试数据的数值化,即将测试结果按其优劣取5、4、3、2、1 得分即可;在关联规则数据挖掘时,要求设置的输出字段的类型为字符型( string),即将输出字段“体育锻炼行为”按“前预期阶段、预期阶段、准备阶段、行动阶段和维持阶段”5 种类型。

1.4.3 构建数据挖掘模型

本次关联规则数据挖掘旨在发现不同锻炼行为阶段的大学生体质健康状况,故输出字段为“体育锻炼行为”,输入字段为“体质指标”,即构成“体育锻炼行为”与“体质指标”的映射关系。体育锻炼行为X 的支持度(support) 是指在数据库D中包含X 的事务占整个事务的比例,记为 sup( X),即体现“某种体育锻炼行为相对总事务所占的比重”:sup(X)= P(X) ≈ X 出现次数/事务总数T。为了发现事务间强相关关系,当某一体育锻炼行为X出现的同时,针对某性别体质健康指标Y 与含数据集X 的事物的比,即sup(X∪Y)/(X),其映射关系即为“某一体育锻炼行为X 在某一体质指标Y 影响下相对数据集D 所占的比重”,构成该映射关系的可信度(confidence),即conf( Y X) = P( Y X) = P( XY) /P( X) = XY 出现次数 /X 出现次数。关联规则数据挖掘的含义即为 X→Y,它的含义是 X∪Y 的支持度 sup( X∪Y) 大于用户制定的最小支持度min_sup,且可信度 conf 大于用户指定的最小可信度min_conf。关联规则数据挖掘即在事务数据库D 中找出满足用户指定最小支持度 min_sup和最小可信度min_conf 的所有关联规则[7]。根据实际需要,设置min_sup,以“体质测试单项指标得分”为输入字段,设置min_conf,建立“体育锻炼行为与单项指标之间的关联挖掘规则”模型,以探究体育锻炼行为对体质的影响,并为大学生不同体育锻炼行为体质健康提供决策支持。

2 不同体育锻炼行为阶段大学生体质健康知识发现及决策支持

2.1 基于关联规则男大学生体质健康知识发现及决策支持

设置min_Sup=8%,Confidence=50%,体育锻炼行为阶段为输出,规则结果最大条目数是5,共发现22 条知识。经筛选,共发现9 条具有决策意义的知识,如表1。

表1 不同体育锻炼行为男大学生的关联规则知识发现 Table 1 Rule knowledge discovery in different physical exercise behaviors of male

男大学生体育锻炼行为预期阶段,共3 条有意义的知识(表1 序号1、2、3)。总结3 条强关联的知识发现,预期阶段男大学生柔韧性(双手背勾)皆为“优”,反应时皆为“中”,而心肺机能(VO2max、VO2max 相)则皆为“差”。3 条规则的支持度9.158%~9.707%,置信度50.0%~50.943%,可见,预期阶段影响男大学生体质健康的主要表现为心肺机能低下,这也是最近大学生体质测试男生跑1000 m 屡见猝死的原因。另外,男大学生反应时仅为“中”也值得引起注意,因为大学阶段,学生神经系统灵活性应处于最灵敏阶段[10]。

准备阶段男大学生强关联的体质健康知识共3条(表1 序号4、5、6)。序号6,准备阶段男大学生反应时“差”,该规则支持度8.791%,置信度达91.667%,值得引起足够重视。序号4,反应时“及”和握力“差”,支持度8.425%,置信度67.391%;序号5,反应时“及”和VO2max “差”支持度8.974%,置信度61.224%。综合而言,准备阶段男大学生反应时差、力量素质差、心肺机能差。分析认为,之所以处在“准备阶段”,可能是因为这部分学生已经感知其体质健康差,并产生一定体育锻炼动机,以改善其体质状况。对于该阶段学生,应积极引导,强化体育态度,加强体育技能学习,并让其在体育锻炼过程中得到积极的情绪体验,促进其体育锻炼向行动阶段转变。

行动阶段男大学生关联规则挖掘出3 条有意义知识(表1 序号7、8、9)。序号7 的知识反应时为“优”,该知识支持度8.791%,置信度100%,对比序号6 的知识,说明体育锻炼能积极有效地增强男大学生神经系统灵活性。序号8 和9 的知识说明,即便已经进行体育锻炼,但其VO2max 和握力依然为差,分析其原因可能有以下两点,一是大学生体育锻炼存在盲目性,因为此阶段大学生已经进行一个月以上锻炼,但其心肺机能和握力未见改善,说明其锻炼针对性不强;二是男大学生体育锻炼怕吃苦,从运动生理学理论而言,发展心肺机能锻炼要求65%~85%的最大心率持续运动10 min 以上[10],该强度运动会给锻炼者“痛苦”的情绪体验;而力量练习后的肌肉酸痛,也使大学生不愿进行力量练习,故而握力差。因此,对于积极参与体育锻炼的男大学生,应引导其有针对性地科学锻炼,强化以运动处方进行锻炼,主要发展其心肺机能和力量练习,从心理上培养其吃苦耐劳的精神。

锻炼行为坚持阶段和前预期阶段男大学生未发现符合挖掘要求的知识。

2.2 基于关联规则女大学生体质健康知识发现及决策支持

设置min_Sup=10%,Confidence=60%,体育锻炼行为阶段为输出,规则结果最大条目数为5,共发现60 条知识。经筛选,共发现7 条具有决策意义的知识,如表2。据乔克满等人[12]对数据挖掘结果的3 类解释,该知识属“不合理”规则知识,因为同样对身体形态(体成分)进行评价,结果应该一致,出现“体重正常的胖子”的矛盾现象,说明两种评价身体形态的标准本身存在矛盾。研究证实,BMI 评价体成分敏感性和特异性都值得怀疑[13-15]。但是我们在实际应用中,由于BMI 简单易行而广泛使用,致使许多女生认为自己的身体形态标准,而实际处于超重或肥胖状态[15]。对此决策支持时需要使用更科学的体成分评价方法,建议采用设备相对便宜而精确度较高的生物电阻抗测试法[16]。另外,预期阶段女大学生其他体质健康得分中等或及格,都需提升。所以,应积极鼓励其参与体育锻炼,并全面发展力量、心肺耐力素质。

表2 不同体育锻炼行为女大学生的关联规则知识发现 Tab2 Rule knowledge discovery in different physical exercise behaviors of female

处于行动阶段女大学生可供决策支持的知识发现共3 条(表2 序号5、6、7),序号6 的知识发现同序号3 的知识发现,表现为身体形态及体成分评价标准不统一问题。该阶段女大学生身体素质表现为力量差、反应时中等、柔韧性优秀的特征。力量差、反应时中等、体脂率超重、心肺机能低下可能是女大学生参与体育锻炼的原因,因为从年龄阶段而言,女大学生诸指标均应处于“巅峰”时期,但实际并非如此,说明该阶段女大学生已经了解相关体质健康知识,并期望通过体育锻炼提高体质健康状况。决策支持可继续鼓励其参与体育锻炼,形成体育习惯,并通过定期体质测试,增强体育锻炼的信心[17]。

3 结论

(1)男大学生心肺机能低下、力量素质差是各个体育锻炼行为阶段的体质特征,男大学生需加强力量素质和心肺机能锻炼。

(2)女大学生柔韧性良好、心肺机能和力量素质低下以及“体重正常的胖子”现象广泛存在于各个体育锻炼行为阶段,体育锻炼需针对性的改善。

猜你喜欢
序号数据挖掘关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
技术指标选股
技术指标选股
技术指标选股
技术指标选股