郭 虹,徐懿琳,邹姗辰,张宏鑫*,王 健
(1.浙江大学 公共体育与艺术部,浙江 杭州 310058;2.浙江大学 公共管理学院,浙江 杭州 310058;3.浙江大学CAD&CG国家重点实验室,浙江 杭州 310058;4.浙江大学 心理科学研究中心,浙江 杭州 310028;5.浙江大学 运动科学与健康工程研究所,浙江 杭州 310028)
近年来,数字时代的发展带来了教育技术“线上化”的变革与挑战。2020年初突发的新冠肺炎疫情使得线下教学与训练受制,应急启动的网络授课带来了线上教学的大范围铺开,使得呼吁已久的“用教育技术倒逼教学改革”思路得以推进。后疫情时代,“应急式”的线上教学逐渐转化为“常态化”的教学方式。相比于其他学科较侧重于理论知识的教学评估,体育教学与训练受反馈机制与教学方式等因素的限制,在“线上化”变革中面临着更大的挑战,面向在线数据、引入客观高效的量化评估方法势在必行。此外,线上教育所依附的数字化技术也为教学方式的改进提供了新的分析手段。
当下,操舞类运动表现的评估机制尚存不足。其一,缺乏严谨精确的评价标尺,使得个体间的差距无法客观量化且可重复性较弱。目前我国操舞类运动的竞赛机制多以“模糊”竞赛规则下的裁判员打分为主,裁判员对竞赛规则的理解存在一定偏差,执裁自由度较大(张欣等,2014)。而对操舞类运动执教者而言,其通常也是结合自己的教学经验来对学生操舞运动表现进行整体评估,缺乏统一客观的标准。其二,“一对多”的教学模式使得执教者工作量居高不下,无法快速、高质量地处理教学中产生的大量反馈。其三,在前两者的基础上,泛化的评价体系缺乏个体针对性,使执教者无法做到因材施教,总体教学效果受到影响。综上,现有教学模式存在分析速度慢、精度低、颗粒度粗糙,以及训练提升路径模糊的问题。
部分研究提出,应通过建立模型对体育项目的训练与竞赛进行科学精准评价。例如,汤仁圣等(2019)基于体操跳马的二维视频分析运动学变量和已知动作难度参数,建立了无技术评价的跳马预判评分模型;吴国栋等(2019)通过确定拳击专项力量素质评价指标,构建了拳击专项力量素质评价模型,设立了专项力量评价参考值。然而,关于建立操舞类运动评价模型的研究较少。与其他体育竞技类项目不同的是,操舞类运动具有美学性,除动作完成度之外,情感表达也是重要的评估要素之一,这使其评价模型的建立更为复杂。
本研究以高校形体类运动教学中的普通学生为研究对象,针对操舞类运动表现评估中存在的不足,运用系统观察法,围绕肢体表现与表情表达两大部分制定系统观察工具,建立操舞类运动表现的评价模型,并在非专家和专家群体中进行试测和比较;利用机器学习方法,对受试者进行降维聚类分析,以帮助教师发现教学中的关键问题,实现因材施教。
选取2020年春夏学期选修啦啦操课程的大学生212名,经筛选,76位受试者纳入样本,其中男生3人,女生73人;身高(163.2±5.6)cm;体质量(53.5±6.2)kg;年龄(19.6±0.5)岁。问卷调查结果显示,19.72%的受试者完全没有接触过舞蹈,52.11%的受试者此前有过初步接触,26.29%的受试者对舞蹈接触较多,仅有1.88%的受试者表示自己舞蹈功底较深厚。样本基本满足正态分布,具有一定的随机性。在实验前向所有受试者说明具体实验过程,每一名受试者均签署了知情同意书。
首先,运用系统观察法构建操舞评价模型,量化学生的操舞运动表现;其次,运用数理统计方法分析操舞评价模型评分与专家评分结果的差异;最后,运用非线性降维聚类(non-linear dimensional reduction and clustering,NDRC)方法分析群组特点。
1.2.1 数据采集方法
受试者需按要求拍摄个人练习视频,并填写自评问卷。提供2段舞蹈片段供受试者学习,其中一段为节奏较快、律动感较强、共4个八拍的花球啦啦操舞蹈片段,另一段为节奏较慢、律动感较弱、共4个八拍的自由舞蹈片段。自评问卷用于量化受试者关于心理紧张程度的自我评估。
初始阶段共收集212名学生的视频数据848份。专家按照以下标准进行筛选:1)该班级学生综合运动表现分布较为均匀,既有高水平能力者,也有基础较差者;2)剔除不符合视频拍摄要求的视频数据。最终获得76名受试者的视频304份(图1)。
图1 数据清洗后的部分实例Figure 1.Examples after Data Cleaning
通过专家打分、非专家小组评估与受试者自评3个途径,获得肢体表现与表情表达量化数据:1)专家打分部分,由3名专家对受试者的视频片段进行综合打分。2)非专家小组评估部分,由3名非专家成员组成评估小组,以运动协调量化方法为基础,从4个维度对学生肢体表现进行外部评估;以情绪识别理论为基础,从4个维度对学生表情表达进行外部评估。3)每名受试者通过自评量表对自身表情表达进行主观评估。
1.2.2 操舞评价的系统观察方法
操舞线上教学工作量大的原因之一是操舞教师需要面对大量视频并依次进行评价。为降低人工评价的工作负担,本研究基于系统观察法,建立一套科学的系统观察工具,在细粒度上量化评价标准,从而提高操舞评价的结构化程度,降低评分者准入门槛。
考虑到操舞同时具有肢体协调性和艺术美学性,使用肢体表现及表情表达能力两部分决策规则对啦啦操运动进行综合评价。3位专家在操舞类运动已有的竞赛标准的基础上,结合自身的执教经验,按照“观察—修订—再观察—确定”的流程,最终确定8条决策规则,由非专家组成员按照决策规则进行打分。
1)肢体表现测量。将肢体表现分为韵律配合程度()、动作力度()、动作标准度()、动作完整度()4个维度(表1)。非专家组成员对受试者表现的4个维度进行打分,分数越高,说明受试者的肢体表现越好。最终将4个维度相加得到肢体表现分。同时,为还原真实教学评价,由专家根据整体表现与舞蹈呈现效果进行综合打分,得到综合运动表现专家评分,两分数满分均为100分。
表1 肢体表现决策规则Table 1 Physical Performance Decision Rules
2)表情表达测量。表情对于提升舞蹈的艺术感染力具有重要作用(李勃,2021)。通过问卷调查,由学生自评其课中及课后视频拍摄时的心理紧张程度,获得主观评估分。为排除自我认知误差,引入外部评价方法。根据Ekman(1969,2003)的情绪识别理论,本研究选取眼睛(),唇部(),手部(),腿部()4个部分作为心理紧张程度外部判定要素,由非专家组成员按照表2的规则对受试者进行评价。将4个维度得分相加,得到外部表情评估分,主观评估分和外部表情评估分数的分值均为{0,25,50,75,100}5档,数值越大,表情表达紧张程度越高。最后,将主观评估分与外部表情评估分均值记为表情表达分。
表2 表情表达决策规则Table 2 Expression Performance Decision Rules
3)评分者信度。由3位主试(非专家组成员)完成所有的观察和记录。为检验主试内部一致性信度,3位主试分别对所有受试者的课中视频材料进行8个维度的打分,由于为定量数据,而为分类数据,采用组内相关系数(intraclass correlation coefficient,ICC)分析评分数据一致性水平,各维度内部一致性均达到显著性水平,评分者信度良好(表3)。
表3 ICC检验结果Table 3 ICC Test Results
4)内容效度。本研究的3位专家由2名国际级裁判与1名国家级裁判组成,均具有10年以上的执教与竞赛经验,8项决策规则由3位专家共同讨论制定,具有较高的内容效度。
1.2.3 统计分析
使用SPSS 25.0对数据进行统计学分析。其一,为观察本研究所设计的评估系统中非专家评分对专家评分的可替代性,对综合运动表现专家评分和肢体表现分进行标准化处理,然后进行皮尔逊相关性分析和检验,并通过变异系数比较二者的离散程度。其二,为使操舞评价系统产生的评分结果进一步接近专家评分结果,对表情表达分进行正向化处理后,与肢体表现分进行加权平均得出视觉量化分,对视觉量化分进行标准化处理后计算其与综合运动表现专家评分的皮尔逊相关系数,并进行检验,通过变异系数比较视觉量化分与综合运动表现专家评分的离散程度。
1.2.4 NDRC法
通过10个维度的高维数据描述样本的运动表现,其中,8个评价指标和综合运动表现专家评分用来反映受试者的局部特征,视觉量化分用来反映受试者的全局特征。高维数据既能涵盖细节特征,又能反映整体评价,但由于高维数据中各维度之间并不独立,使用传统统计方式分析较为复杂,因此,本研究采用了NDRC法。首先通过降维方法提取数据的主要特征,再通过聚类方法根据主要特征对样本进行分类,并对每一类别样本的视觉量化分平均值从高到低排序,依次使用0~5进行类别编号。NDRC法的步骤如下:
1)使用t-SNE方法(Hinton et al.,2002;van der Matten et al.,2008)对整个数据集进行降维。t-SNE降维方法的主要优势在于保持局部结构,即高维数据空间中距离相近的点在低维空间中依然相近。该方法中控制拟合的主要参数为困惑度(perplexity),其表示有效邻居数量的平滑度量,取值范围为5~50。困惑度越低,则意味着在匹配原始分布的拟合过程中,每个数据点周围的候选最近邻点越少。由于样本量较小,选用较小的困惑度以达到更好的降维结果。考虑到数据可视化需求,为便于实际观察,将上述十维数据降为二维的特征向量集合。具体来说,计算的困惑度为10,迭代次数为1 000次。
2)采用k-means聚类方法对第一步获得的二维特征向量集合进行计算,获得人群聚类结果。其中要生成的类别簇数量可以取任意值,在反复试验后,将其设置为6,以取得人群分类的最佳效果;迭代次数设置为300。
需要说明的是,与线性的主成分分析(principal components analysis,PCA)降维方法相比,t-SNE算法能有效减少因降维投射造成的映射误差。为进一步验证NDRC方法的合理性,对相同数据采用以下2种组合方法:一是使用PCA降维并聚类(PCA and clustering,PCAC),二是在原始维度直接聚类后再进行t-SNE降维(clustering and nonlinear dimensional reduction,CNDR)。
1)受试者阅读并填写《知情同意书》。
2)提供一段节奏较快、律动感较强、共4个八拍的花球啦啦操舞蹈片段,供被试进行对照学习;视频包括无音乐喊节拍镜面示范、无音乐喊节拍背面示范、有音乐镜面示范,有音乐镜面示范的速度为无音乐喊节拍镜面示范与背面示范的1.5倍;在课堂上,要求受试者学习该片段,并于1 h内录制并上传训练结果视频;要求全身入镜,需能清楚看到面部表情与肢体动作,合音乐常速录制;完成后,填写心理紧张程度自评问卷。
3)要求受试者在课后反复练习,熟练掌握该片段,于72 h内录制并上传视频;完成后,再次填写心理紧张程度自评问卷。
4)在上述实验结束后,为研究该评估系统对于不同操舞类型的适用性,提供了一段节奏较慢、律动感较弱、共4个八拍的自由舞蹈片段供被试学习。重复上述实验步骤。
相关性分析结果显示,无论是花球啦啦操(=0.930,<0.01)还是自由舞蹈(=0.937,<0.01),标准化处理后的肢体表现分与综合运动表现专家评分都具有强相关关系。此外,综合运动表现专家评分的变异系数(=0.10,=0.07)小于肢体表现分的变异系数(=0.20,=0.11)。
综合运动表现专家评分大多是教师根据主观经验给出的评价,且操舞运动的固有特性使得学生的表情表达必然被包含在教师的评价中,而肢体表现分仅以客观肢体表现为依据。因此,通过对肢体表现分与表情表达分加权平均计算得出视觉量化分。相关性分析结果显示,无论是花球啦啦操(=0.931,<0.01)还是自由舞蹈(=0.942,<0.01),标准化处理后的视觉量化分与综合运动表现专家评分都具有强相关,且与肢体表现分相比相关系数有所提高,说明将表情表达纳入操舞评价系统具有合理性。
对花球啦啦操、自由舞蹈标准化后的综合运动表现专家评分与肢体表现分、视觉量化分进行配对样本检验。由表4可知,不同操舞类型的综合运动表现专家评分与肢体表现分均存在显著差异,而与视觉量化分均不存在显著差异,说明视觉量化分对综合运动表现专家评分具有可替代性。此外,视觉量化分的差异系数(=0.20,=0.12)大于综合运动表现专家评分,说明其区分度更好。
表4 不同操舞类型下不同得分的配对样本t检验结果Table 4 Paired Sample T-test Results of Different Scores among Different Dance Types
PCAC和CNDR方法的可视化结果表明(图2),2种方法均未有效区分具有不同运动表现特征的样本。
图2 PCAC(a)和CNDR(b)方法对花球啦啦操数据的分析结果Figure 2.Analysis Results of Pom Data by Using PCAC(a)and CNDR(b)
NDRC分析法可取得更好的分类效果。花球啦啦操以及自由舞蹈课中数据的分析结果如图3所示,受试者被明显地分为6类肢体表现与表情表达存在差异的群体。进一步剖析降维聚类结果发现,90%以上的第0类样本群体为啦啦操校队高水平运动员;而根据教师实际反馈,第5类人群相对基础较差。对图3中的分类结果进行数据分析发现,2种操舞类型的人群分布均基本符合图4所示的整体趋势。6类人群可被分为3个层级,其中,第0类群体肢体表达分和表情表达分最高,第1、2类其次,第3、4、5类最低。
图3 NDRC方法对花球啦啦操(a)和自由舞蹈(b)的分析结果Figure 3.Analysis Results of Pom(a)and Free Dance(b)Data by Using NDRC
图4 不同人群运动表现得分的整体趋势Figure 4.Overall Trends of Exercise Performance Scores among Different Groups
总的来说,表情表达越放松,视觉量化分越高。以第0类和第1类的比较为例,第1类人群的肢体表现分与第0类相近,但在表情表达上普遍紧张,这说明表情表达会影响综合得分。然而,第3类人群表情表达比第4类更紧张,但其视觉量化分和肢体表现分均较高;具体分析这2类人群的表情表达构成发现,第3类人群的主观评价分大于外部评价分,而第4类则相反。
对于不同操舞类型,各群体训练72 h后视觉量化分平均提升分数和方差如图5所示。所有人群的平均提升分数都为正值,说明经过相同的训练时间,不同人群的运动表现都有不同程度的提升,但提升模式不同;在单一操舞类型中,同一类人群的提升模式相似。整体的提升模式是,初始平均得分越低的人群提升越明显,但群体中个体的提升差异也越大;而第1、3、4类人群的平均提升分数相对较小。
图5 不同人群运动表现得分随训练时间延长的提升结果Figure 5.The Improvement Results of Different Groups’Exercise Performance Scores with the Extension of Training Time
操舞运动是舞蹈艺术的体育表现形式,研究运动员的协调能力始终是该领域的焦点。然而,对运动员协调能力的测量与评定方式在学术界仍未达成基本共识。波嘉也夫等(2012)认为,现有的评定方法并不总能客观地评定运动员的协调能力,必须探索具有科学依据的评定方法,使其具有心理-生理学测试的含义。本研究显示,仅以动作技术标准为依据对受试者进行评估,与专家评估结果存在一定误差;而在动作标准的基础上加入艺术表现成分,则能在很大程度上替代专家评估结果,且对受试者的区分度更好。其原因有如下两方面:1)表情表达是受试者固有协调能力的外在表现之一。受试者各肢体表现的加总并不能完整体现受试者的操舞运动表现能力,从某种意义上来说,将表情表达纳入评估系统弥补了那些易被忽视、无法细致分解的评价维度,减小了系统误差。Weiss(2011)认为,微表情是识别心理的有效线索,可以被广泛地应用于众多领域。本研究通过观察受试者的微表情与微动作评估其表情表达。自身缺乏舞蹈基础、此前从未接触过舞蹈的人群会因为不自信等因素产生紧张情绪,进而影响表情表达。2)表情表达直接影响了表演者的艺术表现力。姜桂萍等(2008)指出,在艺术体操、健美操等项目的比赛中,当运动员技术难度相当时,艺术表现力的发挥对裁判评价、观众态度和比赛结果有决定性影响。因此,受试者的表情表达越放松,其表现力与感染力可能越强,运动表现越好。操舞评价系统的构成部分也反映了操舞运动同时具有体育和艺术双重特性的本质,肢体表现作为一种呈现效果的度量,虽然属于体育训练范畴,但与以艺术表现为主的表情表达密切相关。在具体评估学生的操舞呈现效果时需将两者综合纳入考量范围,做到协同发展。
研究结果显示,相比于PCAC模型和CNDR模型,NDRC模型能够获得更好的分类效果,更准确地获得群体模型及其对应特征,甚至发掘出人工分类时不易觉察的群体特性。利用NDRC模型首先可获得一个总体特征(即表情表达会影响视觉量化分);其次可快速发现特殊情况(即第3类和第4类人群数据特征的异常);最后针对特殊人群对应的数据,发现2类人群都存在自我认知错位的特点。紧张可以分为认知性紧张、躯体性紧张和自信心3个方面(Martens,1975),其性质差异可能会对运动表现产生不同的影响;紧张往往与运动成绩呈现负相关(Kleine,1990),但在某些时候对运动成绩具有一定的促进作用(Parfitt et al.,1993)。具体而言,第3类人群操舞基础较好,但自信心弱,致使主观心态紧张,影响表情表达得分;第4类人群操舞基础弱,但并未客观认知自身的技术缺陷,因此心态更放松,表情表达得分更高。在以往教学过程中,群体特性往往是碎片化的,需要执教师逐个发掘、提炼,而NDRC模型的使用有利于减轻教师及专家的工作负担。
深刻把握人群特性后,教师可根据人群对应特征制定针对性训练计划。以存在较大提升空间的第2、3层级人群为例:1)第2层级(第1、2类)为运动表现中游人群。该层级中,第1类人群表情表达分较低,教师需帮助其提升艺术感染力,增加作品表现力;第2类人群肢体表现分较低,教师需帮助其提升肌肉控制能力,提高动作完成度。2)第3层级(第3、4、5类)为运动表现下游人群。根据心理技能训练相关研究(赵祁伟 等,2020;Landers,1983),教师应同时增加基础性动作训练和心理技能训练,对自信心较弱的第3类人群采用鼓励式教学模式;对第4类人群应严格要求,避免其盲目自信;第5类人群运动表现不良根源于自身基础条件的不足,教师应以训练为主、鼓励为辅,加强其身体控制能力,提高操舞运动表现。
另外,各类人群相同训练时间下提升程度不一,主要原因在于初始表现越差的群体提升空间越大,使得平均提升分数越高;同时,初始表现越差的受试者对待后续训练的努力程度不一,导致训练后受试者之间的差距非常明显。第1、3、4类人群整体提升较小的原因在于艺术表现力的提升比仅提高肢体表现力更为困难,且心理技能训练结果反馈时间较长。
本研究基于系统观察法设计了操舞运动评价系统,包括肢体表现与表情表达两大组成部分。其中,将表情表达纳入评价系统与操舞类运动固有的艺术性以及“心理-运动表现”的双向影响机制有关。非专家成员使用该系统对受试者进行评估能够在很大程度上替代专家评估,且更具有区分度,更能反映受试者的真实表现。基于该系统的评估数据,对受试者进行NDRC分析,将样本分成3个层级、6个类别,为教师教学提供了针对性提升路径。总体而言,本研究所设计的操舞评价系统有利于提高操舞类运动项目教学考核的速度、精度和颗粒度,能够为针对性教学提供参考。
本研究对受试者肢体表现与表情表达的评估主要依靠人工打分与主观问卷调查,数据获取和处理成本仍然较高。未来可通过引入计算机视觉领域的识别技术,结合图像识别领域的最新进展,自动化地检测识别受试者的肢体表现与表情表达,这有助于开发人机协同的数字化、自动化评估系统,进一步提高线上操舞训练与教学效率和效果。