功能动作筛查中评分者间信度的实证研究

2016-12-09 12:58张新定

成都体育学院学报 2016年6期

吴华，阮辉，张新定

功能动作筛查中评分者间信度的实证研究

吴华，阮辉，张新定

目的：功能动作筛查（FMS）目前已得到广泛认可，但其评分者信度存在争议。为了拓展其应用范围，本文对FMS评分者间的信度进行实证研究。方法：所取样本为高水平运动队男女篮、排球运动员37人，研究对象为专业评分者6人。6名评分者按照FMS评价细则对被试运动员分别进行FMS评分，然后将每个评分者评定的各项分值，运用统计方法分析评分者信度。结果：（1）FMS中控体俯撑、肩部灵活性、深蹲、直膝抬腿、体旋5个项目，评分者间评分具有较高的关联性（W值0.723-0.904）和一致性（0.6＜k≤1）；（2）前后分腿蹲和过栏架步2项，相关性（W值0.380-0.570）与一致性（k＜0.2）偏弱，但无显著性差异。结论：FMS的总体评分者间信度良好。

功能动作筛查；评分者间信度；实证研究

0　引言

现代体育理念认为体育运动的本质即动作，无论何种运动都是由基本的动作构成，如蹲、推拉、旋转等，这些基本的动作也称为功能动作，是遵循人体生长发育的规律和特点逐渐形成的，从人体力学角度出发，是省力、高效、安全的最优化的动作实现方式。它们既是个体日常生活的组成部分，也是体育动作学习的基础。当完成这些身体动作时出现了疼痛、不对称或代偿动作，往往意味潜伏着损伤的风险。功能动作筛查（Functional Movement Screen，FMS）是由Gary Cook提出，它通过对被试运动员完成深蹲、过栏架步、前后分腿蹲、肩部灵活性、直膝抬腿、控体俯撑、体旋7个典型功能动作，以及3个附加伤病排除动作的测试，评价被试运动员完成动作的质量（如稳定性、灵活性及对称性），观察是否存在某种代偿动作、动作限制和动作功能不良，从而对被试运动员参与运动时可能面临的风险进行预测。

与传统的实验室测试方法不同，FMS被认为是“最接近（或模拟）某些运动方式”的评价方法。FMS操作方法简易，使用工具经济便捷，自21世纪以来颇受广泛关注和追捧，在我国，近几年也陆续开展了FMS的应用研究。然而，由于FMS的评分取决于评分者对受试者完成动作过程的观察与评判，往往存在一定程度的主观性，从而影响测量与评价结果的信度。

FMS评分误差出自于评分者自身和评分者之间，即评分者内信度（Intra-rater Reliability）和评分者间信度（Inter-rater Reliability）。国外大多数研究者认为，FMS的评分者内信度较高［1-4］，而评分者间信度存在争议。如Smith等［2］认为FMS评分者间信度较高（组内相关系数ICC＝0.81-0.91）与评分者经验和教育无关，Onate［4］、Teyhen［5］和Minick［6］也得出类似结论，但Shultz［1］等研究认为评分者间一致性较弱（Krippendorff α系数为0.38），Gribble［3］认为评分者间一致性随FMS测试经验与临床背景而提高。国内对FMS测量与评价信度的研究只涉及理论上描述和逻辑性推理，尤其有关对评分者间的信度实证研究，尚不多。

评分者间信度是检验多个评分者对同一被试运动员进行评分时，其评定结果的一致程度指标。在方法学上，如只有2名评分者时，国外研究一般采用Spearman相关系数法（Spearman correlation coefficient）或Kappa系数法（Kappa coefficient）；如有2个以上评分者评定，评分者间信度的计算方法则采用Krippendorff α指数或肯德尔和谐系数（Kandall coefficient of concordance）。

目前FMS应用在国外涉及多个领域，如职业体育俱乐部、大学高水平运动队、健康机构、部队等运动教学与训练，多种人群，如儿童少年、中青年及老年人，通常FMS被试样本量大，而由单个的评分者对众多人数进行测试与评价，其结果的信度往往不高。我国对FMS的应用研究多为国家专业运动队，对于高校高水平运动队研究较少，评分者也多为一个或两个专家。因此，本文拟从多个类别不同评分者（专家与业余人士）对FMS评分的一致性程度分析入手，同时选取篮、排球项目的高水平运动员为测试样本，主要基于篮、排是我国高校高水平运动队开展较普遍的运动项目，且在项群分类上为技能主导的同场或隔网项目，对技术动作要求较高，以此对FMS的评分者间信度问题进行实证性研究，探讨其进一步推广使用的价值。

1　研究对象与方法

1.1研究样本与对象以海南师范大学高水平运动队篮、排球男女运动员为研究样本。为了排除研究过程中可能出现的干扰，在选取受试者时剔除6个月内患有持续骨科损伤［4］的运动员，同时遵照自愿完成FMS原则，最后确定37名运动员为本研究的被试者，其中排球运动员18人（女子7人，男子11人），篮球运动员19人（女子10人，男子9人）。研究对象为6名测试评分员，其中1名为有FMS测试经验及医学背景的教师；5名为经过系统专业培训（培训内容包括评分规则学习、讨论、视频模拟打分等）的体育专业高年级学生。按照FMS测试要求共同完成FMS 7种12项（非对称测试2项，左右对称测试各5项）测试评分。

1.2研究方法采用2种检验方法评价评分者间信度：一是基于相关分析的Kendall和谐系数方法；二是基于评分者间一致百分数的方法，即Kappa系数法。全部数据采用SPSS17.0软件包处理，对6名评分者间信度进行统计学分析，判断基于多位评分者的FMS评定结果的可信度。

1.2.1Kendall和谐系数检验 Kendall和谐系数检验（即Kendall W检验）是检验多列等级变量相关程度的一种方法，即让K个评价者N件事物进行等级评定。FMS评分时采用0-3分等级评定，本文为6名评分者对37人进行FMS测试评分进行统计，适合采用Kendall和谐系数检验法。

1.2.2Kappa系数法

Kappa系数法，是采用 Kappa值作为判断评价一致性程度指标的方法。文献研究已证实，Kappa值是比较2个或多个观察者对同一事物进行评定，或者同一观察者对某一事物两次或多次进行评定，其结果是否一致，以及由于机遇或机会造成的一致性与实际观察的一致性之间的差异大小，作为评价基础的统计学指标［7］。本文将1名教师FMS测试的各项评分分别与5名学生的评分结果进行统计学分析，评价他们评分结果的一致性，适合Kappa系数法。

2　结果与分析

2.1评分者评分值的相关性（W值）经Kendall和谐系数检验6名评分者的相关程度，发现6名评分者各项评分结果W值在0.380-0.904之间（如表1），而渐进显著性水平为0，且。依据Kendall W检验，W值越接近1，表明评估者评分一致性越强，所以6名评分者各项评分结果具有中等到较好相关性，评分项目相关性由高到底的排序分别为控体俯撑、肩部灵活性、深蹲、直膝抬腿、体旋、前后分腿蹲和过栏架步。

FMS的评分等级为0-3级，其中0级为完成动作时出现疼痛，1-3级标准认定与动作完成质量密切相关。控体俯撑的评分要求是一个完整的单元撑起身体，胸腹部同时离开地面，得分等级差别是在双手的起始位置不同，深蹲得分等级的差别，也与脚跟加垫木板有关，评分者能统一把握；而肩部灵活性、直膝抬腿的评分要求均为间距的测量对比，也便于评分者掌握，所以评分一致性较高。而体旋得分等级差别会在同侧或沿躯干对角线完成动作，3分与2分的区别较好，但对于完成1次对角线动作后身体出现不稳定的程度是否影响等级，在评分要求中未明确说明。评分者中度相关性为前后分腿蹲、过栏架步，主要因为这2个动作的等级判断涉及腰、髋、膝、踝多个部位在不同平面的稳定性，需要评分者站在不同位置进行观察，如运动员完成过栏架步动作时，评分者只站在运动员前面，不易观察到髋、膝和踝关节是否在一条直线，木杆是否与栏架平行；只站在侧面，较难发现运动员腰部是否有移动，从而影响评分等级。本文与Teyhen等［5］研究结果类似，他们认为FMS具有中度至良好的评分者间信度，且排序依次是控体俯撑、体旋、肩部灵活性、深蹲、直膝抬腿、过栏架步、前后分腿蹲。

表1　Kendall和谐系数检验统计结果Table1 Results of Kendall concordance coefficient test

2.2评分者评分的一致性 Kendall和谐系数，所反映的只是评分者评分数的相关程度，虽然本研究结果显示6位评分者的评分数相关程度高，但并不一定表示评分者间信度就高，即相关性不能完全代表一致性。Kappa系数，通常是被用于检验2名评分者评分一致性程度的指标。Kappa值（k）一般在0-1之间，代表着一致性强弱的程度。k值为0.81 -1时，说明一致性极强；k值为0.61-0.80时，说明高度一致性；k值为0.41-0.60时，说明中度一致性；k值为0.21-0.40时，说明一致性较弱；而k＜0.2时，说明一致性强度微弱，判断结果完全由于机遇造成［7］。

本文将教师分别与5名学生评分结果分成五组（Ⅰ-Ⅴ组）两两对比（表2-4），发现各组一致性程度较相似，在肩部灵活性、控体俯撑、深蹲、体旋项目上一致性程度在极强到高度之间（0.6＜k≤1），直抬腿显示中度一致性（0.4＜k＜0.6），而过栏架步、分腿蹲的一致性程度较低（k＜0.2），但无统计学意义，说明评分者间仍具有一致性。

表2　5组评分者对FMS测试项目得分的一致性检验（1）Table 2 Consistency in scores of 5 group raters in the FMS test item（i）

表3　5组评分者对FMS测试项目得分的一致性检验（2）Table 3 Consistency in scores of 5 group raters in the FMS test item（ii）

表4　5组评分者对FMS测试项目得分的一致性检验（3）Table 4 Consistency in scores of 5 group raters in the FMS test item（iii）

2.3评分者相关性与一致性的差异分析由上面的结果显示，评分者对FMS测试，除过栏架步、分腿蹲外，评分者间仍有良好的相关性，较高的一致性。这与国外同类研究相当，表明 FMS测试稳定性较好。

而对于过栏架步、分腿蹲项目测试，评分者相关性和一致性较弱，我们认为原因有5个方面：一是评分者对这两项评分标准的掌握程度有差异。如过栏架步3分标准中描述“腰部没有明显移动”，2分为“腰部出现移动”，这就造成评分员打分时对“明显”标准的理解带有一定主观性。二是测试过程往往重复同一动作，被试者接受提示可能影响评分者的决定。如在前后分腿蹲的测试时，当运动员蹲下时出现身体前倾、或杆位置的变化时，提醒运动员保持身体准备姿态，部分运动员能够自我调整姿态，得分等级可能提高。三是评分者观察角度的选择差异。四是评分者主观情感及评分经验差异，如当后一个测试者的动作比前几个测试者完成质量更好些，虽然他可能没达到高一等级的标准，但容易得分高。五是过栏架步和前后分腿蹲动作对运动员挑战性高，运动员高标准的完成率较低。

3　结论

（1）FMS具有较好的评分者间信度，且对评分者背景要求不高，经统一培训的多名评分者，FMS评分结果具有较好的相关性、中等偏高的一致性。为开展大样本的FMS测试或保证该测试公平性，可采取多名评分者联合评分。

（2）FMS不同项目的评分一致性存在差异，其中控体俯撑、体旋、肩部灵活性、深蹲一致性程度较高，而过栏架步、前后分腿蹲一致性程度较差。

（3）评分者对评分标准掌握有一定差异。建议加强对较难掌握测试项目要领的讲解与培训，注意观察角度的及时转换及测试经验积累，有利于提高评分者间评分结果的信度。

［1］ Shultz R，Anderson SC，Matheson GO.Test-retest and Interrater Reliability of the Functional Movement Screen［J］.J Athl Train，2013，48（3）：331-336.

［2］ Smith CA，Chimera NJ，Wright NJ，et al.Interrater and Intrarater Reliability of the Functional Movement Screen［J］.J Strength Cond Res，2013，27（4）：982-987.

［3］ Gribble PA，Brigle J，Pietrosimone BG，et al.Intrarater Reliability of the Functional Movement Screen［J］.J Strength Cond Res，2013，27（4）：978-981

［4］ Onate JA，Dewey T，Kollock RO.Real-time Intersession and Interrater Reliability of the Functional Movement Screen［J］.J Strength Cond Res，2012，26（2）：408-415.

［5］ Teyhen DS，Shaffer SW，Lorenson CL.The Functional Movement Screen：A Reliability Study［J］.J Orthop Sports Phys Ther. 2012，42（6）：530-540.

［6］ Minick KI，Kiesel KB，Burton L.Interrater Reliability of the Functional Movement Screen［J］.J Strength Cond Res，2010，24（2）：479-486.

［7］夏邦世，吴金华.Kappa一致性检验在检验医学研究中的应用［J］.中华检验医学杂志，2006，29（1）：83-84.

Objictive：Functional Movement Screen（FMS）was widely accepted.However，its rater reliability is controversial.In order to expand the scope of its application，this article conducts an empirical study on its interrater reliability.Methods：37 basketball and volleyball elite players were sampled to participate in this study and 6 raters were chosen as the subjects.In the experiment，six raters gave their scores for athletes according to FMS evaluation rules，then each rater’s reliability was evaluated through statistical analysis of their scores.Results：（1）High correlation（0.723≤W≤0.904）and consistency（0.6＜k≤1）were found among raters scores for push-up，shoulder mobility，deep squat，straight leg raise and rotary stability.（2）Lower correlation（0. 380≤W≤0.570）and consistency（k＜0.2）were found for hurdle step，in-line lunge，but the differences were not significant differences.Conclusion：The overall inter-rater reliability of FMS is good.

（编辑孙君志）

An Empirical Study of the Inter-rater Reliability in Functional Movement Screen

WU Hua，RUAN Hui，ZHANG Xinding

Functional Movement Screen；Inter-rater Reliability；Empirical Study

G804.3 Document code：A Article ID：1001-9154（2016）06-0099-04

G804.3

1001-9154（2016）06-0099-04

10.15942／j.jcsu.2016.06.00

教育部人文社会科学研究项目“基于功能动作视角下学龄儿童运动能力发展的研究”（14YJC890027）。

吴华，副教授，主要研究方向：体育保健、体能康复，E -mail：455847502＠qq.com。通讯作者：阮辉。

海南师范大学体育学院，海南海口571158 Hainan Normal University，Haikou Hainan 571158

2015-10-29

2016-07-20

功能动作筛查中评分者间信度的实证研究

0 引言

1 研究对象与方法

2 结果与分析

3 结论

0　引言

1　研究对象与方法

2　结果与分析

3　结论