张士伟
(莱芜职业技术学院体育教研室,山东莱芜271100)
电子表格软件在体育问卷调查数据统计处理中的应用研究
张士伟
(莱芜职业技术学院体育教研室,山东莱芜271100)
论文根据电子表格软件的特点和统计功能,在电子表格中创建了问卷调查原始数据统计表;结合问卷调查问题的类型特点,介绍了描述性标题和问卷原始数据内容的输入方法以及数据输入的注意事项;从利用"粘贴函数"、"数据分析"和"数据透视表和透视图"等三种方法对调查问卷原始数据的进行统计处理做了详细说明。
电子表格软件;问卷调查;数据统计
问卷调查是体育社会科学常用的研究方法之一,是获得体育科研资料和信息的重要手段,已被广泛运用到体育的各个领域之中,发挥着重要的作用。由于问卷调查所搜集的原始数据通常是杂乱无章的,想要把这些庞杂的数据加工成更多有价值的统计信息,充分挖掘信息所反映的问题,就需要对这些原始问卷内容进行科学的整理和有效的汇总,计算出相关的统计量,并进行估计和检验,从而为进一步的理论分析、解释提供依据,达到对总体属性特征的准确预测和推断。在问卷调查数据的统计处理方法中,SPSS和SAS等专业软件的统计功能比较完善,但这些专业统计软件对使用者的要求较高,需要具有较强的数理统计知识。Excel虽然没有被归纳为统计软件,其统计功能无法与SPSS和SAS等专业统计软件相比,但它是一个集数据表、工作函数、VAB应用程序和强大的报表处理于一身的数据统计工具,不仅限于数字处理,还能处理图表、文字等,能够链接任何数据库系统,数据可以与WORD、SPSS等软件实现共享和转换,因此在某些初级问卷调查数据的统计处理方面应用较广,本文重点对Excel电子表格软件在体育问卷调查数据统计处理中的应用进行探讨。
在科研实践中发现,许多硕士研究生和体育教师对于问卷调查原始数据的统计大都采用手工方法,他们首先将问卷各题的原始数据手工分别统计,然后将统计结果输入到计算机中,再对数据进行处理和分析,做出各种图表和和进行检验。这种方法不仅问卷统计的工作量大,而且不同的问题单独进行统计,难以相互兼顾,不能把相关联的问题有机地综合考虑,致使许多有用信息在手工统计的过程中被遗漏掉。我们知道一个Excel工作薄包含255个工作表(Sheet),每个工作表都是由256列和65536行构成的二维表格,也称作电子表格,每个行列的交叉部分称为单元格,用于存储、组织和分析数据。根据Excel二维表格的特点,我们考虑在工作表中按照调查问卷中题目的顺序,将题号及内容提要放在了第一行,把每个问题需要回答的内容进行概括作为各列的描述性标题(即列标签)放在第二行,第一列作为问卷编号栏,按照编号顺序将调查问卷的内容输入到工作表中(见图1:问卷调查原始数据统计表),这样问卷的调查内容便以"数据清单"的形式表现出来,可以将它作为一个有机整体,利用Excel软件的排序、筛选、分类汇总、交叉分析和分析工具库来完成数据的汇总和统计处理。
2.1 描述性标题的输入
语言是人类最重要的交际工具,交际也是语言的重要功能。从中级阶段起,培养学生运用英语进行交际的能力应占据英语口语教学的较大比重。
在问卷原始数据统计表中,作为描述性标题所在的第二行才是真正意义的原始数据统计区域的首行。由于Excel允许使用汉字或英文字母作为列名,并且对字数也几乎没有限制,但考虑这些数据将来可能会转到SPSS或SAS软件中进行分析,因此描述性标题一般控制在4个汉字以内,将对每个问题回答内容的概括作为其列标题名称输入到相应位置(见图1)。
图1 问卷调查原始数据统计表
2.2 问卷调查原始数据的输入
一般说来,问卷调查常见的题目类型主要包括填空题、单项选择题、等级/顺序选择题、多项选择题、子题等。根据每个题目答案个数的多少,可分为单一答案和多个答案两种情况,填空题、单项选择题、等级/顺序选择题等属于单一答案的问题,多项选择题属于多个答案的问题。为了便于数据的统计处理,需要根据数据统计处理的要求对原始问卷的内容进行编码,将问卷的回答结果转化为适当的数字,并按一定要求输入到计算机中,以便进行后续的统计分析。
2.2.1 单一答案题目数据的输入
对于填空题、单项选择题和等级/顺序选择题等,它的答案是唯一的,只需要将答案的数字或选择项编号直接输入到对应的列位内即可。
2.2.2 多个答案问题数据的输入
对于多选题,由于其答案为多个,需要根据该题限制的答案数保留列数。多选题可分为两种情况:第一种为限选题,通常在题目上标明最多可选择的选项数,一般是三项或五项,列标题名称根据该题目的要求而定,如排序多选题常将列标题名称设置为第一位、第二位、…等;在数据输入时,按照位次将所选答案的编号输入到相应列的单元格内即可,若回答者选择的答案少于该题限制的答案数,未选择的部分可输入“0”来代替。第二种为任意多选题,由于各选择项之间没有重要程度的区分,也没有规定最多选项数,通常将所有答案内容各自作为列标题名称,按照答案顺序在标题行依次排列;数据输入时,我们在相应选择项的列位内录入数字“1”代替原来选择项代码,未选择的部分可不输入或输入“0”来代替。
2.2.3 子题的输入
子题是附属在某一题目之下,必须回答了某一特定答案后,再对第一问的回答内容作追踪回答,需要对后续问题的回答方式作特殊排列或说明。这类问题在统计表上的列标题设置要根据后续回答的问题类型而定。数据输入方式可参照“单一答案”或“多个答案”问题的有关要求进行。
2.3 数据输入的注意事项
2.3.1 问卷一定要先加上编号
编号可在开始访问前或访问回收以后加入,最好在问卷回收后,按调查单位顺序进行编号,以便日后分析时,若发现数据可能有错误时,可利用编号找出原来的问卷进行修改。
2.3.2 输入数据时,应注意其数据的正确性
除键入数据要格外小心外,还可以利用程序或指令来控制其正确性,如事前的数据验证预防和事后的范围检查。事前的预防主要是在开始输入数据之前,对每一列设定必要的验证规则,以控制所输入数据的正确性;事后的范围检查是在完成数据输入后对工作表中的数据进行审核。利用Excel的有关功能查找错误数据或异常数据,主要方法包括:①执行“数据>有效性”进行数据验证及圈选错误数据;②选择“数据>筛选”的自动筛选和高级筛选功能找出错误数据;③利用“格式>条件格式”对选定区域内的数据进行检查。
2.3.3 利用冻结窗口功能
由于调查问卷的列标题行数较多,问卷份数也不少,输入数据时可执行“窗口>冻结窗口”,将列标题和问卷编号等内容永远保留在屏幕上,当光标移往下面的屏幕时,仍可以看到这些标题和问卷编号,便于数据输入、查阅、编辑和修改等。
一般情况下,问卷调查得到的既有连续型变量性质的数值数据,也有离散型变量性质的代码数据,对于这些原始数据的统计处理,需要根据研究目的、变量类型、样本的分布来选择适宜的统计量和处理方法。
3.1 数值性数据的统计处理
图2 数据透视表求统计量
图3 描述统计求相关统计量
在问卷调查中,通过填空方式得到的一般是具有连续变量性质的数值性数据,对于这类数据,一是直接计算各种统计量,即描述统计:通常会求其各类平均值、方差、标准差、极值、中位数等统计量。二是求频数分布,有时需要将连续数据转化成简单的间断数字,当成数组来统计频数。三是进行各种检验、相关和回归等。
3.1.1 计算各种统计量
在Excel电子表格软件中,计算统计量的方法主要有:①函数方法。对于均值、标准差、方差、最大值、最小值、中位数等统计量,可以直接用Excel内建函数AVERAGE()、STDEV()、VAR()、MAX()、M I N()、MED I AN()来计算。在Excel中使用函数时通常采用两种输入方式,一是从键盘上直接输入该函数公式的有关内容;二是使用"粘贴函数"对话框,根据提示完成函数的计算。利用函数时要注意该函数的意义、适用范围和使用条件等,以便快速准确的利用函数进行数据统计处理。②利用数据透视表获得统计量。数据透视表是一种对大量数据快速汇总和建立交叉列表的交互式表格,可以通过旋转其行或列以查看对源数据的不同汇总,还可以通过显示不同的行标签来筛选数据,它是Excel强大数据处理能力的具体表现。我们可以将问卷原始数据统计表中的数据作为数据源,选择从标题行开始的全部数据区域,按照数据透视表功能向导的提示,根据研究需要设置字段布局来产生交叉分析表,通过调整行、列字段名称和改变字段设置中源字段的"数据项"汇总方式,对不同问题选择合适的计算选项。如本研究中对不同学历教师发表论文的情况进行汇总,在使用数据透视表时,将"学历"作为行字段,把"论文"作为汇总"数据项"拖拉两次,通过调整"数据项"的汇总方式,可以同时得到不同学历教师发表论文的平均值和方差(见图2),同样的方式可以获得总和、最大值、最小值、标准偏差等其他统计量。③利用"数据分析"中的"描述统计"可以同时快速获取各种统计量。通过加载宏的方式添加"分析工具库",便可以在"工具"菜单下得到"数据分析"选项。"数据分析"的"描述统计"提供了选择区域数据的算术平均值、标准误差、中位数、众数、标准差、方差、峰度、偏度、区域、极值(包含最大值和第几最大值、最小值和第几最小值)、求和、观测数、置信度等统计量,它不仅能够从集中趋势、离散趋势和分布趋势三个方面对原始数据进行充分描述,而且还能据此对总体进行均值的区间估计和假设检验。图3是通过"描述统计"获得的教师发表论文情况的各种统计量。
3.1.2 求频数分布
对于数值性的数据,有时不仅需要求平均数、标准差等统计量,而且还需要研究其频数分布,计算百分比。如果这些连续性的数值数据比较分散,可以用IF函数或VLOOKUP函数进行分组,将其转化成非连续的区间数据,并以代码表示相应区间数据,这样数据的性质就非常接近离散型变量。如果本研究中要了解教师发表论文的数量分布情况,由于数值比较分散,我们将论文数量分成了0-5、6-10、11-15、16-20、20以上五个区间,分别用1、2、3、4、5作为其代码,利用函数IF(G3<=5,1,IF(G3<=10,2,IF(G3<= 15,3,IF(G3<=20,4,IF(G3>=20,5)))))在H列中得到代码值,就可以利用有关函数(如COUNTIF或FREQUENCY)、数据透视表进行频数分布统计,并计算相应的百分比。
图4 本科学历教师和研究生学历教师的双样本平均差检验
3.1.3 进行各种检验、相关和回归等
这类问题若用手工进行计算,过程比较复杂和繁琐。Excel提供了有着强大统计功能的一组数据分析工具,称为"分析工具库",也就是工具菜单中的"数据分析"选项。利用"数据分析"选项,我们可以进行方差分析(包括单因素、可重复双因素、无重复双因素)、F-检验(双样本方差分析)和t-检验(平均值的成对二样本分析、双样本等方差假设、双样本异方差假设)等,也可以求相关系数和回归方程。进行数据处理时只需为每一个分析工具提供必要的数据和参数,该工具就会自动使用适宜的统计或工程函数,在输出的表格中显示相应的结果,有些还能在生成输出表格的同时生成图表。如本研究要对本科学历和研究生学历教师发表论文的平均数进行检验,前面已通过数据透视表求出了不同学历教师发表论文的平均数和方差,可以利用"数据分析"的"Z-检验:双样本平均差检验"。首先,将数据按学历进行排序,将本科学历教师发表论文作为变量1,研究生学历教师发表论文作为变量2;然后输入变量1和变量2的数据区域和它们的方差,假设平均差设置为0,选择数据输出区域,就可以得到检验的相关数据(见图4),P> 0.05,说明两者的平均数没有差异。
3.2 离散型变量数据的统计处理
选择题获得的是关于被调查者的基本情况、看法、态度、倾向、爱好等离散变量性质的数据,这类数据通常只求个数分配表(即频数分布),以其出现个数多少进行比较,一般不求其平均数、标准差等统计量,有时进行卡方检验。
3.2.1 单项选择题的统计处理
频数分布是问卷调查中使用最广泛的分析技巧之一,对于单选题的频数分布表,可以利用COUNTIF或FREQUENCY函数求得,但这两个函数一次只能对一个变量求频数分布,而且还要在原始数据列以外的位置增加列位来存放有关代码选项和计算数据,改变了“问卷调查原始数据统计表”的原来结构,数据处理起来不太方便。在体育科研中,只对单一变量求频数分布有时不能满足研究的需要,并且意义不大,通常要研究两个或以上变量的相互关联性,对于两个变量的不同选项内容进行比较,并通过卡方检验分析它们之间是否存在显著性差异。若同时求两个变量的频数分布并进行卡方检验,最便捷的处理方式是利用数据透视表和数据透视图来建立交叉表。由于同时对两个变量求频数分布,需要增加作为求和“数据项”内容的字段列,为此我们在数据统计表添加了一列全部为“1”数据,将此列名称命名为“标记数”,用于数据汇总。在本课题中为了解不同职称教师之间的科研合作态度,并研究他们之间是否存在差异,首先我们可以利用“数据透视表和数据透视图向导”,建立职称与科研合作态度的交叉分析表,得到不同职称教师的科研合作态度的频数分布表(见图5(一));将图5(一)的数据进行复制,把代码转换为原文字内容,便得到卡方检验所用观察值范围(B11:E14)(见图5(二));根据卡方检验的有关计算知识,首先计算表格中第一个单元格的期望值,即第一行合计数*第一列合计数/总数(=B$15*$F11/$F$15),通过运用单元格的引用和复制,获得卡方检验所用的期望值范围(I11:L14)(见图5(三)),然后用卡方检测函数CH ITEST(B11:E14,I11:L14)计算出P值为0. 000000455,说明不同职称教师间的科研合作态度存在明显差异。
图5 数据透视表对单选题求频数分布并进行卡方检验
3.2.2 多项选择题的统计处理
对于多项选择题的统计处理,即使利用SPSS、SAS等统计套装软件,此类题目也只能进行次数分配与交叉分析而已。多项选择题求频数分布,同单项选择题一样,利用数据透视表要比COUNTIF或FREQUENCY函数要简捷、快速和方便。由于多选题的答案一般在两个以上,处理过程相对单项选择题要复杂些,需要加上许多额外的步骤,甚至重复多次操作才能完成,而且不方便对两个变量同时求频数,不能进行卡方检验。根据多项选择题的分类,求频数分布可分为两种情况:第一种为限选题,以本课题对不同职称教师科研目的调查数据的处理为例,按照数据透视表向导,以“职称”为行字段,“第一位”为列字段,以“标识数”为数据项,计算出不同职称老师在“第一位”的各选择项频数(见A4:F10),将有关数据进行复制粘贴,再把职称代码和选择项代码转换成相关文字,便得到各职称教师第一位科研目的不同选择项频数。通过更换列字段名称,以同样的方式可以计算出“第二位”和“第三位”各选择项的频数分布,将不同职称教师的科研目的整理为下表的数据格式,便可以根据研究需要再对这些数据进行统计处理。
第二种情况是除对每个选择项来求频数分布外,还要对答案选项计算频数,如本课题中任选题“教师在科研中常用的方法”,我们既要研究教师每种方法的频数,还要研究教师使用方法的个数。对于这类问题,我们一般是将所有答案选项作为列标题,按照顺序全部排列在数据统计表上。由于在数据输入时,我们将相应选择项代码用数字“1”代替,我们可以多选定数据范围外的一行和一列的单元格,在这个区域内利用自动求和功能同时对行和列来计算频数。
图6 数据透视表对多选题求频数分布
以上仅从利用工具栏的“粘贴函数”和菜单栏“工具”的“数据分析”和菜单栏“数据”的“数据透视表和透视图”等三个方面对体育问卷调查原始数据的统计处理进行了简要说明,对于Excel的其它统计功能应用没有阐述,在体育科研中只要我们结合实际,充分挖掘Excel的强大统计功能,就能起到事半功倍的作用。
[1]张士伟.山东省普通高校体育科研现状及其影响因素研究[D].北京:北京体育大学硕士学位论文,2003.
[2]周登嵩.体育科研概论[M].北京:北京体育大学出版社,2001.
[3]陈小蓉.体育科学研究原理与方法[M].北京:北京体育大学出版社,2001.
[4]祁国鹰,徐明,张明立.实用体育统计[M].北京:北京体育大学出版社,1997.
[5]祁国鹰.体育用多元分析[M].北京:北京体育大学出版社,1998.
[6]刘学贞体育用数据处理方法[M].北京:北京体育大学出版社,2001.
[7]杨世莹.Excel数据统计与分析范例应用[M].北京:中国青年出版社,2004.
[8]唐世雄.EXCEL统计功能的应用研究[J].成都信息工程学院学报,2002,17(4).
[9]王作灿,张士伟.学生体质健康测试数据的Excel统计处理研究[J].红河学院学报,2009(4).
[10]潘璐,姚瑶,张建春等.在Excel中实现统计功能扩展[J].中国卫生统计,2007(5).
[11]闫安.巧用EXCEL处理统计数据表[J].中国统计,2007 (9).
[责任编辑 自正发]
On the Statistics of Questionna ire Data in Sport Scientific Processing with Excel
ZHANG Shi-wei
(Dept of Physical Education,Laiwu Vocational&Technology College,Laiwu 271100,China)
Based on the features and statistical functionsof the Excel,the author had established statistical graph for the questionnaire data in sport scientific in Excel.According to the type of questionnaire problem,this article had introduced the inputmethods of descriptive title and the contents of the questionnaire original data and data input attention.Complywith three kindsmethod the treatment being in progress counting has composed detailed description for inquiring into the questionnaire basic data such as for m and perspective view making use of“paste function”,“data analysis”and“data perspective and perspective drawing”
Excel;questionnaire;data statistics
book=8,ebook=200
TP31
A
1008-9128(2010)04-0067-06
2010-06-10
莱芜职业技术学院科研基金资助项目
张士伟(1970-),男,山东省宁阳县人,硕士,副教授。研究方向:体育教学与训练。