理工科硕士生数据素养现状及影响因素的实证研究

2022-05-06 13:18李舸鸣刘继安
科技和产业 2022年4期
关键词:硕士生理工科学习态度

李舸鸣, 刘继安, 戚 佳

(中国科学院大学 公共政策与管理学院, 北京 100049)

互联网的快速发展及大数据的广泛应用使科学研究范式向“数据密集型科学”转变,主要表现为以数据为基础开展科学研究[1]。在数据密集型的科研环境下,科学活动越来越依赖于对数据的管理与利用,数据不再仅仅用于支持和辅助科学研究,还能够驱动甚至是引领科学研究[2]。数据素养作为数据管理与利用的核心概念,已经成为从事科学研究活动的必备技能[3]。与此同时,建设数字中国是中国未来发展的一个重要目标,亟须一批擅长使用数据解决科技问题的创新人才。理工科研究生作为高层次人才的生力军,对数据的敏感度以及所掌握的数据管理与利用能力对于推动科技创新和社会发展至关重要。而硕士阶段是训练研究生科研能力的主要阶段,正是培养数据素养的黄金时期,所以研究数据素养的现状及影响因素对于理工科硕士生有目的地提升数据素养、高校更好地开展数据素养教育具有重要意义。

目前国内外关于数据素养的研究已经取得了一定成果,但仍然存在某些局限性。①以往研究对象主要以高校科研人员为主,聚焦于硕士生的研究相对较少;②虽然部分学者对数据素养的影响因素进行了实证研究,但大多数研究仅围绕学生或学校的单一视角展开,并没有结合两种视角系统性地探讨数据素养的影响因素。因此,在前人理论分析以及在校硕士生访谈结果的基础上,使用问卷调查法对理工科硕士生的数据素养现状进行探究,并从个体层面和学校层面探讨数据素养的影响因素,从而基于实证结果为理工科硕士生数据素养的培养提出可行性建议。

1 文献综述与研究假设

1.1 数据素养理论内涵

数据素养的概念最早出现并应用于美国教育界,是大数据密集时代背景下对信息素养概念的内涵延伸。信息素养是一种能力,强调对信息的反思性探索、正确地理解和评价以及规范地创造和使用[4],数据是信息的一种类型,可以将其视为信息素养的一部分[5],但是信息素养更强调对信息的查找、评估和应用,而数据素养除了关注查找和评估能力,更注重对数据的管理、分析和应用[6],且数据处理的难度要远大于其他信息类型[7]。

目前学界对数据素养尚未达成统一的定义,但绝大多数研究都基于数据生命周期视角来阐释数据素养的理论内涵。有学者将数据素养简单地视为科研人员开展科学研究所需掌握的数据技能。Jian等和Prado等认为数据技能包含数据的收集、处理、评估及使用能力[8-9]。秦小燕等和Maybee等则指出数据的存储与交流也是数据技能不可或缺的组成部分[10-11]。然而,数据素养并不只是数据管理与利用的能力合集,还强调科研人员要具备数据意识,即能够认识到数据是一种重要的科研资源[12-13],从而更好地使用数据解决科学问题。同时,为了保证科研成果的客观性和真实性,数据素养也要求科研人员要在生产和使用数据的过程中遵守相关的道德伦理及行为准则[14]。综上所述,数据素养是指科研人员具有数据意识,在符合数据伦理的基础上使用数据技能解决科学问题的能力,其中数据技能包括数据的获取、分析、存储与展示4个方面。

1.2 理论框架与数据素养的影响因素

1.2.1 理论框架

社会生态系统理论指出,个体的行为会受到生存环境的影响,包括宏观系统、中观系统和微观系统3个部分。宏观系统指社会经济制度和文化等,中观系统指家庭、学校等小规模群体,微观系统指个人的生物、心理或社会特征[15]。基于此,从中观系统和微观系统出发,探究个体特征和学校环境对硕士生数据素养所产生的影响。

1.2.2 个体层面的影响因素

以往的研究发现,由于男性对计算机表现出的兴趣明显高于女性,且更容易辨别信息的有效性,因此男性要比女性更擅长获取和评价信息[16]。而数据作为信息的一种表现形式,男性可能比女性具有更强的数据素养。但是,郭倩等在研究科研人员的科学数据素养时发现,男性和女性的科学数据素养不存在显著差异[17]。由此看来,性别是否会对理工科硕士生数据素养产生影响还有待论证,所以提出以下研究假设。

H1:性别对理工科硕士生数据素养有显著影响,男性的数据素养高于女性。

有学者认为不同学科对学生的数据素养有不同的要求,使得不同学科学生的数据素养表现出差异性。岳敏敏等关于研究生数据素养现状的研究结果显示,理工科学生和人文社科学生的数据能力存在明显差异[18]。同样地,郝媛玲等在对高校图书情报人员的访谈中发现,学科背景是影响个体数据素养最主要的因素之一,统计学和数学等理学专业背景的学生对数据更为敏感,且对数据知识和方法的应用更为熟练[19],所以对数学基础要求更高的理科类学生的数据素养要高于工科类学生的数据素养。基于此,提出以下研究假设。

H2:学科对理工科硕士生数据素养有显著影响,理科类学生的数据素养高于工科类学生。

代沁泉等针对iSchool院校本科生和研究生数据素养问卷调查的结果显示,高年级学生在数据意识、数据的获取、挖掘、存储、利用等技能的得分要高于低年级学生[20],所以年级会对学生的数据素养产生影响。同时,余维杰等基于研究生数据素养现状的调查研究也证实,相较于低年级学生而言,高年级学生在不同的科研阶段均表现出较强的数据素养[21]。据此,提出以下研究假设。

H3:年级对理工科硕士生数据素养有显著影响,高年级学生的数据素养高于低年级学生。

除客观因素外,个体的学习态度和学术交流等主观因素也会影响数据素养。学习态度是指个体主动提升数据素养的意向[22]。许胜江认为主观惰怠是造成硕士生缺失数据能力的原因之一[23]。毕达天和曹冉通过实证研究证明积极的学习态度会使科研人员具有更强的内在动机,促使其更加主动地学习数据知识和技能,从而提升个人的数据素养[24]。学术交流是指科研人员在遇到数据问题时,能够获得的身边人的有益帮助和指导。迟玉琢的研究表明学术交流对数据素养能力产生显著正向影响[25]。综上所述,提出如下假设。

H4:学习态度对理工科硕士生数据素养有显著正向影响。

H5:学术交流对理工科硕士生数据素养有显著正向影响。

在围绕信息素养影响因素的研究中有学者发现,高中阶段选修过信息类课程的学生,在大学阶段会表现出更强的信息素养[26]。这是因为学习者会将某一领域的先前学习经验带入到新的学习阶段,从而促使知识发生迁移,帮助学习者构建新的知识体系[27]。由于信息素养和数据素养存在许多共同之处,所以硕士阶段以前的学习经验可能也会对理工科学生的数据素养产生影响,提出如下研究假设。

H6:相关学习经验对理工科硕士生数据素养有显著正向影响。

1.2.3 学校层面的影响因素

高校是培养学生数据素养的重要主体,所提供的教学培训和教学资源会对学生的数据素养产生影响。教学培训是指学生所接受的提升数据素养的专业训练,经过专业训练后,学生的数据素养会得到提高[28]。而教学资源是指学校开展数据素养教育的配套设施,包括用于数据管理和利用的数据库及软件库等[29]。郭倩和李建霞的研究已经证实学生数据技能的培养离不开学校教学资源的投入[30]。基于此,提出如下假设。

H7:相关教学培训对理工科硕士生数据素养有显著正向影响。

H8:相关教学资源对理工科硕士生数据素养有显著正向影响。

综上所述,研究框架如图1所示。

图1 研究框架

2 研究设计与数据收集

2.1 研究方法

采用问卷调查方法,在文献调研的基础上编制理工科硕士生数据素养现状及影响因素的调查问卷。运用SPSS26.0和Amos23.0对问卷结果进行数据分析:SPSS26.0用于变量的信度检验、探索性因子分析、描述性统计分析及回归分析;Amos23.0用于变量的验证性因子分析,对问卷质量进行评估。

2.2 问卷设计

基于上文提出的研究框架,参考和借鉴国内学者编制的量表,并结合专家意见对题项加以调整和修改,形成初步的调查问卷。随后,将调查问卷发放给46名同学进行预测试,根据测试结果及反馈意见再次修改问卷,最终得到正式的调查问卷。

调查问卷由4个部分组成。第1部分为调查对象的基本信息,包括性别、学科和年级。第2部分关于理工科硕士生的数据素养现状,采用李克特五级量表,从数据意识、数据获取、数据分析、数据存储、数据展示及数据伦理6个维度测量数据素养,其中,数据意识、数据存储和数据伦理的题项改编自张晓阳等[31]的问卷,数据获取、数据分析和数据展示的题项改编自隆茜[13]的问卷。第3部分是对个体主观因素的测量,采用李克特五级量表的形式,其中,学习态度和学术交流的题项根据迟玉琢[25]的问卷进行修订,学习经验为自编题项。第4部分是对学校层面影响因素的测量,教学资源的题项改编自沈玖玖等[29]的问卷,采取李克特五级量表的形式;教学培训为自编题项,指学生参与教学培训的程度,分别赋值0~8。

2.3 数据来源

U大学是一所依托国家科研机构办学,以理工学科为主的研究型大学,涵盖全部理学一级学科和工学的大部分学科,且研究生规模大,目前有2.6万多名在校硕士生,故在U大学中抽样选取硕士生作为调查对象具有一定的代表性和可操作性。

由于U大学二年级及以上研究生分散在各研究所,因受疫情的影响,现场调研存在一定难度,所以依托问卷星平台,使用分层抽样和方便抽样相结合的方法,以“线上+线下”结合的方式发放调查问卷。线上问卷在学科类别内按滚雪球方式发放,先发放给相关领域熟悉的同学和老师,再请他们帮忙发放给其他同学的方式,共得到337份问卷;线下问卷通过在工位、宿舍楼等随机寻找调查对象的方法,共得到223份问卷。两种形式共发放问卷560份,回收问卷560份,剔除作答时间过短、非目标院校、非目标专业等无效问卷58份,最终保留有效问卷502份,有效回收率为89.6%。

3 数据分析

3.1 信效度检验

3.1.1 信度检验

李克特五级量表常用克隆巴赫系数(Cronbach’α),即内部一致性系数来检验信度,该系数越大说明量表的信度越高。吴明隆提出,在社会科学领域中,使用者既要提供总量表的信度系数,也要提供各测量变量的信度系数:针对测量变量的量表,α≥0.50为可以接受,α≥0.70为适中,α≥0.80为良好,α≥0.90为优秀;针对整体量表,α≥0.60为可以接受,α≥0.70为适中,α≥0.80为良好,α≥0.90为优秀[32]。采用SPSS26.0对数据素养、学习态度、学术交流及教学资源4个测量变量及整体量表进行信度检验,整体量表的Cronbach’α为0.924,各层面量表的Cronbach’α均大于0.7,说明问卷信度较好。

3.1.2 效度检验

首先检验问卷的内容效度。问卷建立在充分的文献梳理基础之上,且经过了专家评估和预测试的两轮修改和调整,确保了题目分布的合理性,从而保证问卷具有良好的内容效度。

其次,由于学习态度、学术交流、教学资源以及数据素养4个变量均由量表题进行测量,且包含部分修改题项以及自主设计题项,因此在构建回归模型之前有必要进行因子分析。通过KMO和Bartlett球型检验,4个变量的KMO值均大于0.6,说明可以进行因子分析[33]。对学习态度、学术交流、教学资源而言,探索性因子分析结果显示各题项的因子载荷均在0.7以上,分别能够解释总方差的66.32%、71.95%、68.40%,说明学习态度、学术交流和教学资源构念具有良好的结构效度;对数据素养而言,探索性因子分析结果显示该变量为六维结构,各题项的因子载荷均在0.5以上,共解释总方差的76.53%,说明数据素养构念具有良好的结构效度。再次,为了检验4个变量的区分效度和收敛效度,使用Amos23.0进行验证性因子分析,结果表明:各变量AVE值均在0.4以上、CR值均在0.7以上,说明量表的收敛效度可以接受[34];各变量之间的相关性显著,相关系数均小于0.5,且所有相关系数都小于AVE的平方根,说明量表具有良好的区分效度[35],结果见表1。

表1 区分效度和收敛效度

3.2 描述性统计分析

3.2.1 样本基本概况

整体而言,调查对象在性别、学科以及年级上的分布较为平均,见表2。从性别来看,男性学生占51.0%,女性学生占49.0%;从学科来看,理学学生占53.4%,工学学生占46.6%;从年级来看,硕士一年级占40.6%,硕士二年级占33.7%,硕士三年级占25.7%。

表2 样本基本概况

3.2.2 数据素养及影响因素的得分概况

理工科硕士研究生的数据素养水平通过学生自评的数据素养得分进行衡量。数据素养共有6个维度,取值为每个维度的平均值,满分为5分。从表3中可以看出,理工科硕士生数据素养整体水平较好。学生认为自己在数据意识和数据伦理方面表现得更加出色,在数据的获取、分析、存储、展示等数据技能方面表现得相对较差,其中数据分析的能力最为薄弱。

就影响因素的得分情况而言,从个体主观因素来看,理工科硕士生认为自己针对数据知识和技能开展的学术交流较为丰富,且有一定的学习经验,但是学习态度不够积极;从学校层面因素来看,理工科硕士生对学校所提供的教学资源比较满意,但是参与教学培训的程度不高。

表3 数据素养及影响因素得分

3.3 多元线性回归分析

首先对数据素养和不同层面的影响因素进行多重共线性检验,结果显示各变量的方差膨胀因子平均值为1.281,最大方差膨胀因子值为1.510,容差均大于0.1,说明变量间的多重共线性问题较小,满足做回归分析的假定条件。基于此,采用多元线性回归分析方法检验个体客观因素、个体主观因素以及学校层面因素是否对理工科硕士生的数据素养产生显著影响,构建模型(1)至模型(4)(表4)。模型(1)检验性别、学科、年级对数据素养产生的影响;模型(2)在控制个体客观因素的基础上,检验学习态度、学术交流、学术经验对数据素养产生的影响;模型(3)在控制个体客观因素的基础上,检验教学培训与教学资源对数据素养产生的影响;模型(4)检验个体层面和学校层面因素对数据素养产生的共同影响。

表4 不同因素对数据素养的影响

模型(1)的结果显示,在个体客观层面的影响因素中,性别(β=-0.037,P>0.05)和学科(β=-0.044,P>0.05)对理工科硕士生数据素养的影响在5%的显著水平上不显著,而年级对数据素养产生的影响显著,可以解释数据素养24.9%的变异。与一年级学生相比,二年级(β=0.377,P<0.001)和三年级(β=0.520,P<0.001)学生的数据素养更强。模型(2)的结果显示,在控制个体客观因素后,个体层面因素能够解释数据素养54.9%的变异,学习态度(β=0.160,P<0.001)、学术交流(β=0.239,P<0.001)、学习经验(β=0.367,P<0.001)对理工科硕士生数据素养产生显著正向影响。模型(3)的结果显示,在控制个体客观因素后,纳入学校层面的影响因素使得回归模型能够解释数据素养31.5%的变异,教学培训(β=0.168,P<0.001)和教学资源(β=0.168,P<0.001)对数据素养产生显著正向影响。

从模型(4)的结果来看,R2和F值的改变量均在1%的显著水平上显著,同时纳入个体层面和学校层面影响因素的回归模型能够解释数据素养55.7%的变异。此时,只有年级、学习态度(β=0.142,P<0.001)、学术交流(β=0.223,P<0.001)、学习经验(β=0.360,P<0.001)以及教学培训(β=0.038,P<0.05)对数据素养仍然产生显著正向影响,而教学资源(β=0.083,P>0.05)对数据素养的影响在5%的显著水平上不显著。此外,从标准化回归系数来看,年级、学习态度、学术交流及学习经验的标准化回归系数的绝对值较大,说明对数据素养有较高的解释力,而教学培训的标准化回归系数的绝对值相对较小,说明对数据素养的解释力较低。综上所述,研究假设H3~H7得到验证,假设H1、H2、H8未通过验证。

4 结论与建议

4.1 研究结论

4.1.1 数据素养现状

从数据素养的描述性统计分析结果可以看出,理工科硕士生对个人数据素养的总体水平比较认可,认为自己的数据伦理能力最强,数据分析能力最弱。这是因为自翟天临、曹雪涛等学术不端事件发生以来,国内高校愈发重视对学生的数据伦理教育,专门开设了相关的必修课程,如U大学的《学术道德与学术写作规范》等。相比之下,针对学生数据技能的培养,尽管国内部分高校开设了数据处理和分析的课程,但是教学内容以面向全校学生的Excel、CiteSpace等基础数据分析软件为主[36],而不同人群对数据技能的需求有所不同[37],所以学校的数据素养教育体系要根据教学对象需求的差异性进一步调整和完善。

4.1.2 个体层面因素对数据素养的影响

就个体客观因素而言,只有年级会对理工科硕士生的数据素养产生显著影响,且年级越高的学生,数据素养越强。这是因为与低年级学生相比,高年级学生从事科学研究的时间更长,有机会得到更多的实践与锻炼,所以表现出更强的数据素养。相反,性别不会对理工科硕士生的数据素养产生影响,这进一步支持了郭倩等[17]的研究结果;理工科硕士生所处的学科领域也不会对数据素养产生影响,这与郝媛玲等[19]的访谈结论不一致,还有待扩大样本进一步论证。

就个体主观因素来看,学习态度、学术交流以及学习经验均会对理工科硕士生的数据素养产生显著正向影响,即学生的学习态度越积极、学术交流越多、学习经验越丰富,其数据素养会越强。积极的学习态度会使学生对数据素养有更高的需求,促使其在学习数据知识和技能上投入更多的时间和精力,不断提升个人的数据素养;好的学术交流意味着学生身处数据素养较高的环境中,在遇到数据问题时,能够及时获得有益的指导和帮助,从而在解决问题的过程中掌握更多的数据知识和技能;而与缺少学习经验的学生相比,学习经验丰富的学生在面对数据问题时更有信心,也更容易掌握进阶的数据知识和技能,追求更高的数据素养。

4.1.3 学校层面因素对数据素养的影响

从多元线性回归分析的结果可以看出,当学校层面的影响因素单独作用于数据素养时,教学培训和教学资源均对理工科硕士生的数据素养产生显著正向影响,而当个体层面和学校层面的影响因素共同作用于数据素养时,只有教学培训对数据素养的影响达到显著水平。这与以往的研究结论不一致,可能的原因是:硕士生的科研学习主要以课题组为单位,学习资源更多地来源于课题组;而现有研究的调查对象大多为本科生,学校教学为本科生学习的主要方式,其学习资源更多依赖于学校的供给,据此猜测硕士生的数据素养可能更受课题组资源的影响,但是由于问卷对教学资源的测量主要针对学校层面,所以此结论还有待进一步检验。

回归分析的结果还显示,相比于学校层面的影响因素,个体层面的影响因素对数据素养有更高的解释力,可能的原因如下:根据社会学习理论,虽然个体的行为会受外界环境的影响,但更重要的是受自我引发的行为结果的影响[38],也就是说学生通过教学培训习得的数据知识和技能,还要经过个体不断地练习与实践,才能真正将其转化为个人的数据素养。

4.2 对策建议

基于上述研究结论,提出以下建议:

从个体层面来看,“师傅领进门,修行靠个人”,理工科硕士生要加强对数据素养重要性的认识,提高学习的主动性。首先,端正学习态度。研究生学习具有较强的自主性,学生对数据素养的提升不能一味地依靠“填鸭式”教学,要意识到数据是科学研究必不可少的组成部分,主动地参加培训或讲座,学习相关的知识与技能。其次,增强与老师、师兄师姐、同学的交流与合作。通过与他人的交流与合作,个体能够获得相关的经验和有益的帮助,从而提升个人的数据素养。最后,坚持不断地学习与积累。数据素养的培养是一个循序渐进的过程,不会一蹴而就,学生要摆脱“老师让学才学,科研需要才学”的观念,在日常学习中就重视培养自己的数据素养,才能更好地使用数据解决科学问题,提升科研效率。

从学校层面来看,高校要根据教学对象的差异性开展多层次、多样化的数据素养教育。在教学形式上,课程修读是低年级学生的关注重点,所以面向该群体的数据素养教育要以必修课和选修课的形式为主,而高年级学生的关注重点是自己的研究课题,所以面向高年级学生的数据素养教育要具有更强的灵活性,可以把讲座和培训作为主要的教学形式。在教学内容上,面向低年级学生开设基础的数据素养课程,重点介绍数据的理论知识以及数据分析软件的应用等;面向高年级学生提供进阶的数据素养培训项目与实践机会,使其能够结合个人的研究方向,有针对性地提升个人的数据素养。在教学队伍上,图书馆作为高校提供数据素养教育的重要单元,可以与专业课教师和导师共同组成一支教学团队,由图书馆馆员教授基本的知识和方法,由专业课教师结合所学专业讲授具体的应用技能,由导师提供科研实践的机会,从而全方位地支持学校的数据素养教育。

猜你喜欢
硕士生理工科学习态度
黑河学院与俄罗斯阿穆尔国立大学联合培养本科生和硕士生签约
高职院校专接本学生学习态度及教育对策探析
不理
李德辉写生作品选
理工科学生知识产权素养培育研究
借电机之东风 求科研之突破——记重庆大学电气工程学院硕士生导师沈启平
理工科大学生行为文化建设研究
有关理工科线性代数教学改革必要性的探讨
你的学习态度怎么样?
Younger and Older learners’Advantages on Language Acquisition in Different Learning Settings