提升研究生调查的教育质量评估有效性：科研经历分析之经验

2023-02-27 01:24刘秀英

学位与研究生教育 2023年12期

DOI： 10.16750/j.adge.2023.12.010

摘要：基于陕西省高校科研经历调查数据，借助因子分析与多层模型分析方法，分析了所开发的研究生科研经历调查工具在学生个体层次上和学校层次上的工具性能。分析结果显示，学生个体层次上，研究生科研经历调查工具的因子结构稳定，具有良好信度和效度，是学生个体层次上的有效测量工具；学校层次水平上，研究生科研经历调查工具的信度不足；研究生个体对科研经历的感知评价存在较大差异。研究结果揭示了基于科研经历评估教育质量所面临的一些问题，研究生视角的科研经历调查结果可用于学生个体层次水平上的研究生教育质量分析，但不支持学校层次上的研究生教育质量校际比较，科研经历存在一定程度个体差异。因此，在基于研究生调查的教育实践过程中，应注意分析单元问题、外推分析结果的合理性、开发适合校际比较的学生调查工具、关注学生个体差异和研究生培养过程同质化问题等。

关键词：科研经历调查；研究生质量；高等教育评估；多层模型；研究生教育

作者简介：刘秀英，西安交通大学公共政策与管理学院博士研究生，陕西西安 710049。

基金项目：国家自然科学基金资助项目“大学生就业能力与创业意向：结构、影响因素及发展策略研究”（编号：71573203）

一、问题提出

随着研究生教育规模不断扩大，面临的教育质量社会问责的压力增加。“十四五”以来，我国高等教育持续保持稳中有升、研究生教育规模快速增长的特征。2021年我国在学研究生规模达333.24万人，2022年增长了9.64%，达365.36万人。在资源配置与市场需求能较好满足的情况下，高校会对研究生教育扩张政策“积极响应”，并形成潜移默化的作用。社会上对研究生教育规模扩张却并非一直持支持态度，对研究生教育的评价除了以规模作为评价指标外，还表达了由于规模扩大导致教育质量下降的担忧[1]。如何在规模扩张的同时保证教育质量成为研究生教育的核心任务。

虽然政府主导的教育质量评估与保障政策落实过程中，更青睐借助教育“输入”或“输出”端的客观量化性指标评估教育质量，对教育过程和作为教育主体的学生关注不足。囿于经验拒绝改变“教师为中心”模式下形成的教育实践与评估惯习是国际范围内高等教育改革普遍面临的问题[2]。近些年来，建构主义和社会认知心理等理论不断发展对人类认知的客观性挑战，以及社会问责高等教育质量压力的推动下，国际范围内研究生教育的评价与保障体系越发重视“学生的声音”[3]。自20世纪90年代以来，基于学生反馈的科研经历调查在澳大利亚、英国、加拿大等多个国家已成为研究生教育评估和问题诊断的重要途径[4]。同一时期，国内高等教育质量保障体系中，也越发重视来自学生的声音，基于学生反馈的各种研究生科研经历的调查项目纷纷开展，日益成为获取研究生教育质量信息的重要途径和质量保障的重要环节。

然而，基于学生调查评估研究生教育质量的一些问题亟需关注。基于学生反馈的科研经历调查结果具有教育数据的嵌套性特征，因此科研经历调查应用于教育评估过程时，分析单元的选择是一个需要重点关注的问题。分析单元不同，分析结果的适用范围也会不同。同样，由于分析单元不同，需要考虑不同层次水平上的科研经历差异显著性问题，例如对科研经历在学校层次上或院系层次上比较分析是否有对应的学校层次上或院系层次上的差异显著性验证分析等。这些问题在英语语言背景下开展的科研经历调查应用过程中得到一定程度的讨论，在国内开展的各种研究生科研经历调查应用过程中则缺乏对相应问题的深入探究。本研究拟借助一项中文语言背景下开展的科研经历调查，探究学生调查应用评估高等教育质量过程中分析单元选择的重要性问题，分析此类调查在不同层次上（如个体层次和学校层次）的性能特征，验证科研经历在更高层次单位上进行比较分析实践的可靠性。

二、相关研究回顾

（一）分析学生调查涉及的分析单元问题

面对学生群体开展的学生调查所搜集的信息具有嵌套性质，学生隶属于不同班级、受教于不同教师、就读于不同学校等，学生调查分析涉及的一个重要问题是分析单元的选择。在早期基于学生调查评估教学质量的研究中，已有研究者关注到分析单元选择的重要性。基于学生调查收集的反馈信息评估教学效果在高等教育调查实践中由来已久，同时，学生评教反馈用于不同实践活动的适当性和可信度作为一个重要研究课题和争论焦点也伴随而生[5-6]。学生评价教学效果的研究中，如何选择合适的分析单位是个重要方法论问题。基于学生调查反馈评估教学效果的研究中通常选择的分析单元是班级或者单个教师。相应地，在此基础上计算得到的评价指标的可信度及适用范围是班级层次或教师个体。班级层次水平上的可信度受班级规模和班级内个体评价一致程度影响：50人规模班级的信度最低标准是0.95，25人规模班级的信度最低标准是0.90，10人规模班级的信度最低标准是0.74，5人规模班级的信度最低标准是0.60。如果单个班级规模足够（或者如果班级规模小于20，以教师为单位，对其所代课的所有班级进行平均），班级层次的信度就会很好。同样地，结构效度的分析也应在班级层次水平上进行[7]。

马什（Marsh）发现学生对教授同样课程的不同教师教学效果的评价相关度为？0.05，对同一位教师教授的不同课程教学效果的评价相关度为0.61，对同一位教师负责的两门课程的教学效果评价相关度为0.72。学生对教学的评价能区分不同教师个体的教学风格（例如，课程组织良好，教学热情高等），但是不能区分不同课程的特征[8]。也有研究发现学生对教学效果的评价能区分不同学科，（例如，人文社科类学生评教稍微偏高，科学类学生评教稍微偏低），不过，学生评教中的学科差异对学生评教变异的解释有限，而且如何解释学生评教的学科差异仍有很多争论[9]。学生评价能有效区分教师个体，但在区分不同课程和不同学科上缺乏可信度。由此可见，对基于学生视角的教育教学评价反馈的相关研究中，分析单元选择是个非常关键的问题，多层线性模型因其具有允許不同分析单元共存的优势而受推崇。马什等人的研究为后续提供非常有益的研究思路和方法指导。

（二）研究生科研经历调查及其在高等教育质量评估中的应用

1.国外科研经历调查及其在高等教育质量评估中的应用

在澳大利亚、英国和加拿大等英语语言国家中，对高校、政府和教育质量监管机构而言，科研经历调查是研究生教育质量的重要信息来源，是高等教育质量保障的重要环节。

科研经历调查于20世纪90年代兴起于澳大利亚，是澳大利亚全国范围实施的一种研究生教育质量评估项目。20世纪90年代初，澳大利亚已经开始借助针对本科生的课程学习经历调查问卷（Course Experience Questionnaire，CEQ）收集毕业研究生的就读经历反馈意见，对此高校持批评态度，认为研究生教育与本科生教育存在较大差异，应该采用针对研究生教育过程的调查工具。为此，澳大利亚毕业生职业委员会（the Graduate Careers Council of Australia）在1999年根据文献研究和对教师和研究生的访谈，设计开发了研究生科研经历调查问卷（Postgraduate Research Experience Questionnaire，PREQ），对当年业已毕业的研究生进行调查[10]。研究生科研经历调查（PREQ）是1999—2015年澳大利亚高等教育绩效评估的重要数据来源之一。通过对不同研究生培养机构、不同院系部门、各年度的研究生科研经历进行反馈评价。

面向在读研究生的科研经历调查更多用于诊断和改善研究生培养过程，较少用作绩效评估指标，但不同机构与单位间的对比与排行仍比较常见，例如高校外部机构的科研经历比较与排行、高校内部不同院系的科研经历对比分析，或者与特定常模基准进行对比分析。英国的科研经历调查（Postgraduate Research Experience Survey，PRES）和加拿大研究生及专业学生调查（Canadian Graduate And Professional Student Survey，CGPSS）就屬此类调查。英国的科研经历调查由英国高等教育学会（the Higher Education Academy）及参与项目的高等教育机构共同管理，是在澳大利亚科研经历调查基础上发展而来的。英国科研经历调查试行于2006年，于2007年在全国范围内推广，至2023年该项调查的范围已经扩展至澳大利亚和新西兰的高等教育研究机构。加拿大课程及专业研究生调查由加拿大研究生研究协会（Canadian Association for Graduate Studies）主持，已持续开展了五轮调查（2007年、2010年、2013年、2016年、2019年），影响范围逐年增加，在2019年有50所加拿大高校参与该项调查。

科研经历调查能够在多大程度上用于识别校际差异是调查应用涉及的一个重要议题。科研经历调查的目的在于为改进研究生教育提供支持，一个能够有效识别校际差异的科研经历调查有多种用途：可以为高校提供有效参照基准，帮助高校明确自身优势和改进方向；可以为准备就读研究生的人群提供择校参考依据；还可以基于调查结果生成高校的绩效指标帮助高校应对社会问责。不同国家科研经历用于评估教育质量过程中，对于分析单元、校际差异的区分程度关注不同。相对而言，澳大利亚科研经历调查应用过程中对于分析单元问题和不同分析单元对应的工具性能较为关注。在调查项目启动之初，在分析调查工具的构成维度，验证其结构效度与信度时，还对科研经历调查结果作为绩效指标区分高校机构的可靠性进行讨论。结果发现，不同高校在科研经历不同维度上评价得分的误差区间存在较高程度重叠。也就是说科研经历的校际差异并不明显[11]，吉恩（Ginns）等人后来还发现科研经历无法有效区分用于区分院/系之间的差异[8]。为了方便比较分析，澳大利亚的研究生科研经历调查年度报告中，设定了特定的差异显著判定标准（不同组别之间的科研经历评价得分差异超过五分之一的标准差以上，则视为是有实际意义的差异）。英国和加拿大开展的研究生科研经历调查用于评估研究生教育质量时面临同样的问题，不过，对于分析单元的问题、科研经历的校际差异的显著性等讨论的较少，报告内容主要描述以学生个体作为分析单元的分析结果，科研经历各维度的评价直接简化为“同意”“不同意”二分类，简化后直接以各维度上的同意百分比均值进行总体分析、年度变化趋势分析、不同高校和不同学科间的比较分析等。简化后呈现的科研经历调查结果更简单和直观，但同时也因数据简化处理丧失了部分关键信息，例如各维度上的学生评价的个体离散情况等[12-13]。

2.国内研究生调查及其在高等教育质量评估中的应用

在面向中国高校研究生群体开展的各项调查中，与澳大利亚、英国等国家开展的科研经历调查项目性质相似的有全国博士毕业生调查[14]、研究生满意度调查[15-16]以及各省开展的研究生质量调查项目[17-18]和研究者独立开展的个别调查项目等[19-20]。其中全国博士毕业生调查自2007年实施，调查内容包括培养过程与毕业结果。研究生满意度调查由学位与研究生教育杂志社和北京理工大学研究生教育研究中心主持，自2011年开始实施，主要从课程教学、科研训练、导师指导、管理与服务4个维度开展调查。不同省份开展的调查结果以各种年度报告的形式呈现。各种基于学生反馈的研究生调查项目开展实施意味着“学生的声音”在中国研究生教育质量评估与保障体系中的重要性越来越受到关注。不过，这些调查项目应用过程中更偏好基于反馈信息对研究生培养过程中的问题进行诊断和挖掘，或者热衷于探究科研经历状态的前因或结果。和英国及加拿大科研经历调查项目应用过程中存在的问题一样，国内开展的各种研究生经历调查在应用过程中同样存在忽视分析单元选择的问题，对科研经历进行比较和排行分析时，缺乏对应层次水平上（学校层次或院系层次等）的可靠性论证。而且，编制年度报告时将数据简化为百分比的形式在简化分析结果，提升报告可读性的同时，也损失了不同调查维度上个体离散程度的重要信息。

三、研究设计

（一）研究样本

本文的样本来自陕西省高校毕业生调查数据中的研究生调查数据。陕西省毕业生调查是受陕西省教育厅学生处委托，由西安交通大学评估中心主持的项目。调查工具是自主研制的“陕西省毕业生就业创业跟踪调查问卷”，其中包括本科生课程学习经历、研究生科研经历、毕业生就业与创业等子量表。调查对象是陕西省高校毕业生，包括专科、本科、硕士、博士毕业生，调查时间是毕业生离校半年之后，调查时间持续三个月左右，调查形式为网络问卷调查，被调查者自愿回答。本文聚焦于高校研究生的科研经历，因此样本选择限于当年获得硕士、博士学位的毕业生。陕西省高校毕业生调查中回收研究生反馈6533份，其中有效反馈2502份，问卷反馈有效率为38%。调查样本的基本情况见表1。

（二）调查内容

科研经历子量表借鉴了澳大利亚研究生科研经历调查问卷和英国研究生科研经历调查问卷的内容，主要调查在校期间学生感知的导师在科研过程中多方面的指导情况、学生在学术及科研相关技能方面的获得的发展情况、学校的科研氛围情况、学校在研究设施方面提供的支持、学位论文评审过程的公正性与程序合理性以及研究生对科研经历的整体满意度等。共有32个测量题目，回答从“非常不同意”到“非常同意”共6个等级，分别赋值1～6分。

（三）分析过程

1.初步分析（学生个体层次）

首先将该年研究生样本有效反馈数据拆分为两个随机数据样本（n1=1267，n2=1235），在样本1中借助SPSS进行探索性因子分析，探索问卷的因子构成，然后在样本2中利用AMOS中实施验证性因子分析，进一步检验问卷的因子结构效度。验证性因子分析结果以增值适配指标TLI、比较适配指标CFI、渐进残差均方和平方根RMSEA、卡方值（Chi-square）作为判定指标。其中，TLI和CFI取值在0～1之間，其值大于0.9意味着模型适配良好。RMSEA取值越小则表明模型适配度越高，其值在0.8～0.1之间，表示模型适配尚可，其值小于0.05，表明模型适配良好。基于计算的组合信度（Composite Reliability，CR）、平均变异量抽取量（Average Variance Extracted，AVE）平方根与维度间相关系数，验证各维度的收敛效度与区分效度。组合信度大于0.6，表明验证模型收敛效度佳。平均变量抽取量平方根大于各维度相关系数绝对值的最大值，表明各维度间区分效度良好。

2.多层模型分析（学生个体层次与学校层次）

高等教育研究中，具有嵌套结构特征的数据非常常见，例如学生个体隶属于某个班级，班级之上是院系、学科、学校等。多层模型可以在同一分析中分析不同层次的数据。研究借助MLwiN3.01首先构建以学校作为分类变量的二层次水平零模型，学生个体是最低层次水平，学校是最高层次水平，设定学生个体层次与学校层次的效应随机，以判定学校差异对因变量的解释程度和重要性。然后在零模型基础上增添预测变量（学生的个人特征），分析预测变量对校际差异的影响及预测变量的固定效应。

正如因子分析中因子信度系数取决于因子内的题目之间的一致程度（例如，题目之间的相关程度）和题项数量（基于传统的Spearman-Brown方程）一样，多层模型分析中每一层次水平上的群组均值的信度取决于群体内的个体一致程度和人数。即如果学校内的学生个体之间的一致性较差或者学生人数过少，则学校层次的群组均值的信度可能会比较低。多层模型分析中群组信度可以通过组内相关系数ICC判定，组内相关系数ICC是基于组内和组间方差计算所得，计算公式为：组内相关系数ICC=组间方差τ2/（组间方差τ2+组内方差σ2），组内相关系数ICC代表的是组间差异对总体差异的解释比例。

也可以将组内相关系数ICC视为基于单一学生反馈的信度指标（也可称为单频信度Single-Rater Reliability），从而将组内相关系数ICC和组内人数N代入Spearman-Brown公式可以计算出高层次水平的群组平均信度。计算公式为：群组平均信度=组规模N×组内相关系数ICC/[1+（组规模N？1）×组内相关系数ICC]。可见，高层次水平的平均信度取决于组间差异比例ICC和组规模N。研究中首先计算出不同高校的组间相关系数ICC，然后基于调查样本中各所高校的人数中位数计算学校层次的群组平均信度。

四、研究结果

（一）初步分析结果（学生个体层次）

1.因子分析及信度分析结果

探索性因子分析采用主成分分析方法，最大方差旋转后，选择特征值大于1的因子。探索生成五个因子，经过对各因子对应测量题目内容的甄别，剔除6个归属不当的题目，五个因子对应的题目共26个（将科研经历总体满意度作为独立题目，不纳入探索因子分析），累计解释方差82.96%。表2中列出探索性因子分析的结果，各因子对应的测量题目的因子载荷均高于0.6。度量分析结果显示各因子具有较高内部一致性，信度系数（Cronbach a）均高于0.8。

探索性因子分析结果基础上添加科研经历总体满意度这一题项后，在随机样本2中验证六个因子的结构效度。由于科研经历总体满意度仅有一个测量题目，因此设定其误差方差为0，因子载荷为1。验证性因子分析结果表明，各参数估计值显著（0.05显著性水平及以上）。模型适配指标中，卡方值（Chi-square=2808.624）显著，由于该指标易受样本容量影响，因此对验证因子模型的判别主要依据增值适配指标TLI、比较适配指标CFI和渐进残差均方和平方根指标RMSEA。验证模型分析结果显示，增值适配指标（TLI=0.930）、比较适配指标（CFI=0.942）和渐进残差均方和平方根（RMSEA= 0.076）均达到良好水平。

验证因子模型分析结果显示，各因子对应因子载荷在0.78～0.95之间。各因子对应的组合信度CR高于0.6，其中导师指导的组合信度0.978，研究氛围的组合信度0.937，技能发展的组合信度0.958，研究设施的组合信度0.884，论文评审的组合信度0.946，科研经历总体满意度只有一个题项，信度为1。表明科研经历各维度有较好收敛效度。

表3中的平均方差抽取量（AVE）平方根与各维度间的相关系数数值表明，各维度对应的AVE平方根均大于因子间相关系数绝对值的最大值，表明科研经历各维度之间有较好区分效度。可见，在学生个体层次水平上，研究生科研经历调查问卷作为科研经历的测量工具，具有较好的收敛效度和区分效度。

2.科研经历基本情况及方差分析结果

研究生科研经历各维度的基本特征（见表4）显示，整体而言，研究生对其科研经历的评价较高，其中导师指导、研究氛围、技能发展、研究设施的平均得分都介于4.5～5.0之间，论文评审的平均得分还超过了5.0，研究生对其科研经历总体满意度也接近于5.0分。这一结果说明，研究生对其科研经历的各项陈述整体上持“比较同意”的态度。

为了确认科研经历的校际差异情况，对研究生科研经历各维度进行单因素方差分析。分析结果（见表5）显示，19所高校的研究生对导师指导的评价得分差异不显著，对科研氛围的评价得分差异达到0.001的显著水平，对技能发展的评价得分差异达到0.05显著水平，对基础设施的评价得分差异达到0.001显著水平，对论文评审的评价得分差异达到0.05显著水平，对科研经历总体满意度的评价得分差异达0.05显著水平。

不同高校的学生对科研氛围、技能发展、基础设施、论文评审的评价存在显著差异，是否意味着可以依据这些维度上的学生评价作为评判各校研究生教育过程质量高低的依据还有待进一步确认，还需要进一步验证学校层次上的科研经历各维度的效度与信度，以确定对不同高校的研究生科研经历进行校际比较的可行性与适切性。

（二）多层模型分析结果

多层模型分析结果显示，19所高校科研经历评价得分的差异性不足以支撑科研经历的校际比较实践。以学校作为分层变量构建的零模型（模型1）主要是为了分析校际差异对变量方差的解释程度。分析结果（见表6模型1）显示，科研氛围和基础设施两个维度上的校际差异达到0.05显著水平的显著性，校际差异分别解释科研氛围方差的1.8%，基础设施方差的1.8%。同时科研氛围、基础设施的信度估计结果（0.621和0.629）略显不足。导师指导、技能发展、论文评审、科研经历总体满意度四个维度的校际差异均不显著，被校际差异解释的方差比例不足1%。导师指导、技能发展、论文评审、科研经历总体满意度四个维度各自对应的信度估计值也比较低（低于0.4）。鉴于零模型（模型1）对应的组内相关系数ICC均低于0.059，根据库恩（Cohen）建议的判定原则（0.01～0.059代表低度关联强度，0.059～0.138代表中度关联强度，0.138～1代表高度关联强度），19所高校的校际差异对科研经历各维度而言并不重要。

随后，在零模型的基础上尝试添加学生性别和学历两个背景变量（模型2），即在模型中对学生性别和学历两类背景因素进行控制。控制学生性别和学历两类背景变量后的分析结果（见表6模型2）显示，控制学生背景特征情况下，导师指导、科研氛围、技能发展、基础设施、论文评审、科研经历总体满意度的校际差异在0.05显著性水平上均不显著。相对而言，科研经历各个维度上存在显著个体差异。

学生性别与学历背景变量的固定效应分析结果（见表6）显示，性别对论文评审和科研经历总体满意度两个维度的评价得分存在显著影响；学历层次对科研经历的六个维度的得分评价均有显著影响。其中，女生对科研经历总体满意度和论文评审的评价得分显著高于男生，女生对导师指导、科研氛围、技能发展、基础设施的评价得分与男生无显著差异。而博士生对科研经历六个维度的评价得分均显著高于硕士生。

五、結果与启示

（一）研究结果

基于上述分析，主要研究结果总结如下：首先，在学生个体层次水平上，科研经历调查量表工具性能良好。在学生个体层次水平上，研究生科研经历调查量表具有良好的结构效度与信度。表明该问卷是个体层面上测量科研经历的有效工具。该结论与国际上其他研究者的研究发现相一致。从而也验证了中文语言背景下研究生科研经历调查量表的适用性。这一研究结果提升了科研经历调查研究结果的泛化能力，为中文语言背景下与英文语言背景下的研究生科研经历跨文化比较研究提供基础。其次，学校层次水平上，研究生的科研经历的评价信度不足。在学校层次水平上，研究生科研经历量表缺乏应有的信度支持。虽然固定效应的方差分析结果中显示19所高校在科研氛围、基础设施、技能发展、论文评审和科研经历总体满意度维度上至少存在0.05水平上的显著差异，但是零模型中科研氛围和基础设施两个维度上也显示存在少量显著校际差异（0.05显著水平），同时，科研氛围和基础设施对应的信度估计值不足。最重要的是，控制学生背景因素情况下，所有维度均无显著校际差异。这意味就科研经历的评价得分而言，参与调查的高校之间区分度不高。也就是说，科研经历调查结果可能更适合个体层面上的问题诊断与改善指导，应谨慎用于高校排行与校际比较。再次，科研经历的个体差异较大。个体层次分析结果显示，学生对科研经历的评价得分的校内个体差异较大。多层模型分析结果表明，科研经历的院校差异相对较小，学生个体间差异较大。

（二）討论与启示

一是从调查工具性能视角看，研究结果对于改进调查工具具有启示意义。科研经历调查工具虽然在个体层面上得以验证其有效性与可靠性，但学校层面上没有得以验证，因此，从工具改进视角看，有必要进一步探究如何提升科研经历调查量表在学校层次上的工具性能，使其具备校际比较的可靠性，为评估不同院校研究生培养过程提供基准工具，推进研究生教育评估的发展。

二是从调查分析过程看，科研经历调查的信效度检验应与所选择分析单元相一致。当前，学生群体已经成为高等教育质量的重要评价主体。学生评价在学生个体层面和教师个体层次上的信效度已得到验证。然而，这并不意味着基于个体层次水平评价结果可以整合汇总用于其他的分析目的和用途（例如，高校排行或者院系对比）。应当根据分析目的和选择的分析单元，对相应分析单元上的可信度和适当性进行验证。正如本文研究结果所示，研究生科研经历在个体层次上具有良好信度和效度，然而，在学校层次上的科研经历各维度信度不足，表明科研经历的校际差异相对较小，不足以支持基于科研经历各维度对不同高校进行等级排序和校际比较。鉴于不同层次水平上的调查工具性能分析已经不再受技术限制，因此，学生评估高等教育实践中应与时俱进，从不同层次了解高等教育的特征和规律。

三是从调查结果的应用看，科研经历分析结果作为研究生教育过程的诊断手段，应注意其分析结果外推的适切性。高等教育研究领域中，分层数据结构是研究数据的常态。但常用的研究方法通常会忽略数据的嵌套属性，混淆分析单元与推论单元，从而产生推论谬误。例如，如果进行的数据分析是以个体作为分析单元，而分析结果却推论至群体，这种以个体层次水平的分析结果推论群体层次的做法，触犯了“原子谬误”（atomistic fallacy），反之，如果分析单元是群组层次，却以样本群体层次分析结果推论至个体层次水平，则会触犯“生态谬误”（ecological fallacy）。鉴于科研经历调查数据的嵌套性质，这就要求在科研经历调查结果的应用过程中，需要谨慎对待分析结果的推论范围，防止因为推论范围不适当而产生推论谬误问题。推论谬误不仅关系研究生培养过程诊断结果的准确性，还关系到基于诊断结果做出的改进建议的有效性。

四是从研究生教育管理优化视角看，科研经历的校际差异较小，意味着不同院校的研究生培养过程具有同质性。其背后原因可能与课程设置与教学方法标准化、市场需求与学院竞争导致不同院校培养方案趋同、教师传统和学科惯例限制多样化、学术评价标准和就业机会要求促使研究生与导师追求目标趋同等因素相关。因此需要高等教育管理机构从多方面入手，提供更广泛的研究选择和探索多样化的研究生培养模式，优化研究生教育管理。

五是从学生学习与发展视角看，科研经历的校内个体差异较大，意味着高校研究生群体构成具有多样性。随着高等教育规模不断扩大，包括研究生在内的高校学生群体愈发多元化和个性化。学生群体多样化意味着学生在学习需求、学习能力、学习兴趣、学习风格等方面会存在较大差异，需要学校提供灵活多样的培养模式，为学生提供个性化发展的空间与机会。

参考文献

[1] 张炜，汪劲松. 研究生教育规模预测与中美比较[J]. 学位与研究生教育， 2022（2）： 1-7.

[2] 赵炬明. 论新三中心：概念与历史——美国SC本科教学改革研究之一[J]. 高等工程教育研究， 2016（3）： 35-56.

[3] 赵琳，王传毅. 以“学”为中心：研究生教育质量评价与保障的新趋势[J]. 学位与研究生教育， 2015（3）： 11-14.

[4] European Union News. “University of Westminster Ranked within Top 20 UK Universities in Latest Postgraduate Research Experience Survey （PRES）”[EB/OL]. [2023-07-28]. https：//search.ebscohost.com/login.aspx？direct=true&AuthTyp e=cookie，ip，shib&db=edsbig&AN=edsbig.A759663065〈=zh-cn&site=eds-live.

[5] MARSH H W， ROCHE L A. Making students evaluations of teaching effectiveness effective[J]. American psychologist， 1997， 52（11）： 1187-1197.

[6] GREENWALD A G， GILLMORE G M. No pain， no gain？ the importance of measuring course workload in student ratings of instruction[J]. Journal of Educational psychology， 1997， 89（4）： 743-751.

[7] GINNS P， MARSH H W， BEHNIA M， et al. Using postgraduates evaluations of research experience to benchmark departments and faculties： issues and challenges[J]. British journal of educational psychology， 2009， 79（3）： 577-598.

[8] MARSH H W. Students evaluations of university teaching： research findings， methodological issues， and directions for future research[R/OL]. [1987-05-04]. https：//files.eric.ed.gov/ fulltext/ED338629.pdf.

[9] CENTRA J A. Reflective faculty evaluation[M]. San Francisco， CA： Jossey-Bass， 1993.

[10] Australian Council for Educational Research. Evaluation and validation of the trial postgraduate research experience questionnaires[R]. Canberra： Department of Education Training and Youth Affairs， 2000.

[11] AINLEY J. The 1999 postgraduate research experience questionnaire[R]. Australian Council for Educational Research， 2001.

[12] PITKIN M. 2021 Postgraduate research experience survey[R]. Advance HE， 2021.

[13] Canadian Association for Graduate Studies. Canadian graduate and professional student survey[EB/OL]. [2023-05-06]. http：//www.cags.ca/cgpss_home.php.

[14] 中國博士质量分析课题组. 中国博士质量报告[M]. 北京：北京大学出版社， 2010.

[15] 王战军. 中国研究生教育质量年度报告（2012）[M]. 北京：中国科学技术出版社， 2013.

[16] 周文辉，黄欢，刘俊起，等. 2023年全国研究生满意度调查[J]. 学位与研究生教育， 2023（9）： 48-54.

[17] 陆根书. 2020年陕西省高校毕业就业创业报告[M]. 北京：北京理工大学出版社， 2021.

[18] 洪流，汪霞. 江苏省研究生教育发展年度报告2020[M]. 南京：南京大学出版社， 2020.

[19] 许丹东，付道麟，吕林海. 博士生学术具体满意度与整体满意度的关系研究[J]. 江苏高教， 2020（7）： 49-55.

[20] 罗英姿，张佳乐，顾剑秀，等. 博士生教育价值的再审视——基于涉农学科博士职业发展的考察[J]. 高等教育研究， 2022， 43（7）： 89-98.

（责任编辑黄欢）