俞显
随着深度学习、自动化语义分析、多模态分析技术等人工智能技术的发展以及语言综合运用能力测评的现实需求,基于智能测评技术开展大规模语言听说能力测评受到越来越多的关注。目前,智能语音测评技术在语言综合能力测评中已经有较多的成熟案例,如国际上的托福、雅思等语言能力认定考试,国内部分省市的中考、高考、学考的英语听说能力测试等,从考试到评分均采用人工智能。中考英语听力口语测试引入机考(以下简称“人机对话”),特别是新增口语考试模块后,考试内容和形式的变化势必会对英语学习带来影响,中考生对这项改革的感知和认可程度将成为人机对话能否有效开展的关键因素,当前尚缺乏这方面的实践研究。为此,本研究在S市范围内以分层随机抽样的方法就中考生对人机对话的认知和态度开展调查,以期为相关研究提供实证参考。
以分层随机抽样的方式在S市内抽取14所高中学校,研究对象是参加中考人机对话的初中毕业生(该批学生已升入高一)。调查活动以网络调查问卷形式开展,共回收问卷2165份,其中有效问卷2150份,有效率为99.31%。性别上,男生1057人(49.16%),女生 1093 人(50.84%);所在区域,农村101人(4.70%),乡镇 882人(41.02%),中心城区1167人(54.28%)。
对有关文献进行检索和分析,初步总结中考生对智能语音测评技术应用的感知影响因素,并借鉴已有的英语口语测试研究成果[1-2],形成了调查问卷。内容分为基本信息和调查主题两部分,调查主题涉及感知程度选择时采用李克特5点等级量表,按照程度由低到高排列,即很不满意(1)到很满意(5)赋值。经过试测和调整,采用SPSS对数据进行处理,调查的4个维度的Cronbach’s alpha系数介于0.718到0.826,整份问卷问卷的Cronbach’s alpha系数0.796,问卷信度达到测量要求。效度方面,问卷的形成过程中采用德尔菲法多轮专家征询,问卷内容效度具有较好保证;结构效度上,采用因子分析法,KMO值为0.916,Bartlett球形检验的近似卡方分布为279.721,相伴概率p<0.05,适合做因素分析,获得4个因子并且方差解释量为89.762%,说明问卷具有较好的结构效度。所有数据采用SPSS21.0处理。
S市中考英语人机对话采用智能语音测评技术支持,包括考务编排、试题制作和考生作答结果评分在内的所有考试环节均采用计算机自动化处理。在综合考虑计算机数量和考试风险管控后,测试采用分时段按批次进行。出于保密的要求,不同时段的测试采用不同的试卷。试卷分听力和口语两部分。
总体感知调查结果显示,中考生对人机对话的总体感知均值为4.11,呈较满意水平。进一步对总体感知得分与中考生性别、常住区域进行独立样本T检验或方差分析发现,在中考生性别 (t=-3.38,p<0.05)和常住区域(F=4.37,P<0.05)上存在显著性差异,从感知程度均值上看女生高于男生,而LSD事后多重比较显示乡镇考生和城市、农村考生均存在显著性差异且在三类区域中感知程度最高。
从性别上看,可能由于女生在语言学习的动机、生理、认知能力上存在优势,相应地获得更多的学业成就[3],从而加强了女生对人机对话的信心。从区域性质上看,调查结果显示,对乡镇考生而言,相较于农村考生其拥更多的学习资源和工具,能较有效地支持自身的语言学习;而相比城市考生,在以升学率作为主要教学考核指标的情况下,低难度的人机对话试题为乡镇考生通过投入更多的时间和精力从而缩小与城市考生的差距提供更大的可能,这些可能是乡镇考生整体满意度高的原因。
人机对话考试能否有效考查出考生真实的英语听说能力、考生是否适应人机对话形式是影响考生对人机对话满意度的重要内容之一。调查从人机对话考试内容与课程标准一致性程度、人机对话考查学生英语听说能力的层次、考生对人机对话形式的适应度等方面展开。调查结果显示,中考生对人机对话内容和形式的总体较为认可,满意度均值为3.42。具体来看,对人机对话考试内容体现所学内容的程度有63.90%的考生表示满意,但有将近1/4的中考生持不满意的态度;而从中考生人机对话考试形式的适应度上看,有将近一半的考生表示适应,但近35%的中考生适应度为一般。进一步对人机对话考试内容和形式的满意度总体得分与考生性别、常住区域进行独立样本T检验或方差分析发现,在考生性别上不存在显著性差异(t=-0.766,p>0.05);在常住区域上存在显著性差异 (F=3.761,P<0.05),经过LSD事后多重比较发现城市考生与乡镇考生在满意度上存在显著性差异,且乡镇考生的满意度高于城市考生。
从对考试的形式和内容的满意度上看,考生的整体的满意度不高,呈中等略偏上。笔者分析,由于新增口语模块和新的考试形式,考虑到中考英语的难度稳定性和人机对话的接受度,通过缩小考试内容的广度和深度并降低话题难度来应对考试形式变化给考生带来的额外的身心负荷是常见的命题技术。但这一做法可能会带来一些负面效果从而影响考生对考试的满意度:一方面试题难度降低对高水平考生存在不公平,低区分度试题无法让其在竞争性考试中发挥优势;二是通过降低试题难度来规避由于考试形式变化而引起的考试难度“不稳定”的风险,实际的效果并不理想,这是因为命题专家往往无法在考试形式改变引起的试题难度“变化量”和实际试卷难度“降低幅度”之间做出有效的判断;此外,由于智能测评技术的局限,导致考试内容和形式为适应技术而做“削减式”的调整,在一定程度上违背了考试对考生真实能力考查的原有规律。
难度作为评价试题质量的一个重要的技术指标,直接影响测试功能的实现[4]。从考试的社会属性上讲,大规模高利害考试的难度异常可能会触发社会群体事件而影响社会稳定,因此考试难度的把握至关重要。研究设置4题,主要涵盖中考生对整个考试难度感知、对不同时段不同批次试卷难度的感知。试题的难度方面,34.70%的中考生认为人机对话难度适中,58.25%的认为试卷较容易或很容易。总体而言,绝大部分中考生认为试卷较容易,这与考试难度设计要求达到0.80-0.85之间的要求吻合。试卷难度等值方面,有32.22%的中考生认为人机对话不同批次试卷的难度等值情况不容乐观,仅有37.87%的中考生认为不同批次试题的难度基本等值。进一步分析发现,在性别上中考生对试题难度等值的认知程度没有显著性差异(t=-1.437,p>0.05),不同区域的中考生对试题难度等值的认知程度没有显著性差异(F=0.576,p>0.05)。
中考具有“两考合一”的属性,试题难度设计需综合考虑标准参照与常模参照的要求,而人机对话需要兼顾考试形式变化和激发考生的学习积极性,所以难度往往偏向容易。难度等值方面,每位考生只作答一套试卷,其他批次的试卷对其保密。但考试分数公布后,同一批次的考生、同一个班级日常语言学习成绩相近的考生会互相对比,从而感知自己批次试卷和其他批次试卷的难度情况。需要明确的是,考后数据显示该年各批次试卷之间的难度基本均衡,然而考后难度均衡的结论与考生感知试卷难度等值差异大的情况呈较大的反差。可能的原因是,一是各套试卷难度是通过均值除以满分来计算的,在教育统计中均值是常用的集中量,但易受极值影响,在转换成难度系数时往往忽略配合标准差进行数据解读,从而掩盖了数据描绘全景事实的情况;二是由于中考属于高利害竞争性考试,部分考生在考试中发挥“失常”会将考试矛盾引向考试形式的改变,从而在考生群体间营造了一种考试难度差异大的“责难”氛围并在考生群体间蔓延,这些情况应当引起重视。
严谨规范的考试组织是保证考试公平的基础,也是考试顺利实施的基本保障。调查从考务组织流程和考试物理环境两个方面展开。考试组织流程方面,9.81%的中考生认为人机对话考务组织不太合理规范,9.24%的中考生不了解具体情况,54.16%选择基本合理规范,26.79%选择完全合理规范,可以发现将近80.95%的中考生认可人机对话的考务组织。在考试物理环境的保障上,调查对象群体均值为3.42,对人机对话物理环境持较为肯定的态度。进一步分析发现,男女生在考试物理环境的保障上呈显著性差异(t=-2.064,p<0.05),女生对考试物理环境更为认可;从不同区域看,城市中考生与乡镇中考生、农村中考生在考试物理环境的满意度上呈显著性差异(F=17.307,P<0.05),城市中考生得分均值最低。
从S市的经验上看,人机对话从启动开始,先后进行了可行性论证、案例学校实地考察、仿真考试评比、模拟考试等环节,在不同环节紧紧围绕“安全考试、服务学生”的精细化施考理念,设计和优化了一系列考务组织管理工作。但由于各个考点建设受资金投入的影响,存在考试计算机新旧、考场加装隔板、机房布线改造等软硬件不一致的客观情况。从性别上看,相较于男生,女生可能更关注考试本身,对考试的支持环境并不太在意。从某种程度上说,城市学校的软硬件环境一般会优于农村学校,如果考试物理环境与日常练习的环境有较大差异时,可能会对城市考生造成一定的影响。
利用信息技术支持教与学活动是教育领域关注的热点话题。教育考试信息化已经成为考试专业能力发展、提高考试服务满意度的重要手段,其中扮演重要角色的是考试信息软件的设计与应用。研究从考试软件运行稳定性、页面布局合理性、文字设计规范性、提示信息适切性、语音语料流畅性等直接影响考生应考体验的角度入手,调查中考生对考试软件的满意度的感知。结果显示,满意度均值为4.16,总体持较为满意的态度。进一步分析发现,男女生在软件设计的满意度感知上存在显著性差异 (t=-4.967,p<0.05),从均值上看,男生的满意度低于女生。在常住区域因素上做方差分析发现,不同区域的中考生的满意度感知在统计学意义上存在显著性差异 (F=6.061,P<0.05),LSD 事后多重比较结果显示,农村中考生与城市、乡镇中考生均存在显著性差异,从均值上看农村中考生得分最低。
图1 中考生对考试软件的满意度分布情况
与相关的研究结论类似,相较女生,男生在日常学习和生活中对数码、软件等信息产品更感兴趣,接触软件产品的机会和愿望更多,基于自己的体验对软件产品的优劣有着更为明晰的判断[5]。此外,从考生区域来源上看,农村中考生相对来说整体的信息素养偏低,新信息产品的考试应用可能会对其造成一定的压力,从而影响了农村中考生对信息产品体验的满意度。可以说,考生的信息素养作为非语用能力却直接影响了考生对人机对话的反应,这一现象在日常听力口语教学活动中需要引起重视。
信息技术与大规模高利害考试深度融合是教育考试信息化发展的重要议题,而信息技术与教育考试融合的质量直接决定应用主体(学校、教师、学生等)满意度的感知。为进一步提高考生对人机对话的满意度,提出以下建议。
项目功能差异分析是用来检测测试工具对目标群体是否公平的有力手段[6]。调查显示,在满意度的影响因素上,不同性别、区域的学生往往表现出较大的差异。因此在设计试题的过程中,要充分考虑不同学生群体的学习体验和生活经历,尽力消减非考试目标因素的干扰。当然,在项目功能差异分析的实际应用过程中,要注重混合式方法的运用,即在使用统计方法分析项目功能差异的同时,还需要对存在项目功能差异的项目进行深入的质性分析,寻找造成项目功能差异的可能原因[7],既要知其然,更要知其所以然,只有这样才能确保考试项目的质量,维护考试公平公正。而考生的信息素养分布情况、人机对话给考生带来的心理负荷情况、试题话题广度和深度等维度是后期教学和命题应该重点关注的内容。
考试等值问题本质上是考试难度控制问题。传统的试卷难度易受命题专家个人业务能力、命题偏好的影响,试卷难度的稳定性难以保证。“一考多卷”的人机对话对各套试卷难度的等值有着严格的要求。从已有的研究成果看,依托项目反应理论设置试卷之间的锚题机制,构建试卷等值的同一测量尺度,以解决“一考多卷”难度等值问题是当前主流的实践[8],但在我国高利害考试中往往难以实施。笔者认为要改善这一困境,一是要优化命题机制,即在保证考试公平和考务有效组织的前提下,减少试卷的数量和修订考试内容,如通过增加考场压缩考试天数、口语“语篇朗读”部分可采用教材上的内容等。二是不同试卷成绩的报告采用等级赋分的原则[9],等级赋分的初衷是解决不同学科、不同批次考试难度不一致导致成绩缺乏可比性和累加性的问题 (不考虑学科属性),当然实践中还有一些需要注意的技术问题。长期来看,构建基于等值技术的试题库建设依然是解决此类问题的主要方法,期待这一方面在实践应用中有更深入的突破。
精细化管理是工业生产过程中,为了提高管理质量和效率而形成的管理理念[10]。考务精细化的过程是考务管理体系化、标准化、规范化的过程。人机对话相较于传统纸笔测试,面临更多的考务管理环节,需要防控更多的风险点。开展人机对话考务精细化管理,建立体系化、标准化、规范化的精细化管理方案是人机对话考试安全和稳定的内在要求。总的来讲,人机对话精细化管理方案要遵循继承性、发展性和预见性原则。继承性是要充分归纳考试管理的普遍规律,这是设计人机对话精细化管理的“基柱”。发展性是指要注重人机对话考务管理的独有特点,避免考务管理“经验主义”的陷阱。在实施人机对话的过程中,要防控更多的风险点,风险的防控在于预测风险发生的概率和破坏的程度,因此人机对话精细化管理方案必须要具有预见性。与精细化考务管理内在把控考务风险对应的是外在的考试环境的呈现,包括考试的流程设计、环境构建、服务支持等等,都需要按照精细化考务管理的原则实施。
人机对话是借助智能语音测评技术实施的新的考试形式,是信息技术教育应用的重要组成部分,提高用户体验、增加语言考试的情境性至关重要。一是考试软件优化,在充分调研考生的认知和需求的基础上,分析学生的个性特征和学习风格,提高考试软件的交互性体验;二是促进考试软件与考试内容和形式的深度融合,融合不是简单将纸质的考试内容复制到电脑软件中,而是要全面分析纸质考试对考试内容呈现的不足以及考试软件对传统考试内容的呈现优势,明确考试目标、考试内容、考试形式、考生认知特点,遵循多媒体软件设计原则[11],积极探索多媒体环境下的考试;三是注重考生信息素养的发展,本次调查显示有将近85%的学生利用手机进行日常人机对话练习,如何正确引导学生使用信息设备支持学习、发展学生的信息素养是当前不可回避的重要的教学问题;四是利用信息技术缩小城乡学生之间的英语听说能力差距,发挥信息技术在学习资源、学习反馈、传播方式等方面的优势,为优化乡村学生的语言学习环境、转变学习方式和学习结果反馈方式提供有力条件[12]。