算法素养的多维分级评价体系研究

2024-03-18 10:10邓胜利王浩伟夏苏迪
现代情报 2024年3期
关键词:熵权法评价体系

邓胜利 王浩伟 夏苏迪

关键词:算法素养;皮亚杰认知阶段理论;IRT项目反应理论;熵权法;评价体系

在当今社会的大部分领域,算法的应用越来越广泛。在互联网中,个性化推荐算法影响着用户的所见所得。2022年,“基于算法的个性化内容推送已占整个互联网信息内容分发的70%左右”。算法在工业生产领域的应用,一方面带来了自动化生产下的效率提升:另一方面也引发公众对于就业岗位减少的担忧。与此同时,算法也在改变着社会未来的发展。例如在出行上,我国以及许多发达国家(地区)已经开始了对无人驾驶汽车的研究,并且在可行性和实用性方面取得了一定的进展。更便捷的信息交流,更高效的工业生产,更丰富的生活方式,使人们已经无法简单地拒绝算法。但同时算法带来的问题也愈发严重,例如隐私侵害、伦理道德问题、社会就业损失等。

剖析算法问题产生的原因,一是由于算法本身的缺陷:目前,大部分的算法开发设计仍然无法避免算法的不确定性、鲁棒性、易被攻击性和不可解释性的问题;二是由于算法不合理使用:例如,网络平台利用监管漏洞,使用算法对用户的个人信息进行收集分析,在此过程中,用户的知情权可能受到损害,容易产生个人信息泄露问题。同时,算法滥用带来了内容与真实需求间的偏差,形成“信息茧房”:三是由于用户对于算法的认知不完善导致对算法的盲从。

算法问题影响的不断加深对网络平台、用户、开发设计人员、监管部门、政府等多主体的算法能力提出新的目标要求。从算法的主体多元性出发,算法素养可以界定为“在特定需求和环境下,不同算法利益相关主体依据特定的思维、态度和知识,运用算法认识世界和改造世界”。算法素养评价从人与算法交互中的人本主义出发,帮助了解多元算法主体的算法素养情况,为算法社会背景下的政策制定和算法素养教育提供依据,有助于更好地发挥算法高效、智能的优势,并降低算法应用对个人权益的危害,减轻其在社会发展的不利影响。

在研究不同主体的算法素养时,需关注主体间的差异性问题。例如,对于普通的互联网用户和专业算法开发人员,对两者的算法能力要求是不同的,普通互联网用户很少参与到算法的开发设计,而更多的是对算法的使用,因此不能要求其拥有和专业算法开发人员一样的技术能力和创造性的算法设计思维。为了解决在算法素养研究中的主体差异性问题,需要在算法素养评价中加入分级思想,通过对不同主体的算法能力要求级别的划分来细化算法素养评价体系。

本文结合皮亚杰认知发展阶段理论,将认知发展的时序阶段转变为认知发展水平的等级划分,提出了一种多维分级的算法素养评价体系,包含了意识、理解、评估、应对、创造5个维度和感知与经验、总结与归纳、可逆与扩展、形式与抽象4个级别,之后以普通社会大众这一典型主体为例,进行算法素养的多维分级评价。首先通过测验问卷收集样本的得分,之后通过IRT项目反应理论计算出算法素养潜在能力估值,最后通过熵权法得到各维度的权重系数,汇总得到样本的最终算法素养估值。

1相关工作

算法素养构建起算法社会中人与算法之间的桥梁。在算法素养评价相关研究中,關于算法素养的概念的界定已有初步发展,并且算法素养评价体系的构建也愈受重视。在以往的研究中,关于算法素养概念主要与算法意识、算法知识和算法评估相关,并且大部分研究主要关注个体算法素养,缺乏对于算法的开发、设计和应用等阶段相关主体的关注。但关于政府、企业等主体的算法素养的研究同样不容忽视。

在算法素养相关概念的界定上,Dogruel L等将算法素养归纳为能够意识到在线服务中算法的广泛应用并理解其工作原理,能够批判性地评估其带来的影响并合理应对。但随着算法从一种技术手段逐渐变为一种社会背景,算法全生命周期中的多方主体参与愈发重要,因此,算法素养概念的界定需要考虑到算法设计者、开发者、应用平台、监管者和个人等不同主体。同时,“以人为中心”的理念要求算法素养不仅能够被动地应对算法带来的问题,也要求能够主动地发挥算法作用。夏苏迪等学者从算法的相关主体和素养内涵出发,依据HCAI思想和KC框架界定了面向多元主体的算法素养内涵,“在特定需求和环境下,不同算法利益相关主体依据特定的思维、态度和知识运用算法认识世界和改造世界”。

素养评价方法相关研究中,通常采用文献分析法、德尔菲法、扎根理论等,通过凝练相关文献或者概念中的核心要素,对其进行进一步阐释,通过层次分析法构建素养评价体系。目前,算法素养评价体系构建中同样以层次评价体系为主,从算法素养概念出发划分维度,将各个维度的得分与算法素养之间的关系视为无界的线性函数关系,并未考虑各个维度间的阶段性划分,以及在针对不同主体进行评价时各维度的能力要求差异。

因此,虽然面向不同主体的差异化算法素养评价逐渐引起了学者们的重视,但过去的以层次评价体系为主的算法素养评价体系无法体现出对不同主体的算法相关能力要求的差异。因此,在算法素养评价体系构建中纳入了分级思想,对算法素养评价的等级进行划分,并结合算法素养评价的维度构建多维分级的算法素养评价体系。

2算法素养的多维分级评价体系

2.1算法素养评价的维度构建

本研究通过对现有文献中的算法素养界定出发,构建算法素养评价的维度。Dogruel L等将算法素养分为4个方面:意识和知识、批判性评估、应对和策略、创造和设计。同时,Dogruel L等在对算法素养的意识和知识维度研究中,发现意识和知识之间对个体算法素养存在不同的影响路径。对于算法而言,意识和知识具有明显的区别,算法的意识强调对算法存在的感知,并不需要对于算法复杂机制的认知,算法的知识则强调对于算法的运行机制、内在逻辑等的理解。在当今算法环境中,用户在与算法的接触中,有时会意识到算法正在产生影响,但并不理解算法的具体机制内涵,或者虽然知道算法的机制内涵,但无法意识到算法的存在。例如,对于优秀的算法开发者,即使对于算法的运行机制有深刻的理解,也不能及时发现所有在周围网络环境中存在的算法。而对于一些普通的网络用户,日常生活中频繁的个性化广告推荐也会让其意识到应用在软件中的推荐算法。因此,在本文中,将意识和知识分为两个单独的维度,即意识维度和理解维度,从而形成算法素养的5个维度:

1)意识即意识到算法存在哪些软件、领域以及其之间的关系。

2)理解即理解算法的机制、内涵。

3)评估即对于算法对于自身、社会的影响进行判断、评估。

4)应对即正确处理算法带来的各种问题。

5)创造即具有选择、开发、设计算法相关的能力。

2.2算法素养评价的等级构建

在算法素养的评价中,针对评价对象的不同,算法素养在各维度上的要求也不同。对于不同的评价对象,其在算法素养不同维度上的目标存在差异性,例如对于普通社会大众而言,对其在算法素养创造维度上的水平要求低于开发者。因此,在对不同对象进行算法素养评价时,需要考虑算法素养评价的等级问题。

本研究通过凝练皮亚杰认知发展阶段理论中的阶段内涵构建算法素养评价等级。皮亚杰认知发展阶段理论将思维的发展划分为4个阶段:感知运算阶段、前運算阶段、具体运算阶段和形式运算阶段:

1)感知运算阶段:思维的萌芽期,能用发射、循环、协调组合发现新方法。

2)前运算阶段:以符号为中介描述外部世界,能够进行延缓地模仿。

3)具体运算阶段:思维具有守恒、去中心化、可逆、层次、序列、综合特点。

4)形式运算阶段:思维能力超出事物的具体内容或感知的事物,思维具有更大的灵活性,具有假设一演绎推理能力和命题思维。

虽然认知发展在个体间的差异或特殊性较为显著,可能存在“滞差”等情况,但皮亚杰认知发展阶段论的逻辑数学结构具有普遍性,其阶段的划分既代表认知的不同发展阶段,也反映认知水平的高低差异。皮亚杰认知发展阶段理论的逻辑结构能够为制定算法素养不同维度的级别划分的标准提供参考,其中,感知运算阶段的特点为即时性与具体性,即在单一情境下的认知。前运算阶段能够将在不同时刻感知到的一个个情景进行积累,但仍然局限在个人的角度,即积累性与个体性。在具体运算阶段,体现了思路的可逆性与扩展性。形式运算阶段最大的特点便是抽象性,在算法素养中即可以视为对各个维度的抽象概括能力与深层次分析能力。因此,本文通过归纳皮亚杰认知理论各个阶段的特点并结合现在的素养评价实践,总结了算法素养不同维度的4个等级评判标准及其特点:

1)感知与经验:个人的、经验性的、即时的、具体的。

2)总结与归纳:个人的、经验性的、累积的、具体的。

3)可逆与扩展:群体的、预见性的、扩展的、具体的。

4)形式与抽象:群体的、预见性的、扩展的、抽象的。

其中,从感知与经验到形式与抽象,各个等级的内涵从认知发展的不同阶段中提取,也反映了算法素养水平的由低到高。

2.3算法素养不同维度与不同等级的结合

算法素养的5个维度是对算法素养内容的解构,算法素养评价的4个等级则是对发展程度进行区分,对于算法素养评价中的维度,其中每个维度不仅包含算法素养各方面的内涵,也要考虑其程度差异,因此需要将算法素养的不同维度与不同等级结合,构建算法素养的多维分级评价体系。

在算法素养的多维分级评价体系中,算法素养评价的5个维度对算法能力的各个方面进行区分,评价对象在不同维度上的能力要求差异通过各维度上的等级来体现。例如,对于社会大众来说,在算法的开发设计上能力要求较低,则在算法素养评价时,在创造维度选择较低的等级。通过不同维度与不同等级的结合,能够在对不同对象进行算法素养评价时根据目标能力要求的不同在各维度上选择不同的等级,从而实现算法素养评价目标的可调节性和评价对象良好的适应性。

3实证研究

3.1测验设计与数据收集

实验以算法素养中的典型对象社会大众为例,对其进行算法素养的多维分级评价。首先测定其在算法素养各个维度的等级要求。对于社会大众来说,意识到算法的存在是其开展其他算法相关活动的基础,因此对于意识能力具有一定要求,需达到可逆与扩展等级。同时其作为社会中的一员,需要能够评估算法对自身和社会带来的影响,因此在评估维度上选择可逆与扩展等级。在理解、创造维度,对于社会大众来说,通常涉及算法的理解和创造能力的情况较少,因此选择感知与经验等级。在应对维度,社会大众面对的算法问题往往以个人为主,较为分散,因此选择感知与经验等级。通过以上分析,最终得到本次研究的测评标准,如表3所示。

测验包含基本信息和5个维度的测验问题,各个维度下包含若干题项,基本信息包含:性别、职业、学历;意识维度针对算法的应用领域进行测验,包含12个题项:理解维度以常见的算法运行影响因素为主题进行测验,包含9个题项:评估维度针对算法对社会的影响进行测验,包含8个题项:应对维度针对减少算法危害的方法措施进行测验,包含9个题项:创造维度针对如何使用常见的算法进行测验,包含9个题项。在测验中,每个题项有“是”“否”和“不清楚”3种选项,“不清楚”用于减少测验对象在作答中进行猜测的可能。在进行结果统计时,回答正确记1分,“不清楚”和回答错误记0分。

测验通过网上问卷的形式进行,共收集问卷204份,剔除异常问卷19份,最终有效问卷185份。

本次问卷中性别比例为男性占比52.43%,女性占比47.57%,职业中的学生占比58.92%,互联网行业相关人员占比32.43%,其他人员占比8.65%,学历中,高中及以下占比11.3%,大专或本科占比77.3%,硕士及以上占比11.35%。

3.2信效度检验

信度检验能够考察问卷的可靠性,对于测量结果的内部一致性程度进行了解,本文使用Cronbach'sa(克隆巴赫)系数法来检测数据信度是否达标,一般认为问卷的Cronbach's仪系数大于0.8说明其信度较好。本次问卷中5个维度的信度均大于0.8,如表4所示,证明问卷具有良好的可靠性。

效度检验用于检验问卷的有效性,其反映了测量工具预测目标测量变量的准确性。测量结果与目标变量越吻合,效度则越高。本文对于问卷结果进行KMO检验与巴特利特球体检验。一般认为,KMO检验系数大于0.8,P值(巴特利特球体检验的x2统计值的显著性概率)小于0.05,问卷才有结构效度。本问卷中的5个维度的KMO检验系数均大于0.8,P值均小于0.05,如表5所示。

3.3IRT分析

项目反应理论(Item Response Theory,IRT)是心理测量的方法之一,与之相对的常见的心理测量方法还有真分数理论(Classical Test Theory,CTT)以及可概括性理论(Generalizability Theory,GT)。IRT理论基本思想是认为测量对象的潜在特质即潜在能力估值与其对于测量项目的反应即测验真实分数之间存在关系,并通过概率型模型来表示两者之间的关系。IRT理论相较于CTT理论和GT理论有以下几个方面的优点:①不依赖于特定的样本与测验题目,测验结果比较方便;②可以发现异常现象;③具有等值处理和自适应功能:④提供了项目筛选的功能。目前,项目反应理论被广泛用于医学、心理学、教育学和计算机等领域相关的测量或评价。

因此,在算法素养评价中,项目反应理论能够将测验问卷中的实际得分通过项目特征模型转化为样本的潜在能力估值。本研究中采用项目反应理论的双参数模型(2PL),2PL模型能够分析测验项的区分系数a和难度系数B。难度系数B体现了受测对象正确回答测验题项的难度,区分系数a体现了该测验题项对于样本的区分能力。其项目反应函数如式(1):

在计算出各维度下的所有题项的项目反应模型后,汇总得到各维度的测验特征曲线[29],如图1所示。测验特征曲线反映了实际测验分数与算法素养在该维度的潜在估值之间的关系,特征曲线在零点处的潜在能力估值对应的真实分数越高,说明测验题项难度越大,特征曲线越陡峭,说明测验题项医分能力越强。

如图2所示,各个维度的测验信息函数反映了该维度下所有题项在各个位置的信息量的大小总和,用于分析该维度各区间的信息量变化,体现了测验题项中的信息价值。测验信息函数通过各项信息函数之和计算。具体公式如式(2)‘30]:

在理解维度的特征曲线中,(-2,O)区间的特征曲线较其他部分更为陡峭,说明在该区间区分度较大。在理解维度的信息函数中,整体上呈现正态分布,同样在零点附近区间信息量较大,区分度较好。对于评估维度的特征曲线,大于0的区间大部分区间较为陡峭,在潜在能力估值小于0的区间较为平缓,说明测验项对于较高水平的样本区分度好于较低水平样本的区分度。在评估维度的信息函数中,大部分在(O,2)的区间上较为陡峭,说明测验题项在该区间的区分度较高。在应对维度的特征曲线中,零点右侧陡峭程度加剧,其他部分陡峭程度均较低,说明测验项在中等水平上的区分度较好,在低水平和高水平上的区分度一般。应对维度的信息函数在零点附近的信息量远高于其他维度,说明其测验项目在中等水平具有较高的信息价值,能够较好地区分算法素养的各个水平。在创造维度的特征曲线上,其在(-1,1)区间上的陡峭程度较高,其信息函数在(-1,1)区间达到峰值,均说明其对中低水平区间的样本区分度较好。在5个维度中,应对维度的信息函数在零点附近信息量远大于其他维度,说明应对维度下的测验题项在中等水平样本上的区分度优于其他4个维度。

3.4权重计算

在获得各个维度的估值后,为了获得算法素养上的整体潜在能力估值,需要根据熵权法计算各个维度的权重,具体过程如下:

第一,在使用熵权法之前,首先需要对数据进行归一化,本文采用Z-Score方法进行标准化,用于评估样本点到总体均值的距离,见式(4):关,一般k= 1/ln(m)。

最终计算出意识、理解、评估、应对和创造5个维度权重分别为0.123、0.132、0.457、0.110、0.178。從各个维度的权重可以发现评估维度的权重较大,其反映出在评估维度得分的差异较为明显。各维度权重由高到低排序依次为评估、创造、理解、意识、应对,基本与各维度的得分分布差异大小相符。从权重结果中可以看出,在评估维度上,受测对象的水平差异较大,可能由于评估维度选定的目标等级较高,测验题项具有良好的区分度。在其他维度上,权重差异较小,大部分受测对象的回答正确率均较高。

3.5结果讨论

在本次测验中,首先通过项目反应理论计算出算法素养各个维度潜在能力估值结果,如表6、图3所示。

在意识维度,估值在[-0.5,-1)区间的样本数占比超过70%,说明受测对象在意识维度的能力差距较小。在理解维度,各个区间的样本数分布相对平均,说明受测对象在理解维度的能力差异较大,理解维度中感知与经验等级要求能够理解遇到的具体算法,受测对象在理解维度的显著能力差异的形成可能由于不同的对象遇到的算法问题数量和影响存在差异,因此其对具体算法的理解意愿不同,在长期实践中形成了理解能力的差异。在评估维度,整体估值较高,但在[-1,0.5)区间上人数较多,说明受测对象中,算法素养评估能力中等水平的样本较多,其反映出算法问题已经在社会中引起一定程度重视,而且算法在就业和个人隐私等方面的潜在危害对社会大众有着直接影响,因此其对算法的影响也较为关注。在应对维度的估值整体分布与评估维度相似,但应对维度有极少部分受测对象素养潜在能力估值分布在[-2,-1)区间,说明这部分受测对象在应对维度可能在面对算法问题时几乎没有应对能力,为算法弱势群体,因此需持续关注在算法的应用和推广中对算法弱势群体的影响,推动以人为中心的算法发展。在创造维度上,整体上各个区间差距较小,同时相比于其他维度,创造维度在[-2,-1)即低水平区间样本较多,说明算法素养的创造能力完全达到感知与经验等级难度较高,但随着算法在社会各行业的应用普及,算法社会中的每个个体均无法避免接触和使用算法,其创造能力也可能在与算法的接触中逐渐提高。

之后需计算加权后的算法素养整体估值,根据算法素养整体估值=各维度估值×各维度权重,得到汇总后的算法素养潜在能力估值,如表7、图4所示。

在总样本中,负分值样本数为96,占总样本数比约51%,其中,在负分样本中,大部分样本估值集中在零点附近,说明受测对象算法素养基本满足预期目标。一部分原因可能由于受测对象受教育水平较高,其具有一定的算法相关的知识储备,因此在测验中得分较高:另一部分原因可能是算法在生产生活中应用已经较为广泛,算法已经从一个抽象概念演变为日常生活中不可避免的一部分,随着社会大众与算法的不断接触,算法素养也随之提升。同时,虽然结果中低分区间的样本较少,但不能忽视对算法弱势群体的关注,算法弱势群体对于算法发展中各类问题的敏感性更高,算法相关能力更为不足,因此需着重提高算法弱势群体在算法社会中的适应性,进一步加强并完善算法相关的教育普及与算法引导工作。

4总结

算法社会不仅仅是算法单方面地发挥作用,同时强调人的因素,算法技术的发展与社会中各类主体算法素养的提高均是推动算法社会进步的重要动力。本研究结合素养评价中的层次评价体系与皮亚杰认知阶段理论,通过分析算法素养评价的不同维度与等级,提出了多维分级的算法素养评价体系。该评价体系结合层次评价体系的维度划分,有助于了解不同主体的算法素养水平,针对性地制定算法素养培养策略,从而帮助形成多主体共建共治的算法社会。

目前,算法素养评价中,在算法素养的多维分级评价体系的各维度的等级选定上主要依据经验总结。后续利用定量方法分析不同对象在算法素养评价体系各维度上的等级定位,有助于算法素养评价准确性的进一步提高。

猜你喜欢
熵权法评价体系
高职机电专业学生数学能力的调查及对策
大学周边健身房满意度调查报告
基于熵权法的京津冀区域信息化协调发展规律模型及其应用
基于熵权法的“互联网+”农业发展影响因素权重确定
基于熵权法的西安市外向型经济发展综合评价研究
《UG NX机械产品设计》课程项目化教学的改革研究
评价体系小改革职业技能大提升
以心育推进学生综合素质评价体系建立的研究
自然资源资产离任审计评价体系研究
城市与区域经济可持续发展