学科知识图谱的动态生成及其在资源智能组织中的应用*

2022-07-30 03:08柯清超黄正华鲍婷婷
远程教育杂志 2022年4期
关键词:张量学科知识图谱

林 健 柯清超 黄正华 鲍婷婷

(1.岭南师范学院 计算机与智能教育学院,广东湛江 524048;2.华南师范大学 教育信息技术学院,广东广州 510631)

一、引言

2021年7月,我国教育部等六部门印发《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》(以下简称《指导意见》),提出通过构建学科知识图谱,对数字教育资源的学科知识脉络进行智能标识、重组与匹配,以学科知识图谱赋能数字教育资源新基建(柯清超,等,2021)。学科知识图谱作为一种典型的智能认知工具,通过对各类学科教学问题分类梳理与逐层分解,可有效将不同维度的学科知识与资源建序、重组与优化,以学科知识语义图式结构,映射学习者高阶思维能力与认知能力的发展(范佳荣,等,2022),在突破当前数字教育资源智能组织的“信息茧房”难题中凸显优势。2022年1月,教育部发布《普通高中学校办学质量评价指南》,其在课程教学评价指标这项明确提出应加强跨学科综合性教学,推进信息技术与教育教学深度融合。发展学习者综合性系统思维与学科素养是新时代复合型人才培养使命的教育价值旨归,从培养教师学科教学素养角度而言,学科知识图谱有助于帮助教师根据学习者当前综合性学科知识体系组织资源,使其教学设计与学习者前置学习经验产生适切性的知识联系;从发展学习者高阶认知能力角度而言,学科知识图谱有助于打破学习者在学科问题解决过程中的思维定式,通过动态的知识推理链路发现在传统讲授型模式中难以呈现的问题解决线索,以促进学习者高阶认知能力与思维能力的习得。

根据格式塔认知理论与联通主义学习理论观点,特定主题教学境脉中的高级认知活动与高阶思维发展具有的整体性、综合性、关联性与具身性特征,在缺乏智能认知支架的情形下,以学科知识结构作为教学设计中枢,实现学科教学资源组织与教学测评的难度较大。而学科知识图谱等智能认知工具的构建与应用研究,一方面,可以帮助师生围绕特定主题的学科教学需求,借助学科知识动态化、结构化、个性化、可视化的技术手段,智能组织与管理数字教育资源;另一方面,可作为撬动学习者高阶认知活动发生与复合思维能力发展的杠杆,实现基于学科知识图谱的教学路径规划设计与智能诊断测评,汇聚多学科协同育人合力,构建高质量复合型人才培养体系。

二、学科知识图谱的基本概念及实践演化

(一)学科知识图谱的基本概念

知识图谱(Knowledge Graph)起源于20世纪70年代知识工程与专家系统的研究(Bakker,1987;Vries,1989),其本质是基于知识图式理论表征事物语义关系网络的图数据结构(肖仰华,等,2020;Ehrlinger,et al.,2016)。随着谷歌将知识图谱应用于大规模语义网络搜索引擎,知识图谱在各行业的应用日渐广泛,并在不同学科的研究中,衍生出概念图谱、认知图谱、事理图谱、认知事理图谱等相近概念的表述(赵国庆,等,2021)。有学者认为,教育知识图谱指知识图谱在教育领域的应用及相关研究,如将其应用于数字教育资源智能组织管理、个性化学习路径设计(李艳燕,等,2019)、智能型数字教材开发(张治,等,2021)、基于慕课资源图谱预测教师线上教学行为(吴林静,等,2021)与基于课堂教学事理图谱的教师信息技术应用能力测评(唐烨伟,等,2021)等;还有学者提出了EKGCM(李振,等,2019a)、KQA模型(钟卓,等,2020)、面向深度学习的动态知识图谱建构模型(姜强,等,2020)等。

学科知识图谱是一种支持具体学科教学设计与资源组织管理的教育知识图谱。《指导意见》强调需分步构建国家统一的学科知识图谱,明确了学科知识图谱在数字资源智能组织管理中的具体功能,为智能时代学科知识图谱的创新发展指明了方向。与一般的教育知识图谱相比,《指导意见》明确提及的学科知识图谱,更偏向于作为具体学科教学的认知支架,通过对各学科教学内容进行实体识别及语义关系抽取,形成学科知识语义网络,并据此对不同特征标签的数字教育资源进行智能组织管理(柯清超,等,2021)。

在本研究中,学科知识图谱从我国数字教育资源新基建场域及基础教育多学科教学境脉的双重背景中衍生而来,而跨学科知识图谱是其多学科教学场景下的特例,其具有以下特点:(1)其实体数据集由国家学科课程标准文本经过词向量学习算法构建,学科教学主题数据集通过国家数字教育资源公共服务平台的资源元数据构建,其实体语义关系建模具有动态性、开放性与集成性;(2)支持依据国家学科课程标准设计与实施个性化学科教学,可促进教师的学科教学素养与学习者的个性化深度意义建构;(3)面向学科课程标准中的学业质量评价体系,规划与学科课程标准相衔接的项目学习路径。基于此方式生成的学科知识图谱,可应用于学科资源的智能组织、个性化问题解决、学科教学设计与评价等,其逻辑框架如图1所示。

图1 学科知识图谱的内涵及其教学应用逻辑框架

(二)学科知识图谱构建的实践演化

知识图谱构建以实现学科认知智能为导向,历经人工构建、群智众包与动态构建等发展阶段(赵军,等,2018),逐渐从传统的“知识库+推理引擎”范式,向“大数据+机器学习”范式转变,其演化过程及其关键事件如图2所示。

图2 学科知识图谱构建的实践范式演化

人工构建学科知识图谱,往往依赖学科教师、教研员及领域专家的共同参与(李艳燕,等,2019;朱游娟,2016),汇聚专家智慧将学科课程标准、教材大纲与教辅等非结构化文本数据,进行数据采集与清洗、实体抽取、关系抽取、同源知识融合、知识加工、本体建模等步骤,完成构建工作(刘峤,等,2016;徐增林,等,2016)。上述基于人工构建的“群智众包”模式,虽集学科群体智慧完成了对学科知识图谱的初步构建,但在知识加工融合、本体建模等环节,仍无法消除人工方法固有的主观认知偏差,导致本体数据语义难以精准消歧,相同学科主题知识难以在不同学段学情下自适应调整,大规模多源学科知识融合验证难以快速实现。可见,当前学科知识图谱的构建,尚不足以支撑我国数字教育资源新基建背景下的智能组织与管理需求。

随着自然语言处理与机器学习的跨越性发展,有研究者提出了学科知识图谱自动构建的方法,即从多模态知识载体中,自适应抽取异构化的实体及其属性、关系,通过机器学习等智能算法动态构建学科知识图谱,以实现信息化学习环境下学科知识的大规模获取与组织(李振,等,2019b;Lin,et al.,2016;Wen,et al.,2015)。智能算法的运用,使得大规模多源异构的学科知识的动态获取与组织成为可能,但由于跨学科知识组织与管理在我国基础教育教学境脉下,应采用知识定位精准化、认知发展层次化、场景应用多维化的构建方式,来满足我国教育新基建背景下学科资源智能组织与管理中的学段衔接性、学科特异性、学情差异性等需求,故学科知识图谱动态构建技术与方法,依然拥有广阔的创新应用前景。

当前,学科知识图谱自动构建的关键技术,包括多模态本体建模与关系预测(Wang,et al.,2020)、基于张量分解与强化学习的知识图谱动态补全与划分(Zhang,et al.,2020;李瑞平,2021;王鑫,等,2021)等。相较而言,前者关注学科知识图谱中知识来源与表征的多模态属性,即学科知识载体的多源性与学科知识表征的多样性,以满足不同学段学习者个性化的学习需求;后者则关注不同规模的学科知识图谱的衔接与转化,例如,基于格式塔学习理论中对学习主题情境整体性认知的观点,在构建高学段学科知识图谱时,可对低学段的本学科及跨学科知识图谱数据集应用张量分解进行知识图谱补全(KGC,Knowledge Graph Completion)。具体而言,当学习者刚进入高学段学科学习时,其对低阶学科知识图谱进行高阶知识点个性化意义建构,有望辅助其完成对高学段学科知识的过渡认知。因此,在需要简单基础推理链路的低学段学科学习中,可通过强化学习对高学段的学科知识图谱数据集进行知识图谱划分(KGP,Knowledge Graph Partitioning),即当学习者在课外自主学习中出现难以辨别复杂学习材料需要掌握的知识内容时,可借助高阶学科知识图谱分解再选择符合认知规律的合适资源。据此,本研究将重点关注基于学科课标文本、资源元数据的学科知识图谱动态生成与自动补全方法及其在资源智能组织中的应用。

三、学科知识图谱动态生成的技术框架

学科知识图谱的动态生成,是指通过机器学习算法,对表征学科知识的大规模数字教育资源元数据进行语义特征学习训练,动态生成面向给定多学科项目学习主题的学科知识图谱。在我国基础教育多学科教学境脉下,学科知识图谱的生成,需要考虑基于课程标准的跨学科知识结构的延伸与拓展,需应用特定技术机制根据多学科教学境脉下学科知识语义结构,动态计算不同实体潜在的认知发展路径,结合学习者的个性化认知风格与元认知策略,完善多学科主题的知识结构及其教学路径。已有研究基于BERT(Bidirectional Encoder Representations from Transformers)模型面向教材、百科等非结构化数据,研究特定学科的知识图谱构建方法(刘峤,等,2016;周炫余,等,2021)。在上述研究的基础上,本研究提出了基于课标文本与国家教育资源公共服务平台资源元数据的学科知识图谱,动态生成技术框架,如图3所示。

图3 学科知识图谱动态生成技术框架

生成学科知识图谱的数据集,来自国家学科课程标准①文中国家学科课程标准指我国教育部官网公布的高中、义务教育阶段课程标准文件。文件来源可参考:http://www.moe.gov.cn/srcsite/A26/s8001/202006/t20200603_462199.html 和http://www.moe.gov.cn/srcsite/A26/s8001/202204/t20220420_619921.html。中基于自然语言文本表征的非结构化数据,及国家教育资源公共服务平台元数据等多模态信息表征的半结构化数据。学科课标文本作为表征知识的单模态形式,从面向自然语言的清洗、分词、词性标注,到基于自然语言的本体建模,已有成熟的技术解决方案。然而,学科知识表征形式不局限于文本模态,而多模态学科知识表征通过多种感官通道的刺激唤起学习主体对客体的多感官反应,从而形成学习主体对知识客体的多线索、多维度、多层次的高阶认知活动,如语文、英语等语言学科中基于音频的发音知识表征通过学习者听觉刺激强化,可促进学习者对语言语音与词形语义的复合认知,深化其对特定语言的识记理解;生物、地理等自然学科中,基于图片图像的物质形态知识表征通过学习者视觉刺激强化,促进学习者对抽象学科概念知识的具象认识,以其具身视觉认知深化其对具象化客体的形态、结构与功能的综合分析等高阶认知活动。

根据戴尔(Edgar Dale)的经验之塔理论,以语言符号或视觉符号表征的抽象知识,在以多模态感官载体综合表征的具象认知场域下,有助于学习者以多线索、多角度、多层次的具身感官经验,获得学习客体的系统性认知,并以特定教学活动设计为枢纽,将学习者对客体知识的具身感知经验映射为事实性知识、方法性知识、解释性知识等不同层次的具身认知经验。因此,在基于文本表征知识的单模态学科知识图谱构建框架基础上,需要同时将国家教育资源平台等多模态数据源,以元数据属性描述形式作为学科知识图谱构建数据的有效补充。随着基于张量结构的深度神经网络技术与跨模态语义理解技术日趋成熟,跨模态知识表征的实现成为可能。研究学科知识图谱的动态生成与多模态表征,一方面,拓展了学科知识图谱在多学科知识与资源组织管理中的个性化认知智能,即以学习者具身认知风格偏好与状态属性定制其适合的多学科问题解决路径,并挖掘其潜在的认知深化发展线索,以精准定位多学科境脉下学习者认知的最近发展区;另一方面,也反过来促进了学习者依据学科知识图谱认知智能生成的个性化学习路径规划与资源配置,动态调整自我元认知学习策略,形成人机双主体协同场域下的多学科认知智能发展境脉。

在我国基础教育多学科教学的境脉下,多学科课程内容设计的连贯性与发展性,使得学科学习过程具有跨学段认知衔接性与过渡性。跨学段认知衔接性,体现为高低学段之间相同学科知识结构的衍生与衔接,旨在保证学习者在同一学科维度下其学科知识体系纵向认知深化的连贯性;跨学段认知过渡性,体现为高低学段之间不同学科知识体系的渗透与迁移,旨在保证学习者在不同学科维度下其学科知识体系横向认知发展的整体性。由此可见,多学科学习主题在进行低学段与高学段知识体系转化过程中,常面临语义特征数据模态难以对齐与融合等问题。而张量(Tensor)作为现代机器学习经典模型之一,在面对高阶异构语义数据降维与转化处理中,已被证实具有稳定良好的计算性能(Zhang,et al.,2020;杨克宇,等,2021)。因此,在处理学科知识图谱数据时,应用张量分解模型实现学科知识图谱从低阶到高阶的动态嵌入与补全,可以自适应跨学段多学科课标对学科教学设计需求等研究工作,具有技术可行性与适用性。

四、学科知识图谱动态生成的方法技术

结合戴尔经验之塔理论视角下学科认知智能的发展层次,学科知识图谱的动态生成,包括基于自然语言处理的跨模态学科知识图谱动态生成、基于张量语义分解模型的学科知识图谱动态补全与面向跨学段多学科课程标准的学科知识图谱质量评估三个技术环节。其中,跨模态是指图像、音频、视频等资源媒体属性数据,通过像素矩阵化、频谱特征序列化等技术手段,将其从多模态表征形式转换成数值化矩阵表征形式,从而实现数字化教育资源多模态属性数据特征的对齐与映射。

(一)基于自然语言处理的跨模态学科知识图谱动态生成

基于自然语言处理的跨模态学科知识图谱动态生成流程共分四个阶段,即学科课标文本与数字教育资源公共服务平台元数据的基础数据集获取与构建、基于自然语言处理的结构化数据生成、多学科知识的持久化存储与学科知识图谱教学应用。上述四个阶段又可以概括成两个层次,即学科知识实体关系的动态建模与多学科主题知识的融合生成。

第一层次对应学科知识图谱生成的前三个阶段,即学科知识图谱实体建模与关系抽取的流程。(1)基础数据集获取:通过爬虫技术对课标文本与词条数据,进行基础数据爬取、清洗、标注与整合,生成用于机器学习的训练集,此时得到的数据集是非结构化课标文本与半结构化资源平台元数据,资源平台元数据的多模态属性,体现在面向不同感知通道的认知对象实体图像像素矩阵、音频频谱特征、动态图像帧数及其时间戳索引等数值化序列标记元数据中;(2)基于自然语言处理的结构化语义关系知识模型生成:将所构建的学科知识图谱数据集,使用机器学习模型进行知识语义数据训练,生成基于词向量的学科实体结构化数据关系三元组或跨模态元数据语义多元组,包括多学科实体识别、分类、链接与基于跨模态机器学习的实体语义关系抽取等子过程,为学科知识图谱的多学科语义集成提供技术表征模型;(3)学科知识的持久化存储:将训练得到的多学科知识实体与语义关系跨模态多元组知识模型,持久化存储在可视化数据库中,基于图数据可视化知识组织语言(如Cypher 语言等)生成结构化知识语义网络,此时,跨模态知识图谱的原型已具备多学科学习境脉下数字教育资源文本与元数据的实体语义关系认知智能分析与计算能力。

第二层次则对应跨模态学科知识图谱生成的第四阶段,即学科知识图谱的智慧教学应用。跨模态实体语义关系知识模型,在前三个阶段只是学科知识图谱认知智能的技术表征,尚不能直接应用于学科智慧教学。学科知识图谱认知智能的技术表征要在多学科智慧教学境脉中得到有效应用,需要引入面向教学场景的师生用户模型与智能计算服务框架,以支持学科教学资源组织与教学路径生成,从而形成生成性、个性化的学科教学活动,服务给定的多学科项目主题教学需求。具体可分为两个步骤:(1)学科教学的师生用户模型构建。用户模型反映了教学主体通过与学科知识图谱的认知交互、行为交互建构教学交互的智能化载体,其模型的输入包括教师的学科教学目的、教学主题、教学风格等元素与学习者的学情数据;其模型的输出包括教师的学科教学策略、教学方法、教学活动、学习者画像、认知路径、元认知策略及其启发式学习支架。(2)智慧教学服务框架的设计。基于师生教学用户模型的描述性教学数据与可视化教学活动,结合学科课程标准文本的学科知识结构与学科素养评价体系指标层次,基于当前给定的多学科项目教学主题关键词,动态生成适应不同教学目标层次与教学风格的学科知识图谱,服务于师生学科教学资源组织、教学主题管理、教学路径推荐、教学活动决策与教学过程诊断等。

(二)基于张量分解模型的学科知识图谱动态补全

学科知识图谱赋能的多学科智慧教学,具有跨学段、多层次的认知发展路径,并以培养学习者多线索、多维度的问题解决思维与能力为教育旨归,学科知识图谱的动态补全,为教师开展跨学科教学设计与学习者对多学科学习任务进行多线索、个性化意义建构提供了智能认知支架。学科知识图谱的补全是指借助张量分解模型,将彼此关联或具有知识前后学习顺序的各学科图谱数据,转化为计算机易处理的数据形式,构建多学科知识特征矩阵,挖掘学科知识点之间的语义联系,完成新旧知识实体或其属性的潜在语义关系预测与嵌入,最终实现学科知识图谱的智能动态补全。根据不同学科的知识学习路径,学科知识图谱的补全路径,也呈现出多元动态性。

1.面向学科知识语义结构的张量分解原理

在介绍应用于图谱嵌入的张量分解模型之前,首先给出如下符号定义:知识三元组用(头实体,关系类型,尾实体)表示,记为(h,r,t),简写为φ;希腊字母表示三维知识张量,中的元素用Xi,j,k表示;大写字母A代表矩阵,用于表示实体集和关系类型集,其中|A|表示矩阵的大小;小写字母a代表向量,其中第i 项用ai表示;Xn代表Tucker 积,用于三维知识张量与矩阵的乘积;算符“o”表示向量的乘积。

在多学科项目式教学中,知识间的关系往往是多元且语义是联通的,其关系表征方式并不唯一。为了简化原理介绍,这里将知识语义关系表征为三元组。以高中生物知识点“孟德尔遗传定律”为例,生物体显性基因和隐性基因的随机组合,决定着各种不同的性状,通过数学建模进行计算可以得到相应的概率。因此,其知识语义可用复合三元组(孟德尔定律,数学建模/物质基础,概率/DNA 遗传信息的随机组合)表示。将其推广到张量模型,则是将知识三元组建构为三维张量,其中的两个维度由知识头尾实体(如孟德尔定律、概率/DNA 遗传信息的随机组合)构成,第三维度则是知识间的关系(数学建模/物质基础)。

以张量模型经典算法Tucker 分解为例(Balaževi,et al.,2019),针对学科知识图谱中三维张量∈RI×J×K,Tucker 分解可以得到核心张量G∈RP×Q×R和三个知识矩阵A∈RI×P、B∈RJ×Q、C∈RK×R,见公式(1)。

其中,核心张量G 代表着知识实体与关系之间语义联系强弱水平,可进行知识点与知识关系的潜在语义分析(季中强,2019)。

综上,张量分解本质上是通过对复杂知识结构的降维处理,通过模型结构降维算法,分解出新知识的潜在语义关系,从而生成原图谱中不具有的新知识结构,促进多学科项目学习多元观察视角与多线索问题解决。因此,张量模型适用于学科知识图谱的动态补全,其通过动态化嵌入模型,提高了学科知识的语义关系衔接性。

2.基于张量分解的学科知识图谱补全模型设计

结合张量分解算法,本研究提出如图4所示的学科知识图谱动态补全模型。模型的作用在于通过张量分解成低维矩阵来反映知识的隐含信息,用于估计原有学科知识图谱的残缺部分。模型从学科知识图谱中,抽取出知识三元组构成数据集,将学科数据集中的正负样本构建为三维知识张量,经过Tucker分解成低维知识矩阵送入打分函数,经过优化器不断更新嵌入实体及关系,挖掘知识间的隐含关系,作为新生成的知识衔接更新原有的学科知识图谱。

图4 基于张量分解的学科知识图谱动态补全模型

为了在未知关系的知识实体间建立联系,模型采用替换法,将正确的知识三元组实体替换生成负三元组;在预测方面,模型使用作为激活函数,通过概率预测三元组的正确性;在优化方面,模型使用对数似然损失函数衡量模型预测的好坏。

(三)面向多学科课程标准的学科知识图谱质量评估方法

学科课程标准中学科知识体系与学科素养评价指标的匹配度,是衡量学科知识图谱生成与补全质量的重要指标,不论是学科知识图谱的生成还是基于不同教学目标与教学主题的学科知识图谱的动态补全,其质量评估指标都应关注图谱的教学连接性与教学适切性。其中,教学连接性通过图谱的多学科知识动态性能计算,而教学适切性通过图谱与教学主题相关的学科课程标准的认知与评价匹配度计算。因此,其质量评估方法,包括基于张量模型的知识图谱补全性能与基于学科课程标准学业质量评价指标的匹配程度计算方法。

一方面,评估构建的学科知识图谱是否具有较好的动态嵌入性能,即学科知识图谱是否满足多模态属性的实体关系动态嵌入。测试数据选用数字教育资源库及资源公共服务元数据等多源异构数据,通过MRR、Hits@1、Hits@3、Hits@10 等指标,计算学科知识图谱与学科课程标准知识体系的匹配效果。

其中,MRR(Mean Reciprocal Rank)是学科知识图谱嵌入实体的平均倒数排名,该指标越大说明匹配效果越好,见公式(2)。

Hits@N 是学科知识链接预测中排名小于N 的三元组的平均占比,该指标越大说明匹配效果越好,见公式(3)。

另一方面,评估所构建的学科知识图谱是否匹配各学段学科课标的教学要求,即所生成与补全的学科知识图谱是否满足教师基于学科课程标准的教学目标达成、资源组织与活动设计,是否满足学习者基于学科课程标准的认知支持、资源推荐与学习路径规划。评估方法的匹配数据集是国家各学科课程标准的文本数据,通过对课标文本进行知识抽取、知识标注、知识匹配等环节,根据各环节的阶段性输出,可衡量其与各学科课标教学要求的匹配程度,具体包括学科知识图谱与学科课标的认知层次匹配、学业质量素养评价指标层次匹配等方面。

五、基于学科语义张量分解的数字教育资源智能组织策略

学科语义张量分解模型是实现学科知识图谱补全的关键模型,可实现由低学段基础性知识图谱经过认知智能训练向高学段、全景性学科知识图谱的演化。当前,数字教育资源的智能组织在资源动态层次上效果欠佳,尚不能为学习者配置符合学科课程标准认知要求的数字化学习资源。张量分解模型通过学科语义关联与全景性多学科知识图谱动态补全,为数字教育资源智能组织提供了精良的模型支撑,促进数字教育资源在多学科语义分析与推理粒度上,为学习者组织、发现、配置、推荐适切的数字教育资源组合,从而实现数字教育资源的自适应与细粒度组织的配置。

(一)基于学科语义计算的资源张量分解模型

由于前文已对结构化知识数据进行语义标签监督算法的训练,不妨将三阶学科知识张量推广至数字化学习资源语义多元组<学习者L,认知特征向量C,三阶知识语义张量,数字化学习资源R>的形式,记为Y=(L,C,R,X),其中L 代表学习者用户标识符集合;C 代表学习者认知状态特征向量集合;R 代表数字教育资源的元数据标识符集合;X 代表cj认知特征的学习者li在检索知识张量时访问资源rk的置信概率集合。假定对相关数据集的噪声数据清洗后,将上述定义的四元组,映射为训练集中学习者认知状态向量特征值和数字教育资源量的复合张量。该张量模型对数字教育资源rk在学习者li的认知特征向量集合下,以学科知识语义访问的数字化学习资源的频度求和,作为评价具有cj认知状态特征值的学习者li在跨学科知识语义下的关联权重。据此算法原理,若足够多具有cj认知状态特征的学习者在特定学科知识语义的认知学习时均高频访问数字化学习资源rk,则该资源的标识与访问频度会逐渐增大。而在学科知识图谱驱动的数字教育资源动态层级目录中,如将使特定学科知识语义下的数字教育资源rk与具有cj认知状态特征的学习者呈现强关联推荐;那么,在学习者进行跨学科学习时,较难得到其他学科重要资源的检索与推荐机会。甚至在千篇一律地对某类认知特征的学习者高频推荐某类数字教育资源的情形下,会一定程度抹杀学习者对其他学科方向重要学习资源的访问权,进而以群体性资源需求之名限制个体性资源需求,导致数字教育资源“信息茧房”现象。基于此,本研究提出基于学科语义张量分解模型的个性化学习资源动态组织算法与相关模型框架,以实现基于学科知识图谱的数字资源智能组织。

(二)基于学科语义张量分解模型的个性化资源智能组织方法

为解决特定认知特征的学习者在开展多学科学习活动时产生数字教育资源“信息茧房”的问题,在基于多学科语义标签聚类的数字教育资源组织算法中,本研究进一步提出将逆文档词频对数化,以构造惩罚函数w(cj,rk)限制同一认知状态特征下的学习者li对特定学科知识语义所访问的高频资源频次,见公式(4)。

公式(4)中代表同一认知状态特征下的不同学习者对特定学科知识语义所访问的高频资源频次,以此识别数字教育资源应用的热度。但考虑对数函数模型比线性函数模型增长速率更为平缓,故而使增1 后对数化为避免函数输出趋近于0,会导致惩罚函数w(cj,rk)失效。因而,本研究引入基于同一认知状态特征下的不同学习者对特定学科知识语义所访问的高频资源惩罚函数后的张量,定义演化为公式(5)。

一方面,需根据基于学科知识图谱的动态层级组织结构,决定该数字教育资源是否能被学习者精准匹配、检索或推荐;另一方面,为挖掘特定认知状态特征的学习者在特定跨学科知识语义认知学习过程中对特定类别数字教育资源之间的隐性关系,还需要对上述张量进行分解。具体而言:(1)首先,应用高阶张量奇异值分解算法(HO-SVD),对上述张量结构消解其数据噪声信息;(2)再应用高阶张量正交迭代算法(HO-OI),对其分量因子进行迭代逼近,以提取更为精确的分量因子语义关系特征,进而实现特定认知状态特征下,不同学习者根据其具体认知偏好风格等因素,实现对特定学科语义知识的个性化数字教育资源的动态组织,即数字教育资源认知智能。已有研究表明,上述两种算法组合的新算法HO-SVD-OI,对高阶张量结构进行语义特征分解,具有更精准的资源组织与推荐效果(Kolda,et al.,2005)。

结合上述学科语义特征张量分解的算法思想,分析数字资源智能组织策略可知,由于当前数字教育资源并非处于完全无组织的状态,而是具有特定的资源检索、配置与推荐机制。只是随着特定认知特征的学习者群体对某类数字教育资源的高频访问与应用,促使特定类型的数字教育资源,在人机协同认知智能体系中形成数字教育资源“信息茧房”。此时,应用开放算法库API 中的半监督学习算法,根据上述学科认知语义张量多元组数学模型,将图谱数据与学习数据转换为正负样本。其中,正样本是特定认知状态特征的学习者,围绕特定学科语义知识张量,在算法库API的激励函数下形成的高频热门数字资源元数据;在负样本中则引入惩罚函数,调节特定认知状态与学科知识语义张量下多学科数字教育资源的动态流转,即通过算法认知智能支持学习者认知智能的高阶发展,构建人机协同的数字教育资源智能组织体系。

六、应用案例研究:《豌豆》知识图谱生成与资源组织

(一)《豌豆》学科教学案例分析及其主题关键词生成

《豌豆》来源于课题组实验校的高中综合实践学科教学案例。在对实验校的各学科教研组访谈中发现,其普遍认同豌豆具有丰富的营养科学价值、农业技术价值、农耕文化价值与历史文化价值,可映射为多学科知识学习与多维性学科能力发展目标。因此,该教学案例以豌豆的营养科学、栽培技术、园艺文化及其相关文学作品为教学主题,从其生物性状、地理分布、营养成分、现代农耕技术、景观文化及历史文学溯源等多学科视角,展开项目教学。知识点涵盖化学、生物学、地理学、数学、物理学、历史学与文学等多个基础教育学科,含豌豆科学与技术原理学习、豌豆园艺文化与文学作品学习、豌豆种植园实地调研实践与跨学科学习成果分享与交流等环节。

学习者为某实验学校高中一年级学生,在学科项目学习过程中,根据学习者的认知偏好风格,分为豌豆科技调研小组与豌豆文化探秘小组。其在小组合作的活动模式下,分别对豌豆的相关科学原理、农业技术、园艺文化、文学作品等子专题关键词在学科知识图谱的支持下,开展个性化学习与调研。具体而言分为三个步骤:(1)其学科学习主题关键词以“豌豆”为中心词,以“科学原理、农业技术、园艺文化、文学作品”为知识与资源组织管理线索,以学习者的认知风格偏好与状态属性为序列特征标签,动态生成不同认知风格标签下的多学科学习路径与资源配置序列;(2)基于对应学科课程标准的知识结构体系,动态回溯学习者旧知与新知语义关系,并映射学习者知识学习序列与资源组织序列之间的认知能力层级特征,以实现个性化多学科智慧学习;(3)最后通过小组交流分享的方式,在学科知识图谱支持下,引导学习者辩证认识农作物科技与人类农耕文化的协同发展关系。这一过程,展现了以《豌豆的科学原理》为例所呈现的基于化学、生物学、地理学、数学课程标准的学科知识图谱动态生成效果。

(二)《豌豆》学科知识图谱的动态生成

基于《豌豆的科学原理》的学科知识图谱基础数据,来源于教育部官网发布的中学化学、地理、数学、生物学四门学科的《义务教育课程标准(2011年版)》《普通高中课程标准(2017年版2020年修订)》、国家数字教育资源公共服务平台元数据等相关领域数据集。本研究使用Python3.9 实现跨学科知识图谱生成流程,以前述案例主题中心关键词“豌豆”,作为跨学科知识图谱生成的中心实体,在对文本与资源平台元数据集进行语义关系学习训练与跨模态语义对齐映射后,生成基于该项目教学主题中心关键词的跨学科知识图谱,效果如图5所示。具体包括基于自然语言处理的“实体—关系”机器学习(图5-1)与基于张量分解的学科知识图谱建模与生成(图5-2)。其中,图5-1 中的Entity2(三元组模型中的尾实体)显示了实体关系训练学习的数据来源:各学科课程标准、资源平台元数据等;图5-2 中的白色结点表示学科课标生成的部分实体,灰色结点及图片表示资源平台元数据索引映射的部分实体。

图5 -1 基于自然语言处理的“实体—关系”机器学习

图5 -2 基于项目主题中心词的跨学科知识图谱(部分实体关系)生成效果图

根据劳伦斯等人(Laurence,et al.,1993)对多模态系统的经典定义,学科知识实体属性的不同信息编码方式,即文本、图形、图像、音频、视频等不同模态,可表征知识实体的概念属性、形态属性、演化过程等动态属性。考虑百科词条中存在大量表征实体形态属性与动态过程属性的图形图像、动画视频等多模态数据集,基于布鲁姆教学目标分类视角(冯友梅,等,2018),进而分析上述面向中学数学、化学、生物学、地理学四门学科构建的跨学科知识图谱的部分知识属性表征可知:(1)与学科课标相匹配的实体形态属性,通过跨模态图像矩阵数据序列索引表征为关联语义下的资源图像,对应直观化的识记与理解层次的教学目标,成为戴尔经验之塔理论下促进学习者跨学科认知深化的具象认知衔接元;(2)与学科课标相匹配的实体形态属性,通过跨模态语义映射表征为元数据文本,对应抽象化的识记与理解层次教学目标,成为戴尔经验之塔理论下引导学习者深层次意义建构的具身认知过渡元;(3)相同主题的实体属性作为跨学科实体,通过对应学段的学科课标的匹配分析,衍生了跨学科教学主题链路。可见,实体的不同表征模态分别映射其不同学科知识及不同层次的教学目标,这也进一步印证跨学科知识图谱生成,对跨学科教学整体目标的达成具有重要意义。

(三)基于《豌豆》学科知识图谱补全的个性化资源组织路径分析

学习者在完成该项目学习时,一般具备相对完整的低学段学科知识结构。在多学科项目学习场景下,学科知识图谱动态补全,实质上是学习者对高阶学习对象的个性化意义建构过程,从而促进学科高阶知识与素养的逐步形成。跨学科知识图谱支持该项目教学的个性化资源组织路径,分析步骤如下:

第一,根据高中生物学科课标中学业质量评价标准,将原知识图谱的三元组标注为如表1所示的素养评价指标V(ij),表示学习者在对应知识(h,r,t)学习时应达到的素养层次,其中i表示三元组知识序列,j表示素养评价层次序列。

表1 学科知识图谱三元组在课程标准素养评价体系中的标注(部分)

第二,根据学科课程标准的素养评价指标体系,呈现不同学科素养层次的学科项目教学主题。其一,面向数理逻辑计算素养评价的学习需求。教师可根据(初中,数学,事件概率,数学建模,问题解决)的素养评价指标标注,为学习者构建合适的数学模型,推演验证“生物遗传物质组合随机性”,在支持学习者从数学变量的演化推算中认识问题解决的本质。其二,面向空间结构分析素养的学习需求。教师可根据(初中,化学,生命大分子的结构,科学探究,宏观辨识与微观探析)的素养评价指标标注,为其构建通过空间微观分析“DNA 的微观结构在遗传过程中的组合变化规律”。由此可见,不同的目标导向会产生不同的资源组织路径。

第三,当学习者选择不同路径组织对应学科项目资源时,教师会根据其学习过程与学习者基于衍生主题关键词的学科知识图谱动态生成补全方向,进行必要的协助与干预,以调整学习者个性化意义建构的方向与层次,最终实现符合学科课程标准的项目教学整体目标。

七、总结与展望

学科知识图谱等智能认知工具的动态生成与应用研究,顺应了当前国家教育新基建的整体设计思路(柯清超,等,2021),通过智能技术,为我国基础教育多学科教学境脉下人机协同认知支架设计、数字资源组织、学习路径规划等方面,提供智能化的支持。

后续研究将面向当前技术赋能的教育新生态(柯清超,2021),利用学科知识图谱,构建个性化学习行为分析与自适应学习资源推荐等认知工具,支撑构建高质量智能教育生态体系。主要的研究方向包括:(1)基于学科知识图谱完善学科教学行为中的潜在语义联系,提炼适切学情的多元教学路径模型;(2)基于学科知识图谱辅助学科教师在学科教学活动设计、教学评价反馈等关键教学环节中,进行精准化、个性化教学决策;(3)基于多学科学习资源语义、学习过程数据与学业评价数据,分析不同学习风格的学习者在多学科项目教学过程中的学习状态,凝练多学科教学与复合型人才培养协同发展的有效机制。

猜你喜欢
张量学科知识图谱
基于图对比注意力网络的知识图谱补全
浅谈张量的通俗解释
大规模高阶张量与向量相乘的一种并行算法
通向学科育人的学科知识观
品读
关于一致超图直积的循环指数
非负张量谱半径上下界的估计不等式
图表
学校德育要植根于学科知识的意蕴之中
主动对接你思维的知识图谱