郭胜娟 董峰铭
(1.武汉城市职业学院 湖北 武汉 430070;2.武汉大学 湖北 武汉 430072)
“科学” 是师范类高等院校小学科学教育专业的师范生必须进行的科学教育实践课,旨在通过小学顶岗实习的模式来为小学培养合格的科学课教师,加强师范院校的 “科学” 教学实践能力的培养,有利于培养合格的小学科学教师。因此,如何利用人工智能技术来构建学生思维成为科学教育研究领域的热点问题。
作为人工智能的研究热点之一,知识图谱已经由教育工作者融入课程教学,用于更好地构建学生的思维。例如,武汉大学的徐雷教授与袁小群教授通过采用语义技术处理了历史教育资源,实现了历史教育知识库的构建,以此知识库为基础设计并实现了包含历史知识可视化、历史知识检索以及在线历史题库等功能的历史教育学习平台[1]。此外,知识可视化在思政课程、语文课程、数学课程等均有相关的研究。但在科学教育领域,知识库的构建与可视化分析仍为空白。本文在借鉴前人的研究基础上,在科学教育领域进行了扩展,探究基于知识图谱的知识获取、整合与可视化的方法。
知识图谱是Google基于本体论、图理论等相关基础学科而提出的概念,它采用知识获取、知识整合、知识处理等技术将非结构化和半结构化知识组织起来,形成复杂的语义网络,存储并可视化知识。
知识图谱的概念源于本体理论。本体 “Ontology” 在计算机领域可以看作描述某个知识领域的一个通用概念模型,该概念在1980年被引入人工智能领域,1998年德国学者Studer给出了本体的相关定义即 “本体是共享概念模型的形式化规范说明”[2],该定义阐释了本体理论的 “概念特征、共享性、形式化和明确性” 四个特征。概念特征指从客观世界中的一些现象中抽象出的模型,其所代表的含义独立于具体的环境状态;共享性指本体中的知识是共同认可的,反映出的是领域中公认的概念集合;形式化表示本体是可读的,是可以被计算机识别处理的;明确性指本体中的术语、属性等都有明确的定义[3]。
知识图谱在表现上呈现的是图结构的网状有向图,它可以采用资源描述框架表示实体之间的语义关系,采用 “实体―关系―实体” 三元组(SPO)来表示实体与关系。SPO是知识图谱中知识表示的基本单位,用来表示实体与实体之间的关系,或者用来描述实体的某个属性的属性值[4],这种SPO关系由RDF进行数据存储和交换。RDF由节点和边组成,节点表示实体及属性,边则表示了实体和实体之间的关系以及实体和属性的关系。OWL(Web Ontology Language)网络本体语言是W3C开发的一种网络本体语言,用于对本体进行语义描述[5],其构建在RDF的顶端之上,被设计为供计算机进行解释。OWL网络本体语言使用XML编写,通过使用XML,OWL信息可在使用不同类型的操作系统和应用语言的不同类型的计算机之间进行交换,实现知识图谱的存储与传输。
如图1,知识图谱的主要构建过程分为数据获取、知识抽取、知识存储、知识推理和知识应用等几个阶段[6]。知识获取阶段是从相关领域获取结构化、非结构化和半结构化的数据;以这些数据为基础,采用自然语言处理、知识规则算法或者人工手段对实体、关系和属性进行知识提取;采用Neo4j等NoSQL数据库对知识进行存储,采用实体对齐、关系对齐算法对知识进行融合;采用本体推理、规则推理和路径推理的基本算法或者模型对知识进行推理;最后将知识应用于推荐系统、语义搜索和问答系统。
课程知识图谱首先需要设计 “科学” 课程的知识模块,确定知识模块间的关系。在知识模块确定后,确定每个知识模块的知识点,形成主要知识点。采用知识提取的理论与方法,手动或者程序化提取实体及其属性,分析知识点间的关联关系,设计知识点层级和顺序关系,确定知识与知识之间的图谱关系,构造知识图谱,并将知识图谱可视化。构建后的知识图谱需要专业教师进行审核,并根据审核结果对知识点、知识实体、知识属性及知识关联关系进行修改。被学科教师审核通过的知识图谱可用于课程教学(见图2)。
课程标准和教材是课程知识点提取的主要依据,任课教师可以根据教学内容、教学对象和教学目标,从中提取课程主要知识点,形成教学的知识点体系。
本文以教科版小学 “科学” 五年级下册《环境与我们》单元的知识点为例,提取涉及的 “环境问题” “大气污染” “工业开采” “水资源” “雾霾” “酸雨” “富营养化” “垃圾处理” 等领域的29个知识点。每个知识点以陈述句形式呈现。 “垃圾处理” 所涉及的知识点描述如下。
知识点1:垃圾处理是重要的环境问题,要充分认识垃圾处理的方式及危害,了解生活垃圾的产生,进而减少垃圾产生。
知识点2:垃圾处理的方法主要有焚烧与填埋,这两种方法对于环境保护都有一定危害。
知识点3:垃圾填埋场会对周围的环境产生严重的危害,例如:垃圾散发恶臭,进而会污染空气;地下填埋的垃圾会对土壤造成污染,从而影响农作物的生长,影响农业;填埋的垃圾会招引并滋生蚊蝇,从而引发疾病等。
知识实体提取是采用自动化jieba分词工具对中文知识点进行分词,或者手工方式提取课程内容中的主要词汇。比如,上述 “知识点1” 中,采用jieba工具可以提取到 “垃圾处理” “方式” “危害” 以及 “产生” 等4个词汇,但在句意中 “方式” “危害” 以及 “产生” 存在上下文语义,需采用上下文语义补全的方式对语义进行补全为 “垃圾处理方式” “垃圾危害” 以及 “垃圾产生的原因” 。
关系是知识实体之间的联系,它从知识点语义表达中进行获取。知识点可采用jieba进行词性标注,获取句子中的谓词属性,整合人工校验技术,分析知识实体之间的包含、属于、进阶、基础、并列、同义关系。根据这些关系在课程教学的特征,抽象出 “知识涵盖” “措施” 等知识点关系,形成关系抽提。
本文以 “环境问题与垃圾处理” 为研究对象,采用SPO逻辑表示方法,构建三元组。在环境问题中涵盖垃圾相关的知识,而垃圾相关知识又涵盖 “垃圾处理” ,即 “如何处理垃圾” “生活垃圾的分类” “如何减少垃圾” 这三个知识点。这样,本文构建的SPO三元组如下:(环境问题,知识覆盖,垃圾)、(垃圾,知识覆盖,垃圾处理)、(垃圾,知识覆盖,生活垃圾)、(垃圾,知识覆盖,减少垃圾)。
知识点除了层次关系外,还有自己的属性。在知识库构建中,主要的属性有 “举例” 。比如,在 “垃圾处理” 的方法中,有 “回收” “填埋” 和 “焚烧” 等列举属性。这些关系采用SPO三元组表示方法如下:(垃圾处理,举例,回收)、(垃圾处理,举例,填埋)、(垃圾处理,举例,焚烧)。
本体是知识表示的重要方式,Protégé是重要的本体构建工具,它是斯坦福大学开发的免费且开源的本体编辑器,其由Java语言编写,具有图形化构建本体、对各实体间隐含属性进行自动化推理以及对本体的一致性进行检测的功能[6]。
在知识层次的划分基础上,在Protégé中构建本体,需要创建类与子类,分析类与子类的继承关系的知识关系,再对类与子类进行属性定义。protégé中属性分为对象属性与数据属性,其中对象属性指两个对象以及他们之间的关系,即前文在知识分层时所整理的 “关系” ;数据属性指某个对象的属性,即前文在知识分层时所整理的 “个体属性” 。
本文在分析29个知识点的基础上,构建了 “环境问题” “资源” 等2个主题, “垃圾” “能源” 等8个类别, “酸雨” “雾霾” 等32个实体,以及实体之间呈现出类与子类之间的关系。
知识图谱属于非关系型数据,需要采用图数据进行存储。图数据库允许数据以图的方式存储,实体在图数据库中作为顶点,而实体间的关系在图数据库中作为边,可以用NoSQL数据库来存储。由于NoSQL数据库去掉了关系数据库的关系特性,因而数据非常容易扩展。
Neo4j是由Java和Scala写成的一个NoSQL数据库,专门用于网络图的存储,它用节点、边、属性来高效的存储知识及关系。 本体模型导出的OWL文件可以借助于扩展插件Neosemantics可以将OWL/RDF文件导入到Neo4j中,通过在Neo4j上创建唯一约束,来通过URL确保资源的唯一性,并通过将资源添加到索引中来加速获取过程。
为了加快查询速度,根据案例中提取的实体关系,将 “环境问题” “资源” “能源” “垃圾分类” 等实体设置不同标签,这样,既起到页面美观的作用,又方便管理图数据库中的节点与关系。Neo4j同一节点标签下的多个节点可视作同一类节点,从而实现了实体与实体之间的关联性问题。
Neo4j数据库支持Cypher查询语句,可以采用 “MATCH(n)RETURNn” 查询语句来查询知识库。Cypher是图数据库Neo4j的声明式查询语言,其通过匹配数据库中的节点与关系,来提取信息或修改数据。从而Neo4j数据库支持由业务逻辑层传递,如节点id、节点标签、关系标签、节点名等组成的关键字查询。例如采用 “MATCH(n:`垃圾`)RETURNn LIMIT 25” ,可以返回如图3所示的知识实体 “垃圾” 的知识图谱。
本文采用主题探究教学模式,将教学内容整合成知识图谱[7]。主题探究是建构主义教学理论的分支,在分析学生自我认知的基础上,以场景教育为锚点,以明确的教学目标为依据,通过自主学习、实验观察、独立思考、小组协同等多种模式展开新课程内容的学习,从而构建知识体系。它以 “认知理论” 发展为基本规律,采用 “需求定位、实验探究、总结分析、知识验证” 为核心流程的学习模式,构建学习者的认知规律。
在课程设计上,教师以 “垃圾” 为主题,以知识图谱的方式展示 “垃圾” 主题,让学生展开讨论。通过可交互式知识图谱,让学生掌握 “减少垃圾的方法” “垃圾处理的方式” 等知识点。通过实体关系分析,引出并动态展示 “生活垃圾” 知识图谱,讨论垃圾分类问题。整个教学过程,以知识图谱构建 “知识锚点” ,探究知识要点,构建学生的思维过程,形成思维逻辑方法。
基于以上教学策略,本文选择武汉市某小学的 “科学” 教学班为研究对象,采用对比分析方法,对教学效果进行实验分析。为了验证教学策略效果,本项目随机选择了小学五年级实验班和对照班各43人进行对比实验,教学效果如表1所示。本文从学生课堂参与度、学生满意度和学生知识增益程度三个方面评估教学效果。课堂参与度由任课教师在课堂上观察并记录,评估积极参与课堂教学的学生人数占总人数的百分比。学生满意度是课后通过问卷调查获取学生对课堂教学是否满意的人数占总人数的百分比。学生知识增益程度是通过课前测试和课后测试,评估学生科学知识的提高程度。对同一知识点通过课前和课后测试,评估学生在本课堂学习了新知识后,对该知识点得分提高的平均值。实验表明:课前进行学生知识测试的对照班和实验班平均成绩分别为32.32分和33.12分,课程学习后对照班和实验班的平均成绩分别为92.52分和96.46分。
表1 教学效果表
知识图谱是人工智能领域中的重要研究内容,它通过图结构对学科知识进行存储并可视化表示,能够清晰表示学科知识点之间的关联关系,从而构建学生的思维逻辑。
本文采用知识图谱的方式,以 “科学” 课程为例,探究了知识图谱在教学中的应用。通过实验分析表明该方法能有效提高学生的参与度和学生课程满意度。对比实验表明采用知识图谱的教学策略后,学生获取知识的增益度比对照班级高5.26分。