面向高校教学的知识融合与应用模型研究

2021-05-21 12:39刘波
中国教育信息化·高教职教 2021年3期
关键词:教学服务网络资源大数据

刘波

摘   要:为了提升专业知识检索服务质量、满足高等院校教学服务需求,文章提出基于人工智能、自然语言处理等技术构建知识融合模型的方案;利用多源异构大数据资源,面向高等院校专业课程,采用知识图谱与语义扩展搜索等技术与方法,设计基于知识图谱关联导航的教学服务平台,为教师与学生获取精准知识点以及相关内容提供方便。最后介绍模型实现面临的一些挑战,为专业课程教学软件的开发与升级提供参考。

关键词:知识融合;教学服务;大数据;网络资源

中图分类号:G642.0 文献标志码:A 文章编号:1673-8454(2021)05-0032-04

一、引言

随着互联网的应用与发展, 出现了众多开放式知识数据库和网上教学系统,例如维基百科、百度百科、谷歌学术、慕课(MOOC)以及专业技术社区等等,为高等院校教学提供了丰富的资源。然而,各个知识系统资源没有互联共享,使用户往往在一个搜索系统中找不到准确﹑完整﹑满意的结果,而且通常需要经过多个网站深度链接搜索才能获取所需内容。因此,为方便用户充分利用已有的知识库,提高知识搜索的准确率,有必要整合现有开放的网络知识资源,构建有效完整的智能搜索知识平台。

高等院校不仅仅培养学生掌握知识的能力,更重要的是培养学生自主研究学习与创新能力。知识获取途径不仅仅是教材,也包括互联网中丰富的信息与知识。要想让学生更好地自主学习,好的课程资源建设必不可少。[1]目前已经搭建了许多知识平台,并且开始将大数据、人工智能等先进技术应用到了教学平台的研发中。[2][3]

本文面向高等院校专业课程的教学,设计了一个知识融合与应用模型,对互联网知识信息自动抓取、整合,满足用户对知识检索与问答等需求。同时,采用自然语言处理、人工智能等技术,基于开放的知识库系统,实现资源抽取﹑融合与深度挖掘等,为开发集知识抽取、融合、搜索于一体的教学系统提供参考与支持。

二、网络教育资源发展与存在的问题

近10 年来,众多国家都在推进“互联网+教育”的发展。中国《国家中长期教育改革和发展规划纲要(2010—2020 年)》明确提出,到2020 年,中国要基本建成较完备的国家级和省级教育基础信息库;为落实纲要精神,教育部于2012 年3 月就印发了《教育信息化十年发展规划(2011—2020年)》,建立“有机衔接的国家级和省级教育管理基础数据库和信息系统”。2010 年,美国政府启动了大数据计划,联邦教育部随即发布了通过教育数据挖掘和学习分析促进教与学的报告,并于2013 年启动实施链接教育(Connect ED)计划,将大数据明确为推动教育变革的关键性力量。[4]经过多年的研发,不仅出现了诸如百度学术﹑谷歌学术﹑维基百科等开放的知识搜索系统,还出现了面向各层次教育对象的专业课程教学系统,促进了教学方式的改革,使教师授课和学生学习的方式都发生了一定的变化。

智能化教学在高等院校已初步展开。[5]教学资源的构建是智能化教学系统的基础,当前不仅建立了开放的通用知识库,还构建了面向专业领域和课程的知识图谱,利用知识图谱将相关概念实体连接起来,可以实现可视化导学并回答学生问题。[6]将人工智能技术应用于高等院校教师授课、学生个性化学习、效果评价等环节中,不仅能改进教学方式,而且还能提高学习效果。[7]

虽然国内外在知识平台研发方面都取得了一定的成果,达到了较高水平,然而在资源整合与知识搜索方面还存在如下问题:①各个系统资源没有互联共享,知识搜索的准确度不高﹑不全面;缺乏为用户提供统一搜索多个知识库资源的接口。②各种知识库表达方式不同,基于语义的文本内容抽取﹑相似度匹配等技术尚未获得较好的效果。③专业知识库较匮乏,常用知识库以及搜索系统尚不能面向课程教学提供高质量的服务。④大多数知识搜索系统仅能提供相关链接服务,不能直接提供与课程相关内容的浏览或下载。

总之,网络教育资源的建立在各国都发展迅速,但成果推广应用的效果不显著。众多教学网以及知识库已经建立起来且免费开放,然而这些资源还未在教学中充分发挥作用,主要原因之一是没有将各种资源有针对性地整合,不能为教师与学生提供获取所需知识的有效途径。本文拟围绕存在的问题探索知识融合模型以及相关实现技术。

三、知识融合系统框架与实现技术

图1给出了知识融合系统框架,包括四个层次,各层之间相互传递信息。知识源层为开放性数据资源、教材、教案等;知识抽取层从知识源抽取知识点(即专业术语、概念、定理等)以及相关知识内容,按照课程或领域进行分类,并动态更新与维护知识内容;知识融合与存储层对知识抽取层获取的知识内容进行存储,建立文档索引表,分析知识点之间的关系,并构建知识图谱;教学应用层即用户层,面向教师与学生,提交知识检索词或问题,从知识融合层的文档库与知识图谱获取结果,并推荐学习内容等。

在知识系统构建过程中,教师承担知识源的选择、管理、分类、知识库创建与维护等基础工作,针对一门课程,教师团队的工作流程如图2所示。

1.知识来源

随着越来越多开放资源的出现,当代大学生学习方式正在悄然改变,许多学生在課后遇到课程问题时,不是直接翻阅教材或PPT,而是上网寻求答案,这样不仅便利而且学习效率更高。一些课程的内容需要不断更新并引入最新的前沿知识,甚至需要其他交叉学科的知识。然而教材已不能满足创新研究的需求,教材更新远滞后于新技术的发展。例如,综观计算机的发展史,计算速度越来越快,贮存容量越来越大,操作系统功能越来越丰富,然而计算机组成原理、操作系统等相关课程的教材内容不会随着新的技术出现马上修订。

互联网络是当今最快的新技术获取途径,教师和学生都可以从中获得最新的专业知识,及时补充教材内容。因此,不论的是针对学生还是教师,传统的纸质教材已经不能满足他们学习或授课的需要,教师需要对教学计划与内容不断更新或调整,学生需要从开放的教学资源中吸取教材之外的知识。在图1中,知识源层是动态更新的,既可以增加新的知识源,又可以删减已有的知识源。

2.知识抽取

互联网中丰富的数据给人们的工作、学习提供了极大的帮助,但是數据量大并不一定意味着数据价值的增加,相反往往意味着数据噪声、冲突、不完整数据的增多,不能保证信息的真实可靠性。此外,数据集成还会产生诸如重复、冲突、不一致等问题,而且知识源多源异构、动态增长、先有数据后有模式,使知识抽取管理与技术上均存在较大困难。

智能化技术与人工控制相结合是解决知识抽取问题的有效方案。教师在教学过程中仍是课程内容筛选的主要角色,相当于充当了知识源的过滤器,指定知识抽取来源,给出准确有用的信息供学生学习。但是,面向众多信息源以及电子文献,仅靠教师手工处理工作量大、效率低,可以应用如下技术提高工作效率。

(1)爬虫技术。网络爬虫是一个自动提取网页的程序,从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。专业知识的爬取可采用聚焦网络爬虫(Focused Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫,可以满足获取特定专业信息的需求。[8]专业课教师提交初始网址、专业课程名以及相关的主题词,接着可以采用基于文本相似度计算、链接结构评价、语义扩展、机器学习等策略,识别相关的网页内容,最后由专业教师筛选。

(2)预处理技术。由于信息来源广泛,不同来源的数据关系复杂,存在结构化、半结构化、非结构化等形式多样的数据,需要对抽取的数据进行错误、重复、冲突、不一致检测,并定义质量规则进行处理,规范数据表示与存储模式。

(3)分类技术。针对每一门课程,借助语义词典、领域本体库等,计算所爬行的页面、电子文献,以及电子教案等与主题词之间的相关度,将相关度高的归为相应主题词的类别。[9]

(4)增量维护技术。一方面知识源由教师团队定期增加或删减;另一方面,采用增量式网络爬取方法,对已下载网页内容采取增量式更新。

3.知识融合与存储

将从各种资源抽取的知识内容存储在文档库中,同时,根据知识抽取层获取的分类结果,针对每一门课程,构建所抽取的知识索引表。索引表中一条记录包含一个主题以及一个指向属于主题类别的文档列表指针,文档列表可以按照主题词的相关度排序,这样能够加快文档检索的速度。

另外,构建课程知识图谱能够将知识点关联起来,实现学习路径的导航。在教学中,教师往往在讲解一个知识点(涉及主题、概念、原理等,下面统称为实体)时需要介绍相关背景知识,因为许多知识点之间不是独立的,相互之间存在因果、依赖、关联、先后顺序等关系。知识图谱是一种图的数据结构,本质上知识图谱在描述现实世界中各种实体及其相互间的关系时,形成一个巨大的语义网络图,实体用节点表示,属性或关系则是用边来表示。知识图谱对应的知识库可以表示为三元组的集合,常用neo4j图形数据库存储。三元组的基本形式主要为“实体-关系-实体”和“实体-属性-属性值”,实体、关系以及属性,可从文本(电子教案、网络资源等)中抽取,同时由教师补充与修正。图3展示了数据结构课程的知识图谱中一小部分实体及其相互之间的关系。

4.教学应用

教学应用层面向广大师生,提供知识检索、学生学习与记录、教学内容推荐、知识问答以及评估分析等功能,使师生能够方便地对融合后的知识库(文档库、知识图谱、网课等)内容进行查询、提问,快速准确地返回结果与答案。为了实现这些功能,可以采用如下技术支持。

(1)查询扩展技术。由于在自然语言中一词多义、多词同义的现象普遍存在,准确地评估检索词与候选文档之间匹配程度是影响返回结果准确性的关键点。采用查询扩展技术,即对查询或问题语句进行语义分析,借助开放的语义资源(如同义词词典)扩充查询词,由此在索引表中可以匹配更多的主题词,从资源库中搜索结果,抽取答案候选集,并根据结果候选集文档与主题评分进行排序,反馈给师生选择。

(2)深度学习技术。对于问答功能的实现,目前较多研究工作采用深度学习方法,通过卷积神经网络(Convolutional Neural Networks,CNN)提取问题文本向量多粒度的抽象特征,获取更高层的语义信息;[10]基于Attention机制的深度学习模型对候选结果集进行相关度排序,以供提问者参考。

(3)学习内容推荐技术。对于学生的每一次搜索与提问,系统会记录下来,教师可以从学生学习记录中了解学生学习兴趣以及学习进度,为个性化教学、推荐学习内容提供依据。此外,知识图谱也是智能化推荐学习的重要依据,根据检索词与从问题中抽取的关键词,在知识图谱中可以通过关系获得与它们相关联的实体,推荐给学生扩展学习。

(4)评估分析。对学生每一次的提问与问答结果的浏览选择顺序进行记录,一方面,积累数据,挖掘搜索词之间的关联性,增强深度学习模型的训练能力;另一方面,分析学生对知识的掌握情况,统计频度高的问题,使教师了解学生学习过程中的难点。

四、知识融合模型实现面临的挑战

目前,我们已经面向计算科学技术专业的基础课程开展了知识抽取与处理工作,并同时构建知识图谱。下一步的工作是基于所提出的知识融合模型开发集知识整合、搜索、推荐与问答于一体的教学平台,这是一个较大的系统工程,面临如下挑战:

(1)知识选择与处理的工作量。虽然可以利用爬虫、自然语言处理等技术从网络、文档中自动抽取大量与专业课程相关的文档、主题、概念、原理等,但专业教师的手工处理工作量还是很大。首先,需要制定知识源,负责创建知识库元信息,包括知识来源、类型、结构等描述说明;其次,需要筛选知识点与主题,确定知识图谱中实体之间的关联关系,定义实体的属性;最后,还需要定期增量更新知识源与知识库等。

(2)知识检索或问答的准确率。知识检索结果的准确性是衡量教学平台质量的主要依据,一方面依赖于知识库本身筛选的质量;另一方面依赖查询语句与文档之间的匹配算法,不同于传统的检索词匹配方法,需要解决语义相似度以及知识关联性问题,获得全面且准确的问答结果面临较大的困难。

(3)教学内容推荐的精准性。借助智能化技术,根据学生最近瀏览检索的内容以及所提出的问题,可以挖掘与分析学生对哪些主题感兴趣、哪些知识点掌握了、存在哪些疑难问题等,从而针对学生的具体情况,给学生推荐相关学习内容。然而,为了获得学生的具体学习情况,需要学生及时反馈,不断积累学习过程训练集。因此,用户数量以及使用数据的积累是精准推荐的重要因素,需要在知识融合系统应用一段时间后才能初见成效。

五、结语

本文研究了面向高等教育的知识融合模型,根据知识源具有多源性、实时性和复杂性等特点,利用自然语言处理、人工智能等技术挖掘互联网中丰富且可靠的资源,将它们与传统的教材、PPT、电子文档等相融合;设计了适合大学生专业课程学习的平台,该平台包括知识源层、知识抽取层、知识融合与存储层、教学实施层,并对各层功能进行阐述,探索了相关实现技术。总之,实现面向高等教育的知识融合系统需要将智能化技术与专业教师的手工处理工作相结合,才能使大数据真正为教学服务,推进网上教育的持续发展。

参考文献:

[1]贺子彧.高校教学资源整合平台建设的探索与研究[J].中国教育信息化,2020(13):53-56.

[2]Chassignol M,Khoroshavin A,Klimova A,et al.Artificial intelligence trends in education: a narrative overview[J].Procedia Computer Science,2018(136):16-24.

[3]赵慧臣,马佳雯,张娜钰.人工智能支持下的教学设计框架与实施[J].中国教育信息化,2020(13):7-13.

[4]王正青,徐辉.大数据时代美国的教育大数据战略与实施[J].教育研究,2018(2):120-126.

[5]李家乐.浅谈人工智能与电子信息技术在教育中的应用[J].教育现代化,2019(38): 243-244.

[6]Deng Y,Lu D,Huang D,et al.Knowledge graph based learning guidance for cybersecurity hands-on labs[C].Proceedings of 2019 ACM Global Computing Education Conference.USA:ACM,2019:194-200.

[7]Xia P.Application scenario of artificial intelligence technology in higher education[C].Proceedings of 2019 International Conference on Applications and Techniques in Cyber Intelligence. Switzerland:Springer Nature,2019:221-226.

[8]李东晖,廖晓兰,范辅桥,黄九鸣等.一种主题知识自增长的聚焦网络爬虫[J].计算机应用与软件,2014(5):29-33,88.

[9]张芳芳,曹兴超.基于字面和语义相关性匹配的智能篇章排序[J].山东大学学报(理学版), 2018,53(3):46-53.

[10]Peng Y X,Liu B.Attention-based neural network for short-text question answering[C].Proceedings of 2018 International Conference on Deep Learning Technologies.USA:ACM,2018:21-26.

(编辑:王天鹏)

猜你喜欢
教学服务网络资源大数据
来华留学生对全英文授课教学服务满意度量表的信度和效度分析——以昆明医科大学为例
网络资源在高中班级管理中的运用
谈网络资源在大学计算机教学中的应用
强化学生工作教学服务功能
网络资源在语文综合性学习中的运用
对等网络资源搜索模型研究