基于知识图谱的智能答疑系统研究

2018-04-18 11:07:46陈志云钱冬明
计算机应用与软件 2018年2期
关键词:关键字贝叶斯图谱

陈志云 商 月 钱冬明

(华东师范大学 上海 200062)

0 引 言

随着互联网技术的发展,自然语言处理领域的深入,语义Web技术的不断完善,答疑系统已经成为MOOC系统的研究热点。目前广泛应用的答疑系统一般通过Email、BBS或借助聊天工具等方式在线答疑,促进了师生之间的互动,学生的疑问得到反馈,教师的工作压力得以减轻。但缺乏对以往问题答案的自动归纳总结和课程知识的智能表示,在自动答疑等智能化方面还有所欠缺。

智能答疑系统支持用户以自然语言进行提问,语义分析后在知识数据库中检索出相关准确答案,因此,智能答疑系统可以不受时间、空间限制,直接为学生服务。

(1) 智能答疑系统研究发展现状目前国际上研究比较成熟的答疑系统有美国著名搜索引擎AskJeeves,智能答疑系统AnswerBus,麻省理工学院开发的Start问答系统,美国芝加哥大学AI实验室开发的FAQFinder系统[1],Google开发的智能语音助手服务Google Now等[2]。这些系统有强大的搜索引擎技术支持,资源检索库丰富,智能化程度较高。但是由于中文的语法语义、句子结构等语言特点和英文大不相同,因此国外的研究成果往往难以运用到中文的答疑系统中。

近年来,国内也陆续出现一些中文智能答疑系统,它们结合了数据挖掘技术、卷积神经网络、词向量技术[3]、文本分类算法[4]等,利用Flex[5]、Lucene[3]等开源工具,使得知识库中的知识量不断扩大,答疑效率和准确度得到提高。比如哈尔滨工业大学开发的HIT相关自然语言处理工具[6]实现了分词、语义标注、句法依赖、实体识别等功能。台湾“国防大学”研发的中文问答系统CQAS从命名实体及其关系的处理入手,来搜寻和返回答案[2]。这些相对成熟的技术为中文问答系统的研发奠定了基础。另外比较热门的聊天机器人,如百度研发的小度机器人,实际上也是一个“Q&A”数据库,其作用相当于答疑检索,基于定义好的规则库和知识库针对输入搜索回答,或者加上学习功能,在个人生活、公司客服、政府服务方面都有很好的应用。但是与国外的答疑系统相比,国内答疑系统的答疑呈现方式单一,智能性依然不够。

(2) 智能答疑系统目前存在的问题一些在线答疑系统,如爱课程网的“中国大学MOOC”“学堂在线”、军队的“梦课平台”等,这些平台对于学生提出的问题,多采用BBS或者Email的答疑方式;另外如香港中文大学参考AskJeeves开发的中文提问式搜索引擎Weniwen、上海理工大学的远程智能答疑系统、华南理工大学开发的智能答疑系统则采用关键字匹配技术,基本实现了智能答疑[7]。一般的智能答疑系统首先应该具备对用户提问的语义理解能力,其次需要智能表示课程知识,在答疑方式上实现多样化[8]。这些答疑系统具备高校师生问题交流的语义理解能力,但依然缺乏对以往问题答案的自动归纳总结和课程知识的智能表示。本文以华东师范大学的公共计算机课教学答疑系统作为研究实例,进行智能答疑系统的探索。

1 智能答疑系统的研究目的

华东师范大学公共计算机课的教学答疑系统已经运行有几年了,每年都有几千学生在使用,是集成了学校每学期课程答疑工作的网络系统。系统要求实现的基本功能如下:学生对已有问题进行更新或提出新问题,教师和其他学生均可以选择某课程查看所有问题,也可以根据关键字检索某个问题,并进行回答讨论,讨论后根据回答情况,教师进行结题。同时系统为促使学生互动以及学生解答的积极性,还设置有提问扣除积分,解答赚取积分的任务制,积分由提问人自主设置,教师可根据积分考量学生的平时成绩。

通过分析,可以发现现有的答疑系统在智能化实现上存在两个主要方面的问题:

智能答疑方面:目前师生一般检索课程后,只能根据问题时间或检索关键字查看问题。按时间顺序浏览问题会出现杂乱或者冗余的信息,检索问题关键字容易出现描述不准确而检索不到的情况,不能系统查看某课程某个知识点的所有相关问题。

知识点抓取方面:当学生查看某个问题的详细解答时,需要翻看查找书本资料、随堂笔记或相关教学课件,耗费时间和精力。学生在提问问题时,对问题关键字描述不准确容易导致无法检索相关问题。同时,教师也无法通过学生的提问了解学生学习的情况。

针对以上教学答疑系统存在的问题,本文设计了以下解决方法:

(1) 针对智能答疑方面,运用知识图谱显示知识点树,将问题关键字按照知识点树中的知识点进行归类,一层层展现与该课程某个知识点相匹配的全部提问。

(2) 针对知识抓取方面,本文将问题关键字与智能教学案例课件系统的课件进行分类匹配,在问题页面添加指向相关课件的超链接,学生通过点击超链接进入该问题相关知识点的演示课件页面,便于对知识的查漏补缺,消化吸收。

2 智能答疑系统主要要素分析

2.1 知识图谱

针对智能答疑方面的问题,借助知识图谱可以实现Web从网页链接向概念链接转变[9],以知识点树的形式向用户反馈结构化的知识点及相关问题,方便用户准确定位和深度获取答疑知识。

2.1.1知识图谱的概念

知识图谱本质上是语义网络,即一种基于图的数据结构。最早谷歌用于增强其搜索引擎功能,随业界发展,目前可以将其理解为显示知识结构关系的可视化技术。

2.1.2知识图谱的研究现状

知识图谱对语义识别技术要求较高,需要依赖大量用户的行为数据库,对社会化开源内容有很强的支撑需求,因此目前知识图谱在搜索引擎中的应用更为普遍,像谷歌的Knowledge Graph、百度知心和搜狗知立方等。

现阶段国外构建知识图谱的方法较为成熟,国内对知识图谱的研究手段和方法相对滞后。如寻径网络、自组织特征映射、力矢量布局算法、潜在语义算法、最小生成树算法、三角测量等较为先进的映射技术在国外已有实验报道,但在国内除寻径网络的方法外仅有简单评介[10]。知识图谱的应用工具也多为国外开发,数据格式与国内主要数据库有所差别,因此很难应用在国内的中文知识图谱研究上。目前国内的代表性研究成果主要有:清华大学的跨语言知识图谱Xlore是国内第一个大规模双语知识图谱,上海交通大学构建了中文知识图谱研究平台zhishi.me[9],复旦大学GDM实验室推出的中文知识图谱展示平台项目[11],中国科学院计算技术研究所基于OpenKN(开放知识网络)建立了“人立方、事立方、知立方系统”,中国科学院数学与系统科学研究院陆汝钤院士提出知件(Knowware)的概念[12]等。

2.2 文本分类算法

文本分类算法主要用来进行知识点与学生提问问题关键字的匹配,以及课件案例中抓取的关键字与问题关键字之间的匹配。

文本分类可以被称之为机器学习领域的一种学习方法,也可以被称之为数据挖掘领域的一种算法。目前常用的文本分类算法有朴素贝叶斯算法、支持向量机(SVM)、K最邻近分类算法、决策树算法等。其中支持向量机是建立在统计学习理论基础上的一种小样本机器学习方法,用于解决二分类问题[13],但在解决实际问题中遇到的多分类问题时并不适用。K最邻近分类算法K值的确定目前没有很好的方法,决策树算法处理缺失数据比较困难[14],而朴素贝叶斯算法对缺失数据不太敏感,更适用于智能教学答疑系统学生漏填问题知识点导致的数据缺失情况,同时方法简单、准确率高[15-16],在处理不确定性信息的智能化系统中被广泛使用,本文选用朴素贝叶斯算法。

3 智能答疑系统的关键实现

3.1 知识图谱在智能教学答疑系统的应用

在浏览学生问题时使用知识图谱,可以从语义层面理解学生或教师的查找意图,改进浏览问题质量,从而真正实现语义检索。目前知识图谱作为知识表示的最新方法,在智能答疑中的开发和应用还处在前沿发展阶段。本文将知识图谱技术应用到智能教学答疑平台中,对知识点数据构建本体和推理,将其整合为计算机可以处理的结构化数据。知识图谱知识点的可视化呈现,能够清晰地展示知识点的覆盖广度和知识点相关问题之间的关系[17]。

智能教学答疑系统中知识图谱构建过程如下:

(1) 知识图谱的数据来源:一般数据来源于合作网站API和网站抓取,包括百科知识站点和垂直站点的结构化数据,以及半结构化数据和搜索日志挖掘[18]。本系统的知识图谱目前针对教学课程,因此选用教学平台中知识点库的知识点数据。图1为数据处理与管理学科知识图谱。

图1 数据处理与管理学科知识图谱

(2) 知识图谱的数据整合:即数据规范化的过程,主要指实体对齐和知识图谱Schema的构建。实体对齐是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。不同知识源的描述不同,一个统一的Schema也不容易得出[19]。由于本系统的知识库相对单一,所以只需要构建本体即可。本体的形式化表示为:本体:{抽象概念(以及对应的实例)、关系和属性}。三元组是比较常见的做法。对于“字处理软件的子知识点是基本操作”,就可以转化成为{字处理软件, 子知识点, 基本操作}这样一个结构,其中第一项和第三项是抽象概念的实例,第二项是两者之间的关系[20]。

(3) 知识图谱的挖掘:包括推理,实体重要性排序和相关实体挖掘。本文主要进行推理工作,即把知识点的字符串描述转化成结构化的语义描述之后,进行低阶推理。比如A是B的父知识点,B是C的父知识点,自动推理出A是C的父知识点。常用的推理算法包括基于逻辑推理和基于分布式表示方法的推理。

(4) 知识图谱的更新和维护:目前知识图谱的更新和维护一般由专业团队操作,通过自动化算法在数据源中抽取新的类型信息,若能被长期保留则由专业人员进行决策和命名为新的类型,若不能保留则被删除。还可以依赖用户反馈来改善图谱[21]。 在系统实际应用过程中,随着教学大纲和课程结构的调整,知识图谱的更新和维护是由教师来操作的。

3.2 朴素贝叶斯在智能教学答疑系统的应用

一般系统采取在页面搜索框检索关键字的方式,简单查找包含指定关键字的问题。本文将朴素贝叶斯算法应用于智能教学答疑系统,进行知识点与学生提问问题关键字的匹配,以及课件案例中抓取的关键字与问题关键字之间的匹配。

朴素贝叶斯算法的基本思路是计算文本属于类别的概率,对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,将此待分类项归类于概率最大者。该算法在智能教学答疑系统的应用分为三个阶段:

第一阶段为准备阶段。分类器的质量主要由特征属性、特征属性的划分以及训练样本质量决定[22],所以该阶段尤为重要。首先根据一部分待分类的问题关键字确定其特征属性,对每个特征属性进行人工划分后,形成训练样本集合。

第二阶段为训练阶段,即生成分类器。由经过预处理与特征提取后的特征词集合计算每个特征词的先验概率和条件概率,构成分类器的参数。对每个特征词的每个属性构造频率表,将频率表(以天气对高尔夫运动的影响为例,见表1)转换为似然表(以天气对高尔夫运动的影响为例,见表2),最后用朴素贝叶斯公式计算相应文本的后验概率,后验概率最高的类别即为该文本的类别[23]。

表1 不同天气下高尔夫运动频率表

表2 不同天气下高尔夫运动似然表

这一阶段根据贝叶斯定理公式由程序自动计算完成:

(1)

式(1)中:Xi为待分类文本,p(Cj)为在问题数据库中随机抽取一个问题,它的类别是Cj的概率[24]。

第三阶段为应用阶段。使用分类器对待分类项进行分类,最后得到待分类项与类别的映射关系。这一阶段也由程序完成。

本文用朴素贝叶斯算法对提取到的问题关键字进行分类匹配,匹配到问题相关知识点或相关的案例课件,使教学专有领域的问题解答和问题查看更加清晰明确。

4 智能答疑系统的运行测试

智能教学答疑系统改进前学生问题页面只可查看问题详情及回复,改进后可跳转到与该条提问相关的案例课件页面,方便学生及时复习,温故知新;改进前查看问题页面仅按照时间顺序显示问题,查看起来杂乱没有条理,如图2所示。改进后查看问题页面为知识点树,点击某知识点可查看全部相关问题,如图3所示。

图2 系统改进前查看问题页面局部细节

图3 系统改进后查看问题页面局部细节

为了验证系统的问题表示和分类效果,文中测试了智能教学答疑系统中“数据处理与管理”这门学科全部章节的问题表示和分类情况,测试期间四个专业学生共提出287条有效问题,具体测试结果如表3所示。

表3 学生提问问题的分类结果

5 结 语

本次研究以知识图谱的形式将学生提问问题以课程知识点分类,并与教学案例课件匹配,方便师生查询浏览问题,使教学答疑系统初步具备智能性。目前小规模实验证明,改进后的智能答疑系统,有效提高了答疑的效率。当然,由于本系统的知识图谱数据来源还比较单一,采用的朴素贝叶斯算法在语义模糊条件下分类效率也还不是太理想,使用的学生还不是很多,系统还有待于进一步实践和完善。但是,上述实践,已经证明了通过知识图谱和利用朴素贝叶斯算法来进行分类这两项技术,可以促使答疑系统实现智能化。

[1] 郭文俭.基于课程教学网站的智能答疑系统的设计与实现[D].长春:吉林大学,2015.

[2] 冯升.聊天机器人问答系统现状与发展[J].机器人技术与应用,2016(4):34-36.

[3] 邢超.智能问答系统的设计与实现[D].北京:北京交通大学,2015.

[4] 杨敬妹.文本分类算法分析及其在智能答疑系统中的应用研究[D].石家庄:石家庄铁道大学,2014.

[5] 薛凌鸿.基于Flex的多媒体智能答疑系统的设计与实现[D].北京:北京邮电大学,2012.

[6] 赵红艳.基于语义知识的动词隐喻识别与应用[D].南京:南京师范大学,2012.

[7] 李攀飞,敖永红,叶昭晖,等.基于大规模在线学习平台的智能答疑系统研究与设计——以"教育技术"MOOC为例[J].工业和信息化教育,2015(11):33-37.

[8] 刘汉兴,林旭东,田绪红.基于本体的自动答疑系统的研究与实现[J].计算机应用,2010,30(2):415-418.

[9] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.

[10] 秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37.

[11] 程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.

[12] 潘明钢,张楚才,钟维.知件可插拔机制的设计与实现[J].计算机技术与发展,2015(5):91-94.

[13] 郑勇涛,刘玉树.支持向量机解决多分类问题研究[J].计算机工程与应用,2005,41(23):190-192.

[14] 巩固,张虹.决策树算法中属性缺失值的研究[J].计算机应用与软件,2008,25(9):242-244.

[15] Jiang L,Li C,Wang S,et al.Deep feature weighting for naive Bayes and its application to text classification[J].Engineering Applications of Artificial Intelligence,2016,52:26-39.

[16] Taheri S,Yearwood J,Mammadov M,et al.Attribute weighted naive Bayes classifier using a local optimization[J].Neural Computing and Applications,2014,24(5):995-1002.

[17] 陆星儿,曾嘉灵,章梦瑶,等.知识图谱视角下的MOOC教学优化研究[J].中国远程教育,2016(7):5-9.

[18] 柏玉.面向网络数据的信息抽取研究与应用[D].成都:西南交通大学,2015.

[19] 胡芳槐.基于多种数据源的中文知识图谱构建方法研究[D].上海:华东理工大学,2015.

[20] 王秋月,覃雄派,曹巍,等.扩展知识图谱上的实体关系检索[J].计算机应用,2016,36(4):985-991.

[21] 赵鑫.刍议搜索引擎中知识图谱技术[J].辽宁行政学院学报,2014,16(10):150-151.

[22] 李湘东,曹环,黄莉.文本分类中训练集相关数量指标的影响研究[J].计算机应用研究,2014,31(11):3324-3332.

[23] 姜利群.基于朴素贝叶斯分类的Java课程网络答疑反馈系统[J].电脑知识与技术,2016,12(23):206-208.

[24] 姚宇,董本志,陈广胜.一种改进的朴素贝叶斯不平衡数据集分类算法[J].黑龙江大学自然科学学报,2015,32(5):681-686.

猜你喜欢
关键字贝叶斯图谱
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
华人时刊(2022年1期)2022-04-26 13:39:28
绘一张成长图谱
成功避开“关键字”
补肾强身片UPLC指纹图谱
中成药(2017年3期)2017-05-17 06:09:01
贝叶斯公式及其应用
主动对接你思维的知识图谱
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法
电子器件(2015年5期)2015-12-29 08:43:15
IIRCT下负二项分布参数多变点的贝叶斯估计
杂草图谱
杂草学报(2012年1期)2012-11-06 07:08:33