朱卫平,林 海,谢 榕,赵小刚
(1.武汉大学 计算机学院,湖北 武汉 430079;2.武汉大学 国家网络安全学院,湖北 武汉 430079)
智能问答系统是一种能够理解用户提出的自然语言问题并快速给出答案的软件系统。随着互联网和软件技术的快速发展,人们在日常生活工作中积累了大量的数据,如何从这些宝贵的数据中快速获得有益的信息和知识是一项具有挑战性的问题。智能问答系统是进行该项工作的重要手段,它在现有数据的基础上,通过对用户提出的问题进行句法分析和语义理解,对问题进行分类匹配,从知识库或网络中抽取出最准确的候选答案并返回给用户。
智能问答系统在课程教学中可以发挥重要的作用。在与学生进行问答的过程中,教师会对常见的知识难点和要点做详细解答,学生也会针对自己不懂的内容向教师请教。但实际上,学生提出的大多数问题都是类似的,只是语言的表述形式不同。教师必然没有时间和精力对每个学生提的问题都做详尽的解答。有的学生对知识点存在疑问,但并不会询问教师,这毫无疑问会影响教学质量和效率。另一方面,教师作为教育教学改革的实践者,在互联网+教育时代,信息化教学能力成为其专业素养的基本组成部分,是教师专业发展的主要任务[1]。通过开发教学智能问答系统,能够很好地将教学问答过程信息化,提高教学质量和教学效率,适应信息化教学的新模式。
教学问答是课程教学的重要组成部分。传统的教学问答环节包括课堂提问和课后提问两部分。其中课堂问答环节主要是教师要求学生回答相关问题,或者根据学生的提问进行解答;而课下问答环节则是学生当面找教师解答问题,或通过QQ、微信、电子邮件、课程网站等渠道向教师询问自己不懂的问题。传统的教学问答过程存在以下一些问题。
(1)所问知识点内容相同,但形式多变。一些学生提出的问题往往是大家都会感到疑惑的知识点,这些知识点也是以往学生疑惑的知识点。学生问的问题往往是同一个问题,只是表述的形式不同,教师可能需要对同一类问题做出多次解答。
(2)教学问答没有分享与互动。学生课下寻求教师对专业性的知识进行解惑,这个过程只解决了个人的疑问,导致只有少数学生了解该知识点,这对教师的教学指导是一种浪费。另外,在教学的过程中,有的学生比较积极主动,但也存在有的学生不愿与教师交流[2],自己在课堂上不懂的问题也不积极主动与同学交流,导致自己对疑惑点没有彻底理解。
(3)多种信息工具造成的信息孤岛。一般教师会建微信、QQ 群等为学生答疑解惑,但由于其本质是一种聊天工具,教师对专业性的知识回答往往会被学生的聊天信息淹没,对教学问答的精华也没有统计与整理。同时,由于各种问答信息工具并不联通,对于学生信息查询和集成造成了较大的困难。
(4)教学问答占用了较多的教学时间。高校教师的教学任务大都十分繁重,不少教师不仅需要教授多个班级的课程,还需要讲授多门不同的专业课程;大部分导师还需要在科研、学校活动等方面投入许多时间和精力。由于学生提问众多,若需要对每个学生提出的问题进行详细解答,将占用大量的教学时间。这不仅增加了教师的教学负担,还会造成教学质量的下降。
一种解决以上问题的比较理想的方式是提供一种在线的教学智能问答系统,能够解答学生在课堂上的常见问题,教师能够发布常见问题的解答,所有学生的历史问题都保留到系统中,学生和教师的所有解答也保留到系统中,作为构建课程知识问答的基础。
智能问答系统涉及多门学科,包括计算机科学、语言学、统计学等。其具体关键技术包括中文分词、问题语义分析、短文本分类、问句相似度计算、答案抽取等。现有问答系统的类别主要包括聊天机器人、基于知识库的问答系统、问答式检索系统、基于自由文本的问答系统等[3]。
本文提出的教学智能问答系统采用知识问答库与网络搜索相结合的方式,通过将课程知识点与常见问题相结合构成常见问答库,对相似问题给出相近的答案,通过软件服务的方式提供底层的问答服务,为构建多样化的教学问答平台提供稳健的底层架构。其基本的系统架构见图1。
该问答系统主要分为3 部分:问题处理模块、本地答案检索模块和网络答案检索模块。其中,问题处理模块的主要功能是对问题进行分类并处理,涉及关键词抽取、关键词扩展等技术;本地答案检索模块主要从自定义问答集和从网络爬取的数据中进行问答和检索,使用基于Word2Vec 的词向量加权模型构建问句向量并计算向量之间的相似度得到问题的相似度;网络检索模块从多个百科知识库和多个网络搜索引擎中搜寻候选答案,进行信息过滤和最终答案的提取并返回给用户。
具体而言,本文首先对问题使用HanLP 进行中文分词,在分词的过程中去除停用词,然后从问题中提取出关键词。例如对问题“什么是人工智能?”,提取出的关键词为“人工智能”。在对问题进行相似性计算的时候,本文采用基于Word2Vec 的CBOW 模型来训练Word2Vec 词向量。系统基于这些词向量进行加权计算得到问句向量,计算用户输入的问题句的向量和本地问答库中问题的向量,并计算两个向量之间的余弦值,从而求得问题的相似度。在计算问题相似度的时候,本系统进行了关键词的扩展。经过实践测试发现,系统对相似类问题能够做出正确的回答,如对“什么是极差”与“极差的定义是什么”这种不同表述形式的相似问题,都能给出相同的答案。
图1 智能问答处理流程
通过测试发现,如果对问题库每一条问题都进行相似度计算,效率十分低下。本文按照商务智能教材的知识章节对问题进行分类:商务智能概论、描述性分析、预测性分析、规范性分析、大数据概念和工具、商务智能案例分析,总共从网络中爬取了10 000 多条问答数据构成基本的问答库,使用卡方检测算法计算词语的卡方值,并保留卡方值较高的词作为特征,然后使用卡方检测算法对朴素贝叶斯分类模型的训练得到问题分类模型。
当本地问答库中没有满意的答案时,系统选择从网络中选取候选答案。针对定义类问题,例如“什么是机器学习?”,智能问答系统对问题进行语法分析后发现该问题属于定义类问题,则会抽取“机器学习”这个名词作为关键词,从百度百科、互动百科及CN-DBpedia 知识库中查找相关的词条并返回对该名词的详细定义。当为非定义类问题时,系统会借助搜索引擎返回的答案片段进行过滤抽取,并使用基于词频模型、基于bigram 模型及基于skip-gram 模型这3 个组合模型计算候选答案的评分结果,将最准确的答案返回给用户。在对答案的分析中,系统可能存在一个问题拥有多个答案的情况。针对这种情况,本文使用K-Means 算法对候选答案集进行聚类分析,并找出其中隐含的关键信息,如答案主题、答案关键词等。
基于智能问答的教学系统体现出如下特点和优势。
(1)可扩展性强。教学智能问答系统提供底层的问答服务,在其上可以构建诸如教学智能问答机器人、教学智能问答Web 系统,甚至可以开发手机应用或微信小程序等作为问答系统的交互前台。这种灵活的构建方式将教学问答的信息化建设成本降到最低,其易于扩展的特性也使教学问答系统能够覆盖师生的日常生活。
(2)信息化程度高。教学智能问答系统在系统构建上,从网络中自动爬取与课程专业相关的问答知识和专业性词条数据。在利用智能问答系统进行课程知识点的问答过程中,所有的问答环节全程通过互联网进行,用户只需通过系统进行自然语言形式的提问即可得到想要的信息,将传统的教学问答彻底信息化。
(3)教学互动性强。通过使用教学智能问答系统,学生可以通过一问一答的方式进行课程知识点的问答,也可以通过对教学问答系统发布自己的问题,邀请教师或者同学作答,保证返回的答案获得师生最为广泛的认可。学生可以在系统上反馈自己对教师授课过程中的疑惑点,而教师能够通过该系统看到学生提出的疑惑点,教师对问题进行解答之后,可以通知学生,并将该问题的解答开放给所有用户。
笔者将该智能问答教学系统应用到商务智能、模式识别课程的教学过程之中。该系统可辅助教师进行多种教学工作,包括基础教学信息发布与查询(如课程信息查询、任课老师信息查询、助教信息查询、通知发布、课件发布、作业发布等)、课程知识教学和全天候答疑、问答信息统计分析、学习资源自动爬取与分析等功能。在基础教学信息发布与查询中,学生可以通过问答式的方法获取必要的课程信息以及课件、作业等资料。而在课程知识教学和全天候答疑中,可以对学习内容加深认识、巩固和提高。为了解决学生有时提的问题无法完全匹配内容文字的问题,笔者进一步采用了两个增强措施:一是将知识内容按课程章节进行了分类,加强文本分析的准确度;二是提供了一个功能可以查看所有现有内置或已经回答的答疑内容。而在问答信息统计分析和学习资源自动爬取与分析等功能中,笔者对现有问答信息知识库的内容进行持续性的增强,并对学生的学习情况进行统计分析,方便教师和学生掌握学习情况。在该系统应用过程中,笔者内置了数千条相关信息,并指导学生使用网络爬虫技术对十余种学生常用网络数据源上万条相关信息进行了爬取。整个系统的使用人数超过500 人,点击率上万,学生普遍觉得相应的问答式学习方法不仅能提升学生兴趣,并且能有效提升学习效果。
基于智能问答的教学系统不仅是一个问答站点,其系统的高可扩展性、高可用性能够使其与现有课程教学相结合,提供更为前瞻的教学改进方案。笔者设想了以下的扩展方案。
1)与学校图书馆系统相结合。
高校都有自己的图书管理系统,但该系统只能在图书馆使用或内网使用,对图书管理系统不了解的用户,难以查询相关的图书和文献。可以将智能问答系统与学校图书管理系统相结合,用户只需在智能问答系统中提出针对图书或文献的问题,即可推荐与问题相关的书籍和文献等信息。这样学生就可以使用智能问答系统实时查询图书馆藏信息,方便了学生对图书资料的查询,可以调动学生借阅图书的积极性。
2)教学问答奖励机制。
学生可以通过智能问答系统对其他学生提出的问题进行专业性的解答,系统综合学生的解答次数、解答的满意度、教师对答案评价等指标,对积极参与问答环节的学生给予学业或荣誉上的奖励机制,比如作为平时成绩的一项评价指标、获得教学问答之星称号、派发问答红包等。这样既能调动学生参与课程问答的积极性,又能使学生从对课程的问答中学到新知识,理解课程知识点。
3)与多媒体联动。
现有的教学过程中,教师通常会根据PPT教授知识,有的实验课程也会录制视频进行更直观的教学,而这些只能在课堂或课下自行拷贝观看。通过智能问答系统,教师可以将这些教学课件和视频等多媒体信息上传到问答系统中,智能问答系统的表现方式不仅有文字,还有语音、图像、视频等多媒体信息。通过这些多媒体的教学展示,能够更生动地展示课程信息,解答课程知识点,做到教育资源的互联互动。
本研究对在高校课程教学和答疑过程中自动化、智能化程度不足的问题设计了一套可以通过人工智能方法进行教学和答疑的系统。该系统在实际教学问答工程中有效地提高了教师和学生的工作效率和学习效果。在今后的工作中,笔者将继续深入探讨和研究利用问答系统对教学环节进行教学信息化的持续建设。