摘要: 答疑是教学中不可或缺的环节,传统面对面的答疑浪费时间和精力,因而开发高效、准确、智能化的自动答疑系统是必要的。系统返回答案的准确性在一定程度取决于问题匹配的相似度。该文介绍了智能答疑系统中传统的相似度计算,然后在传统的相似度计算的基础上提出了一种新的相似度计算方法——基于问题关键词匹配度的相似度计算,同时给出了该思想在系统中的实现算法。
关键词:智能答疑系统;相似度;匹配度
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2012)30-7323-03
我们知道,有效的学习知识必须有学生和教师之间的交流,答疑是教学中的一个重要环节。在传统的教学模式中,师生之间通过面对面的交流,可以及时解决教学中出现的问题。如果教师与学生之间面对面的答疑,教师可能对同一个问题对不同的学生要分别答疑。这将浪费宝贵的答疑时间,因为答疑时间总是有限的,教师也没有那么多的精力逐个回答学生提出的问题。这种人工答疑方式将会使教师不堪重负。因此,如果能让计算机自动解答学生的疑问将会大大减轻教师负担,同时及时排解学生在学习过程中遇到的难题,从而提高学生的学习质量和效率。但是,目前开发高效、准确、智能化的自动答疑系统仍然是一个难题。本课题就是适应这一要求而提出的,目的是利用现有的自然语言理解技术改革现有的智能答疑系统模式,充分利用远程教育网络资源,通过机器处理自动理解用户提出的自然语言描述的问题,并自动返回答案,达到减轻教师的负担,帮助学生学习,提高远程教学质量和效率的目的。在目前的远程教学模式中,研制开发一个智能答疑系统的意义尤为重大,这是因为:
1)答疑是学生进行系统学习的有益补充,同时也是学生巩固知识的重要途径,无论学习的形式如何变化,答疑对于学习活动来说是必要且不可或缺的,在网络坏境下,及时、有效地获得解答是学生远程学习的基本需求。
2)通过对学生所提问题的记录分析,可以统计出学生普遍存在的知识薄弱环节,为教师进一步改进教学方法提供参考,成为辅助教学的有效工具。
3)在网络环境下的智能答疑系统采用了友好自然的自然语言接口,学生可以轻松自如地提问,及时解决学习过程中遇到的难题,使远程教学真正起到用户良师的作用,对于远程教学方式在我国的进一步普及,具有不可估量的重大意义。
4)将功能良好的智能答疑系统应用于国家大力发展的远程教学支撑平台中,具有很大的社会价值。
5)为自然语言理解以及信息检索技术的应用发展提供了一个方向,可以推动该技术领域的发展。
如何让计算机理解用户提出的自然语言描述的问题,检索到目标问题,并自动的返回答案,这是智能答疑系统的关键。本文讨论怎样根据用户问题去匹配目标问题的思想及其算法,这也是智能答疑系统的最终目的。
1 问题关键词匹配度计算
一个问题中含有一个或多个关键词,但是每个关键词在句子中的地位是不一样的,有的起决定性的作用。该类关键词就是要重点考虑的关键词,它与问题的匹配度为1。如:“编译原理是什么?”,含有关键词“编译原理”、“编译”,在这个问题中学生要问的是“编译原理是什么”,因而“编译原理”是要重点考虑的关键词。但是“编译”也属于《编译原理》这门课程的专业词,匹配时也可以考虑,因为这将有利于问题答案的检索。如果学生问的“编译是什么?”,若FAQ中没有该匹配对,不能检索到相同的问题则检索近似的问题。
起决定性作用的关键词,它与该问题的匹配度为1,不起决定性的关键词与问题的匹配度为0.5。
采用这种策略,可以实现简单的语义分析。
例如:“编译原理是什么?”与“什么是编译原理?” 是同一个问题。如果用户输入的是这两个问题,则检索到的都是同一个问题。
如果问的是“编译是什么?”(假设FAQ中没有该问题与“编译”的匹配度为1的匹配对),则检索到近似的“编译原理是什么?”,然后返回其答案。这样系统用一个近似的问题及其答案来回答学生所问问题,从所返回的答案中学生能有所启发。
2 基于问题关键词匹配度的相似度计算
系统根据用户所问问题去检索相应的问题及其答案,即根据用户问题去匹配目标问题。匹配到的目标问题是否与用户问题对应,相似程度有多大?这将涉及到相似度问题。
句子相似度计算在自然语言处理中有着广泛的应用,例如,在基于实例的机器翻译中的源语言检索,面向常问问题集的自动问答系统中的问句检索等领域。在不同的具体应用中,相似度的含义也有所不同。例如,在基于实例的机器翻译中,相似度主要用于衡量文本中词语的可以相互替换使用而不改变文本的句法语义结构的程度;在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。
目前常见的两种句子相似度的计算方法:(1)基于词向量空间模型的TF-IDF相似度计算方法;(2)基于语义词典的相似度计算方法。
本文在这两种相似度计算方法的基础上提出了一种新的相似度计算——基于问题关键词匹配度的相似度计算:
当用户问题中的关键词与目标问题的匹配度为1且句子类别一致时,则认为目标问题与用户问题完全相似,相似度为1。
当用户问题中的关键词与目标问题的匹配度为0.5且句子类别一致时,则认为目标问题与用户问题近似相似,相似度为0.5。
当用户问题中的关键词与目标问题的匹配度为1或0.5但句子类别不一致时,则认为目标问题与用户问题低相似,相似度为0.25。
利用这种相似度计算方法,相似度在系统实现中不用单独计算,它的计算隐含在问题匹配中。
在实际的系统实现中,一般只要考虑前两种。这种方法是一种非常有效的相似度计算方法,在实际的系统中能大大提高系统的效率,减少了传统的相似度计算的复杂统计及计算。
3 问题匹配算法
利用本文中提出的相似度计算来完成问题的匹配——用户问题与目标问题的匹配。
利用FAQ库进行用户问题解答的基本计算流程如下图所示:
3.1 算法程序代码
4 结束语
本文阐述了智能答疑系统的作用,介绍了一种基于问题关键词匹配度的相似度计算,然后利用该思想来完成问题匹配,并给出了问题匹配算法的流程图以及程序代码。
参考文献:
[1] 侯丽敏.基于网络的智能答疑系统的研究与实现[D].河南:河南大学,2005.
[2] 石凤贵. 《编译原理》智能答疑系统中课程知识库检索模块的开发[D].安徽:安徽工业大学,2007.