何怡
【文章摘要】
网络教育和网络教学平台随着互联网的飞速发展而发展。网络教育平台中对智能答疑系统的研究和探索一直是业内的重点。本文就E-learning教学平台中智能答疑系统的架构进行来搭建,并重点对答疑系统的知识库设计中的推理决策树机制进行了探讨。
【关键词】
智能答疑;知识库;推理决策树
中图分类号:TP319
时至今日,互联网正给我们的生活带来越来越多的便利,同时也给我们的学习和工作带来更为广阔的学习渠道。正因如此,各种网络学习平台和网络教育平台也给我们的生活和学习带来前所未有的便利。现在在教育领域中,国内外科研人员对于人工智能技术的应用和推广做出了深入的研究,出现了很多优秀的智能答疑系统。
然而,就中文的智能答疑系统而言,由于中文本身的博大精深,普遍存在着以下问题: 1.全文遍历部分截取的方式使得答案不准确;2.系统在智能分词上的表现不尽如人意;3.不同用户对问题描述的角度和语言不同给系统的理解带来了很大的问题。4.系统普遍不具备自我完善功能;当然,所有的智能答疑系统都无法做到尽善尽美。我们通过对智能答疑系统和网络教学平台的研究,对其中存在的一些普遍问题做了研究和探讨,在此我们对数据库中的答案库进行讨论和研究。
在我们对网络教学平台的研究中的,智能答疑系统是我们急需解决的问题的重中之重。在对智能答疑系统的研究中,我们的流程进行设计如下:
1.首先学员在网上先提出问题,2.当服务器收到问题再反馈给解答系统,3.系统对学员提出的问题再分门别类,4.分门别类后,再按类型问题做出相应的分析和解答。在这样的流程设计中系统提取问题的途径是对关键词的提取和扩展。综上所述,在这种情况下系统可以直接搜索相关文档中的答案,如答案和问题请求相匹配,则可以把答案返回给学员。如反馈的答案不是最佳答案,则返回文档库重新搜索更高层问题和答案。所以这样就可以看出,知识库的设计是系统平台中最为关键的问题就。
通过对智能答疑系统的实际运行过程中,最初的问题是由于投入的物力和人力十分有限,知识库中的答案不会在最初时就能满足所有学员的需求。所以,如何才能从知识库现有问题和答案中寻找出更合适学员的答案,是我们目前最需要解决的问题。为了使用数据挖掘引擎对系统的关联提问与解答的知识库进行数据挖掘,我们使用了微软发布的Analysis Services引擎。通过这一工具,可以发掘用户的知识点掌握情况及隐含的的关键词信息。对用户知识库的设计又可以分为以下几种: 1、解决答案库solution,2、疑难问题库oquession,3、需要解决的问题库quession随着系统逐步的完善和对学员问题的不断积累,问题与答案的数据会越来越多。如果系统运行中答疑效果非常好,服务器的相关数据也会越来越多。
依据上文所叙述设计的系统架构,学员提出问题请求后,答疑系统会对数据库查询并产生相关问题集Qunion。再针对学员提出的问题,对Qunion进行分门别类,查询到相应答案后再将答案返回给学员。如返回答案与用户的问题请求不太相匹配,则可再次提出问题并提交,系统则会再次根据学员提出的问题进行更高层次的推理和查询,而推理查询的依据就是智能答疑推理的概率决策树系统进行分析。
那么什么是决策树呢?我们先说下决策树的构造,决策树的构造都是从上到下的构造。任何事件或决策(即自然状态)都可能引出多个事件,每个事件则都会造成不同的结果,把这些因一个决策而引发的不同结果分支画成一张图时就很像是一棵树上的每个枝干,因此也就是决策树的由来。
决策树所表达的就是一种展示类似在什么条件下会得到什么值的一种规则的方法。以本系统为例,当学员在网上提出问题时,智能答疑系统就会通过推理得出答案再将答案返回给学员,返回的答案可能对学员有用,也可能因为各种原因不是学员所想要的,例如学员对提出的问题所用的语言、词组的歧义性、系统的关联规则以及知识库的建设更新等各方面的问题对结果产生的差异较大,这种情况就形成决策树的另外一条分支,继续应用决策树系统进行细化深入。以此类推,最终对各种可能出现的情况进行较为全面的解决和分析。
各种决策树也不完全相同,决策树算法之间有着不同的差异,“差异”衡量方式的区别也就是决策树算法的主要区别。对本系统的问题,我们采用概率决策树算法的方式来解决。通常情况下,我们需要把问题的切分看成是一组数据分为几份,份与份之间应保持不尽相同,但同一份内的数量应该尽量相同。
以概率形式表示答案是否正确的不确定性也就是概率决策树的主要特征。决策树中每个节点代表一个答案节点,就本系统而言,我们设点节点的先验概率为0.5,即答案正确和错误的概率就是各占百分之五十。从学员初次提出问题,数据库就不断接收学员提出的查询信息或最佳答案设置信息,并进行分层逐步筛选。就整个推理过程而言,运算呈推理决策树形式体现。具体推算过程如圖1所示:
成立。退出否。继续展开下级节点是。退出否,继续展开下级节点是。退出否。继续展开退出否。转到待解区知识层应用层举例层拓展层用户提出问题生成的相关问题组Qunion
决策树进行初始化后建立根节点(即初始事件)概率为我们设定的0.5,此时等待相应用户的进一步操作时,有两种可能,即学员认为答案满意,不进入下层查询;学员不满意,则进入下层查询。根据系统对题目涉及的知识层次分类可知,一次数据挖掘最多只需要4层细化的查询即可完成。
中文智能答疑系统的设计中,歧义性和命中率的问题一直困扰着广大设计者。利用推理决策树机制,可以在命中率这一问题上得到一定的改善,提高系统的性能和效率。
【参考文献】
[1]韩家炜,孟小峰,王静,李盛恩.Web挖掘研究.计算机研究与发展.2001.4:405~414
[2]汪启军,申瑞民.基于Web的远程教育系统模型的研究.计算机工程.2000.12:157~159
[3]苏群,申瑞民,王武,基于知识树的概化预处理和关联模式挖掘的智能答疑模型[J],计算机工程,2006,(17).
[4]MSDN library. Microsoft决策树算法. http://msdn.microsoft.com/zh-cn/library/ms175312.aspx, 2008-05-14.