付春捷 胡 萍
(浙江理工大学 科技与艺术学院,浙江 杭州311121)
随着网络技术的发展,基于网络的教学活动越来越普及。 在线答疑作为网络远程教育或网络辅助教育的一项必不可少的环节,其智能性、实时性要求越来越高。
国内现阶段使用的答疑系统, 一般都是通过电子邮件、 留言板、BBS[1]等非实时性手段来回答用户提出的问题,少量的所谓“智能答疑系统”一般智能性不强、准确性不高,主要体现在不能很好地支持自然语言提问,一般采取通过关键词的逻辑组合在数据库中进行查询的方式。
虽然国内在智能答疑系统领域的研究取得了一定的成果,但相比较国外而言还存在一定差距,根本原因在于中文信息处理技术的研究还没有趋于成熟。
由于汉语言是一种规则最少、最灵活、最简洁和含蓄的语言,相比其他语言有更大的随意性和自由性,中文信息处理的难点就是词汇的切分以及语义分析。由于在智能答疑系统中用户所提出问题长度比较短、问题比较专业以及问题中包含固定的疑问短语,所以在设计智能答疑系统时,没有必要将过多的精力放在语义分析的处理上。 中文分词技术就成为了智能答疑系统中最基础也是最关键的技术,它将直接影响系统的响应速度和效率。
中文分词是指将中文文本语句切分成一个一个单独的词,是中文自然语言处理中最基本和主要的步骤,分词的质量直接影响自然语言处理的结果。从目前的研究成果看,中文分词算法大体可分为两大类:一是,基于词典与规则的字符匹配算法;二是,基于统计的无词典分词算法。 目前来说前者是一种发展比较成熟且应用比较广泛的算法。[2]
图1 查询词典流程图
基于词典与规则的字符匹配算法是以机器词典作为分词的基础,分词过程中将预处理的自然语言字符串,按照一定的匹配规则和算法与机器词典的词条进行匹配。 常用的分词算法有正向最大匹配法(Maximum Matching Method,简称MM 法),逆向最大匹配法(Reverse Maximum Matching Method,简称RMM 法)。
机器词典是分词算法实施的基础。由于基于词典的分词算法在分词过程中需要多次进行词典的查询匹配,因此建立优化的词典结构机制是提高分词效率的前提。由于智能答疑系统中用户提交的问句比较专业化,例如“计算机网络的本质是什么? ”、“怎么配置局域网”等等。对于智能答疑系统来说,是否每个词都被准确的切分出来并不是最重要的,重要的是切分出对检索结果又意义的相关词语。
因此, 本设计的词典包括普通分词词典和专业分词词典两部分。其查询过程是首先在专业词典中查询是否存在某子串,若存在则确认该子串成词并切分,若不存在则查询普通词典,具体流程如图1 所示。
统计结果表明,逆向匹配法比正向匹配法分词的准确率要高,单纯使用MM 法的错误率为1/129,而单纯使用RMM 法的错误率为1/245。[2]
智能答疑系统是针对某一领域或某一具体课程设计的,所以其词汇一般是有限的。 通过对词典的分析,确定最大词长后采用逆向最大匹配算法对问句进行切分,算法思想为:
假设代处理的字串为Str,每次截取词长最大为Max,结果输出字符串为Str_res(空串)。
(1)从Str 的右端截取Max 个字设为s。
(2)在词典中查找是否成词,若是则转向步骤(3),若不成词则去掉s 左端的一个字,重复步骤(2),直到s 成词或s 长度为1。
(3)从Str 中删除s 子串,s 存入Str_res 中。若Str 为空,分词结束,否则转向步骤(1)。
首先将用户输入的问句按标点符号打散成一个一个的字串(分词预处理),目的是让处理的字串更短、效率更高。 然后对每一个字串逐一进行分词,提取关键字。 具体构建模型如图2 所示。
图2 分词模块构建模型
基于自然语言的智能答疑系统是今后网络答疑的发展趋势,中文分词技术在智能答疑系统中的作用非常关键。 在本文中,我们提出了一种基于中文分词技术的实施方案,机器词典的设计以及分词算法的选择是保证分词效果的基础。而完成一个智能答疑系统是要多种技术相配合的,如句子相似度算法以及领域本体构建等问题也将影响智能答疑系统的智能性、高效性。
[1]田伟,等.基于切词的受限领域智能答疑系统设计与实现[J].武汉理工大学学报,2010,32(16):148-151.
[2]潮俊华.基于自然语言提问的自动答疑系统设计[J].现代远程教育研究,2005(1):48-51.
[3]向志华,梁玉英.自然语言处理技术在网络答疑系统中的应用[J].牡丹江师范学院学报:自然科学版,2012(2):7-9.
[4]黎孟雄.模糊贴近度在智能答疑系统中的应用[J].河南科技大学学报:自然科学版,2008(29):60-62.