综合多特征值相似度在参考咨询问答系统中的应用

2014-07-09 20:25申安来宋欣
山东工业技术 2014年4期
关键词:相似度匹配权重

申安来 宋欣

【摘 要】自动问答系统给某个提问提供简单而精确回答,与信息检索任务和与信息提取任务极为不同。在自动问答系统中存在多个难点,其中,相似度是众多学者关注的一个领域,本文是对句子相似度计算研究的一个探索,主要从汉语句子中涉及到的词语、句法结构和语义分析三个不同层次对句子的相似度计算进行了研究,提出了一种综合多特征的句子相似度计算方法。

【关键词】自动问答;相似度;匹配;权重

0 引言

自动问答系统(Automatic Question and Answering System),是自然语言处理领域一个热点问题,与传统的搜索引擎相比,自动问答系统能够更好地满足人们的检索需求,目前国内外已有许多不同专业领域或开放域的自动问答系统,大致可以分为以下几种[1]:

(1)聊天机器人:采用自然语言的方式回答用户提问的问题。原理是在对话库中搜集各种句型和模板,然后提取用户的问题中的关键词,然后检索对话库,主要通过模式匹配的技术来检索问题最佳答案。

(2)基于知识库的自动问答系统:采用自然语言理解技术对用户提问的问题在知识库进行检索问题的答案。由于此类型的问答系统利用了自然理解技术,并且是基于知识库的检索,因此它在一定程度上能够实现智能回答。但是,由于该类型的自动问答系统依赖于知识库,所提问的问题必须限定在知识库的范围内,一旦在知识库的范围外,系统的答疑性能就会很低,甚至为0,此类自动问答系统经常会出现知识库瓶颈的情况。

(3)问答式检索系统:用户采用自然语言的方式提交问题进行检索查询,此类系统是从系统的文档集合或者互联网中检索出相关的文本或者相关的网页,并将这些文本或者网页返回给用户。目前典型的问答式检索系统有麻省理工学院开发的Start 问答系统、密歇根大学开发的 AnswerBus 问答系统、美国 Askjeeves公司的 Askjeeves检索系统等等,此类系统虽然允许用户以自然语言的方式进行提问,但是返回的结果只是相关的网页,并没有以自然语言方式把答案返回给用户。

1 问答系统多种算法的特点

传统搜索引擎中用户提交查询关键字以后,搜索引擎返回一系列与关键字相关的网页HTML文档,之后用户需要从大量文档资料中白己搜寻合适的信息;自动问答系统根据用户提交的查询问题进行处理,直接以简单的文本语句为答案进行返回,用户可以以最直接的方式获得问题的结果。返回结果的准确性以及简单化使得自动问答系统具有更好的用户体验。自动问答系统传统的处理方式为:首先,对用户提交的问句进行分析,主要进行汉语分词、句法分析等基础工作:然后使用分析后的问句在给定的文档集中进行检索,返回初始的结果集合;最后处理返回结果集,主要是采用信息抽取技术,挖掘出结果集合中与问题相关的结果。这种方式虽然能够返回用户满意的结果,但是却存在一定的问题,主要表现在有较大的查询延迟。在自动问答系统中加入常问问题集,能够有效的改善这种状态。问题集中包含了用户提问频率较高的问题以及其对应的答案,当用户提出问题后,系统首先查找FAQ问题库集,如果库中存在问题,则直接返回问题答案,这样可以大大缩减用户查询的延迟,给用户提供了一个方便、快捷地解答疑问的途径,具有较强的实用价值。句子相似度计算在自动问答系统中的应用主要体现在用户问句与常问问题库中问句的匹配,指用户的问句与常问问题库中的问句进行相似度计算,如果相似度计算的结果满足一定的值则说明了两个问句表达了类似的含义,是同一问题的不同描述,它们共享同一答案,可以直接将问题库中答案返回给用户。

经过多位学者多年的研究,我们可以发现当前的问答系统主要有以下几点欠缺[2]:(1)在分词方面采用基于词典的分词算法,或者借助于现有的分词工具如中科院的 ICTCLAS,前者是能够准确划分专业词汇以及组合词汇,但是经常会出现某些词在词典中没有找到,有的学者把这种词叫做未登录词,导致不能正确的分词,而后者即借助于现有的分词工具不能准确划分专业词汇以及组合词汇;(2)在计算词语相似度方面采用基于《知网》的语义相似度,或者采用基于领域本体的概念相似度,而这两种计算词语相似度方法各有优缺点,前者对于专业词汇之间的语义相似度,特别是专业组合词汇的语义相似度不能准确的计算,因为《知网》没有搜集专业组合词汇;同样后者对于常用词汇的相似度的计算也有不足。

2 句子相似度算法

句子相似度计算是中文信息处理中的一项基本而核心的工作。它的研究受到人们的广泛关注。由于其基础工作的地位,决定了句子相似度计算的重要性,它被广泛应用于中文信息处理的各个方面,它的研究工作的开展状况对其他一些相关领域的工作起着决定性的作用。有的学者将句子相似度计算应用于机器翻译中,用以找出类似的译文;还有的算法将句子相似度计算用于常问问题库的问答系统中,通过相似度计算找到目标问句的答案;同时还用于信息检索领域,用来查找与目标检索相似的句子等。

传统的句子相似度计算方法主要有三种[3],这三种方法都或多或少存在一些不够完美的地方:一种是基于关键词信息的方法,具有代表性的是基于向量空间模型的TF一IDF方法,这种方法是将文档映射为向量空间中的一点,这个点的坐标由文档中相互独立的词条组构成,坐标的值为文档中的每一词条,依据它在文档中的重要程度被赋予的权值W,即(Wl,W2,…,Wn)为坐标值。这样就构成词条矢量,从而把向量空间中的矢量匹配问题用来解决文档信息中的问句匹配问题。句子的相似度与向量空间的夹角成反比,即向量间的夹角越大,句子相似度越低,夹角越小,句子相似度就越高。向量空间模型的TF一IDF方法是对关键词词频进行统计的方法,要使统计效果很好地表现出来,句子中包含的词语数量需要足够得多,相关的词语才会重复出现,因此这种方法是以大规模语料做为基础的。另外,TF一IDF方法对于同义词以及一词多义情况计算效果不太好,因为这种方法只考虑了词语在上下文中的统计信息,而没有考虑词语蕴含的语义信息。

基于语义信息的句子相似度计算方法是通过计算句子的词语相似度从而得到句子的相似度[4]。句子词语的相似度通过计算词语对应的概念在概念层次体系结构中的距离得到的,概念间的距离又由概念的上下位、同义和反义关系得到。因此使用这种方法计算句子相似度时两个句子中的词语间需要具有一定的语义相关性,这种相关性建立在它们在概念间的层次网络中存在一条通路这样的假设基础上。基于语义信息的方法需要依赖于比较完备的大型语义词典,这些词典是按照概念间层次关系组织的。在英文方面,常用的具有代表性的语义词典有wordNet等;汉语方面有《知网》(HowNet)《同义词词林》等。基于语义信息的句子相似度计算方法会因为语义词典的不全面和未登录词语义代码的缺失而给计算结果带来一定的误差。另外,基于语义信息的句子相似度计算方法在计算句子相似度时,没有考虑句子的结构信息,计算过程中采用了一种最大匹配法,准确率还没有达到使人满意的程度。三是基于句法结构信息的句子相似度计算方法,基于句法结构信息的句子相似度计算方法又可分为结合词序的方法和基于句法结构分析的方法。结合词序的方法具有代表性的是基于编辑距离的句子相似度计算方法。基于句法结构分析的方法典型的是基于语义依存的句子相似地方计算方法。这种基于句法结构信息的句子相似度计算方法在计算句子相似度时把句法结构信息纳入相似度计算中,对句子理解更为充分,理论上是一种较为理想的的计算方法。这种方法的缺陷主要在于算法的正确性与句法分析技术的正确率祸合性太强,而现在句法分析的技术还有待完善,从而导致该种方法的准确率难以提高,使得方法实用性不强。因此,针对现有句子相似度计算方法考虑不全面的问题,本文提出了一种改进的句子相似度计算方法,即综合多特征的句子相似度计算方法,这种方法在计算句子相似度时综合考虑句子所包含的词语信息、词语的语义信息和句法结构信息,利用句子的深层信息和表层信息,加权整合特征权值,对目前句子相似度计算会起到一定的促进作用。

综合多特征的句子相似度计算方法,在计算句子相似度时综合考虑了句子的词形信息、词语语义信息和句子的句法结构信息这三个层面的信息,这种方法在理论上是可行的:首先,计算句子相似度时可以分别根据句子的任一方面信息进行计算,并且国内外学者对这方面研究也比较成熟。也可以将句子的某些方面的信息综合到一起来计算句子相似度,利用编辑距离和依存文法结合来计算句子相似度。由此可见,综合多特征是可行的。其次,综合多特征是合理的。因为采用某一方面的信息计算句子相似度,其结果是有一定的使用范围和局限性的;而采用多特征综合的方法可以在某些场合弥补这种不足。最后,综合多特征有时是必要的。在计算句子相似度的过程中,应该针对不同的语料特征,利用不同的句子信息来计算句子相似度,而不应该一层不变。比如:在有的领域,语义信息有很大的作用,基于语义信息的句子相似度方法正好可以解决这种问题;而在另外的领域,词形信息有很大的作用,基于关键词信息的方法效果不错。因此,针对不同性质的语料中,各信息侧重不同的特点,有必要把多元信息综合起来,在实际运用过程中可以通过调整权重来处理更为广泛的语料[5]。

3 结语

本文提出了一种综合多特征的句子相似度计算方法。综合多特征的句子相似度计算方法在计算句子相似度时综合考虑了组成句子的词形信息、词语语义信息和句法结构信息,利用句子的深层信息和表层信息,通过加权整合特征权值的方式,以期达到提高句子相似度计算准确率的目的。为此,在计算两个句子的句法结构相似度时,将综合多特征的句相似度计算方法应用于计算机领域问答系统的FAQ问句匹配中,从而验证算法的有效性。

【参考文献】

[1]卜文娟.基于概念图的中文问答系统的研究与实现[D].西北大学,2010.

[2]夏天,樊孝忠,骆正华,等.改进编辑距离算法与汉语句子相似度计算[C]//中国科协第2届优秀博十生学术年会.苏州:2004,444-449.

[3]胡国全,陈家骏,戴新宇,等.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005(4):900-903.

[4]杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41.

[5]王永智.限定域中文问答系统关键技术的研究[D].东南大学,2009.

[责任编辑:周娜]

猜你喜欢
相似度匹配权重
权重涨个股跌 持有白马蓝筹
改进的协同过滤推荐算法
模糊Petri网在油田开发设计领域的应用研究
中职学生职业性向测评维度与就业岗位匹配研究
基于新型双频匹配电路的双频低噪声放大器设计
工程车辆柴油机与液力变矩器的功率匹配及优化分析
气质类型在档案工作中的应用
相似度算法在源程序比较中的应用
影响母线负荷预测的因素及改进措施
各省舆情热度榜