田卫东,虞勇勇
(合肥工业大学 计算机与信息学院,安徽 合肥 230009)
基于频繁依存子树模式的中心词提取方法研究
田卫东,虞勇勇
(合肥工业大学 计算机与信息学院,安徽 合肥 230009)
条件随机场模型通过抓取问句中心词各方面统计特征来进行中心词标注,但未能充分利用中心词特征间存在的深层统计关系。该文利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,为正确提取中心词提供依据,通过挖掘频繁依存子树模式以生成相应统计规则模式,使用条件随机场模型进行中心词初始标注,使用频繁依存子树模式统计规则进行中心词标注校正等。该文方法属于典型的客观方法,建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。实验结果表明,该文方法将条件随机场模型的中心词标注准确率提高约3%。
中心词;依存关系树;条件随机场;频繁子树模式
对问句所问内容的准确理解是问答系统成败的关键。经过对各种形式中文问句分析发现,相对于问句的其他成分,疑问词和中心词,对理解问题起着更关键的作用[1]。中文里疑问词数量有限,识别容易,识别准确率高[2],然而中心词不属于传统语法所涉及的词性与语言成分的范畴,识别起来则困难得多。
正确提取中心词有助于问题理解及提高问题分类的准确率[3-4],在问句处理领域以至整个自然语言处理方面具有重要意义。对中心词的关注,最早是将其用于普通陈述句的句义理解[5],之后扩展到问句处理领域[3]。鉴于中心词在中文句义理解方面的重要意义,而目前文献中专门研究中心词的却很少,本文的研究具有重要意义。
在问句中心词研究方面,中心词的提取方法研究是热点。基于启发式规则[6-8]的方法是一类重要的抽取方法。例如,孙景广等[6]选择疑问词(q)右边或左边的名词(n)为中心词;李广涛等[7]选择疑问词(q)后面第一个名词短语的最后一个名词(n)为中心词;田卫东等[8]给出中心词抽取的两条启发式规则: 当疑问词(q)在问句的句首或句尾时,离疑问词最近的名词(n)为问句的中心词;当疑问词在其余位置时,则疑问词(q)之后的第一个名词(n)为中心词;若未发现名词(n),则认为该问句中没有中心词。这些方法所涉及的启发式规则,基本由专家总结,因此不可避免地带有一定的主观性,规则集的完备性难以保证,也缺乏精确的统计依据。如表1中问句Q1,正确中心词为“公司”,但以上三种方法会将离疑问词最近的名词“视频”标注为中心词。
表1 中心词在位置、数量和成份上的多样性特征
注: 加粗表示中心词
利用大规模语料库,统计中心词的位置和特征的概率数据,进而给出在最大似然估计、最大后验概率估计意义下的中心词概率估计,是一类很有效的中心词抽取方法。这其中最成功的是条件随机场(Conditional Random Fields, CRF)[9]。文献[2]利用CRF模型,选用词、词性、修饰词等作为特征,将问题的中心词识别问题转化为序列标注的问题,使中心词识别准确率有了很大改善。在此基础上,田卫东等[10]通过将CRF与错误驱动(TBL)相结合的方式,利用最小化中心词标定错误率的方式来训练标注器,取得了不错的效果。
但是,CRF是一种建立在主观贝叶斯理论基础上的专门用于概率处理的数学工具,计算量大复杂度高。对于CRF的最初应用领域,例如,英文的一些序列标注问题,其精度损失从实际效果来看[11]微乎其微。但将CRF应用于处理中文时,由于汉语句子中词的平均依存距离远高于英语和法语[12]、汉语的意合性、无时态变化与语序的灵活性[13]等原因,抓取存在于中文词汇多维度特征之间的长距离多层次的统计特征非常困难。由于缺乏中心词的完整深层统计信息,CRF会在标注时将部分潜在中心词的边缘概率计算错误,如Q1 CRF错误地将“制造”标注为中心词。
为此,本文提出了一种基于频繁依存子树模式的中心词提取方法,该方法通过挖掘大量问句的依存关系树中所蕴藏的中心词在不同维度特征之间的概率关系,以生成频繁依存子树对应的统计规则,作为标注中心词的依据,用于弥补CRF所忽略的问句中心词的相关统计信息,从而达到提高中心词标注准确率的目的。
2.1 中文问句的中心词
中心词最初定义为“Focus word was defined as the most important word for comprehending a sentence.”[5],用于英语普通句子处理。后来被引入英语问句的处理和分析中,其定义变化为“single word that specifies the object that the question seeks.”[3]。在中文处理领域,中心词的术语也不尽相同,如谓语中心词(Head)、中心词(head word)[14-15]、 焦点词(focus)[16]、核心词(keywords)[17]等。本文所称中心词专指中文问句的中心词,是问句中最能体现和刻画问句所对应答案的特征的词或词组,能直接反映问句想查询和获得答案的核心内容、能体现答案所属的类别。
如Q1的答案应是某个具体公司名称,因此答案类型属于组织机构类(HUM_ORGNIZATION)。在该问句中,“公司”应为中心词。
中心词与通常所说的关键词(keywords)相关,但内涵不同。关键词[19-20]是反映文本主题概念和实质意义的词,反映的是“本”文的特征,主要是为了适应内容检索而提出来的。而问句的中心词,本质上反映的是“他”句,即问句所对应答案句的特征,而非“本”句的特征。由于在问题分类阶段无法获取答案句,因此无法直接了解答案的各方面特征信息,中心词则为我们间接刻画答案句的特征提供了依据。
中文语言的特点导致了中文问句中心词的标注更加复杂,这种复杂性体现在中心词的词性、位置、数量和成分等几个方面,如表1所示。对哈尔滨工业大学信息检索实验室的问题集*http://www.ltp-cloud.com/; HIT-SCIR: http://ir.hit.edu.cn进行中心词标注后,统计得出中心词主要词性的分布如表2所示。该语料库中,中心词为名词的情况虽然占85.94%,但其他词性的占比也不少,考虑到语料库规模有限,可以想象在真实语言中,中心词的词性组成是多样化的。
表2 中心词在主要词性上的分布
中心词可能位于句首、句尾或中间,如表1中Q1、Q2和Q3。中心词在单个问句中的数量不定,可能没有中心词,也可能有多个中心词。Q4答案是人物类(HUM_PERSON),“人”和“位”联合能更明确地表明答案“人”的特征,因此有两个中心词,Q6为原因类(DES_REASON),除了疑问词“为什么”外,没有其他可以确定其类别的词,因此没有中心词。中心词在问句中还可以作不同的语法成份。Q7的中心词“学校”与疑问词之间是定语修饰关系(ATT),Q8中心词“距离”与谓语间是主谓关系(SBV),Q9中心词“市花”与谓语则是动宾关系(VOB)。
2.2 依存关系树
依存语法[21-22]是一种使用非常广泛的语法形式,最早由法国语言学家L Tesiniere提出。依存语法认为,词与词之间的关系有方向,通常是一个词支配另一个词,这种支配与被支配的关系称作依存关系。句子中的这种依存关系图形化后的结果可形成依存关系树(Dependency Relation Tree)[22]。
形式上,依存关系树可作如下定义:
(1) 依存关系是建立在集合W上的二元关系R,记为 (2) 依存关系W存在最小上确界,记为Root,且满足如式(1)所示的条件; (∀ (1) (3) 依存关系树是一棵树T=(F,B),其中F为结点集合,B为边集合。边是有方向的,假如v 图1 依存关系树示例 依存结构分析被认为非常适合中文处理[23]。将大规模语料库的依存关系树准确解析形成树库,可获得相当精确的带有一定深层语义的各种统计概率信息,在中文信息处理方面的应用非常广泛[24-26]。 2.3 条件随机场 CRF由Lafferty等人于2001年提出[27],是一种判别式概率模型,主要处理序列数据。数据序列随机变量记为X,标注结果序列随机变量Y的条件概率分布记为P(Y|X),CRF通过在训练数据上训练出的特征模板(model),来求得在最大似然估计、最大后验概率意义下的P(Y|X)。 令X=(x1,x2,…,xn)表示观察序列,Y=(y1,y2,…,yn)表示有限的输出状态序列集合。 CRF定义Y的条件概率为式(2)。 (2) 其中,fj(yi-1,yi,x,i)为特征函数,是状态特征函数和转移特征函数的统一表示形式;Zx为归一化常量,用于使所有状态序列的概率和为1,Zx的计算公式如式(3)所示。 (3) 其中,∑i∑jλjfj(yi-1,yi,x,i)是对整个观察序列,标记位于i和i-1的特征函数,λ={λ1,…,λm}是特征函数的权。 CRF的任务是搜索概率最大的Y*,得出式(4)。 Y*=argmaxP(Y/X) (4) 应用CRF的限制条件比隐马尔可夫模型更弱,尤其是线性链CRF,有特化的处理算法,特别适合解决自然语言处理领域的序列标注问题。 基于频繁依存子树模式的中心词提取,主要包括三个核心步骤: (1)问句预处理;(2)利用CRF进行初始标注;(3)挖掘频繁依存子树模式并形成统计规则模式,利用高可信度的频繁依存子树模式和统计规则模式重新标定中心词,如图2。 3.1 中心词的初始标注 首先对问句进行分词,然后进行依存关系分析,构建依存关系树库。对于依存关系树中每个词汇的特征,可以根据需要选取,本文的特征集选择参考了文献[2,10]。此时,观察序列X和标注序列Y可表示为: 其中,Fi是词的第i个特征的值集;L表示标注的结果,L={f,q,n}。f、q、n分别表示中心词、疑问词、既非中心词也非疑问词。 图2 中心词提取步骤流程图 利用CRF在训练阶段得出的特征模板,对目标问句进行标注,形成初始标注结果。表3是中心词初始标注的一个示例。 表3 CRF对问句Q1的中心词标注 注:P为边缘概率CRF错误地将“创造”标注为“f”。 3.2 频繁依存子树模式 语料库中所有问句的依存关系树形成树数据库。对依存关系树的树库进行统计分析可以发现,依存关系树的局部特征(子树)的出现概率是不同的,有些经常出现,有些则很少出现。参考文献[28-29]频繁子树定义,引入频繁依存子树的概念。 嵌入子树的定义: 给定树Ta=(Fa,Ba)和Tb=(Fb,Bb),假如,(1)Fb⊆Fa;(2) (nb,x,nb,y)⊆Bb↔na,y≤lna,x,则称Tb为Ta的嵌入子树,简记为Tb◀Ta。其中,ni,y表示依存关系树i的深度遍历序列的y号结点,≤l表示祖先-后代关系。 诱导子树的定义: 给定树Ta=(Fa,Ba)和Tb=(Fb,Bb),假如,(1)Fb⊆Fa;(2) (nb,x,nb,y)⊆Bb→(na,x,na,y)⊆Ba,则称Tb为Ta的诱导子树,简记为Tb◀Ta。 嵌入子树和诱导子树统称子树。 本文采用文献[28-29]使用的树存储格式,问句Q1对应的根树与子树如图3。可以看出,嵌入式子树的特点是子树中的节点在根树中可保持祖先后代关系,如图3(c)中⑥与④;而诱导子树中的节点与根树中保持一致,只能为父子关系,如图3(a)。 图3 Q1对应的根树及不同类型子树 子树在树数据库D的支持度: 给定树数据库D以及子树T,T的支持度为suppD(T)=|p(T)|/|D|,其中p(T)是D中包含子树T的依存关系树集合,即对任意t∈p(T),T为t的嵌入子树/诱导子树,|.|为集合的势。 频繁子树的定义: 对任意指定的最小支持度阈值0≤minsupp≤1,当minsupp≤suppD(T)时,称T为D中的频繁嵌入子树/诱导子树,统称频繁子树。 对于依存关系树来说,嵌入子树和诱导子树都是树的局部特征,其中嵌入子树反映了依存关系树中离散结点之间的统计特征,而诱导子树反映了依存关系树中邻接结点之间的统计特征。两类子树都是频繁的,本文统称频繁依存子树模式。应用到中心词提取中,可以充分利用模式中共有的结构特征,并通过统计得到大量依存关系树所蕴藏的中心词各维度特征之间的概率关系,由这些概率关系生成的规则可以包含更全面的依存语法结构信息,从而为中心词抽取所需的深层语义信息抓取提供了可能。实现如算法1。 算法1 从依存子树生成统计规则模式 if(tree[j]>=0and(tree[j+1]==-1)then R←R∪{j}; R←R∪{indexoftreeslastitem}; foreach itemk∈Rdo subtree←⌀; forj←0toR.size()⁃1do if(j 3.3 统计规则模式 统计规则的定义为式(5)。 (5) 其中,Ta◀Tb,cf称为统计规则的置信度如式(6)所示。 (6) 其中D下标表示树数据库D。 对于给定的最小支持度阈值minsupp,统计规则R:Ta⟹Tb可划分为三类。 (1)minsupp≤suppD(Tb) 且minsupp≤suppD(Ta); (2)minsupp≥suppD(Tb) 且minsupp≥suppD(Ta); (3)minsupp≥suppD(Tb) 且minsupp≤suppD(Ta)。 如Q1中统计规则如图4,Ta在树库中出现224次,Tb出现119次,所以规则中目标节点⑥(n、ATT、f)为中心词的概率为97.7%。 图4 问句Q1中存在的统计规则 通常,我们只对频繁子树间构成的统计规则感兴趣,即满足条件1的规则。但有时候,非频繁子树之间构成的统计规则也可能很有价值。给定最小置信度阈值minconf,定义规则“Ta⟹Tb,cfD”为强规则,当且仅当cfD(Ta⟹Tb)≥minconf,Ta◀Tb。 强规则反映了依存子树局部结构之间较强的关联性,体现出中文问句自然语言结构中,局部语言模式间的强关联性。本文将其称作统计规则模式。本质上,频繁依存子树模式反映了依存子树中结点之间的联合概率分布,而统计规则模式反映了子树之间的条件概率分布。 有一类特殊的统计规则模式是我们特别感兴趣的,称为直接统计规则模式,图5中“③⑥⑦⑩”均为构建问句的依存关系树时所考虑的特征;“?”表示通配节点;虚线框为目标节点。 此类规则的定义为: 定义规则“Ta⟹Tb,cfD”为直接统计规则模式,当且仅当cfD(Ta⟹Tb)≥minconf,Ta◀Tb,|Tb|=|Ta|+1。 当Ta为Tb的诱导子树时,称为直接诱导规则模式;为嵌入子树时,称为直接嵌入规则模式。 图5 统计规则模式 3.4 两类模式的结点定义 频繁依存子树模式和统计规则模式所涉及的局部问句语言结构,都由结点组成,而结点由多维特征来描述。表4是结点多维度特征的一个例子。 表4 结点多维度特征示例 3.5 中心词标注 CRF对问题进行标注时,通过计算每个标注的边缘概率P来决定最终标注结果。本文使用置信度高的频繁依存子树模式和统计规则模式,对CRF初始标注结果进行修正。这种做法本质上是将问句中频繁出现的包括中心词的这类结构特征作为CRF所选取特征信息的扩充,弥补CRF不能充分利用中心词特征间存在的深层统计关系的不足。 具体做法为: 用CRF进行初始标注,利用前期挖掘得到的频繁依存子树模式和统计规则模式,匹配目标节点,如果匹配成功,再继续匹配目标节点中包含的特征信息,当全部匹配成功后,将初始标注结果修正为规则中所标注的内容。当多条规则对应相同的目标节点时,选择置信度最高规则中的标注为最终结果。 4.1 数据及实验工具来源 依存句法分析的标注体系各有不同,本文采用的是哈尔滨工业大学信息检索实验室的语言技术云平台(LTP-cloud)的标注体系。另外,测试所用的数据集、问句分词和依存句法分析的工具也来自该平台。该问题集,共6 294个问句。文中使用CRF++*http://crfpp.sourceforge.net/作为初始标注工具。频繁子树挖掘使用文献[29]的SLEUTH算法。 4.2 实验总体设计 本文从三个角度设计实验。(1)设不同的CRF训练模板T1和T2。验证CRF和频繁子树和统计规则模式在考虑相同特征维度、CRF考虑所有维度的特征,频繁子树和统计规则模式仍只考虑部分特征的条件下,本文方法的有效性。特征选取参照表5;(2)为了避免数据集划分不均衡,通过10次交叉验证的方法,随机选取90%作为训练集,10%作为测试集,验证方法的有效性;(3)选取30%-80%作为训练集,目的是验证训练集数量的增加,本文方法在CRF基础上是否仍有修正效果(90%在(2)中)。 表5 CRF特征模板设置 4.3 实验评价方法 本文定义了评价函数FP1-FP4。其中,FP3为文献[2] 的定义,FP2为文献[10]的定义。由于评价函数FP2和FP3仅考虑中心词的局限性,本文另外定义评价函数FP1和FP4。 各评价函数定义如下: 其中,FP2反映了中心词被正确识别或者无中心词的问句数量的占比。 4.4 实验结果及分析 实验采用10-fold交叉验证,用四种不同评价函数在T1、T2模板下进行测试,如图6-7。 图6 中心词提取准确率(T1) 图7 中心词提取准确率(T2) 问题集随机选取30%~80%,六组不同比例的数据作为训练集,在T1、T2下进行测试,实验结果如图8。 图8 30%~80%比例划分训练集在T1 下准确率提升百分比 从图6、图8可以看出,当CRF与频繁子树模式和统计规则模式挖掘都只考虑词性和依存关系等部分特征时,在10-fold交叉验证情况下四个评价标准FP1-FP4准确率平均提升2.52%、3.09%、3.93%、0.43%;按30%-80%划分训练集时,准确率分别提升1.65%、2.15%、2.86%、0.25%。这表明了本文的方法能使中心词标注的准确率得到明显的提高。 从图7、图8可以看出,在CRF考虑词、词性、依存关系、修饰词等多类特征时,本文的方法在10-fold交叉验证情形下,FP1-FP4分别提升0.63%、1.10%、1.37%、0.13%;按30%-80%划分训练集时,平均提升0.64%、1.01%、1.09%、0.05%。说明当CRF考虑更全面的特征时,CRF的标注准确率有所上升,而本文方法的提升幅度虽略有降低,但FP2、FP3仍有1%以上的提高。 本文与结合CRF和错误驱动来提取中心词[10]的方法也作了对比,见表6。该方法将问题集按train∶test1∶test2为2∶2∶1的方式划分,本文选取与文献[12]中相同的五组随机划分结果。 表6 与文献[10]实验对比 表7-8则是按30%~80%比例划分的实验结果。结果表明随着训练样本的增加,本文的方法在CRF标注效果变好的基础上仍然有修正的效果。 表7 训练集按 30%~80%划分在T1基础上的实验结果(cf为规则置信度,P为CRF的边缘概率) 表8 训练集按 30%~80%划分在T2基础上的实验结果 续表 本文提出了一种新的问句中心词提取方法。该方法通过挖掘频繁依存子树模式和统计规则模式,抓取中心词不同维度特征之间的概率关系,然后结合考虑CRF标注结果的边缘概率来修正CRF的初始标注结果。实验表明,中心词在依存关系树中频繁存在的层次结构特征对提高中心词的标注准确率是有益的;在CRF与两类模式的挖掘中考虑相同特征时,本文方法的有效性更明显。这些结论为继续深入研究问句中心词奠定了基础。 总体而言,中心词标注问题复杂,诸如语料数据的稀疏性和数据倾斜、分词和依存句法分析的准确性还不够高、人工标注的主观性等,都是影响标注结果的重要因素。针对这些问题展开研究,同时进一步扩充和完善真实语料库,通过对生成的各类模式进行精选以减少噪声提高标注准确率,是本文下一步要研究的工作。 [1] Xiao-Ming L,Li L. Question Classification Based on Focus[C]//Proceedings of Communication Systems and Network Technologies (CSNT),2012 International Conference on. IEEE,2012: 512-516. [2] Zhang Z,Zhang Y,Liu T,et al. Automatic Recognition of Focus and Interrogative Word in Chinese Question for Classification[J]. Computer and Information Science,2010,3(1): P168. [3] Huang Z,Thint M,Qin Z. Question classification using head words and their hypernyms[C]//Proceedings of Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2008: 927-936. [4] Wei Z,Junjie C,Yanqing N. Research on Chinese Question Classification Based on Hownet and Dependency Parsing[C]//Intelligent Systems and Applications (ISA),2011 3rd International Workshop on. IEEE,2011: 1-4. [5] Osaka M,Nishizaki Y,Komori M,et al. Effect of focus on verbal working memory: Critical role of the focus word in reading[J]. Memory & cognition,2002,30(4): 562-571. [6] 孙景广,蔡东风,吕德新,等. 基于知网的中文问题自动分类[J]. 中文信息学报,2007,21(1): 90-95. [7] 李方涛,张显,孙建树等.一种新的层次化结构问题分类器[J].中文信息学报,2008,22(1): 93-98. [8] 田卫东,高艳影,祖永亮.基于自学习规则和改进贝叶斯结合的问题分类[J].计算机应用研究,2010,27(8): 2869-2871. [9] Lafferty J,McCallum A,Pereira F C N. Conditional Ran-dom fields: Probabilistic models for segmenting and labeling sequence data[J]. 2001: 282-289. [10] 田卫东,李亚娟. 基于 CRF 和错误驱动的中心词识别[J]. 计算机应用研究,2013,30(8): 2345-2348. [11] Sasaki Y,Tsuruoka Y,McNaught J,et al. How to make the most of NE dictionaries in statistical NER[J]. BMC bioinformatics,2008,9(Suppl 11): S5. [12] 刘海涛,黄伟. 计量语言学的现状,理论与方法[J]. 浙江大学学报 (人文社会科学版),2012,42(2). [13] 尤昉,李涓子,王作英. 基于语义依存关系的汉语语料库的构建[J]. 中文信息学报,2003,17(1): 46-53. [14] 龚小谨,罗振声,骆卫华. 汉语句子谓语中心词的自动识别[J]. 中文信息学报,2003,17(2): 7-13. [15] 李国臣,孟静山. 利用主语和谓语的句法关系识别谓语中心词[J]. 中文信息学报,2005,19(1): 1-7. [16] Sun H,Jurafsky D. Shallow Semantc Parsing of Chinese[C]//Proceedings of HLT-NAACL. 2004: 249-256. [17] 李素建,刘群,杨志峰. 基于最大熵模型的组块分析[J]. 计算机学报,2003,26(12): 1722-1727. [18] Chien L F. PAT-tree-based keyword extraction for Chinese information retrieval[C]//Proceedings of ACM SIGIR Forum. ACM,1997,31(SI): 50-58. [19] Azcarraga A,Liu M D,Setiono R. Keyword extraction using backpropagation neural networks and rule extraction[C]//Proceedings of Neural Networks (IJCNN),The 2012 International Joint Conference on. IEEE,2012: 1-7. [20] Peng F,McCallum A. Information extraction from research papers using conditional random fields[J]. Information Processing & Management,2006,42(4): 963-979. [21] Tesnière L,Fourquet J. Eléments de syntaxe structurale[M]. Paris: Klincksieck,1959. [22] 周明,黄昌宁. 面向语料库标注的汉语依存体系的探讨[J]. 中文信息学报,1994,8(3): 35-52. [23] M. Zhou. A block-based dependency parser for unrestricted Chinese text[C]//Proceedings of the 2nd Chinese Language Processing Workshop Attached to ACL-2000,Hong Kong. 2000: 78-84. [24] 文勖,张宇,刘挺,等. 基于句法结构分析的中文问题分类[J]. 中文信息学报,2006,20(2): 33-39. [25] 胡宝顺,王大玲,于戈,等. 基于句法结构特征分析及分类技术的答案提取算法[J]. 计算机学报,2008, 31(4): 662-676. [26] 王智强,李茹,阴志洲,等. 基于依存特征的汉语框架语义角色自动标注[J]. 中文信息学报,2013,2: 005. [27] Lafferty J,McCallum A,Pereira F C N. Conditional Ran-dom fields: Probabilistic models for segmenting and labeling sequence data[J]. 2001: 282-289. [28] Zaki M J. Efficiently mining frequent trees in a forest: Algorithms and applications[J]. Knowledge and Data Engineering,IEEE Transactions on,2005,17(8): 1021-1035. [29] Zaki M J. Efficiently mining frequent embedded unordered trees[J]. Fundamenta Informaticae,2005,66(1): 33-52. Automatic Extraction of Focus Based on Frequent Dependency Subtree Patterns TIAN Weidong, YU Yongyong (School of Computer and Information,Hefei University of Technology, Hefei, Anhui 230009, China) Even though Conditional Random Field(CRF) model can automatically tag focus in question,some deep relationships among focuses still cannot be mined,and this results in nontrivial impairing on focus recognition. In this paper,a focus recognition method based on frequent dependency tree pattern of Chinese question is proposed. In this method,probabilities of various dimensional relationships of focus hidden in the dependency tree corpus are mined to improve the recognition accuracy. The main steps of the method include mining frequent subtree dependency model to generate the corresponding statistical rules,using CRF for initial focus annotation,and using frequency dependent subtree statistical rules to correct initial annotation etc. The experimental results show that the proposed method can improve the accuracy by 3% or so in average compared to CRF model. focus; dependency tree; CRF; frequent subtree pattern 田卫东(1970—),副教授,主要研究领域为人工智能与数据挖掘。E⁃mail:wdtian@hfut.edu.cn虞勇勇(1989—),硕士,主要研究领域为数据挖掘。E⁃mail:yuyong@mail.hfut.edu.cn 2014-02-31 定稿日期: 2014-06-13 国家863高技术研究发展计划资助项目(2012AA011005);国家自然科学基金(61273292) 1003-0077(2016)03-0133-10 TP391 A3 基于频繁依存子树模式的中心词提取
4 实验结果和分析
5 结论与展望