陈 波,吕 晨,魏小梅
(1.湖北文理学院 文学院,湖北 襄阳 441053;2.武汉大学 计算机学院,湖北 武汉 430072)
生物文本的语义标注在生物文本挖掘和信息抽取领域非常重要。它有助于提高自动检索的精度和有效性[1-3]。但是,不含语义信息的资源为进一步的实体识别和关键词提取带来了很多难题,而这些信息是医生亟需的,比如:基因表观遗传学(Gene Epigenetics)、肿瘤(Oncology)等。
近年来,语义标注在生物标注领域越来越受到重视[4-6]。面向生物文本挖掘(Biomedical Text Mining),本文提出了一个新的语义表示模型“递归有向图”。该模型可以很好地描述或推导出生物文本复杂句型中的生物概念关系。本文致力于建构一个大规模的标注生物语料库——“the biomedical token semantic association(bioTSA)”,可以表示出文本中所有词语(tokens)的语义关系。该语料库的语料数据来源于BioNLP2009公开评测任务和BioNLP2013 GE公开评测任务的训练集。
当前依存结构是最流行的分析方法之一,基于依存结构的许多文本分析研究都取得了很大的进展[7-8]。其他相关的标注研究,例如Kulick[2]研发的Framework,集成了树库(Treebank)和命题库(Propbank),包含了句法结构和谓词论元结构;又如Kim[3]研发的语义标注和事件标注系统。然而在分析生物文本时遇到了很多难题,其中有很多特殊句式,例如:后置定语、复杂名词短语、动补结构等,很难分析出正确的中心词,这就导致下一步的实体关系抽取的错误传播。
我们对面向生物文本的分析提出了一个新的方法——“递归有向图”。在前期的工作中,我们已经耗费了三年时间建构了一个基于特征结构的三万句规模的中文句子级语义标注语料库[9],它大大丰富了中文语义资源。本文尝试运用递归有向图来进行英文的生物文本的语义标注。本文中,我们选取后置定语作为研究对象。第一部分讨论了我们提出的标注方法;第二部分对生物文本中的后置定语句进行了标注;第三部分总结了整个标注研究,包括标注数据、标注的一致性问题等;第四部分是结论。
特征结构并非一个新的术语,在很多领域都常见,比如生成语音学[10]、生成短语结构语法[11]、词汇功能语法[12]等。我们借用特征结构的术语来提出一个新的模型,它可以形式化为递归有向图。我们关注于更好的语义关系的描述,运用该方法针对生物文本可以更完整地表示语义关系。
一个短语或者句子可以表示为若干个特征结构的集合。一个特征结构可表示成一个由实体(Entity)、特征(Feature)和特征值(Value)组成的三元组(Triple)的集合:[实体,特征,特征值]。递归有向图详见图1。
一个特征三元组(feature structure triple)形式上可以表示为两个“节点”(node)和连接它们的一条“边”(edge)。实体或特征值表示为两个“节点”,特征表示为两个“节点”之间的“边”。这样,一个特征结构三元组可看成是一个“图”(graph),两个节点之间的方向是从特征值指向实体,因此表现为一个“有向图”(directed graph)。一个特征三元组反映一对语义关联,实体作为中心词(the head),特征值依存于实体[13]。由于特征结构允许嵌套和多重关联,因此可表示为“有向的递归图”(recursive directed graph)。根据前期的研究[9,13],它更适用于复杂语义关系的抽取。
(1)gene expression①加粗并加下划线的词语为中心词,仅加粗的词语为文章讨论的词语,下同。from the HTLV-I LTR
图1 特征结构:递归有向图
图2 例1特征结构图
例1是带有介词短语的复杂名词短语,在生物文本中该类结构很常见。该例中,实体是“gene expression”,特征是“from”,特征值是“the HTLV-I LTR”。例1由三个特征三元组构成,图2是例1的特征结构图。
Triple1-1:[expression, ,gene];
Triple1-2:[expression,from,the HTLV - I LTR];
Triple1-3:[HTLV -I LTR, ,the].
(2)Regulation of T1expression during induction of monocytic differentiation by okadaic acid
例2是一篇生物论文的标题,由连续的8个名词构成的复杂名词短语,这个句型比例1更加复杂,其中,很多语义关系是相互关联、交错复杂的。例2由6个特征三元组构成:
Triple2-1:[regulation,during,induction];
Triple2-2:[regulation,of,expression];
Triple2-3:[induction,of,differentiation];
Triple2-4:[differentiation,by,okadaic acid];
Triple2-5:[expression, ,T1];
Triple2-6:[differentiation,,monocytic].
在 Triple2-2中,“expression”是实体“regulation”的特征值,同时,在 Triple2-5中,“expression”是实体,它的特征值是“T1”。单词“differentiation”也是同样的情况,在Triple2-3中充当特征值,在Triple2-4中充当实体。因此,在特征结构模型中,一个节点可以是多重语义关系的节点。图3是例2的特征结构图。
图3 例2特征结构图
跟形容词相似,后置定语的功能是修饰和描写名词或名词短语[14],后置定语的用法是复杂多变的。在生物文本中后置定语句型非常常见。从句法来说,它大致可分为三种类型:1、小句充当后置定语,例如:who,whom,which,whose等等;2、短语充当后置定语,例如:不定式短语、现在分词短语、过去分词短语、形容词短语、介词短语等等;3、单个词充当后置定语。在三种类型中,现在分词短语、过去分词短语和介词短语充当后置定语的情况会为自动分词带来很多难题。特别是很难确定后置定语修饰的到底是哪一个中心词,这会导致下一步的实体关系的抽取。我们标注了113篇生物文本,包含906个句子,其中有82个后置定语句,比例占9%。例3至例5是标注生物文本数据中典型的后置定语例句:
(3)T10 mRNA levels were superinduced in cellstreated with both okadaic acid and cycloheximide,whereas inhibition of protein synthesis had little,if any,effect on okadaic acid -induced T11 transcription.
例3中,后置定语是过去分词短语“treated with both okadaic acid and cycloheximide”,它修饰的中心词“cell”,两者的语义关系是“受事——谓语”。例3中的后置定语可以描述为3个特征结构三元组,图4是例3的特征结构图。
Triple3-1:[treated, ,cells];
Triple3-2:[treated,with,okadaic acid];
Triple3-3:[treated,with,cycloheximide].
(4)Suppression of signals required for activation of transcription factor NF-kappa B in cellsconstitutively expressing the HTLV -I Tax protein.
图4 例3特征结构图
例4中,后置定语由现在分词短语“constitutively expressing the HTLV-I Tax protein”充当,但是它的中心词不能确定,有3个名词可能是中心词:“activation”,或“transcription factor”,或“cells”。如果仅仅考虑距离,应该是“cells”;但是根据语义关系,“transcription factor”应该是正确的中心词。例4中的后置定语可以描述为6个特征结构三元组,图5是例4的特征结构图。
Triple4-1:[expressing, ,the HTLV -I Tax protein];
Triple4-2:[expressing, ,constitutively];
Triple4-3:[expressing, ,transcription factor];
Triple4-4:[transcription factor, ,NF -kappa B];
Triple4-5:[transcription factor,in,cells];
Triple4-6:[activation,of,transcription factor].
图5 例4特征结构图
(5)In contrast,in a number of multiple myeloma cell lines,representing differentiated,plasma cell- like B cells,PU.1DNA binding activity,mRNA expression,and Pu box-dependent transactivation were absent or detectable at a very low level.
例5中,很难确定充当后置定语的动词“binding”的宾语是哪个单词,有可能是单词“activity”,或者“activity,mRNA expression”,或者“activity,mRNA expression,and Pu box-dependent transactivation”。根据语义关系,“binding”的主语是“DNA”,因此它的宾语应该是“activity”。例5中的后置定语可以描述为3个特征结构三元组,图6是例5的特征结构图。
Triple5-1:[DNA, ,PU.1];
Triple5-2:[binding, ,DNA];
Triple5-3:[binding, ,activity].
图6 例5特征结构图
后置定语比其他句型更容易导致错误。我们仅仅标注了82个后置定语句并总结了主要的三种情况。运用特征结构模型可以解决这个难题,并且可以表示生物文本中更多的语义信息。
我们从BioNLP’09公开评测任务中选择了113篇生物语料,11篇摘要,从BioNLP2013 GE评测任务中选择了102篇文本。我们建构了一个包含906句的小规模生物语义标注资源,关注的是句子中语义关系的标注。
标注人员小组包括20名博士和硕士,分别来自语言学、生物信息和计算机专业。标注培训包括标注方法、标注的一致性、标注平台的使用和标注语例。标注者独立工作,因为特征结构的标注仅需要确定语义关系,标注的一致性达到95%,这个结果是比较好的。每周我们会交叉检查该阶段的标注结果以避免人为错误。
我们提出的特征结构模型可以形式化为表示语义关系的“可递归的有向图”。它是一个成功的尝试用于生物的文本。下一步的工作,我们将扩大生物语料库。与其他方法相比,特征结构更适合于抽取生物文本中的服装语义关系,可以描述更多的语义关系,并允许多重语义关联。标注结构表明,特征结构的标注更有效,精度也更高。应用方面,我们的研究对生物文本挖掘有一定的意义,研究结果可以用于自动问答、关系抽取等领域。
[1] PYYSALO S,GINTER F,HEIMONEN J,et al.BioInfer:A corpus for information extraction in the biomedical domain[J].BMC Bioinformatics,2007,8(1):50-73.
[2] KULICK S,BIES A,LIBERMAN M,et al.Integrated annotation for biomedical information extraction[C]//Proc of the Human Language Technology Conference and the Annual Meeting of the North American Chapter of the Association for Computational Linguistics(HLT/NAACL).Boston:Association for Computational Linguistics,2004:61 -68.
[3] KIM J D,OHTA T,TSUJII J.Corpus annotation for mining biomedical events from literature[J].BMC Bioinformatics,2008,9(1):10 -34.
[4] YAKUSHIJI A,MIYAO Y,TATEISI Y,et al.Biomedical infor-mation extraction with predicate-argument structure pat-terns[C]//Proceedings of the first International Symposium on Semantic Mining in Biomedicine(SMBM),Hinxton,Cambridgeshire,UK,April.2005.
[5] SPASIC I,ANANIADOU S,MCNAUGHT J,et al.Text mining and ontologies in biomedicine:making sense of raw text[J].Briefings in bioinformatics,2005,6(3):239 -251.
[6] COHEN A M,HERSH W R.A survey of current work in bio-medical text mining[J].Briefings in bioinformatics,2005,6(1):57-71.
[7] ZHANG Y,NIVRE J.Transition-based dependency parsing with rich non-local features[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies:short papers-Volume 2.Boston:Association for Computational Linguistics,2011:188 -193.
[8] MELUK I.Dependency Syntax:Theory and Practice[M].Herndon:SUNY Press,1988.
[9] CHEN B,WU H M,LV C,et al.Semantic labeling of Chinese serial verb sentences based on feature structure[J].Lecture Notes in Computer Science,2013,8229(1):784 -790.
[10] KENSTOWICZ M,KISSEBERTH C.Generative Phonology[M].New York:Academic Press,1979.
[11] GAZDAR G.Generalized Phrase Structure Grammar[M].Cambridge:Harvard University Press,1985.
[12] DALRYMPLE M.Lexical Functional Grammar[M].New York:Academic Press,2001.
[13] CHEN B,JI D,LV C.Building a Chinese semantic resource based on feature structure[J].International Journal of Computer Processing of Languages,2012,24(1):95 -101.
[14] LU J,LU K.Research on syntactic characteristics of computer English and its English to Chinese translation Strategy[C]//Proc of 2013 Fifth International Conference on the Computational and Information Sciences(ICCIS).Los Alamitos:IEEE Computer Society,2013:1867-1870.