评测纵览:面向“基因-疾病”的关联语义挖掘任务*

2022-02-13 11:37欧阳思卓姚昕智王宇星彭钱钱贺芷涵夏静波
医学信息学杂志 2022年12期
关键词:语料库语义实体

欧阳思卓 姚昕智 王宇星 彭钱钱 贺芷涵 夏静波

(1 华中农业大学信息学院 武汉 430070 2 华中农业大学农业生物信息学湖北省重点实验室 武汉 430070)

1 引言

1.1 AGAC语料库设计目的和标注过程

1.1.1 设计目的 活跃基因注释语料库(Active Gene Annotation Corpus,AGAC)是针对具有改变中心功能变化的基因标注问题设计的[1]。“功能变化”的定义源自于对功能丧失(Loss of Functio,LOF)和功能获得(Gain of Function,GOF)的聚焦和一个直观的药理学假设[2]:如果一个基因突变后功能丧失或者功能获得引起某种疾病,则针对LOF/GOF突变基因的拮抗剂或者激动剂很有可能成为该疾病的特效药物。

1.1.2 语料库标注 AGAC语料库由1名主标注员和3名副标注员历时17个月标注完成,语料库中包含了从PubMed收集的500篇人工注释摘要,挑选了8个触发词实体,涵盖从分子水平到细胞水平的生物现象和过程,其中包括5类生物概念实体(突变、相互作用、通路、分子生理活性、细胞生理活性)和3类调控概念实体(正调控、负调控和调控)。此外,AGAC通过主事和致事两个语义角色描述主题和因果关系。

1.1.3 语料库注释质量检验 AGAC语料库通过标注者间信度检验注释质量。在包含严格边界检查的严苛比较标准下,平行标注结果精确率均高于召回率。针对出现的标注异议,主标注员依据指南[3]进行裁议。因此,综合测试结果和标注流程控制,语料库标注质量得到有效保障。

1.2 AGAC语料库特点

1.2.1 数据不平衡 当对所有文本标注情况进行统计时,统计数据表明标注出的实体分布情况在类型上是不平衡的。例如“突变(Var)”标签出现了上千次但是“通路(Pathway)”标签总共只出现了几十次。语义角色的标注中也出现此类分布不平衡现象, “CouseOf”关系的注释次数在测试集和训练集相差较大。

1.2.2 选择性注释 根据AGAC的标注指南[3],标注时并不是无差别注释,而是根据标注规则选择对含有足够所需信息的句子进行注释,以期挖掘出带有明确LOF/GOF描述的“基因-疾病”关联的病理信息。这导致基于AGAC语料库的命名实体识别具有挑战性,所设计算法需在语义信息提取上有深入理解。

1.2.3 潜在主题注释 通过文本挑选规则选取的每一个带有LOF/GOF类别的“基因-疾病”关联摘要都会被认为是一个潜在的主题注释,这一特性将AGAC与其他语料库区别开来,使其注释具有独特性,真正面向药理学假设LOF拮抗剂和GOF激动剂的知识发现,用于药物重定位和药物再利用的场景[4]。

2 AGAC语料库标注指南

2.1 标注规则和标签设计

AGAC触发词实体标注规则遵循生物学的中心法则,采用选择性标注,语义不完整的句子不予标注。标注规则[3]确保逻辑链条起点是“突变”等变异信息,利用分子事件来聚焦分子生理活性,记录实体间相互作用,筛选生物通路信息。语料库实体标签说明和实例,见表1。另外,两个语义角色标注提供了实体之间关系的表征,“ThemeOf”用来描述主事实体指向当前实体的关系,“CauseOf”用来描述当前实体指向致事实体的关系。

表1 触发词实体标签说明

2.2 实体标注和语义标注示例

根据设定的标注规则,标注示例,见图1。该句子中有5个实体被识别出来,其中,“TRPV1”是一个基因,被标注为“Gene”;“gain-of-function”获得功能是一个正调控的实体,被标注为“PosReg”;“mutation”被标注为“Var”;而谓语动词“impairs”是一个表示负向调控的实体词,被标注为“NegReg”;“pain and itch sensations”疼痛和瘙痒是发生在细胞层面的活动,因此被标注为“CPA”。语义角色也被识别出4个,其中,R1是由“TRPV1”指向“mutation”的“ThemeOf”关系,因为该突变发生的主体是“TRPV1”基因;R2是由“mutation”指向“gain-of-function”的“CauseOf”关系,因为突变发生后导致了TRPV1 基因获得功能;R3是由“gain-of-function”指向“impairs”的“CauseOf”关系,因为TRPV1基因突变之后获得功能导致后续其他生物活动减弱;R4是由“pain and itch sensations”指向“impairs”的“ThemeOf”关系,因为“减弱”事件的主体是“pain and itch sensations”。

图1 标注示例(原文来自PMID:29424270)

3 AGAC语料库在医药领域应用场景

3.1 概述

根据AGAC语料库标注后的结果应用于实际场景获得的启发,发现其在与癌症有关的关键基因预测、药物重定位和疾病病理循证等场景下都取得一定的成效,通过预测基因和药物对成功找到有文献支持的6种可能有抗癫痫疾病作用的药物,通过对基因突变之后失去功能或者得到功能的预测可以提取导致阿尔茨海默症的关键基因,见图2。

图2 AGAC语料库在关键基因预测、药物重定位知识发现场景的应用

3.2 AGAC应用于阿尔茨海默症中关键基因的预测

3.2.1 应用价值 阿尔茨海默症(Alzheimer’s Disease,AD)是一种常见的神经退行性疾病,会损害记忆力、语言和各种身体行为。虽然没有数据库记录AD相关基因的突变类型(LOF突变/ GOF突变)信息,但有大量文献报道了AD发病机制的研究情况。因此,AGAC技术可以被应用于AD文献中,以提取突变基因及其改变的生物学过程[5]。

3.2.2 应用方法 首先在PubMed上获取AD相关的文献,基于规则和文本相关性进行过滤,将过滤后的AD文本进行AGAC标注,并推断文本中包括的LOF/GOF突变信息,共提取出325个突变并得到了822对LOF/GOF相关的突变三元组信息及其对应的句子证据。这325个突变带有突变后下游生物过程的清晰语义,经过人工整理后可分为8种类型。包括5类实体信息:基因表达、蛋白质活性、相互作用、通路活性和细胞活性,这5类都是遵循了中心法则从分子水平到细胞水平的基本生物学过程。除此之外还包括磷酸化、Abeta积累和钙离子浓度3类语义信息。而相关的句子证据可以证明提取出的三元组信息的正确性,例如来自PubMed唯一标识码(PubMed Unique Identifier,PMID)为29656768的文献摘要中的一个三元组是“MLKL;LOF;Alzheimer’s disease”,它对应的句子证据是“MLKL loss-of-function mutation might contribute to late-onset ApoE ε4-negative AD in the Hong Kong Chinese population.”。从生物学的观点来看,失去功能(loss-of-function)显然是功能失去的一种描述。因此,这句话承载着明确的语义信息,即基因“MLKL”在突变后发挥着与“阿尔茨海默症”相关的“LOF”功能。

3.3 AGAC在抗癫痫药物重定位中的应用

通过在实际场景中的应用得知,使用AGAC可以优化抗癫痫药物的发现过程[1],通过全基因组关联分析(Genome-wide Association Study, GWAS)等多个数据集收集与癫痫相关的基因作为关键词在PubMed数据库检索文献并提取摘要,再对这些文本以“突变”和“癫痫”为关键字过滤后进行自动化标注,通过AGAC获得功能和失去功能规则对标注后的句子进行分类,根据前文的药理学假说将预测结果与DrugBank数据库中条目匹配,获得了281个“基因-药物”对,包括了112种药物和28个基因,112种药物中有30种药物被录入数据库。新预测出的10种未入库的多靶点药物中,有6种被发现与癫痫相关并且都得到文献支持,这6种药物分别是:奥沙西泮、替马西泮、哈拉西泮、普拉西泮、唑吡坦和硫戊巴比妥。该案例研究结果支持了AGAC在促进知识发现和药物再利用方面的潜力。

4 结语

本文基于AGAC语料库设计了一个面向“基因-疾病”关联的语义挖掘任务,并简要介绍在构建语料库时设计的文本收集规则、实体标注和语义角色标注规则以及语料库“数据不平衡”“选择性注释”和“潜在主题注释”3个特点,提出语料库在抗癫痫药物重定位、提取阿尔茨海默症关键基因等领域的应用,体现出AGAC语料库应用前景和潜力,促进出物自然语言处理和医学健康等相关方向的跨学科应用。

猜你喜欢
语料库语义实体
语言与语义
《语料库翻译文体学》评介
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
基于JAVAEE的维吾尔中介语语料库开发与实现