生物医学文献中的蛋白质相互作用抽取研究

2016-12-01 01:36周玉新
山东工业技术 2016年20期
关键词:生物医学正确率语言学

周玉新

(内蒙古民族大学计算机科学与技术学院,内蒙古 通辽 028000)

生物医学文献中的蛋白质相互作用抽取研究

周玉新

(内蒙古民族大学计算机科学与技术学院,内蒙古 通辽 028000)

在最近几十年中,生物医学取得了令人瞩目的巨大发展,涌现出了大量实验性和可计算生物医学数据,同事,相关的生物医学文献呈现出了指数增长。同时,科学界一直对利用文本挖掘工具发现诸如蛋白质关系等对特定分析任务相关和有用的知识有巨大的兴趣。本文提供了一个生物医学领域蛋白质相互作用发现的一个基本轮廓,同时讨论了该领域进一步发展所面临的挑战,并且讨论了可能的解决方案。

生物医学文献;蛋白质相互作用;信息抽取

1 引言

在后基因组时代,蛋白质被认为是复杂蛋白质作用网络中的重要因素,蛋白质—蛋白质作用(PPI)在细胞的结构性和功能性组织的各个方面发挥着关键作用,关于PPI的知识揭示了生物过程的分子机制。然而,这类知识大部分隐藏在已发表文献、科技期刊、书籍和技术报告中。迄今为止,超过1600万此类文章的引用可以在MEDLINE数据库中获得,并且还建立了许多数据库以存储关于PPI信息的各种类型。然而,为了确保数据得正确性,这些数据库中的数据主要是以手工采集的,但也因此限制了将纯文本信息转换为结构信息的速度。

目前,已经开发了很多系统来进行PPI信息的抽取,这些系统一般需要包括分区模块、蛋白质名称识别模块、PPI抽取模块和可视化模块等三到四个模块。分区模块主要将文档划分为基本的块;蛋白质名称识别模块主要用于蛋白质名称的识别;PPI抽取模块则是系统的最主要环节;而可视化模块虽不像前三个模块那样关键,但是它为用户提供了一个友好的接口从而允许用户可以深入研究所抽取的知识

为了评估一个信息抽取系统的性能,通常采用的评估指标主要有正确率、召回率和F值,它们的定义如下:

正确率=识别出的正确实体数/识别出的实体数;召回率=识别出的正确实体数/样本中的实体数。

两者的取值都在0和1之间,数值越接近1,正确率或召回率就越高。在实际应用中需要综合考虑它们的加权调和平均值,也就是F值,其中最常用的F1值,当F1值较高时说明试验方法比较有效。F1值定义如下:

F1值=(2*正确率*召回率)/(正确率+召回率)

本文侧重于PPI抽取模块,对现有方法进行了简单综述。通常,现有的方法依赖于一个或多个领域的技术,包括信息检索、机器学习、自然语言处理、信息抽取和文本挖掘等。早期的所用的方法主要依赖于命名实体共现和模式匹配,而后期则主要采用可以处理复杂句子中关系的可计算语言学技术。

2 方法

通常,现有的方法可以被分为三类:基于计算语言学的方法、基于规则的方法和基于机器学习和统计的方法。

2.1 基于计算语言学的方法

基于计算语言学的方法采用语言学技术从句子中提取语法结构或语义。在这种方法中,首先对语料库进行解析以获取每个句子的形态学和句法信息,在这之后才能完成识别PPI信息等复杂的任务。然而,对生物学领域中的非结构化文本进行解析是非常困难的。

这类方法可以根据所采用语言学方法的复杂性进一步划分为浅解析或深解析。浅解析执行句子结构的部分解析,它旨在通过牺牲分析的完整性和深度来从文本中高效可靠地提取句法信息。它首先将句子分为非重叠块,接着抽取块间的局部依赖而不重建整个句子结构。浅解析在捕获一个句子实体间相对简单的二元关系方面表现良好,但是无法识别关系子句中更加复杂的关系。对包含三个或更多实体间复杂关系的句子来说,浅解析方法通常会产生错误的结果,这时采用基于全句的深解析方法往往更加精确。深解析以构造语法的方式为基础分析整个句子,这通常可以得到较好的性能,但是却具有较高的计算复杂度。基于深解析的方法可以被分为通过人工定义语法的唯理论方法和通过观察自动生成语法的经验主义方法。

2.2 基于规则的方法

在基于规则的方法中,需要定义建立在单词或词性标记上正规表达式的规则集,并以此为基础识别实体间的关系。

通常,理论上来说,使用预定义的规则可以产生令人满意的结果,然而在实际应用中却是不可行的,因为当转移到另一个域时,仍需要繁重的工作以重新定义规则集。

现有的基于规则的方法可以通过突破被抽取的互相作用集合上的整体局限和被处理句子的复杂性进行识别规则的扩展。但是,这些方法经常忽略许多复杂的实例,比如跨越文本多个句子的互相作用。基于规则方法的缺点是它们无法处理除比较短的以及直接陈述以外的任何句子,而基于规则的方法能够处理的句子在正常的生物医学文献中是相当少的。这种方法忽视了句子结构的很多重要方面,比如句子的语气、情态和否定,而这些都可以显著改变甚至完全颠倒句子的意思。

2.3 基于机器学习和统计的方法

在生物信息学领域,已经应用了很多机器学习方法,这些方法涵盖了从在术语共现基础上推断术语间关系的简单方法到采用NLP技术的复杂方法。

很多以蛋白质名称共现的发现为基础的机器学习和统计方法已经被用于PPI信息抽取,如果以挖掘单位为基础,它们可以被进一步分为三种类型,如摘要、句子等。后来的系统采用了其他的技术,如隐马尔科夫模型和支持向量机来识别描述PPI的句子。一般来说,使用基于机器学习和统计的方法检测PPI的过程可以被分为三个阶段:建立训练和测试语料库、构建判别词和通过讨论PPI的可能性对测试语料库中的每个摘要进行评分。

一般来说,基于蛋白质共现的简单统计方法往往不能精确地描述蛋白质间的关系,因而会产生比较低的F1值。相反,复杂的统计模型需要大量训练数据估计模型参数,但这在实际应用中通常难以实现。在实际应用中,许多现存的系统都采用了结合来自两个或更多上面所提方法的混合方法以获得较好的性能。

3 所面临的挑战和可能的解决方案

在不久的将来,知识发现工具将在系统生物学中起到关键的作用。近些年来,生物医学的信息抽取已经从简单的基于规则的模式匹配发展到复杂的、应用计算语言学技术的混合解析器。但是知道现在,仍存在一些诸如性能差、无法处理生物实体间可变关系以及被抽取的知识自相矛盾等障碍,以后的发展,必将以解决这些问题作为首要的问题。

[1]陈谋通,刘建军.蛋白质相互作用的研究方法[J].生物技术通报,2009.

[2]冀俊忠,刘志军,刘红欣等.蛋白质相互作用网络功能模块检测的研究综述[J].自动化学报,2014,40(04):577-593.

[3]刘念,马长林,张勇等.基于树核的蛋白质相互作用关系提取的研究[J].华中科技大学学报 (自然科学版),2013(02).

10.16640/j.cnki.37-1222/t.2016.20.207

猜你喜欢
生物医学正确率语言学
广西医科大学生物医学工程一流学科建设成效
蝾螈的皮肤受伤后可快速愈合
个性化护理干预对提高住院患者留取痰标本正确率的影响
课程设置对大学生近视认知的影响
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
美国现代语言学会版《〈红楼梦〉教学法》:要览与反思
生物医学大数据的现状与发展趋势研究
生意
纳米机器人及其发展研究