基于元数据的异构蛋白质-蛋白质相互作用数据库整合

2010-09-11 01:46张正国

中国生物医学工程学报 2010年2期

关键词：中间件字段异构

张智张正国

(中国医学科学院基础医学研究所北京协和医学院基础学院，北京 100005)

基于元数据的异构蛋白质-蛋白质相互作用数据库整合

张智张正国*

(中国医学科学院基础医学研究所北京协和医学院基础学院，北京 100005)

研究蛋白质-蛋白质相互作用是理解生命活动的基础。在蛋白质-蛋白质相互作用的研究过程中，产生了大量来源于实验和预测的数据。这些数据存储于彼此异构的数据库中。对上述异构数据库进行数据整合是实现共享和最大限度利用已有蛋白质-蛋白质相互作用数据必须解决的关键问题。据此问题提出了基于元数据理论和查询转换方法的异构数据库整合方案，并构建了一个基于网络的蛋白质-蛋白质相互作用相关异构数据库的整合平台，成功实现了对9个蛋白质-蛋白质相互作用数据库的整合。

蛋白质-蛋白质相互作用;异构数据库;数据整合;元数据

Abstract:Protein-protein interactions(PPIs)are fundamental for understanding of the biological processes of life.In the course of the study of PPIs，a large amount of data which came from experiments and predictions have been generated，and are stored in heterogeneous databases.In order to implement data sharing and maximize the use of data，it is required that these heterogeneous databases be integrated.This paper presented a solution based on the query translation technique and metadata theory to integrate heterogeneous databases.A web-based platform for integrating heterogeneous protein-protein interaction databases was built，and 9 PPI databases were integrated successfully.

Key words:protein-protein interaction(PPI);heterogeneous database;data integration;metadata

引言

随着人类基因组计划的完成，后基因组时代到来。对基因组的全套蛋白质产物的研究是后基因组时代的主要研究领域。生物体中绝大多数蛋白质都是在相互联系和相互制约的过程中，形成复杂的蛋白质复合体和相互作用网络，从而发挥其功能活性的。因此，对蛋白质-蛋白质相互作用(proteinprotein interaction，PPI)的研究有利于人类认识影响生命进程的规律。

在PPI的研究过程中，产生了大量来源于实验和预测的数据。这些数据的整合不但有利于验证实验结果、提高实验结果的可信度，而且还有利于开发更为完整的生物系统模型［1］。这些数据存储于彼此异构的数据库中，对这些异构数据库(heterogeneousdatabase)进行数据整合(data integration)是实现共享和最大限度利用已有PPI数据必须解决的关键问题。然而，技术性异构(technical heterogeneity)和语义性异构(semantic heterogeneity)的存在严重阻碍了数据整合。技术性异构是由于数据存储方式不同，访问方法不同和查询语言不同造成的异构;语义性异构是由于数据库模式(schema)不同和数据库入口(entry)不同造成的异构［2］。消除以上两种形式的异构是数据整合的基本目标。

鉴于数据整合的必要性和重要性，研究者们进行了大量有益的工作和探索。Sun 等［3］和 Huang［4］等提出了基于XML的方法，成功避免了复杂的数据库模式的转换。但是该方法很大程度上依赖于解析XML文件的性能和可靠性，当数据量较大时效率较低。Jayapandian 等［5］和 Chaurasia 等［6］采用基于数据转换的方法，并在转换时进行了消除冗余的工作，成功的深度整合了若干PPI数据库。但由于数据转换耗费机时，数据整合成本及维护成本过高。Köhler等［7］采用基于本体(ontology)的语义整合方法实现了将序列、通路、遗传病和蛋白酶等多类数据库的整合。该方法适用于多种面向不同生物学对象的数据库整合。然而，对于语义过于简单的单一类型数据库的整合，该方法并不适用。

为了进一步提高数据整合的效率、降低数据整合成本和维护成本，并根据所整合数据库的面向单一对象的特点，本研究提出了基于元数据(metadata)理论和查询转换方法的异构数据库整合方案。本研究将构建一个基于网络的异构数据库系统(heterogeneous database system，HDBS)，为用户提供对各异构数据库的透明访问，为应用程序提供一个全局的、一致的数据库访问接口。

1 材料和方法

1.1 设备和数据

本研究采用服务器的硬件配置:中央处理器为英特尔至强(Intel Xeon)E5530;内存类型为DDR2 ECC，容量为4 GB;硬盘类型为SATA，容量为5 TB。服务器的系统软件全部采用免费软件或开源软件。操作系统采用运行稳定高效的Linux系统Debian 5，数据库服务器采用关系型数据库MySQL 5.0.51，网络服务器采用Tomcat 6.0.20;Java编程环境为Java EE 6。采用的数据来源于9个最具代表性的PPI数据库，如表1所示。这些数据库提供的原始数据文件类型包括:文本文件，BioPAX2文件，Excel文件，PSI-MI/PSI-MI25文件，SBML 文件和 XIN 文件等，这些数据库都同时存在技术性异构和语义性异构。

表1 蛋白质-蛋白质相互作用数据库Tab.1 Protein-protein interaction database

1.2 方法

1.2.1 消除技术性异构

采用将原始 PPI数据转换为MySQL数据库的方法消除技术性异构，流程如图1所示。多种格式的9个PPI原始数据通过Java数据转换程序把PPI的信息提取出来。根据原始数据文件的格式，采用了两种文件解析器。XML解析器用于解析基于XML格式的文件。TAB解析器用于解析以制表符分割的文本格式文件。然后，通过MySQL提供的驱动程序，使用 Java数据库互连(Java database connectivity，JDBC)应用程序编程接口，把提取出的PPI信息存储到9个对应于原始数据集的MySQL数据库。

1.2.2 消除语义性异构

结合使用两种方法解决语义性异构的问题，即元数据方法和查询转换方法。在数据处理中，元数据是一种定义性数据，它提供在某个应用程序和环境中所管理的数据的信息。所采用的PPI数据库都是采用字段来对资源进行描述的。但是，这些数据库的字段设置存在的差异表现在字段的数目、内容和含义不同。对于数据库整合而言，要求为用户提供统一的数据库视图。本研究提出了一种包括16个元素的PPI元数据，如表2所示。该元数据是消除语义性异构的数据结构基础。每个PPI数据库的字段都与该元数据建立了映射关系，并构建成了一个供数据库访问接口使用的字段-元数据映射表。这使得各数据库中字段设置的差异问题得到解决。所有数据库都使用元数据中的16个元素描述所存储的数据，实现了字段的对齐、字段内容的统一以及字段含义的一致。

图1 消除技术性异构的流程Fig.1 The procedure of eliminating technical heterogeneity

表2 蛋白质-蛋白质相互作用元数据Tab.2 Protein-protein interaction metadata

图2 查询转换方法Fig.2 The method of query translation

通过建立元数据，从形式上消除语义性异构的基础上，本研究采用基于查询转换的方法，从技术角度实现了消除语义性异构，如图2所示。本研究采用中间件(middleware)技术实现查询转换功能。查询转换中间件提供的功能如下:当提交用户查询的请求时，在字段-元数据映射表的帮助下将查询拆分为面向各个互相独立的PPI数据库的子查询，并通过数据库访问接口在1.2.1中构建的9个MySQL数据库中执行所有子查询。当所有子查询的结果记录集返回时，在字段-元数据映射表的帮助下对查询结果进行整合，以统一的形式返回给用户。

1.2.3 网络应用系统的构建

以网络应用的形式为用户提供PPI数据整合的系统。网络应用系统的架构如图3所示。该系统分为3个部分:展现层(presentation layer)、服务层(service layer)和持久层(persistence layer)。展现层负责用户与服务器之间的数据交互，以JSP页面作为展现层的技术实现。服务层负责整个网络应用系统的业务逻辑，以 Java EE服务器作为其容器(container)。该层包括3个组件:查询转换中间件、JDBC和数据维护服务。查询转换中间件实现了

1.2.2中所述的查询转换方法。JDBC实现了Java与MySQL数据库的互联。数据维护服务实现了对PPI数据库的构建和更新服务。持久层定义和维护了网络应用系统基础数据的存取规则。服务层是网络系统的中枢。它根据由展现层得到得用户查询请求，从持久层获取用户所需数据，并将这些数据返回给展现层，进而返回给用户。

图3 网络应用系统架构Fig.3 Architecture of web application system

2 结果

利用所编写的Java程序完成了将9个原始PPI数据集转换存储到MySQL数据库的工作，形成了由MySQL统一管理的9个对应于原始数据集的相对独立的新数据库，其存储容量约为1 GB，所存储的PPI记录共为1 298 032条。

采用基于元数据理论和查询转换方法的异构数据库整合方法，构建了一个基于网络的PPI异构数据库系统。该系统查询界面如图4(a)所示。可以在区域①处以单列列表的形式输入蛋白质ID或名称，并可以在区域②处按照蛋白质所属物种、PPI类型和PPI鉴定方法进行查询范围的限定，最后点击区域③处的提交按钮进行查询。本系统以PPI元数据列表形式返回查询结果，如图4(b)所示。表头为PPI元数据包括的16个元素的名称，表内容为各个PPI数据库中对应的数据值。

3 讨论

本研究提出了基于元数据理论和查询转换方法的异构数据库整合方案。一方面，该方案提出了一种蛋白质-蛋白质相互作用元数据，并通过该元数据确保了各异构数据库的一致性和统一性。另一方面，该方案通过查询转换技术在保持了所有异构数据库各自独立性的前提下，确保了对各异构数据库的查询和无缝整合，并有效降低了数据整合的成本。

本研究所提出的异构数据库整合方案具有可扩展性。该方案不但可以应用于本地异构数据库的整合，也适用于分布式异构数据库的整合。对于分布式数据库，只需构建该数据库字段与PPI元数据的映射表，同时在数据库访问接口中设定该数据库的连接字串即可。

所涉及的所有软件均为免费软件或开源软件。本研究基于以下几点因素使用免费软件或开源软件:第一，安全性好;第二，可靠性和稳定性高;第三，杜绝盗版，遵守知识产权条约和世贸组织规定;第四，降低研究和开发成本。免费软件或开源软件满足了本研究涉及的异构数据库系统全部的设计需求，并在实际应用中取得出了令人满意的效果。

采用将原始 PPI数据转换为MySQL数据库的方法成功解决了技术性异构的问题。存储方式得到统一。本研究采用的9个PPI数据库的数据都已经存储到MySQL数据库中。数据库中表的存储格式都为MyISAM类型，存储字符集都为UTF-8类型。访问方式得到统一。本研究采用JDBC数据库编程接口访问MySQL数据库。查询语言得到统一。采用MySQL支持的结构化查询语言进行数据库查询。

采用中间件技术作为查询转换方法的实现形式。查询转换中间件提供的程序接口定义了一个相对稳定的高层应用环境，不论底层的计算机硬件和系统软件怎样更新换代，只要将中间件升级更新，并保持中间件对外的接口定义不变，应用程序几乎不需任何修改，从而节约了在应用软件开发和维护中的大量投入。

本系统在整合的过程中保留了各异构数据库中的冗余信息。保留冗余信息可以保持数据库信息的多样性。不同数据库描述同一个蛋白质的方式和角度存在不同，而用户希望了解到这些存在互补性的信息。同时，可以避免在查询转换的结果整合过程中的消除冗余信息操作，提高了系统的效率和反应时间。

4 结论

本研究利用免费软件或开源软件，采用基于元数据理论和查询转换方法的异构数据库整合方案，构建了一个基于网络的PPI相关异构数据库的整合平台，成功地解决了PPI数据库整合中的异构问题，并实现了对9个PPI数据库的整合。本研究提出了一种蛋白质-蛋白质相互作用的元数据，有效地解决了蛋白质-蛋白质相互作用描述的一致性和统一性。本研究使用了基于查询转换方法的异构数据库整合方法，保证了各数据库的相对独立性，降低了系统维护成本，并且提高了相关程序的可扩展性和可维护性。基于网络的蛋白质-蛋白质相互作用相关异构数据库整合平台使研究人员能够更加有效的利用PPI信息，从而促进相关科学研究的进展。

［1］Mathew JP，Taylor BS，Bader GD，et al.From bytes to bedside:data integration and computational biology for translational cancer research［J］.PLoS Computational Biology，2007，3(2):e12.

［2］Köhler J.Integration of Life Science Databases［J］.Drugs Discovery Today:Bio Silico，2004，2:61-69.

［3］Yihua H，Tianyun N，Lei Z，et al.JXP4BIGI:a generalized，Java XML-based approach for biological information gathering and integration ［J］.Bioinformatics，2003，19(18):2351-2358.

［4］Yudong S，Steve M.Converting biomolecular modeling data based on an XML representation ［J］.Journal of Integrative Bioinformatics，2008，5(2):95.

［5］Jayapandian M，Chapman A，Tarcea VG，et al.Michigan Molecular Interactions(MiMI):puttingthejigsaw puzzle together［J］.Nucleic Acids Res，2007，35(Database issue):D566-D571.

［6］Chaurasia G，Iqbal Y，Hänig C，et al.UniHI:an entry gate to the human protein interactome［J］.Nucleic Acids Res，2007，35(Database issue):D590-D594.

［7］Köhler J，Philippi S，Lange M.SEMEDA:ontology based semantic integration of biological databases［J］.Bioinformatics，2003，19(18):2420-2427.

［8］Chris S，Bobby-JoeB，TeresaR，etal.TheBioGRID Interaction Database:2008 update ［J］.Nucleic Acids Research，2008，36(Database issue):D637-D640.

［9］Ioannis X，Lukasz S，Xiaoqun JD，et al.DIP，the Database of Interacting Proteins:a research toolfor studying cellular networks of protein interactions［J］.Nucleic Acids Research，2002，30(1):303-305.

［10］Fu W，Sanders-Beer BE，Katz KS，et al.Human immunodeficiencyvirustype 1，human protein interaction database at NCBI［J］.Nucleic Acids Research，2008 Oct 15.［Epub ahead of print］

［11］Maria P，Arnaud C，Caius G，et al.HomoMINT:an inferred human network based on orthology mapping of protein interactions discovered in model organisms ［J］.BMC Bioinformatics，2005，6(Suppl 4):S21.

［12］Gopa M，SureshM，KumaranK，etal.Humanprotein reference database—2006 update［J］.Nucleic Acids Research，2006，34(Database Issue):D411-D414.

［13］Kerrien S，Alam-Faruque Y，Aranda B，et al.IntAct—open source resource for molecular interaction data ［J］.Nucleic Acids Research，2007，35(Database issue):D561-D565.

［14］Andrew C，Arnaud C，Luisa MP，et al.MINT:the Molecular INTeraction database［J］.Nucleic Acids Research，2007，35(Database issue):D572-D574.

［15］Pagel P，Kovac S，Oesterheld M，et al.The MIPS mammalian protein-protein interaction database ［J］.Bioinformatics，2005，21(6):832-834.

［16］Imre V，Peter D，Esther S，et al.Reactome:a knowledge base of biologic pathways and processes［J］.Genome Biology，2007，8(3):R39.

Integrating Heterogeneous Protein-Protein Interaction Databases Based on Metadata

ZHANG ZhiZHANG Zheng-Guo*
(Institute of Basic Medical Sciences，Chinese Academy of Medical Sciences，Peking Union Medical College，Beijing 100005，China)

R318

0258-8021(2010)02-0201-06

10.3969/j.issn.0258-8021.2010.02.008

2009-11-20，

2010-02-24

中华医学基金(CMB03-787)

*通讯作者。 zhangzg126@126.com