刘妍
摘要近年来,数据挖掘技术不断发展,已经同生物信息技术完美的结合在一起,并取得突破性的进展,生物学的研究方法也发生着较大的变化。伴随着强有力的数据分析技术,数据挖掘技术已经逐步成为现代生物数据库发展的关键,在大规模数据处理方面具有卓越的能力。本文详细总结了数据挖掘技术在基因组图谱数据库、蛋白质数据库和肿瘤数据库中的大量应用,并讨论了数据挖掘技术在未来的发展潜力。
关键词生物数据库;数据挖掘;蛋白质
随着现代生物技术的高速发展,量子力学、蛋白质生物学方面产生的大量数据,可以为基础医学研究提供了可参考的理论依据,而数据库挖掘技术的产生为获得和处理这些数据提供了新的创造性追溯机制。蛋白质结构的多样性,分子量的巨大都超出传统分析和查找技术,为了可以提高分析和推理速度,将数据挖掘技术引用到大分子量蛋白质的数据处理方面,其卓越的能力可见一斑。伴随着网络技术的飞速发展,基因技术在生物研究中的作用越发显著,但是其所需要处理的分子量巨大也对其发展造成一定的影响。
1生物数据库挖掘技术简介
数据挖掘(Data Mining),被用于从数据库中提取、发现和预测数据等,经常用于发现搜寻、分类、分析、关联加工大量有用数据。Shapiro在1989年首次提出数据挖掘技术,随后,数据挖掘技术被广泛应用在各个领域,包括银行、保险、医疗、物流和生物等,并都取得了较好的效果。
近年来,随着数据挖掘技术在临床合理用药方面的应用,降低了我国住院人员药物不良反应的人数,使临床工作人员可以根据疾病种类、病人状况和药理学理论选择最佳用药及用量,同时给予患者最优治疗方案,如用灸法治疗、火针以及中医临床方面的应用,包括小儿肺炎、颈椎病、补益脾肾和老年病等的治疗。此外,数据挖掘技术在对基因表达谱的分析中也发挥着显著的作用,这主要使由于基因表达谱具有大量的数据、分析需求多样性等需求。在目前已知的数据挖掘技术中,聚类法是应用最为广泛的一种挖掘技术,主要应用在肿瘤疾病数据库的创建方面。
2数据挖掘中存在的问题
大多数的数据库具有一定的关联性,因此如何能更有效的利用这些具有一定关联性的数据库成为一个迫在眉睫的问题。领域间的差异,以及系统、编码和结构的多样性,为通用的数据挖掘系统提供了更大的挑战。同时,为了应对数据库的动态更新特性,还必须提供一套实时检测算法,有效的应对这些大量更新的数据。
3常用生物数据库挖掘技术及应用
目前,在市场上出现了大量的数据挖掘软件,而这些软件一般都是基于一个数据库的统计和分析工具,其结合了:计算机数据库、统计学、自分析、自适应、神经网络、遗传算法和信号处理等。并且,很多科研机构和技术开发公司都先后成立了独立的数据信息挖掘部门,其中,美国国家生物技术信息中心、欧洲生物信息研究所和日本信息生物中心。这些研究机构或学术组织致力于研究数据采集工具,同时将传统的统计方法结合先进的自适应算法,如自学习、神经网络、卡尔曼滤波、模糊逻辑和簇聚等。
将数据挖掘技术应用在基因表达图谱上可以为疾病的治疗、检测和预防提供了高效的理论依据。从基因表达图谱计划到蛋白质组学的研究都可以引入数据挖掘技术,特别是在蛋白质序列的表达及其结构预测方面。蛋白质组学在很大程度上依靠数据库技术,目前全球有大量的蛋白质组学数据库使用数据库挖掘技术。蛋白质组学的主要任务之一就是描述基因组中蛋白质编码所执行的功能,并确立蛋白质的相互作用和蛋白质之间的关联结构。从而将从中获得的蛋白质数据分析出来,并且可以在其中自动添加蛋白质注释。基因数据库也都应用了数据挖掘技术,包括GenBank是美国国家生物技术信息中心(National Center for BiotechnologyInformation,NCBI)建立的DNA序列数据库、序列文件,索引文件以及70 000多种生物的核苷酸序列;Ucsc(University of Calibornia Santa Cruz)数据库中包含人类、小鼠等多个物种的基因草图,并提供一系列分析工具,数据挖掘技术就是其中之一。用户可以通过数据库自带的挖掘技术高效和快速的浏览基因组的相关信息,并且可以获得关于这部分基因组的注释。例如已知基因、预测基因、表达序列标签、RNA、克隆组装间隙和重叠,染色体带型,小鼠同源性等,使用者可以根据自身情况添加或者修改相关注释内容;而Ensembl就是使用Ucsc的数据库中的人类基因序列草图为研究基础,兼顾真核生物基因组进行自动诠释并加以维护。相对于蛋白质数据库UniProt,它是整合了Swiss Prot、TrEMBL和PIR-PSD三大数据库的数据组成。数据挖掘技术主要用于基因组测序项目完成后,后续获得的蛋白质序列。它包含大量来自文献的蛋白质生物功能的信息。而在肿瘤数据库Tcga中数据挖掘技术也蕴藏着难以想象的功能,在肿瘤的特殊类别或发展的不同方面都伴随这基因组的特异变化,正是由于这些基因组的改变导致细胞分化、发育和生长通路的不正常,从而引发细胞不正常地失控增值和生长。而Tcga数据库采用的数据挖掘技术正试图通过应用基因组分析技术特别是采用大规模的基因组测序,将癌症的基因组变异图谱绘制出来。通过数据挖掘技术系统的分析,从而找到所有致癌或抑制癌症基因的微变化。了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以创立治疗癌症的最优词略。Tcga迄今为止已经成为世界上最大一项基因工程,其绘制的癌症基因图谱有助于把研究人员从目前逐个追踪基因的大量劳动中解放出来,可以快速开发和设计最优抗癌药物。目前已经将肺癌、神经酵母细胞瘤和卵巢癌三种头号癌症和肿瘤的基因组谱确立研究的重点。然后利用数据挖掘技术,在Tcga数据库中系统的找出并明确与癌症相关的基因变异以及其他变异。在数据库KEGG中为了了解高级功能和生物系统,尤其是大型分子型数据集成生成的基因组测序和其他高通量试验技术的使用程序数据库资源。在后基因时代一个重大的挑战就是如何利用细胞在计算机上完整的表达和预测,同时利用挖掘技术对较高层次和复杂细胞活动做出正确的计算预测。所给出的大量染色体信息中,蛋白质相互作用的网络预测提供高校的计算方法。
4总结和展望
随着大数据和网络时代的到来,数据挖掘技术逐渐演变成大规模数据库中数据分析和提取的重要手段之一。将生物学与信息挖掘技术相结合已经逐渐成为生物数据库发展进程的关键技术之一。本文主要研究大型数据库技术和数据挖掘技术在基因数据库、肿瘤数据库和蛋白质数据库中的应用,总结了数据挖掘技术在生物数据处理方面的应用特点,发现数据挖掘技术以适应生物数据连续、大量及网络性等特点,在基因表达、蛋白质预测、医疗诊断等方面发挥着突出贡献。