基于DNA序列比对的肺癌早期发现及预防系统设计

2018-02-22 12:32黄悦王婷胡益祥张红伟
无线互联科技 2018年23期
关键词:预防肺癌数据库

黄悦 王婷 胡益祥 张红伟

摘 要:为实现肺癌的早发现、早预防、早治疗,从而降低肺癌的发病概率,提高发病后的治愈效果,文章从生物医学文献数据库(PubMed)收集已知的肺癌致病基因位点并建立肺癌样本数据库,将已建立的肺癌数据库与样本DNA进行序列比对,根据比对结果,判断样本人群是否携带肺癌的致病基因,然后依据美国卡内基梅隆大学的关于肺癌治疗数据库,提供预防及治疗意见。

关键词:肺癌;数据库;DNA序列比对;早期发现;预防

肺部恶性肿瘤是一种多发的、严重的癌症,其死亡率在全世界癌症中居首位,肺癌高死亡率主要是因为癌症发现时候已经是晚期[1],因此,如何对肺癌的早期发现、干预以及治疗成为现代医学热切关注的问题。癌症的常规疗法包括外科手术、化学治疗和放射治疗。化学治疗也被称为药物治疗,在癌症治疗中一直发挥着重要作用,但是其结果却受到其剂量依赖性毒性的影响,目前药物治疗的效果已经进入平台期。而随着对肺癌发病机制等认识日益深化,目前研究已发现一些基因与肺癌相关,包括EGFR,TP53,AKT1,DDR2,FGFR1,KRAS,PTEN等其他基因[2-8],许多针对靶基因的研究已进入临床实验阶段。基因治疗作为一种高效、特异性、靶向性强的治疗方法,越来越受到广大医学者的重视[9]。针对肺癌的发生、发展和转移等各个阶段以及治疗靶位的不同,现代基因疗法可以概括为以下几种类型:阻碍原癌基因过量表达治疗、补偿抑癌基因表达治疗、抗血管生成基因治疗、自杀基因治疗和免疫基因治疗[10]。另外,癌症致病基因的早发现、早干预、早治疗也是降低肺癌发病率、提高治疗效果的关键。序列比对作为癌症致病基因的早发现、早干预及基因治疗中的关键步骤,以其精确的算法和高准确率正成为肺癌基因治疗中的研究热点。本研究将增大导致肺癌发生风险率的基因数据存入数据库中,将样本人群的测序基因同数据库中的致病基因进行比对。根据比对结果分析是否存在患病风险,并设计相应的基因治疗方案,从而实现肺癌的早发现、早干预、早治疗,进而达到降低发病概率、提高治愈效果的目的。

1 材料与方法

1.1 资料和数据

从生物医学文献数据库PubMed中收集文献找出肺癌致病基因位点。从高通量基因表达谱数据库(Gene Expression Database,GEO)中下载患者肺癌和癌旁组织样本。每个样本的数据大小约为15~20 GB。本项目筛选出69组癌与癌旁组织测序数据,该批样本中男性患者共计39名,女性患者共计30名,各年龄段患者均有涉及。

1.2 方法

1.2.1 找出肺癌致病基因位点,创建肺癌DNA样本数据库

在高通量基因表达谱数据库(GEO)中检索微阵列原始数据,通过R软件对原始微阵列数据进行标准化。利用GEO2R软件筛选差异表达基因,并进行聚类分析。利用STRING构建由差异表达基因所翻译的蛋白质之间的相互作用(Protein-Protein Interaction,PPI)网络。通過Cytoscape选取具有关键蛋白的网络模块并确定枢纽蛋白,找出肺癌致病基因位点。利用MySQL创建肺癌DNA样本数据库,将找出的致病基因位点存入数据库。

1.2.2 DNA序列比对技术

DNA序列比对是根据一个给定的计分函数计算得到两个或多个碱基序列的最优比对,即对两个或多个碱基(在核酸中是A,T(或U),C,G,在蛋白质中是氨基酸残基的单字母表示)序列通过匹配相对应的碱基或插入“—”来显示插入或删除,进行相似度分析,从而得到序列之间的最大相似性排列[11]。通过序列比对,找出序列之间的相似性,发现与结构相联系的保守序列片段,以及检测新测定序列与数据库中已知结构和功能的序列之间的相似性关系,从而以足够的可信度确定新序列的结构和功能信息。研究中将已建立的肺癌数据库与样本DNA序列进行比对,获得序列在基因组上的位置信息以及相应的比对结果。

1.2.3 根据比对结果提供预防及治疗意见

使用美国卡内基梅隆大学的关于肺癌治疗数据库,将细胞类型、病人存活时间、状态、患者生活质量评分、治疗起始时间、年龄的数据作为输入因子,将要预测的肺癌治疗手段作为输出因子,在分析与肺癌有关的各属性的统计数值之后,对其中与产量有着密切关系的属性加以着重考虑,与DNA序列比对结果进行比较,给出最佳的治疗建议。技术路线如图1所示。

2 结果

首先将已建立的肺癌样本数据库与用户DNA序列进行比对,获得序列在基因组上的位置信息以及相应的比对结果。利用C#实现序列算法将用户序列数据回帖至样本数据库中以获得序列在基因组上的准确位置。再通过聚类分析,识别错配位点并进行多重校正算法检验,识别出癌与癌旁组织中的特异性位点,降低识别结果中的假阳性,为后续分析提供良好基础。

将样本人群的测序基因同数据库中的致病基因进行序列比对,比对的结果反映了在多大程度上序列之间的相似性关系以及它们的生物学特征,指明序列间的保守区域和不同之处,为进一步研究它们在结构、功能的联系提供了重要的参考依据。最后根据比对结果分析是否存在患病风险,并设计相应的基因治疗方案,从而实现肺癌的早发现、早干预、早治疗,进而达到降低发病概率、提高治愈效果的目的。

3 讨论

本研究根据筛选出的肺癌致病基因位点建立数据库,通过DNA序列比对算法,将样本DNA序列和数据库内的致病基因进行比对,检测样本人群是否携带肺癌的致病基因,实现肺癌的早发现、早预防、早治疗,从而降低发病概率,提高治愈效果。

深入分析DNA序列比对与癌症发现及预防的关系,着重从创建肺癌DNA样本数据库、DNA序列比对技术、分析比对结果并提供意见这3个方面进行研究。在分析肺癌基因位点并研究多序列比对技术的基础上,提出了基于DNA序列比对的肺癌早期发现及预防方案,并采用C#程序设计语言和数据库技术建立了框架和平台,实现了样本数据的集成、存储、管理与利用,保证了各个系统之间数据可共享交换,为序列比对及治疗建议提供了数据支撑,为样本数据的集成应用奠定了基础。

使用PubMed数据库作为查找工具。PubMed是一个免费搜寻引擎,它提供生物医学方面的论文搜寻以及摘要,数据库来源为MEDLINE,核心主题为医学。MySQL是本项目所使用的一个关系型数据库管理系统,用来写入包含致病基因的DNA序列,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL目前属于Oracle旗下产品,是最流行的关系型数据库管理系统之一,是最好的关系数据库管理系统(Relational Database Management System,RDBMS)应用软件。使用C#作为实现DNA序列比对算法的主要工具,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。

随着生物信息学的迅速发展,国内外学者对该领域的关注度持续增高,产生了许多基于基因序列比对的算法研究。基因序列比对是生物信息学最基本、最重要的操作,是进行基因识别、信息分析、結构预测等问题的前提。本项目采用借用DNA序列比对算法对生物序列进行相似性比较,从而判断出用户DNA序列与肺癌样本数据库中序列的一致性程度。并根据设定的阈值,结合肺癌治疗数据库提供治疗建议。

[参考文献]

[1]SIEGEL R L,MILLER K D,JEMAL A.Cancer statistics[J].Ca A Cancer Journal for Clinicians,2014(1):5-29.

[2]CABANERO M,SANGHA R,SHEFFIELD B S,et al.Management of EGFR-mutated non–small-cell lung cancer: practical implications from a clinical and pathology perspective[J].Current Oncology,2017(24):111-119.

[3]LABBE C,CABANERO M,KORPANTY G J,et al.Prognostic and predictive effects of TP53 co-mutation in patients with EGFR-mutated non–small cell lung cancer(NSCLC)[J].Lung Cancer,2017(111):23-29.

[4]RAO G,PIEROBON M,KIM I K,et al.Inhibition of AKT1 signaling promotes invasion and metastasis of non-small cell lung cancer cells with K-RAS or EGFR mutations[J].Scientific Reports,2017(1):7066.

[5]FATHI Z,MOUSAVI S A J,ROUDI R,et al.Distribution of KRAS,DDR2,and TP53 gene mutations in lung cancer: An analysis of Iranian patients[J].PLoS One,2018(7):633.

[6]MALCHERS F,ERCANOGLU M,SCH?TTE D,et al.Mechanisms of primary drug resistance in FGFR1-amplified lung cancer[J].Clinical Cancer Research,2017(18):5527-5536.

[7]VANDERLAAN P A,RANGACHARI D,MOCKUS S M,et al.Mutations in TP53,PIK3CA,PTEN and other genes in EGFR mutated lung cancers: correlation with clinical outcomes[J].Lung Cancer,2017(106):17-21.

[8]PROS E,LANTUEJOUL S,SANCHEZ-VERDE L,et al.Determining the profiles and parameters for gene amplification testing of growth factor receptors in lung cancer[J].International Journal of Cancer,2013(4):898-907.

[9]HANNA E,R?MUZAT C,AUQUIER P,et al.Gene therapies development: slow progress and promising prospect[J].Journal of Market Access & Health Policy,2017(1):1265293.

[10]PRABHA S,SHARMA B,LABHASETWAR V.Inhibition of tumor angiogenesis and growth by nanoparticle-mediated p53 gene therapy in mice[J].Cancer Gene Therapy,2012(8):530-537.

[11]谢少荣,王东红,罗均,等.基于生物信息学中双DNA序列比对算法的图像立体匹配及其实现[J].光学精密工程,2007(1):106-111.

Abstract:In order to achieve early detection, early prevention and early treatment of lung cancer, thereby reducing the incidence of lung cancer and improving the healing effect after onset, the article collected known lung cancer pathogenic gene loci and established lung cancer samples from the PubMed database. The database compares the established lung cancer database with the sample DNA, and judges whether the sample population carries the disease-causing gene of lung cancer according to the comparison result, and then provides prevention and treatment advice according to the database of lung cancer treatment of Carnegie Mellon University.

Key words:lung cancer; database; DNA sequence alignment; early detection; prevention

猜你喜欢
预防肺癌数据库
中医防治肺癌术后并发症
对比增强磁敏感加权成像对肺癌脑转移瘤检出的研究
浅谈跑步运动中膝关节的损伤和预防
microRNA-205在人非小细胞肺癌中的表达及临床意义
基于肺癌CT的决策树模型在肺癌诊断中的应用