大数据分析技术及其在医药领域中的应用

2016-12-17 20:36:31张春丽
标记免疫分析与临床 2016年3期
关键词:数据挖掘基因疾病

张春丽,成 彧

(1.北京大学第一医院核医学科,北京100034;2.北京联合大学信息学院,北京100101)

·综 述·

大数据分析技术及其在医药领域中的应用

张春丽1,成 彧2

(1.北京大学第一医院核医学科,北京100034;2.北京联合大学信息学院,北京100101)

随着“大数据时代”的来临,大数据在医药领域中将发挥越来越重要的作用,基于基因组学大数据和现代生物医学技术的个性化医疗,即精准医学,是未来医学的发展方向。如何获取、分类、存储大数据,如何挖掘大数据中有价值的信息,以及如何将大数据有效地应用于医药领域是目前研究的热点领域。本文对大数据及其特征、大数据分析技术以及大数据在医药领域的应用进行综述。

大数据; 大数据分析; 医药; 个性化医疗; 精准医学

随着科学技术的飞速发展,各个领域产生的数据量以爆炸式增长,大数据成为当今的一个热点话题,大数据的分析及应用也成为科技界和企业界甚至世界各国政府关注的一个焦点,“大数据时代”已经来临。如何获取、分类、存储、处理、传输这些海量数据是当前所面临的一个重要课题。通过数据挖掘技术并运用计算机软件可以从大数据中提取出有价值的信息。大数据分析及其应用近年来受到很大关注,大数据被美国政府视为“未来的新石油”,被视为等同于人力资源和物质资源的国家重要战略资源[1]。在医学领域,我们正处在一个医学信息爆炸的时代。基因序列、各种医学图像、电子病历记录和多中心临床药物试验等领域每天产生大量的形式多样的数据,并呈爆炸式增长,使生物医学领域跨入网络化的大数据时代[2]。在这些医药领域,大数据中隐藏着一些具有高价值的医药、保健信息,通过科学有效地利用大数据,可以实现各个医院的病例的共享、流行病发病预测、药物作用预测以及个体化的精准医疗等,从而提高对疾病的预防、诊治水平和药物使用的安全、有效性,并对药物的研发方向具有重要的指导作用。

1 大数据及其特征

大数据是指无法在可容忍的时间内用传统信息技术(IT)和软硬件工具进行感知、获取、管理、处理和服务的数据集合[3]。大数据的特征可以归纳为4个方面,即4V[3]:①数据量巨大(Volume)。来自互联网、物联网、电子商务等各方面的数据量已超越GB级,向TB、PB甚至EB级、ZB级发展。这需要新型的可扩展的储存技术和便于信息查询和调出的数据分配技术[4]I。②模态多(Variety),既有传统的结构化数据,又有文本、视频、图像、语音、网页等半结构化和非结构化数据,数据之间常常关联复杂,这对现有数据库系统是一个挑战。③速度快(Velocity)。数据通常以数据流的形式动态、快速地产生,具有很强的时效性和涌现特征。④价值大,但价值密度低(Value)。大数据的分析、挖掘将对社会的政治、经济和科技等领域的发展起到革命性的作用。正如微软全球副总裁张亚勤2012年4月在博鳌亚洲论坛“大数据、移动、社交媒体:改变商业的创新力量”中所说,大数据是产业大的变革,对IT产业、经济都是一次重要的机遇。在医药领域,大数据分析、挖掘对疾病诊治、药物研发、公共卫生管理和健康危险因素分析等方面均具有十分重要的意义。MGI的分析报告指出:大数据技术可以保障医疗系统安全有效运行,使美国每年减少8%的医疗支出,并多创造3000亿美元的价值[5]。但另一方面,大数据具有价值密度低的特征,我们所采集到的数据既包含有用的数据,又包含大量的冗余的、无意义的数据(噪声)以及虚假的、错误的数据,如何从海量、复杂的数据中获取有用信息是大数据分析技术的一个重要研究内容。

2 大数据分析技术

如前所述,大数据具有价值密度低的特征,必须通过分析、处理对这些数据去伪存真,获得有用的数据及其相互关系,才能得到有价值的信息。大数据应用中的核心技术就是从大量数据中提取出我们所需要的信息并进行分析和处理,因此,大数据分析是决定最终信息是否有价值的决定性因素。大数据分析需要解决的问题主要包括:如何通过构建数据库存储并处理这些大量、生成快速、模态繁多、异构的数据;如何将这些数据的结构标准化,从中提取出有用的信息;如何对大数据资源进行分配;如何实现大数据的安全、可靠传输等。

由于大数据具有数据量大、模态和种类繁多、异构的特征,用传统的数据分析技术很难实现对这些海量数据的分析,需要运用资源云系统对大数据进行资料存储、应用服务和资源共享等。资源云系统的功能主要包括:虚拟化技术、高性能云存储技术、高速云处理技术及数据安全技术[6]。资源云系统是大规模数据存储及应用服务的中心,用户把大数据资源存储到云系统中,当用户需要得到数据资源时可通过互联网获取,当不需要这些数据资源时,还可以删除、释放这些资源[6]。

大数据的分析方法主要包括以下几方面。

2.1 机器学习与数据挖掘算法

机器学习是大数据分析的基础。由于大数据具有复杂、高维、多变等特性,如何从凌乱、无模式和复杂的大数据中挖掘出有用的知识,需要计算机模拟人类的学习过程,进行反馈、深入分析、对不完全的信息进行推理等,即机器学习。神经网络(DNN)是一种机器学习系统,从2009年开始,Dahl等率先在语音处理中使用深度神经网络,将语音识别的错误率显著降低,从而使得语音处理成为成功应用深度机器学习的第一个领域[7]。机器学习算法包括大数据分类、大数据聚类、大数据关联分析、大数据并行算法等[8]。近年来,机器学习在语音识别、光学字符识别(OCR)、人脸识别、图像搜索等应用上取得了突出效果。

数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。数据挖掘算法包括支持向量机(SVM)、期望最大化(EM)、决策树算法、遗传算法等[9]。这些算法主要用于通过机器学习实现大数据的分类,从不同的数据类型和格式中找到有价值的信息。

2.2 预测性分析

预测性分析是一种重要的大数据分析方法,通过科学地建立模型,输入已知的数据,从而对未来进行预测。预测分析的目的并不是要准确告诉人们将来会发生什么,而是预测未来可能发生什么,因为所有的预测分析在本质上都只是一个概率。

预测分析包括获取或检测数据、分析和预测建模,对相关问题做出预测等步骤。如:基于反向传播(back propagation,BP)神经网络的交通数据序列动态可预测性分析[10],基于BP神经网络的矿山GPS数据时间序列预测分析[11],应用SPSS软件对商务运营中的数据进行预测性分析等。

2.3 可视化分析

大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要,可视化分析将数据分析结果用形象直观的方式展示出来,从而能够快速发现数据中蕴含的规律特征,并从系统中挖掘出有用的信息[13]。其优点是方便用户理解,可使非IT人员实现自主大数据的分析与应用。因此,可视化技术既是数据分析的关键技术也是数据分析结果呈现的关键技术。可视化分析通常以人工分析为主,也可根据系统的具体情况借助Tableau、DataWrangler等可视化分析软件进行分析。可视化分析能直观地显示出数据本身具备的特点。其中交互式的展示和超大图的动态化展示值得重点关注。

2.4 语义引擎

语义引擎从词语所表达的语义层次上来认识和处理用户的检索请求,被广泛应用于网络数据挖掘[14]。语义引擎可从用户的搜索关键词、标签关键词等输入语义,分析和判断用户的需求,从而找到用户所需要的数据。

2.5 知识计算

基于大数据的知识计算是大数据分析的基础,知识计算也是目前学术研究的一个热点领域。知识计算需要从大数据中抽取出有价值的知识,并把它构建成可支持查询、分析和计算的知识库。目前,世界各国或各个组织已建立的知识库多达50多种,相关的应用系统达到了上百种。其中,代表性的知识库或应用系统有TextRunner,KnowItAll,PROSPERA,NELL,Probase,SOFIE,Satori以及一些基于维基百科等在线百科知识构建的知识库,如DBpedia,Omega,YAGO和WikiTaxonomy等[15]。.

2.6 数据质量和数据管理

数据质量和数据管理是大数据分析的关键。大数据的质量对其有效应用起着至关重要的作用,使用高质量的数据和有效的数据管理可以更科学、更深入地分析大数据,从而使分析结果更有价值。

由于大数据具有数据量巨大、速度快、多样性高和价值密度低的特点,使其有更大可能产生数据质量问题,即出现不一致、不精确、不完整、过时等问题或者描述同一实体的数据出现冲突(称为实体不同一)等错误。比如,由于数据量巨大,大数据获取、存储、传输和计算过程中可能产生更多错误;由于速度快,数据的大量更新会导致过时数据迅速产生,也更易于产生不一致数据;由于多样性高和价值密度低,使得数据有更大的可能产生不一致和冲突。通过计算机软件进行质量管理包含错误发现、错误修复和容忍错误的近似查询处理等[16]不同方面,但面临计算困难和知识缺乏等挑战。

3 医疗领域实现大数据应用需要解决的主要问题及处理方法

医疗领域的大数据包括各类疾病的信息、病人的病例信息、医学检验信息、医学影像信息、各家医院的管理信息、医院中医生的信息等,随着医疗机构电子化进程的迅速加快,这些多类型的数据在各家医院动态、快速地产生,如何从医疗大数据中提取出有用的信息是目前亟待解决的问题。构建医疗大数据系统需要将各家医院通过互联网连接起来,实现各家医院之间的数据共享[17]。

3.1 数据的结构化和规范化处理

医疗领域中的大数据多是复杂的、非结构化的数据,数据可能包含冗余的、无意义的或不一致的属性,并且数据经常更新,需要通过数据挖掘算法和机器学习等大数据分析技术对这些数据进行分析[3]。通过文本挖掘技术可以实现医疗领域中的电子病历、医院管理信息、医师信息等数据的结构化和规范化,其结合文字处理技术,利用智能算法,通过计算机技术分析大量的半结构化和非结构化文本信息,可抽取散布在文本文件中的有价值的信息。

3.2 数据库系统设计

由于传统的数据库系统已无法实现对医疗领域中包含的规模大、类型多、结构复杂的大数据的存储和处理,因此需要采用资源云系统并根据医疗领域中产生的数据的特征建立数据库,并将这些数据分类存储。利用数据挖掘算法可从这些数据中提取出有用的信息,然后利用高速云处理技术对提取出的信息进行分析处理。

3.3 数据挖掘分析

数据挖掘的核心是数据的特征与属性的提取,并依据特征和属性对数据进行分类[17]。在进行数据挖掘之前需要做好数据的预处理,以改善数据质量,提高数据挖掘结果的有效性和准确性[18]。在进行数据挖掘时需要根据数据的特征、属性和研究目的选择合适的工具和分析方法。数据挖掘分析目前已应用于基因芯片分析、DNA序列比对、医疗文献的挖掘以及医疗数据的可视化等[1]。

3.4 影像信息分析方法

医学影像技术在疾病诊断中的应用越来越普遍,医学影像信息已成为疾病诊断的重要工具。医学影像信息为非结构化数据,在进行影像信息分析时需要运用可视化分析技术、计算机图形学技术及图像处理技术,常用工具有TDA、Cite Space、Histcite、Vxinsight等软件。B超、CT、MRI、SPECT、PET等数据处理技术也可以应用于医学图像的分析[9]。

4 大数据分析技术在医疗领域的应用

大数据分析在医药领域,尤其是医药开发、疾病诊治、疾病危险因素分析、疾病发病预测、个体化的精准医学等方面具有重要意义。

4.1 大数据分析技术在基因生物学中的应用

自1990开始至2004完成的人类基因组计划(Human Genome Project),对人类23对染色体基因中30亿个碱基对进行测序和鉴定,目前已知人类有20500个基因,这些基因在不同微环境中存在很多变异,其表达产物也存在很大差别,可产生大量的数据。同时,人类基因组计划和对人类染色体基因测序的完成,使得与人类基因相关的研究迅速增长。目前,基因组学(Genome)、个人基因组数据库PGP(the Personal Genome Project)等数据库通过互联网,被很多科研人员共享,大量数据快速的产生。分析基因变异与基因表达和各种疾病的相关性对疾病的病因分析、诊断和治疗具有很大意义。数据挖掘技术在基因分析中起到着重要作用[9,19]。

4.1.1 致病基因路径分析

引起一种疾病通常有多个基因,这些基因在病人的不同染色体中不同位置上起着不同的作用。利用大数据技术可从DNA序列中找到与疾病相关的遗传和功能信息,分析不同阶段、不同位置的遗传控制因素,从而进行有针对性的治疗,达到更加有效的治疗效果[3,9]。Alsulami等[20]利用基因通路分析变异基因与血压之间的关系,发现CD47基因与血压之间有显著相关性。

4.1.2 基因序列关联分析

基因研究一个重要的方面是DNA序列中的相似搜索和基因间的差异性比对。基因序列分析可分析基因之间的联系,使用非线性相关统计法、神经网络、分类及聚类算法进行分析可以发现不同基因之间的相似性和差异性[1]。对分别来自带病组织和健康组织的基因序列,进行比较,可以识别致病基因和抑制疾病基因两类基因间的差异,如果在带病样本中出现频度超出健康样本的基因序列,可以研究其为致病基因的可能性;另一方面,如果在带病样本中出现频度低于健康样本的序列,可以研究其为疾病抑制基因的可能性[9]。

大多数疾病并不是由单一基因引起的,而是多个基因组合起来共同起作用的结果。基因序列关联分析方法还可用于帮助确定在目标样本中同时出现的基因种类,以发现致病的基因组和基因间的交叉与联系。

4.2 大数据在致病因素分析中的作用

在病案信息库中有大量的关于病人的病情和病人的个人信息,包括年龄、性别、居住地、职业、生活情况等,通过检索病案数据库中病人的病情信息以及病人的个人信息,使用聚类分析算法等大数据分析技术对这些信息进行关联性分析,可以发现某种疾病与外在环境因素的潜在关系,指导公众远离这些致病因素,以降低某些疾病的发生。Prather等[21]利用数据挖掘技术成功地对Duke大学医学中心的产科病人早产的3个危险因素进行了分析。

4.3 大数据分析技术在疾病诊断和治疗中的应用

使用大数据分析技术可以提高诊断疾病的准确率,对有效地治疗疾病具有重要价值。在临床中不少疾病是错综复杂的,其致病因素差异很大,在不同阶段出现的症状也各不相同,不同疾病之间有时会具有高度相似的临床表现。粗糙集理论、人工神经网络、模糊逻辑分析等数据挖掘分类分析技术可应用于疾病的诊断,根据病人的病历及个人信息对疾病的相关因素进行分析,有助于疾病治疗。秦中广等[22]利用粗糙集理论对类风湿病进行诊断,取得了良好的效果。Kusiak等[23-24]采用大数据分析相关算法对实体性肺结节进行诊断,准确率高达100%。

2015年1月,美国总统奥巴马提出了“精准医学(Precision Medicine)”计划,呼吁美国增加医学研究经费,推动个体化基因组学研究,依据个人基因信息为癌症及其他疾病患者制定个体医疗方案。“个性化医疗”是实现精准医学的关键,个体的复杂性,特别是个体的遗传背景和环境因素的差异性,决定了不同患者采用相同的治疗方式疗效可能存在很大差别。精准医学是基于与患者分子生物病理学特征相匹配的个体化诊断和治疗策略,是未来医学的发展方向。基因组学大数据时代的来临和生物医学技术的迅速发展奠定了精准医疗的可行性。肿瘤为一复杂和多样性疾病,在分子遗传上具有很大异质性,即使相同病理类型的肿瘤患者,对抗癌药物反应也会迥异,因此肿瘤学科成为精准医疗的重要领域之一。近年来,基因的快速、高通量的测序技术为肿瘤发生的危险性预测和靶向治疗等个体化疾病预警、诊断和治疗提供了前提条件[25],间变淋巴瘤激酶、c-ros原癌基因1受体酪氨酸激酶、肝细胞生长因子受体、磷脂酰肌醇3激酶、哺乳动物雷帕霉素靶蛋白、热休克蛋白90等大量靶点的涌现,带动了个体化治疗的热潮;在心血管领域,通过检测相关代谢基因的多态性,可以精确预测个体对药物的反应,减少抗血小板或抗凝治疗带来的风险。

4.4 大数据分析技术在疾病发病预测中的应用

大数据技术的核心就是预测。医疗大数据中包含着大量患者的居住地信息、家族疾病史等个人基本信息,这些信息有助于研究某些疾病发病的家族性和地区区域的分布性。通过大数据分析,还可探讨哪些疾病有明显的家族遗传性,从而进一步分析疾病与基因变化的关系,以通过积极预防或某种干预降低这种疾病的发病率。通过分析疾病与地区区域的关系,可分析疾病发病的区域性特征,以进一步分析该地区的环境因素与疾病发生的关系,消除导致疾病发生的环境因素。于长春等[26]采用数据挖掘技术中的神经网络方法构建了神经网络模型,预测肝癌患者术后复发的情况,取得了较理想的效果。马立伟等[27]采用逻辑分析法和判别分析法,分析了40217名癌症患者和446177名健康体检者血常规、血生化和尿常规数据,建立了基于血常规,血生化和尿常规数据的癌症风险预测模型,通过9931名癌症患者和110077名健康体检者数据的验证,准确率超过95%。表明该模型可以锁定高风险癌症人群,早期预测癌症的风险。孙艳秋等[28]基于大数据分析建立了高血压的预测模型,经验证表明能够有效提高预测的准确率与预测效率。

大数据预测性分析技术可以根据病例预测病情的发展趋势,可使用机器学习方法和人工智能技术对疾病信息进行高效精确的判读,归纳形成规律性的知识,以进行准确的疾病发展模式分析预测[1]。周云辉等[18]在WEKA数据挖掘平台下,通过应用贝叶斯网络(Bayes Net)算法对乳腺癌治疗数据的信息进行挖掘,分析了乳腺癌复发概率与年龄、肿瘤治疗时的恶化程度、是否进行放射治疗的相关性。

大数据分析技术也是传染病流行预测、预警的一把利器。因为传染病的发生、发展、时空分布与地理地貌、生态景观、人文环境有密切关系,特别在全球气候变化和经济全球化背景下,自然环境及人类社会活动对传染病病原体-宿主交互作用的影响越来越重要,因此,时间和空间信息对传染病的预测、预警具有重要意义。利用时空大数据可对传染病疫情的时间、空间信息进行多维搜索,检索、处理和分析这些疫情信息可实现对传染病的流行趋势及影响范围进行预测、预警,对提高传染病防控的针对性、预见性和主动性,抑制流行病的蔓延,以及制定卫生决策都具有十分重要的意义[29]。

4.5 大数据分析技术在医学影像分析中的应用

医学影像,包括SPECT、CT、MRI、PET等,在医学诊断中发挥着越来越重要的作用。大数据分析技术可以应用于医学影像的分析。Sacha等[30]成功地运用基于贝叶斯分类的数据挖掘模式对心肌SPECT图像进行分类诊断。

4.6 大数据分析技术在检验医学中的应用

随着现代医学科学技术如免疫学、细胞学、酶学、分子生物学、电子计算机技术等的突飞猛进,检验医学发展迅速,新设备、新技术、新方法、新项目不断涌现。聚合酶链反应(PCR),尤其是实时荧光定量PCR技术的应用,不仅使临床基因检测更加快速,而且使基因检测进入定量阶段,在临床基因诊断中,如病毒、细菌的基因快速检测,遗传性疾病的诊断,肿瘤的基因诊断等得以较为广泛的应用。免疫检验,包括放射免疫分析、酶免疫分析、荧光免疫分析、时间分辨荧光免疫分析、化学发光免疫分析、电化学发光免疫分析技术的临床应用拓宽了免疫学检测的领域,提高了检测灵敏度,促进了检验过程自动化。流式细胞术进入临床实验室极大地拓宽了临床检验的范围,已应用于细胞DNA、RNA定量及细胞周期分析、细胞表面标志物分析、凋亡细胞的检测等。微生物检验中的全自动培养及鉴定技术和用E-test法选筛出超广谱β-内酰胺酶细菌等新技术,同样促进了临床微生物检验的自动化及标准化。脉冲场电泳技术等应用于病原微生物的基因分型,使得医院感染监测达到分子水平。临床生化检验中的干化学法检测指标已达50多项,检测可高度自动化,提高了批处理能力,缩短了检测时间。生物芯片技术是又一次革命性技术突破,其在高通量基因测序、基因表达研究已经发挥了重要作用,也将在后基因组时代研究蛋白质功能及蛋白质间的相互作用方面发挥其极其重要的作用。随着自动化技术、计算机技术、传感器技术等高新技术的应用,检验仪器的效率不断提高,如SYSMEX CA7000为代表的全自动血凝仪的分析速度可达500PTs/h,一些全自动生化分析仪检测速度可高达每小时5000个测试以上。这些新技术、新方法、新设备的不断涌现,产生着越来越多的检验数据,同时检验数据产生的速度也大大加快,使检验医学进入大数据时代。这些检验数据信息在临床医学中发挥了巨大作用,据统计,检验信息占患者全部信息的60%以上[31],目前,医学检验数据信息也成为疾病诊断、治疗、监测和预后判断等方面的重要依据。

医院实验室信息管理系统(Laboratory Information Management System,LIS)为临床医师构建了一个医学检验数据共享平台,它将粘贴条形码的检验标本和智能化检验仪器(生化分析仪、血液分析仪、血凝分析仪、电解质分析仪、电泳分析仪、电发光分析仪、化学发光分析仪、全自动酶标仪、免疫分析仪、尿液分析仪及尿沉渣工作站、细菌培养及鉴定仪等仪器设备)传出的检验数据经分析后,生成检验报告,通过网络存储在数据库中,从而减少以人工操作的方式来实现检验信息转移,减少在接收检验申请、结果报告和保存记录等工作中可能产生的人为差错,并为检验结果查询提供了更有效的路径,形成了科学规范的实验室工作流程,为临床提供快速、准确、可靠的检验报告,使医生可实时查看检验结果,提高检验结果的响应速度,并可方便地查询病人的历史检验数据,为临床医师及时地分析患者疾病的变化提供了可靠的医学资料。同时,LIS系统将各个独立的分析仪器连在一起,可实现检验科局部的网络化,有利于检验科内部的质量监督及控制。

4.7 大数据分析技术在医院管理中的应用

医疗领域是最早应用计算机技术的领域之一。X光透视影像的数字图像处理系统、γ显像影像处理系统是早期的计算机处理技术的成功应用。目前,各大医院应用的医院综合管理信息系统(HIS)、LIS系统、影像系统(PACS系统)、OA系统等,已形成以电子病历为中心的管理信息系统(EMR),对医院资源的有效管理、医院效益的提高、诊疗水平的提高起着非常重要的作用[17]。

随着区域医疗的发展,将分布在一个城市的若干家医院的电子病历系统通过互联网连接起来,实现医疗信息共享,可减少患者的重复检验,提高医疗效率,充分发挥大医院和名医、专家的对疾病诊治的指导作用。同时,通过机器学习和挖掘分析方法,医师可获得类似症状患者的疾病机理、病因以及治疗方案,从而有助于医师提高诊断和治疗水平。

5 大数据分析技术在药学领域的应用

大数据分析技术的另一个重要的应用领域就是药学领域。在药学领域,各种药物信息和仪器平台的数字化,随时都在产生着大量数据[1]。大数据分析技术可应用于药物作用分析、新药研发等方面,从研究人员寻找靶标、建立模型、寻找化合物等过程中产生的大量数据中挖掘出有用的信息,通过定量的方法分析这些信息,可指导药物研究方案的设计,从而提高药物研发的质量、资源利用率以及研发效 率[19]。

5.1 大数据分析技术在新药研发中的应用

网络药理学和分子对接技术是目前药物研发的重要工具,也是大数据分析技术应用的重要领域[1]。

一个完整的生物体内各个机制的正常运行依靠系统的完整性,通过各个节点之间的相互作用形成稳定、复杂的网络体系。很多疾病的出现是由于稳定的网络体系被打乱,多个节点出现问题[1]。因此,针对单靶点研发的药物效果常常不够理想,借助网络拓扑学理论及研究方法,对疾病所涉及的分子及其相互作用抽象为网络节点和边,利用相关算法进行研究,将解决传统西药以单分子单靶点的研究思路在新药研发中遇到的巨大的瓶颈问题。探索新的算法,开发新的应用程序将是网络药理学研究中的重要内容,建立完整可靠的蛋白网络数据库、疾病网络数据库以及药物网络数据库,将会极大地提升新药研发的能力与水平,加快新药研发的进程[1]。Sun等[32]利用网络药理学技术构建了“冠心病/心肌缺血疾病-靶标-成分(群)”网络,并对冠心丹参滴丸所含的化学成分建立了化合物数据库及与血瘀证相关的主要作用靶点数据库,通过合适的数学模型建立双向关联图,将化合物—靶点网络与生物网络整合在一起,分析了化合物与此网络中心与特定节点上的结合数量与结合程度,从而预测了方剂的有效成分群和有效靶点群。通过实验验证,冠心丹参方主要活性成分丹酚酸B、木犀草素、木犀草苷、山柰酚、三七皂苷R1、丹酚酸B等均具有显著的抗心肌细胞损伤或抗心肌细胞凋亡作用。

分子对接技术(Docking)是计算机辅助药物设计(CADD)的一种常用方法,应用于基于结构的药物设计中。其方法是基于靶分子的空间结构,用多种小分子化合物(如可用小分子化合物数据库中几万种甚至几十万种化合物)进行计算机模拟结合,筛选出与靶分子匹配最佳的小分子化合物进行药物研发[1]。高通量的筛选极大地缩短了药物开发的时间,并可以预测药物分子潜在的作用靶标,为新药研发提供方向性指导[1]。目前常用的Docking工具有DOCK、AutoDock4、surflex、glide、gold、MVD等。分子对接技术在新药研发中目前已取得一定成效,应用分子对接技术研发的HIV-1蛋白酶抑制剂是一个成功的例子,该药物目前以通过FDA的认证并已上市[33]。

利用大数据分析技术还可以更加准确地分析各种药物的作用并针对疾病的特征进行药物研发,从而为病人设计出更好的治疗方案,更加合理地用药,以更有效地治疗疾病。

5.2 大数据分析技术在药物副作用分析中的应用

药物副作用不仅会导致治疗作用减弱、患者发生不良反应,严重时甚至会导致患者死亡,还会引发一些其他疾病(药源性疾病),增加患者的医疗费用。据文献报道,门诊病人药物不良反应的发生率为0.3%~5.0%,住院病人为10% ~20%[34]。美国每年有70多万人因药物副作用受到伤害或死亡,一家有700张床位的医院,每年因药物副作用导致的住院和门诊费用高达560万美元[35]。如果应用大数据分析技术,通过互联网挖掘分析各家医院的药物不良反应信息以及社交网中(如新浪博客、医疗网络论坛)的大量人群服用某种药物的不良反应信息,就能更科学、全面地了解药物副作用的情况,减少药物对患者的伤害,同时减轻患者的经济负担[17]。孙华君等[36]采集了上海市儿童医院信息系统中2012年诊断为“肺炎”的医嘱信息,包括患儿的基本信息、住院时间、用药品种数、联合用药等,分析了其用药合理性。

6 展望

当前社会已经进入大数据时代,随着科学技术的高速发展,与大数据相关的新理论、新方法和新技术正在不断产生。大数据分析技术在医药领域发挥着越来越重要的作用。大数据分析系统的建设和发展将对医药领域及其他各个领域产生重大影响,基于基因组学大数据和现代生物医学技术的个性化医疗,即精准医学,是未来医学的发展方向。大数据分析技术的应用,必将改善人类生活环境,提高人类的生活质量和健康水平。

[1]胡瑞峰,邢小燕,孙桂波,等.大数据时代下生物信息技术在生物医药领域的应用前景.药学学报.2014,49(11):1512-1519.

[2]李国杰.大数据研究:未来科技及经济社会发展的重大战略领域-大数据的研究现状与科学思考.中国科学院院刊,2012,27(6):647-648.

[3]张艳.大数据背景下的生物医学信息处理.生命科学仪器,2014,12(10):17-20.

[4]Merelli I,Pérez-Sánchez H,Gesing S,et al.Managing,analysing,and integrating big data in medical bioinformatics:open problems and future perspectives.Biomed Res Int,2014,134023.

[5]Bollier D.The promise and peril of big data.USA:The Aspen Institute,2010:25-28.

[6]李春辉.“大数据”背景下的计算机信息处理技术分析.电子技术与软件工程,2014,3(9):33-34.

[7]Dahl G E,Yu D,Deng L,et al.Context-Dependent pre-trained deep neural networks for large-vocabulary speech recognition.IEEE Trans.on Audio,Speech,and Language Processing,2012,20(1):30-42.

[8]何清,李宁,罗文娟,等.大数据下的机器学习算法综述.模式识别与人工智能.2014,27(4):327-336.

[9]黄高明.数据挖掘及其在医疗卫生领域中的应用.广西医学,2006,28(2):161-164.

[10]姜桂艳,常安德,牛世峰,等.基于BP神经网络的交通数据序列动态可预测性分析方法.北京工业大学学报,2011,37(7):1019-1026.

[11]赵永未,杨力纲,袁兴明,等.基于BP神经网络的矿山GPS数据时间序列预测分析.科技创新导报,2011,34:123-124,126.

[12]王臻.预测分析帮你掌控未来.计算机世界,2012-08-20030.

[13]陈明.大数据可视化分析.计算机教育,2015,13(5):94-97.

[14]石翌轶,宋自林,尹康银.一种基于语义的Web数据搜索引擎方法研究.山东大学学报(理学版),2006,40(3):25-29.

[15]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述.软件学报,2014,25(9):1889-1908.

[16]王宏志.大数据质量管理:问题与研究进展.科技导报,2014,32(34):78-84.

[17]邹北骥.大数据分析及其在医疗领域中的应用.计算机教育,2014,12(7):26-29.

[18]周云辉,王娇.数据挖掘技术在医疗领域的应用研究.机械工程与自动化,2013,41(4):14-15,18.

[19]李芳薇,吕婷,程瑾,等.国外生物医学科研数据管理服务与启示.中华医学图书情报杂志,2014,23(6):61-65.

[20]Alsulami H,Liu X,Beyene J.Pathway-based analysis of rare and common variants to test for association with blood pressure.BMC Proc,2014,8:S101.

[21]Prather J C,Lobach DF,Goodwin L K,et al.Medical data mining:knowledge discovery in a clinical data warehouse.Proc AMIA Annu Fall Symp,1997:101-105.

[22]秦中广,毛宗源,邓兆智.粗糙集在中医类风湿证候诊断中的应用.中国生物医学工程学报,2001,20(4):357-363.

[23]Kusiak A,Kernstine K H,Kern J A,et al.Data mining:medical and engineeringcasestudies.Proceedingsoftheindustrial engineering research 2000 conference,Cleveland,Ohio,May 21-23.2000.

[24]Kusiak A,Kern J A,Kernstine K H,et al.Autonomous decisionmaking:a data mining approach.IEEE Trans Inf Technol Biomed,2000,4(4):274-284.

[25]Shaikh A R,Butte A J,Schully S D,et al.Collaborative biomedicine in the age of big data:the case of cancer.J Med Internet Res.2014,16(4):e101.

[26]于长春,贺佳,张智坚,等.数据挖掘技术在肝癌术后预测分析中的应用初探.第二军医大学学报,2003,24(11):1241-1243.

[27]马立伟,曾强,吕秋平,等.大数据癌症风险预测系统.世界复合医学,2015,1(1):63-67.

[28]孙艳秋,刘钢.基于大数据分析的潜在高血压病预测研究.计算机仿真,2015,32(5):386-389,342.

[29]屈晓晖,袁武,袁文,等..时空大数据分析技术在传染病预测预警中的应用.中国数字医学,2015,10(8):36-39.

[30]Sacha J P,Goodenday L S,Cios K J.Bayesian learning for cardiac SPECT imaging interpretation.Artif Intell Med,2002,26(1-2):109-143.

[31]张丽,蔡金良.临床检验在医学中的作用.临床医药文献杂志,2015,2(24):5173.

[32]Sun B,Xiao J,Sun X B,et al.Notoginsenoside R1 attenuates cardiac dysfunction in endotoxemic mice:an insight intooestrogen receptor activation and PI3K/Akt signaling.Br J Pharmacol,2013,168(7):1758-1770.

[33]Wlodawer A,Vondrasek J.Inhibitors of HIV-1 protease:a major success of structure-assisted drug design.Ann Rev Biophys Biomol Struct,1998,27:249-284.

[34]Bates D W,Cullen D J,Laid N,et al.Incidence of adverse drug eventsandpotentialadversedrugevents-implicationsfor prevention.JAMA,1995,274(1):29-34.

[35]Bates D W,Spell N,Cullen D J,et al.The costs of adverse drug events in hospitalized patients.JAMA,1997,277(4):307-311.

[36]孙华君,顾之睿,高春辉,等.大数据环境中肺炎住院患儿用药模式的描述性分析.药学服务与研究,2014,14(4):264-267.

(张增武编辑)

Big Data Analysis and Its Application in the Field of Medicine

ZHANG Chun-li,CHENG Yu
(Department of Nuclear Medicine,Peking University First Hospital,Beijing 100034,China)

Big data will play more and more important role in medicine with the coming of“era of big data”.Personalized medicine,i e.precision medicine,based on the genomic big data and modern biomedical technology,is the future direction of medicine.Acquisition,classification,storage of the big data and extraction of the valuable information from the big data are the vivid areas of study.In this paper,the definition and characteristics of big data,big data analysis technology and the application of big data in the field of medicine are reviewed.

Big data; Big data analysis; Medicine; Personalized medicine; Precision medicine

10.11748/bjmy.issn.1006-1703.2016.03.028

2015-11-06;

2015-12-15

猜你喜欢
数据挖掘基因疾病
Frog whisperer
进击的疾病
尿碘与甲状腺疾病的相关性
易与猪大肠杆菌病混淆的腹泻类疾病鉴别诊断
猪业科学(2021年3期)2021-05-21 02:05:54
探讨人工智能与数据挖掘发展趋势
夏季养生之疾病篇
人大建设(2020年5期)2020-11-17 06:59:17
修改基因吉凶未卜
奥秘(2019年8期)2019-08-28 01:47:05
创新基因让招行赢在未来
商周刊(2017年7期)2017-08-22 03:36:21
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
基因