大数据背景下的生物医学信息处理

2014-04-23 05:20:50张艳

生命科学仪器 2014年5期

张艳

（1.上海理工大学光电信息与计算机工程学院，上海 200093；2.复旦大学数字医学研究中心，上海市医学图像处理与计算机辅助手术重点实验室；上海 200032）

引言

近年来，信息技术的进步让生物医学成为科技发展最迅速的领域之一，基因序列、各种医学图像、病历记录和多中心临床药物试验等领域每天产生大量各类数据，并呈爆炸式增长，使生物医学信息处理跨入网络化的大数据时代[1,2]。研究人员、临床医生和医疗监管机构如何有效存储、分类、处理和挖掘这些复杂、丰富的生物医学信息，发现蕴藏在大量数据集中的有用知识，并最大程度地减少安全、伦理等相关问题造成的负面影响，对揭示人体奥秘、提高人类健康水平有着十分重要的科学价值和现实意义。

1 大数据

1.1 大数据的基本概念和特征

大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具进行感知、获取、管理、处理和服务的数据集合[1]。现实社会中来自网络搜索引擎、电子商务、交通监控、物联网等各方面的数据已经跨越GB级，向TB, PB甚至EB（1018）级发展，人类社会已经迈入大数据时代。大数据的时代特征可以归纳为4个方面，即4V[1]：（1）数据量浩大（Volume）——数据集合的规模不断扩大，已从GB到PB级，甚至以EB和ZB来计数。近年来，基因组学（Genome）、蛋白组学（Proteome）、脑连接网络等研究产生大量数据。个人基因组数据库PGP（the Personal Genome Project）、欧洲癫痫病数据库EDE（the European Data base on Epilepsy）等数据库通过互联网，被很多科研人员共享，使数据量在横向上迅速增大[3]。（2）模态繁多、异构（Variety）——大量数据是结构化、半结构化和非结构化数据，数据之间的复杂关联无处不在。（3）生成快速（Velocity）——数据以数据流的形式动态、快速地产生，具有很强的时效性和涌现特征。（4）价值巨大（Value）——大数据的分析、挖掘将对社会的政治、经济和科技等诸多领域的发展起到革命性的作用。尤其是对医药研发、疾病诊疗、公共卫生管理和健康危险因素分析等方面有重要意义。MGI的分析报告指出：大数据技术可以保障医疗系统安全有效运行，让美国每年减少8%的医疗支出，并多创造3000亿美元的价值[4]。

1.2 生物医学数据的特殊性

来自生物、医药、医械、临床实验与健康管理等各个方面的数据，构成生物医学的各类大数据资源，它们形式多样，具有自身的特殊性，主要表现在以下几个方面：

（1）原始数据量大，且呈异构、多样性。

（2）难以用数学方式表达其结构及特征。例如：医生对医学影像、信号和其他临床数据的解释多是非结构化的语言或文字形式自由的口述，难以标准化。

（3）数据可能包含冗余的、无意义的或不一致的属性，并且数据经常要更新。

（4）数据采集很难完全避免噪声干扰，而噪声往往会影响处理结果。

生物医学大数据处理包括数据的收集、抽取与集成、分析与挖掘、解释和共享等诸多方面，涉及数据库、信息科学、统计学、高性能计算、网络科学、心理学等多个领域。

2 生物医学信息处理

2.1 数据挖掘在生物医学信息分析中的应用

数据挖掘是对海量数据进行处理和分析，找出数据间的隐含联系，发现未知规律，最终获得知识的过程。挖掘的过程包括信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤[5]。近年来，数据挖掘是生物医学信息分析的常用手段，尤其是在循证医学研究、基因组和蛋白质组的研究领域中有很广泛的应用价值。KDNuggets在2011年全球数据挖掘应用行业调查的结果表明：健康行业位居10大数据挖掘应用领域的第3位[5]。

生物医学领域大数据多是不完整的、不一致的、有噪声的，数据具有独特的复杂性、丰富性、规模和重要性，需要数据挖掘的特殊关注。数据挖掘经典算法，如：分类、聚类、关联分析、序列等在生物医学数据挖掘时都可使用[5,6]。

2.1.1分类（Classi fi cation）

图1糖尿病患病因素分析决策树

分类是根据己知数据的特征和分类结果，为每个类找到合理的模型(构造分类器)，然后用这些模型对新数据进行分类。K最邻近算法、决策树、支持向量机、神经网络等是常用的分类模型构造方法。疾病的诊断和鉴别就是典型的分类过程。例如：美国学者利用数据挖掘软件Clementine，以决策树算法为模型，分析挖掘了医疗机构HealthOrg的数据仓库中有关年龄、BMI指数、腰臀比和周锻炼次数等数据，得出糖尿病患病危险因素的分析结果（如图1）[7]。此外，还有一些国内外研究者针对肺癌、乳腺癌的诊断数据，通过分类挖掘的方法提高诊断的精确性[8,9]。

2.1.2聚类（Clustering）分析

聚类分析是将有共同特征或相似度高的数据对象实例聚成一类的过程，常用来研究样品或指标分类问题。聚类分析在生物医学领域已经得到广泛的应用，例如：可以根据流行病学特征属性的相似程度将病例数据划分成若干类，通过比较各个类别之间的临床医学状态特征属性的差异来分析某类疾病。国外学者选取SEER数据库中的217558例肺癌病例，通过分析每个病例的22个临床医学特征属性和23个流行病学特征属性的相似度后，将这些病例划分为20类[10]，这就是典型的聚类分析。

2.1.3关联（Association）分析

关联反映的是一个事件和其他事件之间依赖或关联的知识，可以通过表征事物特征的两个或多个变量的取值之间存在的某种规律性，找出数据之间隐藏的关联关系。关联现象在生物医学领域普遍存在，例如：临床上的某些疾病会同时呈现几种不同的病症，这些病症之间就表现为一定程度的关联性，而医生诊断病症的过程常常以观察症状为基础。

2.1.4序列挖掘（Sequence Mining）

序列是指按一定顺序或规律排列构成的一系列符号、数值或事件。存储于DNA、RNA和蛋白质中的遗传和功能信息可用符号序列表示，分析序列数据能找到其统计规律或发现序列组成部分片段之间的相似性或相同性，这是生物信息学研究中最常用方法[6]。此外，还可用时间序列数据进行某些疾病的研究与治疗，例如：欧盟资助的T-IDDM（Telemetric Management of Insulin Dependent Diabetes Mellitus）项目通过Internet采集糖尿病患者的连续监测数据，经时间序列分析后找到患者一天内血糖水平变化的规律和趋势，为医生调整或精确胰岛素治疗方案提供有效的数据和支持。

2.1.5图挖掘（Graph Mining）

利用待研究的数据对象构建图这种数学模型，然后从图中寻找频繁出现的子图，从而挖掘出有价值的信息。例如：美国学术界整合出2003年H5N1禽流感感染风险地图，经过图挖掘分析出2013年H7N9人类病例区域[11]。此外，从政府管理角度来看，公共卫生部门可以针对覆盖全国患者的电子病历数据库进行图挖掘，从而完成全面疫情的监测。

2.2 文本挖掘——生物医学文献信息的大数据处理

2.2.1文本挖掘

目前，全球医药类期刊近3万种，每年发表论文200多万篇，并且以每年7%速度递增，互联网上的信息资源约有30%以上的是与医学信息相关的[11]。文本挖掘（Text-Mining）和信息可视化（Information Visualization）是分析这些数据，揭示知识领域的内在联系的最有效手段。

文本挖掘主要结合文字处理技术，利用智能算法，分析大量的半结构化和非结构化文本源（如文档、电子表格、电子邮件、网页等），抽取散布在文本文件中的有价值知识，并转化为可利用的知识的过程，其工作流程如图2所示，挖掘前要完成包括文本收集、文本分析和特征修剪三个步骤的预处理工作。

图2文本挖掘流程

文本挖掘多以计算机技术实现，文档聚类、文档分类和摘要抽取是应用最多的技术。文档聚类主要完成大规模文档集内容的概括、识别文档间隐藏的相似度、减轻浏览相关、相似信息等功能[12]。文档分类多以统计方法或机器学习自动实现，简单贝叶斯分类法，矩阵变换法、K最邻近分类算法以及SVM等都是其常用的分类方法。摘要抽取主要是利用计算机自动地从原始文档中提取全面、准确反映该文档中心内容的简单连贯的短文[13]。此外，文本挖掘的结果评价常用分类正确率、查准率、查全率、支持度和支持度置信度等世界公认的重要参数进行评价。

生物医学信息处理领域所涉及的DNA序列综合特征分析、蛋白质功能和相互作用分析、疾病基因发现、药物作用靶点预测等都与文本挖掘技术密不可分。在我国，已经有一些研究者利用文本挖掘技术来研究医学文献背后隐藏的知识[12]。临床上，医生用文本挖掘技术对疾病的处方和中药用药规律进行了分析[14,15]。

2.2.2信息可视化

信息可视化是一种运用计算机图形学和图像处理技术，将信息转换为具有一定意义图形或图像，并进行交互处理的理论、方法和技术。它能有效发掘、过滤和研究海量数据，以更直观、有效的方式使研究人员更容易发现隐藏在信息内部的特征和规律，深层次地发掘包括生物医学领域在内的多个学科的研究热点和研究前沿信息，为研究人员把握研究方向提供帮助[15]。

信息可视化的常用工具有TDA、Cite Space、Histcite、Vxinsight等软件，主要完成数量统计、共现分析和统计图表、共现矩阵、节点链接图、技术报告展示等功能。例如：国外学者针对PubMed数据库中2002年到2011年的文献，分析了以“电子健康档案”、“医疗记录系统”和“计算机辅助诊疗”为主题的文献的引用情况后，用可视化工具展现其研究结果，使相关领域的科研人员很直观的了解了该领域的研究状况[3]。

3 总结与展望

生物医学领域的大数据时代已经来临，与大数据处理相关的新理论、新技术和新方法将给该领域的实质性进展提供有效的技术支持，不断进步的信息处理技术和方法必将是广大研究人员和医生从事研究和诊疗工作的利器。目前，我国相关的大数据的技术和应用还处在学习和跟随的阶段，掌握生物医学知识和大数据处理技术的复合型人才还十分有限，亟需在国家层面制定生物医学领域大数据方面的政策、加大资源投入，从而建立良好的大数据生态环境。同时，重视大数据科学和生物医学的基础研究和相关人才的培养。此外，在生物医学飞速发展越来越依赖数据的同时，也应该多关注隐私问题、数据的安全性问题以及由此涉及的伦理道德问题。我们相信，通过国家和广大科研工作者的共同努力，一定能出色完成生物医学信息处理的各项任务，为我国的生物医学发展做出更大的贡献。

[1] 李国杰.大数据研究: 未来科技及经济社会发展的重大战略领域-大数据的研究现状与科学思考.中国科学院院刊, 2012,27（6）：647-648.

[2] Big Data. Nature, 2008, 455(7209): 1-136.

[3] Wesley T, Kerra B, Edward P,et al.The Future of Medical Diagnostics: Large Digitized Databases. J Mech Med Biol. 2012,85(3): 363-377.

[4] Bollier, David. The Promise and Peril of Big Data. USA: The Aspen Institute, 2010: 25-28.

[5] 谭磊. 大数据挖掘.电子工业出版社,2013, 3: 45-121.

[6] Cohen M J, Serkova N J, Wiener K J,et al.1H-NMR based metabolomic signatures of clinical outcomes in trauma patientsbeyond lactate and base de fi cit. J Trauma, 2010, 69(1): 31-40．

[7] Koh H C, Tan G. Data mining applications in healthcare. Journal of Healthcare Information Management, 2011, 19(2): 65-71.

[8] Krishnaiah V, Narsimha G, Chandra N S. Diagnosis of Lung Cancer Prediction System Using Data Mining Classification Techniques.International Journal of Computer Science and Information Technologies, 2013, 4(1): 39-45.

[9] Mohanty A K, Senapati M R, Lenka S K. An improved data mining technique for classification and detection of breast cancer from mammograms. Neural Computing and Applications, 2013, 22(1): 1-8.

[10] Fradkin D. Using cluster analysis to determine the influence of demographic features on medical status of lung cancer patients[EB/OL]. http://dimacs.rutgers.edu/Workshops/DataMiningTutorial.

[11] 刘雷. 大数据时代的生物医学. 中国计算机学会通讯, 2013, 9(9):18-19.

[12] 于跃, 徐志健, 王珅, 等. 基于双聚类方法的生物医学信息学文本数据挖掘研究. 图书情报工作, 2012, 56(18): 133-136.

[13] Rebholz S D, Oellrich A, Hoehndorf R. Text-mining solutions for biomedical research: enabling integrative biology. Nat Rev Genet,2012, 13(12): 829-839.

[14] 李立, 周奇, 郑光, 等. 基于文本挖掘技术分析中成药、西药对慢性胃炎的治疗规律. 中国实验方剂学杂志, 2011, 17（24）: 228-231.

[15] 黄鑫, 胡榜利, 邓莉, 等. 基于知识图谱的生物医学信息可视化研究进展. 中国临床新医学, 2012, 5(11): 1090 -1093.