佟旭等
1.北京中医药大学,北京 100029;2.中国中医科学院中医临床基础医学研究所,北京 100700
摘要:近年来,中医药临床和科研数据呈指数级增长趋势,使中医药数据的集成分析变成目前中医界亟需解决的重要问题。本研究从中医药数据集成的背景和意义、现状分析、数据可视化及应用展望4个方面入手,分析在大数据背景下中医药数据集成分析的必要性及面临的困难,并提出将数据可视化的方法用于数据集成分析,为深入探讨中医药数据资源的合理利用提供新的视角。
关键词:中医药;数据集成分析;可视化;诊疗模式
DOI:10.3969/j.issn.1005-5304.2015.08.001
中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2015)08-0001-03
Scientific Value of TCM Integrative Data Analysis in Big Data Era TONG Xu1, XIE Qing-yu2, MENG Qing-gang1 (1.Beijing University of Chinese Medicine, Beijing 100029, China;2.Institute of Basic Research in Clinical Medicine, China Academy of Chinese Medicine Sciences, Beijing 100700, China)
Abstract:In recent years, TCM integrative data analysis has become an important issue requiring urgent solution because of the trend of exponential growth of clinical and scientific TCM research data. This article analyzed the necessity and problems of TCM integrative data analysis from the aspects of background and significance of TCM integrative data, status analysis, data visualization, and application prospect, and put forward the idea of applying data visualization method to data integrative analysis, with a purpose to provide new angles for the reasonable application of TCM data resources.
Key words:traditional Chinese medicine;integrative data analysis;visualization;mode of diagnosis and treatment
2008年9月,《自然》杂志出版专刊“Big Data:Science in the Petabyte Era”,使“大数据”一词开始广泛传播[1]。如今大数据已引起各领域的广泛关注。在探讨大数据的科学价值时,有学者指出,高效处理非结构化和半结构化的数据、建立新的数据表示方法、不同机构间数据和信息的融合将是学界面临的重要议题[2]。随着中医药现代化研究的发展,中医药临床和科研都取得了长足的发展,并随之产生了大量类型复杂、种类繁多的医疗数据。兹从中医药数据集成分析这一角度切入,为中医药大数据的合理利用提供新的视角。
基金项目:国家科技支撑计划(2013BAI02B10);国家自然科学基金(81273876);北京中医药大学科研创新团队项目(2011-CXTD-03);北京中医药大学研究生自主课题(2014-JYBZZ-XS-003)
通讯作者:孟庆刚,E-mail:mqgangzy@126.com
1 中医药数据集成的背景和意义
医学数据是医疗临床和科研的重要资源。飞速发展的高通量技术和新一代测序技术产生了巨大规模的组学(Omics)数据,对医疗实践和科研已产生了重大影响,如基因表达式的预测因子可以提高疾病早期诊断的准确率,识别癌症基因生物标记物的基因组学研究已成功应用于癌症分级。同时,由于基因谱和基因组特性与表型的相关性会受到环境影响,蛋白质和分子的结构及其功能的表达不完全受控于基因表达,蛋白质组学研究也因此逐渐发展起来,并受到越来越多的重视。细胞、组织数据包含很多重要的空间结构和形态信息,有文献报道,包含空间结构和形态信息的数据与组学数据相结合,可以成功将癌症细化分为不同的等级和亚型[3]。因此有学者认为,集成各层次、各水平的生物医学数据,是提高疾病诊断和预后准确率的必要途径,许多意想不到的发现和机遇就隐藏在大量数据资源集成的背后[4]。
随着信息化技术的不断进步,中医药现代化研究飞速发展,无论基础研究或临床研究都取得了长足的发展,并随之产生了大量类型复杂、种类繁多的医疗数据。将这些多层次、多水平的中医药数据资源与组学研究数据整合到一起,利用各类数据本身的特点和数据之间的互补性,可以帮助研究者更全面深入地理解和把握对生命和人体的认识。然而,中医药数据本身的多元性和异构性造成数据相互之间很难直接匹配,不能实现共享和有效利用。多元性指数据类型复杂,包括图谱、文本、结构和图像等多元形式。数据异构性体现在医学数据库固有的系统性异构、技术性异构和语义性异构等方面。在实际情况中,中医药数据库之间往往同时存在多种异构,这更造成了数据有效利用的困难与复杂程度。因此,数据集成就成为目前实现中医药数据资源有效整合的主要研究方向,它可以把不同来源和不同格式的数据在逻辑上或物理上有机地集中,从而实现全面的数据共享。数据集成的核心任务是将相互关联的异构数据源集中到一起,以满足用户的访问需求。
2 中医药数据的集成分析
在中医药理论中,方剂是在整体观念和辨证论治原则指导下,依据药性理论和功能主治,按君、臣、佐、使的配伍法则,将中药组合而成的有结构、有层次的有机整体。方药配伍效应不是某一特定成分或靶点的作用,而是由不同成分、靶点和环节组成的复杂系统在人体内有次序的整体调节效应。通过基因组学、蛋白质组学、代谢组学技术,可以构建人体复杂系统与方剂复杂化学体系之间相互作用的网络模型,帮助研究者进一步解释细胞的生物化学运作体系,揭示功能性细胞网络与方剂干预的相互作用机制。
目前已有研究者利用组学数据深入探讨中药方剂多靶点的作用机制[5],以及利用基因芯片、基于双向电泳-质谱鉴定的蛋白质组学等,高通量地分析、鉴别和鉴定中药作用的差异蛋白或基因,并借助生物信息学技术,分析中药作用的可能靶标(谱)[6]。组学研究与中医药研究数据集成分析的初步研究已取得一些成果,但多停留在方剂药效作用机制探讨的阶段。将组学研究数据与诊疗过程中患者的四诊信息和理化检查结果建立关联规则,是临床数据与科研数据集成分析的关键环节,然而目前的研究还难以实现这一目标。
四诊合参是中医临床获得患者生理病理信息,进而综合分析、探求疾病本质的重要手段,是中医整体观念在临床诊疗中的体现,在千百年来的医疗实践中不断发展并传承下来。不同于传统的中医诊疗模式,当代中医师除了需要通过望、闻、问、切全面收集患者的四诊信息,还需结合生化、物理、影像等多种检查结果以获得对患者病情的综合认识和全面把握。中医电子病历系统包含患者四诊信息、理化检查、诊断及治疗等全过程的记录,它将中医诊疗实践活动真实地记录并保存下来,是临床诊疗记录的重要组成部分,也是中医临床信息的主要数据来源。然而,现有的电子病例系统多为独立架构,医院之间难以实现数据共享和有效利用,形成一个个“信息孤岛”,给海量数据采集和分析造成很大的障碍。因此,建立新的数据表示方法,深入探讨中医药不同维度信息的关联规则是目前亟需解决的问题。
3 中医药数据的可视化
可视化是指利用计算机图形学和图像处理分析技术,将各种数据依据其特点转换为相应的图形图像,进而通过图形的表现形式进行信息表达和传递的过程,包括科学可视化、信息可视化和可视分析3个主要分支。“大数据”时代带来前所未有的海量医学数据,而人处理和理解数据的能力却非常有限。因此,利用数据可视化的视觉呈现方法将医学数据映射为视觉符号,通过人类视觉系统的高带宽,可以帮助研究者快速获取和理解其中所蕴含的规律和知识。
医学文献作为医学信息的主要载体,是医学领域工作者获取知识、交流、传播信息的最基本方式。因此,基于文献计量的可视化分析工具就成为帮助研究者快速准确掌握相关学科动态的有效方法。目前,国际应用较多的文献可视化工具有Thomson Data Analyzer(TDA)、CiteSpace、Histcite、Vxinsight、DIVA等。其中,CiteSpace是近几年来美国信息可视化领域最有特色和影响力的应用软件。诸多学者利用CiteSpace进行相关研究并报道CiteSpace对于研究前沿和热点问题的可视化表达的优越之处[7-8]。Histcite对引文数据库中的文献数据进行计量处理,进而生成引文编年图和引文矩阵,帮助医学研究者轻松直观地追踪学科发展的动向。除了专业的文献可视化软件,还有许多网站和平台通过新颖的技术和思路为研究者们提供文献可视化研究的新方法。SciTrend是一个提供文献可视化服务的网站,它通过对研究者查找文献的关键词和Mesh词随年代变化的分析,来判断重点医学研究的演变和影响。有研究者基于文献计量学,分别把有关细胞基因、动物、人体的文献作为3个节点,投射到可视化图谱上,通过3点之间的距离变化来判断转化医学的发展动态[9]。
科学可视化对测量、实验、模拟等获得的数据进行绘制,并提供交互分析手段,方法涉及计算机图形学、图像处理、人机交互等众多学科。医学领域中,高通量技术带来的组学数据大爆炸,使复杂生物网络数据等空间数据的可视化表达和分析变得日益重要。BiNA是一个组学网络数据的可视化工具,不仅可以直接导入组学数据的平面文件,还能分析组学网络数据间的联系,并将结果可视化表达。这种可视化工具和方法对于组学数据的集成研究是十分有利的。VisBricks是一个大规模异构数据的可视化表示工具,它可以将不同来源的数据以不同的形式进行可视化表达,并可以将超大规模的数据有机地分成数个小的可视化表达单元,根据用户的需要,将数据按特点、维度、功能等进行不同层次的可视化表示。中药数据、方剂功效机制研究数据,以及中医药临床的患者四诊数据、理化检查数据,都具有规模巨大、类型复杂多样的特点,通过科学可视化的方法将这些复杂的空间数据呈现为研究者们易于理解的视觉表达符号,可以为中医药数据的表示方法这一环节提供有效的帮助。
4 中医药数据集成分析的应用展望
中医千百年来的医疗实践,经历了从“神农尝百草”式的随机治疗,到马王堆医书《五十二病方》呈现的对症治疗,从《黄帝内经》提出“谨守病机,各司其属”的审机论治,到《伤寒杂病论》“观其脉证,知犯何逆,随证治之”初步形成的辨证论治。在漫长的发展过程中,中医诊疗模式逐渐被理解为医生通过望、闻、问、切收集患者的四诊信息,综合分析以获得对患者病情的全面认识和把握,进而选择最佳治疗方法的过程。在这种传统诊疗模式中,望、闻、问、切是医生获得人体阴阳盛衰、正邪斗争状况等“精微信息”的主要手段。然而,随着现代医疗手段的不断进步,生化、物理、影像等多种检查结果已成为当代中医临证必须考虑的重要因素,不仅是辨证论治的依据,也是中医临床疗效的佐证,还可进一步充实和丰富传统的“辨证论治”诊疗模式,使辨证论治得到不断深化和完善。对于某些疾病,实验室检查结果甚至可以直接用于指导中医临床治疗;同时,随着微观辨证学认识的不断发展,医生观察的维度可以深入到细胞化学、神经递质、免疫调节乃至基因水平,解释病证传变规律,进而阐明方剂干预的作用机制,为临床决策提供依据。
在中医药数据集成分析的支持下,“四诊合参”所获得的诊疗信息将更加丰富,“辨证论治”的传统诊疗模式也将得到不断充实和完善。在未来科研和医疗实践中,基于中医药的数据集成分析,通过全方位地将患者症状、实验室检查、基因、组学等多层次的数据和信息整合于临证过程,医生所获得的诊疗信息将不再是诊疗瞬间的“时间快照”,而是记录着患者遗传特征、表型特性、免疫调节、发病倾向等生命过程的“全程录像”;医生对患者的了解将从疾病的发生、发展和预后等疾病信息,扩展到患者的出生、成长、易感病预防、健康保健等“个体信息”;中医药数据集成分析帮助医生获取并有效利用患者多方面的信息,中医“整体观”“治未病”“个体化”的医疗理念也会因此得到更长足的深化和发展。
5 结语
未来医疗领域的发展趋势是科研数据与临床数据的全方位结合,医疗信息资源的全面共享和有效利用,逐步实现医疗信息和医疗资源的优化配置。中医药数据的集成分析力求科研数据与临床数据的全面整合,促进数据资源的合理有效利用,为中医药领域带来新的发现和机遇。
参考文献:
[1] 陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S):142-146.
[2] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.
[3] Tanya B, Dennis BT, Stephen EW, et al. NCBI GEO:archive for functional genomics data sets - 10 years on[J]. Nucleic Acids Research,2011,39(1):D1001-D1005.
[4] John HP, Chang FQ, Cheng C, et al. Multiscale integration of Omic, imaging, and clinical data in biomedical informatics[J]. IEEE Reviews in Biomedical Engineering,2012,5:74-87.
[5] 王广基,郝海平,阿基业.代谢组学在中药方剂整体药效作用及机制研究中的应用与展望[J].中国天然药物,2009,7(2):82-89.
[6] 孙学刚.方剂组学:一种基于方剂提取物质控的中医药转化医学研究策略[J].中药药理与临床,2011,27(3):120-122.
[7] Qi Y, Shao HF, He PF, et al. World scientific collaboration in coronary heart disease research[J]. International Journal of Cardiology,2013,167(3):631-639.
[8] Chen Chaomei, Hu Zhigang, Liu Shengbo, et al. Emerging trends in regenerative medicine:a scientometric analysis in CiteSpace[J]. Expert Opinion on Biological Therapy,2012,12(5):593-608.
[9] Griffin MW. Identifying translational science within the triangle of biomedicine[J]. Journal of Translational Medicine, 2013,11(1):126-136.
(收稿日期:2014-05-22;编辑:梅智胜)