文图/《中国医药科学》记者 费 菲
临床科研必须经历繁杂的过程,而大数据时代给研究者带来挑战的同时,也为临床科研创造了极好的条件和机遇。如何利用大数据让临床医生快速获得高质量的临床数据?怎样帮助医生进行数据分析,助力临床科研计划或项目?为回答这些问题,积极应对生物医学大数据研究的挑战,中国科学院心理研究所生物信息研究室主任、研究员王晶近年来以主要精力创新开展了生物医学大数据整合和数据挖掘研究。一方面为便于临床医生更好地分析和理解生物医学大数据,致力于开发生物信息学最新的应用工具和方法,主导开发了一系列(18 个)具有国际影响力的疾病组学数据分析工具和方法,获得软件著作权10 项,截至目前该系列工具的累计访问用户逾6.4 万人,累计页面访问量逾1980 万次;另一方面通过与临床医生的合作,重点开展了神经系统和免疫相关的多种疾病遗传信息的挖掘与分子机制研究,取得了较好的研究成果。日前,王晶研究员对近年来实验室取得的研究成果从三个方面作了详尽的介绍。
提到大数据,就不能不提到人类基因组计划(Human Genome Project,HGP)。人类的遗传物质是DNA,它的总和就是人类基因组,人体估计有6~10万个基因,由大约30 亿对碱基组成,分布在细胞核的23 对染色体中。碱基是人类遗传物质的基本组成成分,它们由ATCG 共4 种碱基不断交替组成。1990 年10 月,国际人类基因组计划正式启动。目的是测定人类染色体包含的30 亿个碱基对组成的核苷酸序列,绘制人类基因组图谱,辨识其载有的基因及其序列,从而破译人类遗传信息。
□王晶:大数据的广泛应用是传统医学模式向“精准医学”转变的前提
我国于1999 年9 月获准加入人类基因组计划,在这一项目启动时,正攻读博士的王晶,有幸参与到该项目中。当时中国参与的部分占到人类基因组的整体序列的1%,也就是3 号染色体上的3000 万个碱基对,使中国成为继美、英、日、德、法之后第6 个国际人类基因组计划参与国,也是参与这一计划的唯一发展中国家。我国称为1%基因组计划或北京区域计划。王晶那时的主要工作是对中国负责的基因组测序区域进行进一步的数据解析和注释。后与国际同道一起将研究结果发表在2003 年的《自然》(Nature)杂志上。可以说,人类基因组计划开启了基因组学的先河。随后,各种基因组学计划蓬勃兴起,如千人基因组计划、DNA 元素百科全书(ENCODE)项目,提供了完整的人类遗传多态性图谱以及DNA 功能元件的注释,而且,包括肿瘤相关研究等多个组学计划为今天的研究提供了非常丰富的数据资源。时至今日,围绕生命中心法则,研究者们已在基于芯片/高通量测序的基因组、转录组、蛋白质组、表观组、代谢组等研究领域积累了大量数据,包括单细胞水平基因型和表型研究、人类健康相关微生物群落研究等,为开展疾病相关的研究提供了非常宝贵的财富。
王晶研究员以组学研究的全基因组关联分析(Genome wide association study,GWAS)为 例,谈 到了近年来她所观察到的基因组学研究趋势和发展。GWAS 是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的单核苷酸多态性位点。2000 年初起至今,GWAS 已历经10 多年的发展,虽面对二代测序技术的挑战,但目前GWAS 仍不失为解析疾病遗传机制的一种非常有效的方法,受到研究者的青睐。
回顾从2007 年至2017 年的10 年间,一个明显的趋势是,GWAS 研究发表文章的数量出现持续攀升,GWAS 的研究投入和样本量日益增多。不少GWAS研究采用了极大的样本量来进行分析,如一些研究采用的GWAS 研究样本数量甚至超过了10 万例。王晶认为,虽然样本数量和实际研究发现之间的确存在正相关性,越大的样本量带来越多的发现,然而也有相当一部分GWAS 研究样本数量不足5000 例,提示我们用适当的样本量通过一些方法也可以找到疾病相关的新基因和新的发现。分析目前逐年递增的疾病研究数量和种类可以看到,GWAS 对很多疾病仍在贡献大量未知的知识和信息。
王晶研究员通过对人类不同染色体上不同疾病组发现的遗传变异分布的最新统计发现,截至2019 年6 月,全球通过GWAS 研究已鉴定出超过9 万种变异(P<5×10-8)与疾病相关。而在2018 年进行同一统计时,与特定表型相关的遗传变异位点还只有6 万多个,短短一年时间GWAS 研究飞速进步,使人类对疾病的认识不断深入。
对已鉴定出来的疾病相关的遗传变异位点作进一步分析发现,通过GWAS 研究或ENCODE 等系列研究,越来越多的免疫系统相关疾病的遗传病位点被报道。一方面在生物学研究领域,从基因组、转录组、蛋白组、表观组等各组学领域会产生大量数据;另一方面,在医疗大数据领域,医生为患者诊疗的过程中也积累了海量的数据,同时在不同层面的医学领域也积累了越来越多的大数据。目前的趋势是将生物和医学大数据电子化,通过组建数据库将这些数据进行有效整合和管理,以便后期采用一些先进方法(如深度学习等)更好地分析数据。
具体分为四类:首先是以患者为中心的数据。包括患者的基本数据、入出转数据、电子病历、诊疗数据、医学影像数据、医学管理、经济数据等,成为医疗信息的主要来源,占比最高,达到90%。这类数据的特点是完整性、结构化、标准化有待提高。可细分为三类信息:一是病历,包括病史、诊断结果/路径、用药等信息;二是传统检测,包括影像、生化、免疫、聚合酶链式反应(PCR)等;三是新兴检测(基因测序等)。
其次是医药研发领域产生的大量医药研发数据。这部分数据约占4%,特点是具有较好的完整性、机构化和标准化。可细分为两类信息:医药研发数据,从临床前、Ⅰ~Ⅲ临床、Ⅳ期临床、上市后大量人群中进行疗效跟踪获得的临床测试数据;科研数据,主要是科研进展的报道。
第三是患者数据。这部分数据约占6%,在完整性、结构化、标准化方面尚存不足。可细分为两类:体征类的健康管理数据;网络医疗行为数据。
第四是支付数据。可细分为三类:患者支付记录;报销、赔付记录;医疗机构、流通厂商医药等支付记录。
王晶研究员接着介绍了生物信息学的相关内容。2000 年人们对生物信息学(Bioinformatics)这一概念还较为陌生。这一学科是伴随人类基因组计划的诞生而产生的,旨在将学科进行交叉,运用数学、计算机等技术,通过开发工具与方法,对生物学和医学领域产生的大量数据进行深入分析的一门多学科交叉学科。也正是这一年,作为国家生物信息学专业首批培养的博士,王晶参与到人类基因组计划等项目中,从此与基因组研究结缘,十多年来围绕这一领域开展了一系列的工作。
生物信息学的核心有两点。第一是进行数据的整合和管理。目的是为了应用好这些海量的大数据(Big Data),将之变成真正有用的知识(knowledge),这是生物信息学的本质。作为一门工具性学科,生物信息学本身在疾病各个方面的研究中已成为不可或缺的一部分,目前在各高校都设置了相关专业。面对生物学和医学数据激增的时代,大数据的广泛应用与生物信息学技术的不断进步,成为实现传统医学模式向“精准医学”转变的必要前提和核心动力,为未来更深入的疾病研究提供帮助。海量数据的不断产生,表现为多层面、多维度以及高异质性的特点,尤其是遗传学数据有时会受到人群背景的影响,有时很多遗传性的研究结果很难被复制。
第二是一些从疾病数据本身的特性带来的挑战。很多疾病尤其是复杂疾病,如风湿免疫、自身免性疾病都是多基因共同作用的,是基因和环境共同影响导致疾病的发生和发展。从疾病和数据的维度看,在今天虽然拥有了海量的数据,也不断涌现越来越多的数据分析方法和技术,但我们仍要面临的一个很大的挑战是,如何更好地用好这些数据。运用生物信息学研究的第一步是对现有的数据进行有效整合,建立好数据之间的逻辑关系,这是最基础的一步。目的是为了更好地对生物医学大数据进行挖掘和应用,通过这些技术和管理真正把数据变成知识,在数据挖掘的过程中获得一些新的发现。当然这些发现只是一些分析结果,最终还要与实验科学结合,从而帮助我们更好地理解复杂疾病的遗传机制,在这一过程中找到可以用于临床转化的各种靶点或生物标志物。
近年来,王晶实验室的主要工作是使用生物信息学策略开展复杂疾病遗传机制的研究,开发的工具和方法主要聚焦于三个方面。
第一个方面是,深入挖掘GWAS 数据,进行基于生物通路的分析。迄今为止已发表了4000 多篇GWAS 研究的论文。王晶认为,GWAS 研究产生的大量数据所具有的含义被低估了,在这个过程中可以产生更多发现。几年来,王晶实验室在这一方面开发的工 具 有:i-GSEA4GAWS(2010 年)、i-GSEA4GAWS v2(2015 年)、ICSN Pathway(2011 年)、BEST(刚上线)。
具体来看GWAS 研究数据的深度挖掘。全基因组关联学习(GWAS)是一种对全基因组范围内的常见遗传多态性(主要是单核苷酸多态性-single nucleotide polymorphisms,SNPs)进行总体关联分析的方法,适用于包括精神疾病(mental disorder)在内的复杂疾病的研究。GWAS 研究往往会报道一些统计意义上与疾病显著相关的遗传变异位点,但GWAS 所报道的部分不过是冰山一角,只是那些在统计意义上最为显著的一部分,大量数据是蕴藏在海平面之下的并未被报道,但这些数据也是具有生物学意义的。除了显著相关的一些基因或遗传位点,还有大量的基因可能是微效或弱效的,但这些微效基因组合后的多基因共同作用,对疾病的发生将有很高的贡献度。即是说,传统全基因组关联学习(GWAS)数据分析方法对SNP/基因进行独立分析,忽略了复杂疾病的多基因联合效应。为解决上述问题,近年来基于通路(pathway)的研究原则被引入到GWAS 数据分析,检测包含多个基因的通路和性状的关联。王晶实验室开展的工作旨在深入挖掘海平面下的通过GWAS 研究产生的这些海量数据有哪些信息值得借鉴和思考。
基于上述观点,王晶课题组成功开发了基于通路的GWAS 数据网络分析平台(i-GSEA4GWAS,简称i-GSEA)和工具,通过网络服务的方式供全球各国相关研究工作者使用(i-GSEA4GWAS,URL:http://gsea4gwas.psych.ac.cn。
开发i-GSEA 平台的核心是基于生物通路的分析(PBA),主要解决的科学问题是鉴别与疾病表型相关的通路(生物学功能和机制)/基因集。识别哪些生物过程和疾病是相关的,以进一步研究和揭示疾病致病机理,进而去识别SNP 或基因的组合效应。“通路”在广义上指包括细胞功能、代谢过程、生物合成、遗传信息处理、疾病相关因素等在内的一系列的生物过程。应用方法主要是开发了一系列的工具,从第一个版本的i-GSEA4GAWS(2010 年)到第二个、第三个版本。这一系列工具是以数据在线分析平台的形式呈现的,研究者可以到网站上免费使用。截至目前,该系列工具的累计访问用户逾6.4 万人,累计页面访问量逾1980 万次。
开发i-GSEA 4GWAS 系列工具的目的是为了研究GWAS 数据,尤其是冰山下还未被系统挖掘的数据所蕴含的生物学意义。开发这一系列工具具体来讲是回答三个问题:第一,统计显著的SNP 是否为致病SNP;第二,识别SNP 或基因之间的组合效应,它们作为一个整体是如何导致疾病的发生发展;第三,鉴别与疾病表型相关联的通路,提出可能的生物学机制。目的是建立起SNP、基因和通路之间的联系。这是王晶实验室开发的第一个系列的工具。她与美国洛克菲勒大学遗传统计系主任Jurg Ott.教授一起合作,共同探索了传统遗传学领域的连锁分析策略。与既往以过滤为主的测序数据分析方式不同,连锁分析能提供遗传位点与疾病之间相关性的统计学证据,与目前全基因组测序分析有机结合,可进一步提升全基因组测序数据在基因注释方面的准确度和效率。
另一方面,着重研究遗传变异的调控功能。王晶实验室也开发了一系列工具以帮助更好地分析遗传变异的调控功能,包括MethyCancer 研究(2008年)、rSNPBase(2014 年)、rVarBase(2016 年)、rSNPBase3.0(2018 年)。
基因组的编码区也被称为编码序列或CDS(coding DNA sequence),只占非常小的部分,不足2%;而基因组的大量区域都是非编码区DNA,占98%。研究结果显示,人类基因组内的非编码DNA 至少80%是有生物活性的,而非之前认为的“垃圾”DNA(junk DNA)。非编码区域在疾病的发生发展中发挥着非常重要的作用,而且GWAS 所报道的绝大多数显著位点都是位于非编码区(Non-coding region),开发一系列的在线分析工具,旨在回答位于非编码区的这些遗传变异位点到底是如何行使它们调控功能的问题,每个工具较前面开发的工具在数据范围、分析功能方面都有了进一步提升。比如,第一个开发的工具是对全基因组范围SNP 的调控功能进行注释,提供很多实验证实的SNP 和实验证据等;第二个工具在第一个基础之上涵盖了更多的类型,除了常见的SNP 还包括拷贝数异常(CNV)等结构变异;第三个工具除了可提供单个遗传变异的调控功能分析外,为SNP 在怎样的表观遗传调控网络里发挥作用提供疾病分子机制的假说和生物学机制,旨在帮助我们更好理解这些SNP 的调控功能。
王晶实验室通常进行的分析是通过GWAS 或目标区域的关联分析,通过新一代测序技术(NGS)采集样本信息并找到显著关联的变异,通过这些工具进一步分析其生物学意义。比如,针对单个变异去分析其调控功能包括具体的实验性参数;再比如,组织细胞的表达类型等,依据分析结果设计分子功能实验验证方案。在另一层面提供表观遗传学图谱,可能参与哪些表达调控网络,为在怎么样的背景下导致疾病的发生提供疾病的分子假说,目的是通过对数据的进一步分析为后续的实验科学验证工作提供更多的启示。
王晶实验室新近开发的来易统平台包含了常用的6 大类医学统计方法,旨在助力广大医学研究者更方便地进行各种医学统计分析,开展更深入的科学研究。很多年轻临床医生是疾病诊治方面的专家,在科研工作中需要花大量时间学习统计方面的知识,而这恰恰是王晶研究员非常熟悉的领域,因此她带领团队开发了新的医学统计平台,便于临床医生查阅医学领域发表的文章。当用户按照指定的格式输入科研数据,平台可智能地推荐一些方法便于用户进行分析,最后产生的图表都是文章发表最常用的格式。这项工作可以为临床研发小工具,帮助用户在日常工作中节约更多时间关注科研问题。
再一方面,在整合疾病数据的基础上开展更进一步的数据挖掘工作。这种数据整合和分析的方法适用于各种复杂疾病,以认知相关的一些脑疾病为例,目前脑疾病数据散落在不同的文章、网站或大项目中,数据挖掘可以从大量的数据中通过算法搜索隐藏于其中信息的过程,是通过收集并对这些数据进行有效利用的思路和方法。近年来王晶实验室在这一方面开发的工具有:ADHD gene(2011 年)、MK4MDD(2012 年)、BDgene(2013 年)、CS-DEGs(2014 年)、PTSDgene(2017年)。王晶实验室开发这一系列工具的核心思路是找到致病的关键基因或遗传变异,了解它们是如何影响蛋白质功能或功能RNA 的表达,最终导致生物学系统的功能改变和疾病的发生及发展。该系列工具的累及访问用户逾17 万人,累计页面访问量逾1800 万次。
王晶实验室开展了儿童多动症、抑郁症、双向情感障碍、疾病遗传环境的交互作用以及创伤后应激等脑疾病领域的分析和研究,分析的方法和研究思路主要是围绕单一疾病的遗传性分析、多层面数据的整合和多种疾病的交叉分析两个方面。由于很多疾病是共病存在,可以通过疾病的共病机制分析、疾病的遗传与环境的交互分析及数据整合和数据挖掘,帮助医生找到更多的思路和启示。
例如,创伤后应激障碍(post-traumatic-stressdisorder,PTSD),也被称为“创伤后压力症候群”,是指经历创伤性事件后的心理精神反应。PTSD 在人群中存在差异性表现,部分人无明显异常表现,部分人则可能导致心理精神的严重创伤,这是因为遗传因素在PTSD 的发生发展中发挥了重要作用。2016 年Benjet C 等报道,一项关于全球创伤事件暴露的流行病学研究表明,70%的受访者至少报告了一例创伤事件,但其中只有少数人发展成为PTSD,造成这些心理精神不同反应的重要原因之一是遗传易感性差异。王晶实验室开发了首个创伤后应激障碍遗传学数据库PTSDgene。该数据库从多个层面较为全面地综述了PTSD 的遗传学研究现状(基因、GXE),为后续的研究提供了广泛而可靠的数据集。同时,通过深入的数据挖掘与分析,得到了PTSD 潜在的新候选基因,为验证研究提供了新的视角。该数据库整合了国际研究组织进行的不同研究发表的各类遗传学数据,整合后建立了数据评分矩阵,提供最值得关注的热点基因,在这一基础上应用前述的开发工具和方法进行数据的进一步挖掘,除了已报道的基因之外,还有一些未知的、新的研究热点有待进一步认识和发现。
王晶实验室与临床专家合作,在2013 年与40 多家临床单位合作开展了世界上首个针对原发性干燥综合征(pSS)的全基因组关联研究(GWAS)分析,很幸运仅使用5622 例的样本便找到了两个新的基因。研究分为1845 例病例和3777 例健康对照(均为中国汉族人)两组,由生物信息主导的三阶段实验设计,在7q11.23 鉴别出新的原发性干燥综合征易感基因:GTF2IRD1 和GTF2I。该研究成为2013 年《自然-遗传学》(Nature Genetics)杂志当期的研究亮点。文章发表时还未能找到GTF2IRD1 和GTF2I 与自身免疫疾病是否相关的证据,当时找到的研究证据仅表明这两个新的基因与威廉氏症候群(Williams Syndrome)中的神经认知缺损密切相关。但令人惊喜的是,在后续研究中,GTF2I-GTF2IRD1 位点被证实与多种自身免疫性疾病相关,2018 年在国内神经科专家的研究中,该基因还被发现与视神经脊髓炎谱系疾病相关。由此可知,GTF2IRD1 和GTF2I 基因在免疫系统和神经系统两个领域都发挥着重要的作用,值得研究者进一步深入探究其功能。
王晶实验室还使用i-GSEA4GWAS 平台对双向情感障碍(bipolar disorder)的GWAS 数据进行了分析,并发现了可能的疾病相关通路/基因集。该项研究得到了中国科学院心理研究所青年科学基金和北京市科学技术委员会北京市科技新星计划(A 类)的资助。该研究成果发表在生物信息学顶级杂志Nucleic Acids Research(影响因子6.878)。
2017 年,王晶实验室和临床医师合作开展了一项注意缺陷多动障碍(ADHD,即儿童多动症)GWAS 研究,文章已刊于精神疾病顶级国际学术期刊《分子神经病学》杂志。这项GWAS 研究是国际首个ADHD执行抑制功能的两阶段全基因组关联分析研究。儿童多动症这一疾病的表型非常复杂,很难用疾病作为表型来进行GWAS 研究,所以这项研究选择了从内表型的角度出发,在中国汉族儿童ADHD 患者中开展。研究鉴定出在ADHD 的多动-冲动行为中,MICALL2 是与ADHD 执行抑制相关的新的易感基因。这一新基因的功能在斑马鱼中也得到了验证。进一步证实了神经发育基因在ADHD 的致病机制中可能发生作用。研究发现注意缺陷多动障碍(ADHD)新基因MICALL2,执行抑制功能受损是ADHD 患者的核心缺陷。
王晶研究员认为,遗传学研究或进行基础研究的目的是为了更好的临床转化和应用。目前很多公司都提供各种形式的基因检测。基因检测可涵盖各个领域,涉及非常广泛的应用,从疾病的不同阶段,包括人类从出生到衰老各个不同阶段都可以开展相应的一些基因检测项目。基因检测广泛应用于多种疾病的诊疗,包括风险预测(病原体核酸检测、产前检测)、辅助诊断(单基因遗传病)、用药指导(复杂疾病患病风险、肿瘤)和治疗干预(药物基因组)。
遗传病的基因检测最核心的部分是回答三个问题,第一个问题是应该检测什么基因;第二个问题是用何种方法和技术平台进行基因检测;第三个问题最为重要,是如何解读这些基因检测结果。
首先来看第一个问题:遗传病的发现应该检测什么基因?人类基因组序列大约有2 万个基因,除了编码序列(CDS)外,非编码区的新调控功能元件不断被发现,确定合适的检测范围或检测对象对临床非常重要。目前,在遗传病领域开展的检测主要分为两种。第一种,已报道的基因是与疾病显著相关,但机制尚不明确。例如,关联研究发现,HLA-Cw06 阳性主要与1 型银屑病、点滴型银屑病和银屑病关节炎显著相关,可作为这类疾病的诊断标志物。APOE e4 与阿尔兹海默病(AD)的患病风险升高显著相关,与其他生物指标一起用于AD 诊断,其作用机制尚不十分明确。第二种,基因致病路径清晰。遵循基因突变—蛋白质功能或表达变化—代谢物变化—疾病表型的路径。例如,HLA DQ2/DQ8 在麸质敏感性肠病的致病中起重要作用,直接参与重要复合物的呈递。TPMT 参与硫唑嘌呤的代谢途径,其突变可导致毒性物质累积引起不良反应。以上研究的目的是从发现基因与疾病的关联到最终确定作用机制。很多基因与疾病的关联尚未确定作用机制,也有相当多的基因由于与疾病显著相关已开展了相应的检测项目。
王晶研究员统计了已在临床得到广泛应用的基因检测项目:以自身免疫性疾病为例,检测方法主要是基因芯片、实时定量基因扩增荧光检测系统(qPCR)、一代测序等,在辅助诊断方面有强直性脊柱炎(基因指标 HLA-B27)、类风湿关节炎{基因指标HLA-DRB1 基因共同表位(SE)}、银屑病(基因指标HLA-Cw06)、白塞氏病(基因指标HLA-B51)、麸质敏感性肠病(基因指标HLA-DQ2/DQ8)。用药指导有别嘌呤醇(基因指标HLA-B*5801)、硫唑嘌呤(基因指标TPMT、NUDT15)、甲氨蝶呤(基因指标MTHFR)。
以神经系统遗传代谢性疾病为例,其发病原因复杂且种类多、治疗困难,始终是困扰着神经病学家的难题。根据在线人类孟德尔遗传数据库(OMIM)的数据统计,基因检测在神经系统遗传病的诊断中具有重要作用。人类已被发现的5000 多种单基因病中,神经系统遗传病或综合征约占所有遗传病的50%以上,主要临床表现为神经系统症状体征却归为神经系统遗传病或综合征的还有300 多种。
神经系统单基因遗传病具有高度遗传异质性和临床变异性,各类疾病的病种间可能有一些重叠,疾病谱也复杂多样。检测方法主要是多重连接探针扩增(MLPA)、片段分析(FA)、基因测序、二代测序(NGS)的基因panel 检测、基因芯片、qPCR、一代测序等。神经系统单基因遗传病主要包括杜氏肌营养不良(基因指标DMD,检测方法MLPA)、强直性肌营养不良 { 基因指标DMPK、ZNF9;检测方法为片段分析(FA)}、脊髓小脑共济失调 { 基因指标ATXN1、ATXN2、ATXN3等;片段分析(FA)}、肯尼迪病(脊髓延髓肌萎缩症,KD){ 基因指标AR;片段分析(FA)}、亨廷顿病舞蹈症(HD),{ 基因指标HTT;片段分析(FA)}、脊肌萎缩症(SMA){基因指标SMN1、SMN2;检测方法是多重连接探针扩增(MLPA)}、腓骨肌萎缩症(CM5){基因指标PMP22;检测方法是基因组DNA 多重连接探针扩增(MLPA)}、常染色体显性遗传病合并皮质下梗死和白质脑病(CADASIL){基因指标NOTCH3;基因测序}、MELAS 综合征(线粒体基因突变;基因测序)、早发型阿尔兹海默病(基因指标APP、PSEN1、PSEN2;基因测序)、多种疾病组合{Gene panel,二代测序(NGS)的基因panel 检测}。多基因病/复杂疾病以阿尔兹海默病为例,基因指标为APOE,检测方法有基因芯片、实时定量基因扩增荧光检测系统(qPCR)、一代测序技术等。
其次也是很关键的问题——怎么进行基因检测?根据不同的变异类型和特点,应采取相应的遗传检测的实验方法,如一代测序技术、二代测序(NGS)的基因panel 检测以及近年来逐渐在临床得到应用的三代测序方法等。针对特定的变异类型选择合适的检测方法进行相应的检测。比如,少量单碱基变异或小插入缺失(PCR、一代测序)、中等通量的单碱基变异或小插入缺失(基因芯片、二代测序的基因panel 检测)、高通量单碱基变异或小插入缺失(二代测序的基因panel 检测)、短串联序列重复数变异(PCR+毛细管电泳)、已知大片段插入缺失/重复{MLPA、荧光原位杂交(FISH)}、未知大片段插入缺失/重复(高测序深度的二代测序)
最后也是最困难的一个环节是,如何解读基因检测数据?生物信息成为二代测序技术在临床应用的关键。标准化的分析流程、数据质控体系的建立、全方位的变异注释对检测结果的正确解读十分重要。从二代测序各环节的难度来看,数据分析难度系数最大(69%)。
基因检测数据的解读主要包括两个部分。一是有别于传统检测技术,对基因检测,尤其是通过二代测序技术开展的基因检测,检测实验结束往往只完成了检测流程的一半,实验数据通常要经过生物信息的分析(bioinformatics)或遗传解读,才能形成明确的检测结果。经过遗传解读帮助临床医师更好地理解检测的结果和报告。二是遗传解读需要两方面专家的努力,一方面是解读遗传报告的专家能提供真正对临床有帮助、有指导意义的解读,另一方面临床医生也需要在过程中不断加深对于遗传报告解读的理解,需要这两方面的双向互动才能真正将基因检测运用到临床实践中。
王晶研究员总结,我们正处在大数据时代,面临着海量的数据,不同维度、层面给研究工作带来很大的挑战;但也因为大数据的出现,实现了传统实验科学或假设驱动的研究和以数据启动为基础的研究两种研究思路的并行,为研究带来了极大的机遇。2016 年A Tebani 发表在Int J Mol SCI的文章指出,多组学数据和临床数据一起构成了“系统医学”,组合成从DNA到蛋白质,从细胞到机体再到群体的一个完整脉络。但最核心问题和挑战是如何将这些数据系统化,建立数据之间的逻辑联系,以及用何种方法更好地分析这些数据。目前王晶实验室主要完成的工作是以数据驱动为主(数据驱动是通过分析数据指导进一步的实验的设计和验证),未来将借助深度学习等技术的不断进步和在临床领域的应用,将生物学和医学临床数据进行整合。比如,应用方向之一是通过基础研究和临床数据的充分整合,采用合适的人工智能方法进行临床表型的预测或开发智能辅助诊断的系统,帮助临床医生去更好地认识疾病,开展临床相关的实践。
当下人工智能已在很多领域得到了应用,主要的趋势是在图形、图像、文本、数值等综合数据领域,尤其是在图形图像领域。期待在未来人工智能能带来更多的思路和启迪。王晶研究员总结,在数据集中的时代,目前实验室的研究思路主要是数据驱动的研究,未来在基因检测或疾病机制的研究和数据解读将成为非常重要的部分,同时实验室已开展了与人工智能技术相关的研究,期待未来借助于人工智能技术的发展,能开发出更多更好的技术和方法,为推动疾病相关的诊疗进步提供助力,造福于人民。
专家小传
王晶,研究员,博士生导师。现任中国科学院心理研究所生物信息研究室主任。2000 年获上海交通大学学士学位,2005 年获北京大学生物信息学博士学位,同年被聘为中国科学院基因组研究所副研究员,2008 年6 月入选中国科学院心理研究所特聘研究员、博士生导师。王晶研究员的研究领域是生物信息学工具方法开发和生物数据分析与挖掘、复杂疾病的遗传机制研究及基因组的结构与功能探索。她致力于开发和应用生物信息学方法,探索复杂疾病(主要关注精神类疾病、自身免疫性疾病)的分子遗传机制,为疾病的早期诊断提供科学依据。迄今为止,王晶研究员已在《自 然》(Nature)、《科 学》(Science)、《自 然-遗传学》(Nature Genetics)、《生物精神病学》(Biological Psychiatry)、《核酸研究》(Nucleic Acids Research)等国际知名杂志发表论文73 篇,发表文章累计影响因子逾630 分,累计引用超过8000 次。以第一作者/通讯作者发表的影响因子>10 的论文15 篇,曾主持和参与国家自然科学基金重大研究计划和创新群体项目,科技部863、973 项目,欧盟第六框架项目(EU-FP6),中国科学院知识创新工程方向项目等多项科研项目。她主导开发了一系列(18 个)具有国际影响力的疾病组学数据分析工具和方法,获得软件著作权10 项,并得到业界人士的广泛应用。