陈 虞 王 地 李冠璋, 赵 征 李艺影
1.北京市神经外科研究所科研办公室,北京 100070;2.首都医科大学附属北京天坛医院神经外科,北京 100070;3.北京市神经外科研究所分子神经病理室,北京 100070
随着精准医学、转化医学及医疗大数据技术的不断发展,临床生物样本数据库的标准化建设以及规范化管理成为科学研究顺利开展与否的关键因素[1-2]。临床组织样本是十分宝贵的不可再生资源,对探索疾病的发生发展机制、识别药物新靶点及开发新型治疗方法等具有重要意义[3-4]。临床样本的管理不仅需要提高样本量,而且还要注重采集样本的质量、数据管理的规范性及使用的便捷性[5-7]。目前国际上已有数个肿瘤相关大型数据库项目,如美国癌症基因组图谱计划、国际癌症基因组联盟等[8-9]。这些项目产生了海量的多维度组学数据,极大推动了肿瘤病理学、诊断学、预防及治疗等领域的发展,同时做到了数据的高度共享,为世界各地的研究人员提供了进一步深度挖掘和分析研发的契机[10-12]。然而,已有的各种脑胶质瘤临床生物样本库仍存在不足之处,如数据更新缓慢,缺少数据访问、分析和可视化工具等[13]。本文分析了中国脑胶质瘤基因组图谱计划(Chinese Glioma Genome Atlas,CGGA)相关临床生物样本库的建立与管理实践,总结高质量、高标准、智能化的临床生物样本库的建设经验。
2004 年,在王忠诚院士指导下,中国第一个脑胶质瘤综合诊疗中心建成,由北京市神经外科研究所、首都医科大学附属北京天坛医院江涛教授担任中心负责人。江涛教授主要从事转化医学、分子分型、胶质瘤精准治疗等方面的研究,同期,江涛教授作为发起人成立中国脑胶质瘤临床生物样本库[14]。该样本库的临床样本主要来自于首都医科大学附属北京天坛医院、天津医科大学总医院、首都医科大学三博脑科医院、哈尔滨大学第二附属医院、南京医科大学第一附属医院和中国医科大学第一医院等国内多家知名三甲医院。样本采集过程中均获得患者或患者家属的知情同意,根据各个医院的伦理委员会批准进行肿瘤标本采集,手术切除后取肿瘤组织5 min 内即通过液氮冷冻保存。此外,患者的随访信息由聘请的专业人员进行定期随访获得。
自2004 年至今,通过10 余年的样本采集,在《中华人民共和国人类遗传资源管理条例》的规范下,该团队建立了中国人群最大规模的脑胶质瘤临床生物样本库,登记患者相应的临床信息,并进行了系统性随访。2012 年,江涛教授团队对上百例脑胶质瘤样本进行了基因芯片及高通量测序等检测,并建立了我国首个脑胶质瘤信息化平台——CGGA(http://www.cgga.org.cn),为脑胶质瘤的基础和临床研究提供了大量的临床和基因组学数据。目前该样本库已经按照国际标准建立了首个中国人群大规模多中心临床样本库,收集了9000 余例各级别脑胶质瘤的冰冻组织、石蜡组织及相应患者的血浆和血细胞标本,包含来源于超过3000 个样本的中国人脑胶质瘤多维组学数据。此外,该团队还开发了新的分析工具,使用户可以浏览突变图谱、mRNA/microRNA 表达图谱和DNA 甲基化图谱等,并对特定的胶质瘤亚型进行生存预后相关性分析。
在生物样本库的统一管理中,首先要对样本进行标识,防止在处理的过程中与其他样本混淆,便于快速识别和样本信息追踪[15-16]。目前世界上大多肿瘤样本库推荐使用二维码标记样本,如法国生物样本库通过手机短信生成样本码,美国国家癌症研究所使用caTissue 软件进行管理[17-18]。中国脑胶质瘤临床生物样本库自主开发了临床数据与样本资源管理系统,该系统按照入库先后顺序和日期定义了样本来源的编码规则,将样本源编码与患者身份信息一一对应,后续分析处理均使用该编码进行,实现了对样本的匿名管理,有效保护了患者的隐私。通过该系统,每个编码可生成一个专用二维码标签,贴于收集样本的专用冻存管(Thermo 公司)上,即可用于样本的超低温保存。临床样本入库后,研究人员可通过临床数据与样本资源管理系统,分别从容器、样本、样本源、数据、随访、质控、统计7 个维度对所有样本进行管理和分析,另外样本库安排有专门定期审核入库、出库记录及数据库维护人员,保证了样本库长期、有效运转。所有数据都使用MySQL14.14 进行组织,网站代码使用Java Servlet 框架基于Java Server Pages 编写,网站部署在Tomcat 6.0.44 Web 服务器上,使用CentOS 5.5 linux 系统运行。这些措施大大提高了数据使用的便捷性和安全性,有利于世界各地的研究人员及时使用数据库的最新内容,大大促进了学术交流。
构建临床生物样本库的另一大挑战是临床及随访信息的完整性、信息更新的及时性[19-21]。为解决这一问题,CGGA 课题组专职随访人员对样本库中的所有病例进行系统化定期随访,内容包括术后每3~6 个月复查MRI 影像学检查评价疗效,详细记录患者的临床情况,包括年龄、性别、肿瘤级别、切除程度、治疗方案、卡氏评分、简易智力状态检查量表评分、随访日期、肿瘤复发时间、死亡时间、生活质量、无进展生存期、总生存期等。这做法不仅完善并统一了肿瘤样本临床数据采集和整理的实际操作流程,使其标准化和规范化,解决了目前尚未统一的脑肿瘤样本收集方法,而且使脑胶质瘤大样本数据库能获取更全面、高质量的临床信息资料,成为权威性的原始科学资源,为进一步开展脑胶质瘤的各类基础和临床研究奠定基础,同时避免了研究经费和临床资源的浪费。
WOS 是Clarivate Analytics(科睿唯安,原汤森路透知识产权与科技事业部)开发的信息服务平台。目前,通过WOS 数据库的论文影响力指标来评价国家、高校、科研机构、科研工作者、学术期刊的学术水平及国际影响力,已成为全球范围内普遍采用的一种方法。为探究中国脑胶质瘤临床生物样本库信息化管理对相关科研成果产出和科研效率的影响,我们基于WOS数据库分析了2011 年1 月至2021 年4 月经过同行评议、已发表、使用中国脑胶质瘤临床样本库数据的SCI 科技论文。以“Chinese Glioma Genome Atlas”或“CGGA”为主题检索词,共检索出308 篇SCI 论文,被引频次总计2695 次,单篇平均引用次数8.75 次,h 指数为24,施引文献2142 篇,按年限分布情况分析这些论文的数量和被引频次。第一篇文章发表于2012 年,与中国脑胶质瘤临床样本库信息系统上线时间相符。此后每年论文发表总数呈稳步上升状态,至2019 年后论文发表数量开始明显增加。2021 年1 月至4 月已有43 篇SCI 论文发表,已超过2018 年全年SCI 论文发表总数。此外这些论文按年限分布的引文分析显示,2013—2020 年中国脑胶质瘤临床生物样本库相关论文被引频次逐年上升,呈近似指数曲线上升。这些分析结果表明,随着中国脑胶质瘤临床生物样本库信息化管理的不断完善,该样本库的科研产出和学术影响力不断提升。
回顾已发表的关于我国临床生物样本库建设和管理现状的相关文献[22-26],我们共总结出目前存在如下问题:样本库建设缺乏统一标准,样本库行政管理不到位,样本共享机制不健全,利益分配机制不合理,样本库信息化建设不完备,样本共享法律体系不健全,样本质量不符合共享要求,知识产权保护薄弱,缺乏共享意识和精神,样本共享资金投入不稳定,缺少样本共享平台等。
上述这些问题说明我国目前临床生物样本库的建设和运行机制尚未成熟。基于中国脑胶质瘤临床生物样本库的建立和使用经验,我们提出以下对策:①在建立样本库前即完善相关标准的设定,可以按照国际先进的样本数据库标准作为参考;事先制订统一、规范的样本入库、排除标准,样本采集流程规范,以及样本使用规范等,避免分散式的样本采集最终使管理产生混乱。②对于重要环节,设置专职人员进行管理,定期培训样本库相关人员,提高管理团队的规范性,如安排专人定期检查样本质量与数量是否与记录一致、样本使用情况是否合理、样本与临床信息是否一致等;根据已有的众多实践经验,管理人员的素质直接决定了样本库的数据质量;对于患者随访,也要安排专业团队定期进行,尽可能完善随访数据。③积极共享最新数据,高质量样本库的价值和潜力往往十分丰富,很难由单个人或单个团队充分挖掘;积极促进样本库数据共享,鼓励多层次的学术交流,不仅有利于充分使用临床样本,也同样有利于扩大数据库及相关研究成果的影响力,使样本库的发展得到更多支持和认可,有利于样本库的长期良性发展。④样本的收集和使用要有前瞻性,目前二代测序、多组学和大数据技术的迭代很快,因此样本库的管理者应当具有敏锐的前瞻思维,及时利用新技术、新方法获得新数据并不断完善数据库;中国脑胶质瘤临床生物样本库目前包含全外显子测序样本286 例、mRNA 测序样本1018 例、微阵列mRNA 芯片301 例、微阵列甲基化芯片159 例,以及microRNA 微阵列样本198 例;此外,该样本库中还包括来自13 例脑胶质瘤患者的6148 个细胞的STRT-seq 平台单细胞测序数据,以及274 例脑胶质瘤患者的影像基因组学数据,这提示及时使用新技术更新样本库数据是样本库管理的重要环节之一。
综上所述,目前CGGA 数据库已成为亚洲乃至全世界最大规模的脑胶质瘤医学信息工程[14]。2020 年12 月,CGGA 数据库成为国家生物信息中心(国家基因组科学数据中心)BIG Search 检索系统的官方合作数据库(Partner Database)。2021 年3 月,CGGA 数据库论文在生物信息学领域权威杂志Genomics,Proteomics&Bioinformatics 在线发表。截至目前,该数据库的总访问量已达30 000 余次,已有美国、欧洲多家知名研究机构在200 余篇SCI 论文中引用或使用该数据库。不断建设和完善的CGGA 数据库将有助于促进我国脑胶质瘤领域基础和临床研究水平的发展,并提高我国癌症研究的国际影响力,最终推动脑胶质瘤新型诊疗模式的发展,让更多脑胶质瘤患者获益。