王东妮,东野枚枚,张栩琳,杨子英 综述 林浩添,2 审校
(1.中山大学中山眼科中心,眼科学国家重点实验室,广州 510060;2.中山大学精准医学科学中心,广州 510080)
疾病生物样本库是建设数量最多且普遍存在于各级医疗机构的生物样本库,样本由患有相关疾病的患者捐献。医院的电子病历系统(electronic medical record,EMR)、医院信息系统(hospital information system,HIS)、实验室信息系统(laboratory information system,LIS)、影像归档和通信系统(picture archiving and communication systems,PACS)等已广泛应用于各级医疗机构[1],存储着大量的临床信息。将这些系统通过接口连接到生物样本库信息系统是生物样本库信息化建设的关键步骤,也是注释样本属性的数据提取方式,但各管理系统中储存的数据类型种类繁多,包含结构化数据、以自然语言描述的非结构化数据、影像数据、检查报告等,单纯抓取原始数据到生物样本库信息系统只会重复储存,造成数据冗余,浪费人力、物力和财力[2],生物样本库急需利用智能化的数据处理方式来应对这一难题。由于机器学习技术的进步,人工智能(artificial intelligence,AI)在医学上的应用引起了广泛关注[3-4]。自然语言处理技术在信息检索中的应用[5]、深度学习技术在自然语言处理和在图像识别中的应用以及区块链技术均有望成为解决生物样本库信息化建设与信息共享的核心技术。
临床生物样本蕴藏着许多与疾病相关的信息,是不可复制的科学研究资源。20世纪90年代以来,欧美等发达国家纷纷建立了大规模人群样本库,如拥有70万例样本的美国国家癌症研究所建立的国家级肿瘤生物样本库(Cooperative Human Tissue Network,CHTN)[6]、招募了50万名40~69岁志愿者并记录其医疗健康数据的英国生物样本库(United Kingdom Biobank,UK Biobank)[7]、囊括了欧洲30多个国家的200多个机构的泛欧洲生物样本库与生物分子资源研究平台(Biobanking and Biomolecular Resources Research Infrastructure,BBMRI)[8]。为了保护我国各民族基因组并供永久性研究,中国科学院在1994年建立了中华民族永生细胞库,是目前国内规模最大的各民族永生细胞库[9]。自此,国内各类生物样本库应运而生,在早期的生物样本库建设过程中,建设者都更加注重样本数量建设,生物样本得到快速积累,但由于对样本信息疏于管理,导致信息错漏,对样本的应用及共享产生了极大的限制。如何深入挖掘样本信息,加速科学的共享与利用,是当前生物样本库建设的重要方向。
国内生物样本库立足于我国丰富的遗传资源、多样化的疾病类型,建设与发展模式渐趋成熟,在疾病防控、精准医疗、早筛早诊中的作用日益增加。标准化的样本和数据管理作为生物样本库的重要一环,是获取高质量样本和数据的基础,也是促进转化医学和精准医学发展的基石。然而,庞大的临床资源却由于数据结构化程度低、电子信息化建设水平参差不齐,导致利用率较低[2]。如何有效地整合、挖掘现有临床资源,是生物样本数据库建设的基础问题。
随着A I 的发展、深度学习模型的开发和优化,语义分析有望成为解决上述问题的钥匙。语义分析是A I 的一个分支,将自然语言转化为计算机能够理解的语言,通过如循环神经网络(Recurrent Neural Networks,RNNs)、长短时记忆模型(Long Short-Term Memory,LSTMs)及其他模型训练机器学习、“理解”,并以自然语言给出分析结果[10]。目前,语义分析的信息处理已从表层特征向深层语义分析转变,并在多个领域内应用。在舆情分析方面,通过抓取社交媒体的相关信息,语义识别应用于包括欺诈交易识别等的犯罪活动检测[11];在生物医学方面,自然语言处理和关系提取已应用于文献整合、构建疾病的全蛋白质谱及基因序列标记[12]等。
在生物样本库信息化建设中,整理样本捐献者的临床信息是必不可少的环节,如患者的基本信息、门诊信息和住院信息可以从HIS系统里获取;患者的检验信息可以从LIS系统里获取;患者的影像信息可以从PACS系统中获取;患者的病历信息可以从EMR中获取。语义分析的文本信息提取可以帮助研究者提取与样本相关的关键信息,即通过对文本信息的抽取,精炼庞杂的临床数据,为样本带上多个“标签”,方便研究者进行样本的筛选和统计分析;文本分类和聚类可以实现样本的自动分类,方便研究者进行大型队列研究和数据分类;智能检索可以协助研究者在临床信息数据池中挖掘和提取有效信息,在将信息结构化处理后,建立语义化描述疾病资源相关特征的模式,进一步提高临床数据的可用性、共享性。
高度信息化建设的生物样本库会全面保留样本捐献者的基本信息、临床信息、样本信息、科研数据等,其中就包含X线、CT、MRI、裂隙灯照片、眼底照片、病理图片、细胞与组织照片等图像数据。从这些非结构化的图像中提取有效信息,往往依赖于科研人员的临床经验,准确性与一致性都得不到保证。
图像识别是指在计算机系统的辅助下对图像进行处理与分析,识别并提取目标区域的技术[13]。在实际工作中,HIS,LIS系统中大部分是结构化数据,比较方便获取,但PACS系统内的数据和电子病历数据为图片和文本数据,想从中提取信息需要研究者逐个查看并整理关键信息。将AI技术与PACS系统集成开发[14],将AI诊断结果反馈在样本库系统中,可以对患者的临床诊断进行验证,减少误诊漏诊,使样本使用者在选择样本时对患者的诊断进行二次核查,提高科研的严谨性。基于深度学习的图像识别技术在放射学、超声学、病理学、皮肤科学、眼科学等一些需要影像数据分析的医学学科中成果繁多[15-19]。特别是在眼科学领域发展迅猛。中山大学中山眼科中心AI团队研发了通过收集、分析患者的裂隙灯图片,开发了集筛查、危险度评估和辅助治疗为一体的先天性白内障智能诊断与决策系统CC-Cruiser[20]。并以该系统为核心完成了全球首个AI多中心随机对照临床研究,提出了医学AI临床应用评判标准,推动了AI临床转化和落地应用的进程[21]。
近日,该团队研发的一种基于解剖学和病理学特征的医学图像密集标注技术Visionome问世,该技术比传统图片分类标注方法多产生12倍标签,可准确识别多种眼前段病变,准确率高达93.75%,且在20种未经过学习的眼病大规模筛查场景中准确率达84.00%,实现了AI跨专科、多病种应用[22]。Visionome所产生的标签正是生物样本库呈待结构化的图像数据。与常规的AI诊断不同的是,生物样本信息数据库内本身就包含患者确切的临床诊断,提取图像对应的诊断结果,可以作为重要的参考标准提高Visionome识别各类标签的准确性,将这些标签存储在生物样本库系统内作为对样本属性的注释,更加细化的区分了样本分析前变量,有望成为未来科学研究的新模式。
生物样本库旨在为基础科研和临床医学研究提供合适的样本及数据,“只存不用”、“样本私有化”、无法实现样本资源的应用和共享,只会发展成“私库”或“垃圾库”,令生物样本库失去其存在的意义[23]。我国生物样本库在共享方面普遍存在的问题主要有:1)“私库”比较泛滥,样本拥有者共享意愿低;2)缺乏完善的共享机制平台;3)样本基本信息及其关联信息没有统一标准,不利于数据结构化和共享;4)存在知情同意、隐私泄露、“生物剽窃”等伦理问题和法律问题。如何通过技术手段解决样本共享问题,是实现生物样本价值最大化的根本途径。
区块链和AI同属于近年来炙手可热的新兴技术,但区块链不属于AI技术,它们之间是相辅相成的关系。区块链能够为数据安全、数据管理、数据共享提供强大的技术保障,同时为数据来源的真实性和生物样本的伦理问题提供更好的解决方案。进一步而言,区块链下的生物样本信息集成数据库,或能成为大数据时代中生物信息数据挖掘和AI应用的先决条件。
我国生物样本的主要获取渠道包括医学检验、病理检验、手术诊疗等,这一系列行为过程所涉及的隐私保护和伦理问题贯穿生物样本库建设始终,存在捐献者知情同意、数据保密、捐献者和样本库间的相互信任、样本库商业化运营、国际合作等核心伦理挑战[24]。区块链技术作为一个由多方共同维护、去中心化的分布式记账技术,核心在于通过对等网络协议、共识算法、非对称加密、哈希等关键技术解决数据传递与交换过程中的信任问题。区块链的链式结构在于将不同的数据区块按时间戳顺序相连来进行数据存储与验证;区块链网络中的每个节点都可以共享数据,并且同步条件下的所有副本都与其他节点完全相同;访问者需要获得唯一的私钥解密公钥进行区块内容的访问[25-26]。因此,即使黑客获得私钥企图篡改单一数据区块,将无法使攻击生效,黑客必须同时攻击与该数据区块相连的所有节点中的所有副本,由此产生的技术难度极大,目前仍无法实现。
区块链的可溯源、不可篡改、高冗余、安全透明及成本低廉等属性,可有效解决生物样本数据泄露、捐献者隐私保护和伦理问题,使人们愿意信任和乐意共享数据。在区块链技术能带来各方信任的基础上,建立相关问责制、样本和数据流向公开和捐献者自主决策的治理体系,将适应并保护所有利益相关者的需求和权利,包括捐献者、研究人员及样本库基金赞助者[27-28]。Mamo等[28]率先做出尝试,创立了一个“动态同意”的门户网站Dwarna,作为生物样本库不同利益相关者的枢纽,Dwarna连接生物样本库管理者、研究人员、捐献者和公众。参与者可在研究过程中根据自己的意愿进行同意/撤销同意的操作。而同意变更的记录将保存在区块链中,区块链会为其附加一个时间戳。通过在区块链中托管同意变更,使研究过程更为透明。
智能合约是基于可信和不可篡改的数据,自动化验证和执行预先定义好的规则和条款。智能合约允许在没有第三方的情况下进行可信交易,并具有可追踪且不可逆转的特性。这对于生物样本库的信息化管理具有高度适用性,通过智能合约控制链流程,有助于实现生物样本从采集到出入库的全流程智能化管理[29]。
生物样本携带的基因信息对疾病预防有重要指导作用。对个体生物信息进行纵向对比,能追踪个人身体健康的变化;若进行横向对比,可进行大数据挖掘,这些数据的价值不言而喻。但现实中,这些数据往往存储在孤立的医疗或科研机构里,机构与机构之间无法进行数据流通,个体本身也无法真正实现对数据的拥有权和使用权。Nebula Genomics公司推出了一项业务,消费者花费999美元(项目代币)测试自己的基因信息,并使用区块链技术保障其数据和交易记录的安全性。消费者可以对自己的数据进行管理,自主决定把数据有偿或无偿分享给他人。国外私人企业先于公立机构利用区块链技术在生物样本信息的共享上做出了尝试,对于第三方样本库的运营提供一定的参考意义。
除了个人生物信息,生物样本库之间也可以利用区块链技术实现安全的信息交换。Evangelatos等[30]开发出一个生态系统,在生物银行和免费/自由开源软件(free/libre open source software,FLOSS)之间利用区块链技术实现数据接口,保护信息共享空间免受搭便车问题的影响,并在不妨碍其运营框架的情况下保证其可持续性。
随着互联网技术的发展,生物样本库将发展为生物银行,其运营目标是通过线上数据共享,线下实现生物样本的分享,以实现资源的合理利用和价值提升。大数据时代下的生物样本库需要发展新的数据管理技术来为日常运营、信息共享提供有力的支撑,令生物样本库真正成为分享型样本库,能支持样本存储的核心业务,支撑样本分享和数据共享的业务模式。Dwarna门户网站、Nebula Genomics公司、Nikolaos Evangelatos团队等展示了区块链面向生物银行的应用,设计实现这样的系统的可能性。但在不同国家不同国情不同研究领域的样本库,需要针对具体情况设计个性化的信息化管理系统。生物样本库的信息化系统应秉承“分类适用”的理念,与领域和应用紧密结合,故其架构也与应用相对应,可能是去中心的,也可能是弱中心或多中心的。信息化是业务发展和改革的基础,很多时候也是改革的先锋,甚至引领应用创新。区块链技术的应用前景甚好,但需要医疗行业规范和医疗数据知识产权规范等宏观设计与规范执行,在我国的探索依然任重道远,但我们相信,与区块链促进了金融技术的演进一样,生物样本库将伴随新的共享模式焕发出新的生命力。
本文分析了A I 技术在生物样本库信息化建设中可能的应用场景,通过使用语义识别、图像识别技术辅助科研人员快速检索到更加符合条件的目的样本,利用区块链技术促进样本的应用共享。但AI技术本身还处在发展阶段,虽可以节省科研数据收集时间,却存在许多技术上的瓶颈,不能充分提取原始数据的有效信息。此外,生物样本库还处在标准化建设的初级阶段,尚未建立统一的标准数据集,导致AI技术在生物样本库建设中的应用存在异质性,不利于广泛应用。未来AI技术和生物样本库标准化建设的共同发展可以促使生物样本库信息化建设的统一,促进数据与样本的共享和合理使用。