,,
随着科学研究进入数据密集型范式,科学大数据不仅仅是科学研究的结果,也成为科学研究活动的基础和起点[1]。
为促进临床数据共享,WHO临床试验注册平台于2015年8月发布了关于支持临床试验数据共享的声明,国际医学期刊编辑委员会于2016 年1月20日发布了关于临床试验数据共享的建议。中国临床试验注册中心亦决定从2016年3月14日起,要求公开原始数据(包括原始记录数据和研究计划书)共享计划、数据保存和管理规划、在知情同意书中加入公开原始数据内容[2],旨在进一步推动临床试验透明化,履行医学研究者的社会责任。
新药研发具有复杂程度高、周期长、投入高、成功率低等特点,平均每5 000~10 000 个化学或生物分子中可筛选出250个先导化合物进入临床前研究阶段,最终仅有1个能获批上市。1种新药从发现到成功上市通常需要10~15 年[3],平均投资13.95亿美元[4]。
研发过程中,从药物发现到新药申请,从临床前试验到上市后的临床效果评价,无不建立在翔实而可靠的科学数据基础上。有效的数据挖掘和模型开发需要有代表性的、经过处理的大数据集,但是以往按照严格的临床试验指南产生的高质量临床前安全数据由于项目特点、知识产权保护或竞争优势保护等原因而不会公开,仅有少量上市药物的安全性数据有时会以概要的形式发布[5]。因此获得并共享高质量、高赋值的新药研发数据存在较多障碍。而破解这一难题,是提高药物研发效率的关键。为此,本文介绍并分析了欧洲制药工业联合会支持的2个药理学、毒理学数据共享平台的解决方案,为我国新药研发数据共享平台建设提供参考。
我国对新药研发平台建设高度重视,“十一五”期间启动了“重大新药创制专项”,在全国范围内布局15 个“综合性新药研究开发技术大平台”,旨在全面提升我国的新药创制能力[6]。如国家十一五“重大新药创制”科技重大专项——“ 精神药物新药临床评价研究技术平台”获得了2008-2020年的滚动支持。目前该平台建立了精神药物临床试验协作网,由具有较高精神疾病诊疗和科研水平的单位自愿联合组成学术团体,实现了电子化数据管理并获国际认可[7]。但该平台不直接涉及任何一项具体临床试验的实施,只是一个纯粹的学术协作网络。
科技部于2003年将科学数据共享工程作为重大项目立项,2010年国家人口与健康科学数据共享平台面向社会开放提供服务[8],目前该平台已有20T的科学数据在线开放。
其中,由中国医学科学院药物研究所负责的药学科学数据中心,在国家科技基础条件平台项目的支持下,成为实质上的国家药物研发共享平台[9]。
药学科学数据中心作为国家人口与健康科学数据共享平台的重要组成部分,目前提供数10个药学数据库的资源共享,包括药物靶点数据库、药用天然提取物活性库、中国天然产物化学成分库、虚拟化合物库、药物分析方法数据库、中药及天然产物质量控制库等数据库等药物研发类数据库,以及药物资源类数据库、药品使用类数据库、药事管理类数据库等,为开展“创新药物研究”专题服务奠定了基础。
为确保数据资源量,增强服务创新药物研发的能力,平台定期征集、整合数据实体,汇交到药学数据中心进行初筛、分类、标识,制作对应元数据并在平台门户网站共享。
国家人口与健康科学数据共享服务平台药学数据中心主页如图1所示。
图1国家人口与健康科学数据共享服务平台药学数据中心主页
其中,“新药研发动态数据库”“新药动态”信息定期发布。“新药研发动态数据库”整合国外多个著名新药研发数据库中的信息,包括Thomson Integrity、CORTELLIS、Pharmaproject等药物信息数据库,PubMED、Embase等文摘数据库,Elsevier Sciencedirect、Springer 等全文数据库,Thomson Innovation、Derwent Innovation Index等专利数据库;“新药动态”每月发布国外特别是美国FDA新审批的新分子实体药物和生物制品药物信息,总结归纳药物的研发历程,系统梳理药物理化特性、合成路线、细胞试验信息、动物试验信息、Ⅰ期、Ⅱ期、Ⅲ期临床试验信息、审批上市信息,使国内科研人员能及时了解国外药物审批动态及研发历程。
可见,当前我国新药研发知识服务都是源于各种数据库中可直接利用的知识和信息,权威、可靠的药物研发初始数据尚无共享利用渠道,尚未提供知识识别和知识推理服务[10],距离新药研发数据多学科、多层次和多级别共享的目标还有很大差距。从实践结果看,近10年来各种基金资助的数据平台很多,但达到预期目的并投入使用的寥寥无几。
FDA 2000-2012年的回溯性综述报告显示,在药物研发的所有阶段,毒性相关的副作用一直是新的候选药物夭折、影响新药开发的主要原因[11],因此需要在药物研发的临床前阶段更早预测其安全性。各种预测模型的质量在不断改进,但预测的可靠性仍然有待提高,如心血管毒性很多要到大规模的Ⅲ期临床试验才能发现。分析、探究之前失败的原因有助于改进新药临床开发效率及其安全性[12]。
2010年,在创新药物计划的驱动下 ,欧洲制药工业协会联合会(EFPIA)启动了eTOX项目,其全称是“用于计算机毒性预测专家系统开发的整合生物信息学和化学信息学方法 ”。由11所院校、6家中小企业和13个制药公司组成公-私联盟,共同建立了eTOXsys平台,包括数据库整合和全部预测模型,旨在实现知识共享,为候选新药的设计提供新的工具。其目标是从论文或PDF文档中提取和共享13家制药公司毒理学研究部门产生的临床前毒性研究数据,并利用这些数据建立一个翔实的数据库,作为药物研发参照数据源,即通过类似的结构和/或效果比较早期评估候选药物的潜在毒性,以及进行预测模型训练。目前平台提供13家制药公司的逾4 000项研究,对应1 400多个化合物。
eTOX数据库除包括药理学安全性、药代动力学、药效学、药物分布、生殖毒性和致癌性研究数据以及之前的各种毒物基因组学和毒理学项目外,还从文献和公开出版物中筛选可用于eTOX的数据、工具、方法或者讨论。这些经过筛选的数据存储于eTOXlibrary,对公众开放[13-15]。其成功运行有以下几个原因。
eTOX临床前研究数据共享的主要障碍之一是如何将参与项目的制药公司数千个充分剂量毒性研究中的临床前数据整合成公众可以利用的数据源,以及从生物医学文献中进行文本挖掘。2010年以前,这些专有信息都由每个制药公司各自拥有。eTOX使这些信息转化为机读数据,并且在保护知识产权和敏感信息保密的前提下,在联盟内共享。由每个公司确定所拥有数据的敏感性分级、是否提供给eTOX、数据是否需要保护、是否自由分享。
各参与机构提供的数据按敏感性分为公开、非保密、保密、非共享4级(表1)。
表1 eTOX项目的数据敏感性分级
传统报告经过公司内部审查,由公司自己或者提交给合同研究组织(CRO)进行数据提取。每个EFPIA伙伴都有权修订CROs的工作,进行质量检查,然后分别将文档上传给可靠的关系数据库服务商。数据库服务商收到数据后,把数据传到内部产品数据库,或者将保密信息存储到独立的数据库。之后按照统一的数据纳入标准和指导原则进行质量确认和纠错,保证不同公司数据格式的一致性。进入eTOX数据库后,确认新的术语并加入该项目开发的术语管理工具—人工处理优选术语(术语尽量标准化以增加互操作性,确保整体统一)。
每个EFPIA伙伴需每月提交“报告跟踪”工作表,每份报告都包括物质ID号、报告ID号、信息质量评估结果、报告进入eTOX数据的提取过程、保密分级、上传给CRO/Lhasa有限公司的时间、在数据库的公开时间等详细信息。
为保护知识产权,由私立非盈利性组织Lhasa公司维护保密性数据,基于其信誉保证安全共享。eTOX数据库模式由其开发,包含多个数据模块:化学数据模块如结构、id、药理学作用等,研究设计信息模块如种系、族株、性别、剂量,毒物代谢动力学模块如剂量、Tmax、Cmax,一般毒性作用信息模块如剂量、死亡率、体重,临床化学发现模块如剂量、临床化学参数,临床血液学发现模块如剂量、血液学参数,组织病理学发现模块如剂量、影响的器官、影响的动物,ADME模块如吸收、分别、CYP450 、代谢产物、排泄平衡和清除信息。
2.3.1 构建统一的临床前药物发现标准本体
统一的本体是与其他数据库实现互操作的基础。eTOX参照国际统一命名法和诊断标准努力使其术语具有兼容性,将逐字术语转换成联合体使用的标准术语。迄今为止,共有800多万个自然术语被指定为优选术语,意味着eTOX 数据库中97%的逐字术语已经标准化。这项庞大的工作是获得高质量和可用数据的保证。
创建指南和数据处理工具,建立本体标准,使eTOX数据库内容与OntoBrowser 工具的受控词表相兼容。兼容映射和处理工作是允许对eTOX数据库内容进行高质量交叉参照分析的必要条件。
具体做法是由一个本体管理核心团队负责分配不同的本体模块,利用诺华公司开发的基于网络的本体管理工具OntoBrowser(开放源代码),处理代码表和本体生成/映射/管理,对从传统报告中提取的术语进行综合处理。进入eTOX数据库的新术语被转入OntoBrowser工具,使其与本体映射,随后由有审批权限的科学家检查和确认每个特别的映射,最后将优选的词汇整合进eTOX数据库,因此用户可以同时看到自然词汇和优选术语。
通用本体是eTOX 项目成功的关键,构建了本领域稀缺的临床前药物发现标准本体。这些努力使共享的数据质量可信、一致,进而根据内容产生可靠的、能够交叉参照和开放类似定量结构-活性关系(QSAR)或其他预测模型。
2.3.2 提供以建模为目的的数据分析
eTOX数据库的主要目的是通过数据分析建立预测药物诱发毒性的计算机模型,允许进行精确的结构、亚结构和结构相似性检索与挖掘。然而共享的毒理学研究数据最初并不是为产生预测模型而设计的,各种发现、观察的数据集用于模型构建有3个困难:一是对某些遗传生物学性质需要之前的观察条件参照,如是否在非常高的剂量观察的、动物数量是否有意义、效果是否显著不同于对照组、动物是否濒死等;二是不同剂量、不同动物或不同的给药途径观察到的性质不能直接比较;三是大多数明显的表型 (如胆汁郁积)可能有多个毒性机制,不能简单地被单个模型覆盖。
2.3.3 建立数据预测系统eTOXsys
eTOXsys是整合各种工具、数据库的网络软件平台,由分子网络GmbH开发。通过统一的用户交互界面,允许用户使用预测模型和数据库进行候选药物危险识别和风险评估。系统由4个主要部分组成,接受用户关于毒理学终点预测查询(由预测服务提供)和数据库检索(eTOX数据库服务提供),收集来自web服务器的结果并反馈给终端用户。
终端用户可以对数据库进行查询和结果预测,并进一步细化和分析。eTOXsys界面允许进行基于化学的检索和基于毒性的检索。图2显示盐酸丙咪嗪检索结果的详细信息。
2.3.4 决策支持与模型预测
为改善新药发现中的决策支持,确保eTOX项目数据共享的价值,从EFPIA合作伙伴中收集了毒理学家和药物化学家在其日常工作中面临的共同决策,并列出潜在的假设驱动(单一或多个参数)对数据库内容的查询。
图2 药物毒性数据详细信息[13]
化合物毒理学相关性质的计算机模型预测是eTOXsys的主要功能之一,即根据公开的大量毒理学相关终点数据进行建模。尽管当前版本尚未包括用传统报告数据产生的模型,但利用体内数据的策略已被细化,eTOXsys的建模技术已经用于根据公开数据产生的大量的毒理学相关终点预测。图3显示eTOXsys毒性相关预测模型的请求结果。可能的模型以层级树的形式组织在一起。
图3 eTOXsys毒性相关预测模型的请求结果[13]
近年来,虽然新药的批准数量增加有限,但新药研发数据的规模、维度和复杂性都在不断增加,且存储于不同的公共或专有数据库中。不同数据源的有效关联可以发现隐藏的关系并改进研究策略,然而由于数据格式的差异、需要单独的接口和查询机制、不同资源描述符和标识符之间缺乏一致性,以及缺少简单的关联机制,使从这些异源性数据收集相关而全面的信息、挖掘知识变得更加复杂。
为解决这一难题,利用语义Web技术集成来自不同来源的数据,构建统一接口的平台,提供可访问的、结构良好的数据和有用的分析,将使药物发现研究者受益匪浅。
Open PHACTS是一个创新药物知识管理项目,由欧洲制药工业协会联合会(EFPIA)、多所欧洲大学和中小企业合作完成(http://www.openphacts.org/consortium),聚焦于应用语义Web技术获得不同来源、不同类别的数据,挖掘现有知识和在新药发现中产生新的假设。通过整合各种公开可用的生物分子、药理学和物理化学数据源,Open PHACTS成为以有意义和可再现的方式响应结构化、定义良好的查询的最新药物发现平台,便于科学家访问和处理多源数据,进行药物发现研究[16]。
图4通过对多巴胺受体药物发现项目的化学物质的全面鉴定(A)、与疾病相关的抗表皮生长因子受体(ErbB)信号传导通路中所有靶标活性化合物的鉴定(B)和评估维生素D代谢通路中的靶标以辅助维生素新类似物的设计3个检索案例,说明 Open PHACTS如何在药物发现过程中挖掘已有知识和发现新的假设。
图4 Open PHACTS 平台(橙色)可检索的关联数据库及提供的信息(包括进一步通过外部数据库BLAST 进行序列相似性检索及访问专有数据库)[16]
在数据挖掘和模型预测中,数据质量的重要性不言而喻,只有严谨准确的数据才能进行可靠的挖掘、产生有价值的结论和有效的预测。
临床数据共享并非简单的行政命令就能解决,其中所涉及的知识产权问题、数据质量问题、能否建立精确的受控词表等问题,是能否实现有效数据共享的关键。
本文介绍的2个制药行业新药研发数据共享的成功案例值得参考借鉴。
eTOX正在变成制药领域获取全身毒性报告的最大、最相关的临床前数据库,可以预见未来该成果将被更广泛地推广和应用。其建立的新药研发数据共享机制和质量控制模式值得我们参考。
迄今为止,我国各种数据平台建设中的信息孤岛现象仍未消除。近年来,由国家、省、市、各部委资助的各种疾病大数据平台、精准医学平台纷纷上马,但是多源异构数据的质量标准是否已经建立并普及、平台能否互联互通仍然存疑;药物研发数据资源的共享开放、协同应用通道仍未打通,统一归口的药物研发数据共享机制尚未建立;平台研发、语义本体研究依然各行其是,人力物力投入巨大,但是达到预期目的、能够投入使用的数据平台却寥寥无几。
2016年,为规范和推动健康医疗大数据融合共享、开放应用,消除信息孤岛,国务院办公厅发布了“关于促进和规范健康医疗大数据应用发展的指导意见”,提出围绕重大疾病临床用药研制、药物产业化共性关键技术等需求,建立药物副作用预测、创新药物研发数据融合共享机制[17]。2018年3月17日,我国《科学数据管理》正式发布,明确加强科学数据全生命周期管理,按照“开放为常态、不开放为例外”的共享理念,把确保数据安全放在首要位置,突出科学数据共享利用。
在国家政策的保障和指导下,在执行层面上,建议建立药物研发平台注册制度,无论是国家级的资助平台项目,还是省、地、市级的资助项目,凡获得立项者,必须在国家统一的平台注册,注册内容应包括负责单位、负责人、参与单位、建设目标、拟采用的技术标准、完成时间等,并定期汇报进展和完成情况,不注册者不予结项,使全国上下的平台研发处于统一标准和规范之下,避免重复、无序研究。在保护知识产权和敏感信息保密的前提下,制定医药数据的分类、分级标准,消除行业的信息共享壁垒,建设互联互通的药物研发数据平台,促进军地健康医疗数据规范衔接、互通共享、协同应用。
数据质量是当前我国药物研发领域面临的严峻问题,没有质量保证的大数据就没有利用价值。
2016年,国家食品药品监督局对药物临床试验数据的自查核查发现,逾80%的新药临床数据涉假(造假行为包括修改或编造受试者信息、试验数据、试验记录、试验药物信息),以市场购买药品替代自行研制的试验用药品,以其他方式使用虚假试验用药品,隐瞒、弃用或以其他方式选择性使用试验数据,瞒报或漏报可能与临床试验用药相关的严重不良事件等,破坏了药物临床试验数据的真实性[18-19]。
2015年一项对我国公开发表的新药临床药动学试验数据质量的调查显示,在同一药物品种的生物等效性试验中,报道的药动学参数存在巨大差异,最大达到400倍之多[18]。
临床试验是创新药从基础实验进入人体研究的开端,其结果直接关系到后续临床试验的方案设计及安全性、有效性结论。据其得出的研究结论与生命健康息息相关,因而临床试验数据的准确性至关重要。
现阶段我国药物研发的临床试验数据存在质量、诚信和技术等不同层面的问题,要开展基于大数据的知识挖掘和模型预测、实现有效的数据共享,还任重道远。
国外的医学数据质量亦不乐观。由于网络普及,用户可以多渠道获取数据和集成信息,致使劣质信息产生和传播的风险达到空前的水平[20]。
临床数据的爆炸性增长伴生了大量的劣质数据、垃圾数据,严重降低了医疗大数据的价值密度。如果不加甄别地使用,将会导致源于数据的知识和决策的失误。
2014年7月,面对越来越多的科学数据造假,本着对科学数据质量的重视与负责,《科学》杂志聘请了美国统计协会的7位科学家组成数据编辑委员会,专门负责论文的数据审查工作,通过可重复试验和验证科学数据推进科学进步[21]。
临床试验数据共享不但需要解决知识产权保护问题、利益分配问题、平台建立问题,还需要特别关注数据的质量问题。 因此我国必须加强数据监管,加强学术诚信建设,有效提高和确保药物研发数据的可靠性。
当前我国为新药研发提供的知识服务都是源于可直接利用的知识和信息,整合多个数据库,尚未进行知识识别和知识推理[10]。
随着人工智能的发展,药物研发数据平台建设应向智能预测、知识推理发展,应具备融合多源数据进行药物知识发现的能力,提高药物知识发现的效率和成功率,缩短药物研发周期,减少经济成本。
为实现新药研发数据的有效共享,我国应建立数据平台研发注册制度,避免重复、无序研究;以国家药品数据中心为核心,建立药物标准本体库;采取切实可行措施,加强数据质量监管;组织多学科合作,借助人工智能,融合多源异构文本资源,研发具备知识预测和发现的药学知识库,为我国新药研发提供高效的解决方案。