匡亚岚 李春漾 应志野
(四川大学华西医院生物医学大数据中心 成都 610000)
人工智能、云计算、移动互联等技术迅猛发展,为医疗信息化建设提供新思路的同时也带来压力。一方面,医疗数据呈爆炸式增长,数据管理、数据安全等问题逐渐凸显,需建立统一的大数据平台优化管理,加速实现数据资产价值转化,从而推动诊疗服务模式革新以及成果孵化创新[1]。另一方面,面对一些核心设备和元器件“卡脖子”现状,我国发展自主核心技术的需求越发迫切,复杂的国际关系也推动我国将信息安全和关键技术自主创新提升到国家战略高度[2-3]。建设基于自主可控技术的医疗卫生大数据科研平台符合产业、民生以及国家安全战略需要[4]。医疗大数据平台升级国产化应提前布局,确保关键设备自主可控,充分保障数据安全性。
在国家高度重视以及各类重大专项支持下,我国国产基础软硬件发展取得较大进展[5]。自主可控产业实现关键技术突破,覆盖芯片设计、整机生产、软件研发、系统集成、测试验证、运维服务等产业链环节,基本形成从底层芯片到基础应用软件的全栈生态,见图1。
2.2.1 处理器 “十三五”期间,在我国政策引导和国际形势压力下芯片技术高速发展,形成以MIPS、Alpha、ARM和X86等为基础架构的处理器产业链[6-7],性能已接近国际先进水平。图形处理器(Graphic Process Unit,GPU)方面,国内GPU芯片研制虽然可满足目前大多数图形应用需求,但在科学计算、人工智能及新型图形渲染技术方面仍然和国外领先水平存在较大差距[8]。
2.2.2 存储设备 为保障医疗数据安全,自主可控的存储系统需达到高可靠、高安全、高性能[9]。目前国内存储产业生态基本形成,已实现从存储芯片到存储介质、固态硬盘控制器、存储控制器,再到存储引擎全部自研的高端存储设备,达到国际先进水平[10-12]。
2.2.3 网络 医学科研平台对网络传输效率和质量提出更高要求。在高性能计算和人工智能算法训练等场景中,多采用存储和计算分离策略,网络传输主要使用光纤(Fibre Channel,FC)交换机和IB(Infiniband)交换机。由于专利壁垒,这两项技术被国外厂商垄断,基于传统以太网协议的网络设备还无法实现国产化替代[13]。RoCE协议的发展为自主创新以太交换机替代FC和IB提供了机会[14]。
2.3.1 操作系统 是软件体系的基础。微软相继对Windows XP和Windows 7操作系统停止服务支持引发公众对信息安全的担忧,也给国产操作系统发展带来契机。国内厂商持续推进国产操作系统生态构建,已实现多款具有内生安全体系的操作系统并与国产芯片完成适配,全面兼容主流软硬件产品[15-16]。
2.3.2 数据库 我国数据库产品相对成熟,在性能、稳定性、安全性等方面有突出表现,接近国际先进水平。国产数据库在国内市场份额已提升至 8%~10%[17],在政府、金融、电信等多个领域都有广泛应用。目前我国已成功研发出具有自主知识产权的关系型数据库以及分布式数据库软件[18-19]。
2018年国家卫健委对全国公立医院开展大数据相关工作提出要求,三级医院需在5~10年内建设医疗大数据科研平台[20]。目前各医院医疗大数据科研平台服务器、存储、数据库等产品大部分采用国外厂商核心技术,特别是用于前沿医学科研的高性能计算平台,其软硬件设备国产化程度不高,缺少核心软硬件平台国产化探索。现有针对医疗大数据科研平台的研究大多集中在数据收集、数据处理、模型搭建等软件框架,基础设施层研究较少。本文以生物信息科研应用场景为例,提出多组学大数据科研平台自主可控建设方案。平台总体架构,见图2。底层为包含各类硬件与基础软件的基础设施层,为上层应用提供大算力、高性能存储以及数据安全方面保障。搭建“大而全”的底层数据中心,在此基础上通过多组学数据整合、治理与集成构建科研数据湖,形成多组学数据资产,进而结合机器学习、人工智能等方法从多组学数据中挖掘有价值信息,为疾病发生发展的分子机制发现、药物研发以及个性化诊疗等提供辅助支持。本文聚焦基础设施层、核心软硬件自主可控,从源头上保障医学科研环境和医疗数据安全性,应对被“停服”或“禁售”等供应链风险,同时兼顾平台性能和兼容性,为科研平台多元化应用场景提供重要技术支持。
3.2.1 计算资源 基础硬件设施自主可控主要包括计算资源、存储资源、网络资源构建,为上层应用提供算力支持。由于多组学科研分析中各阶段对计算性能的需求大多以计算密集型为主,为提升计算效率、提高资源利用率,方案采用CPU+GPU异构方式。目前国内已研发多款拥有自主知识产权的系列芯片,在基于X86或ARM两种指令集的国产芯片中已有能满足临床科研大数据需求的产品。GPU国产芯片也有可商用的产品。在满足性能要求的前提下,各医院根据科研实际需求选择ARM或X86架构的国产化芯片,利用不同的异构平台来实现性能最大化,可充分保障科研分析对计算的需求。
3.2.2 存储资源 医疗数据涉及病例数据完整性和数据隐私保护,对存储安全要求较高。方案选择芯片、控制器、操作系统均为自主可控的存储设备,操作系统定期进行安全加固,且支持数据加密传输,有效保护医疗敏感数据安全性[21]。在部署时采用分布式系统结构,利用多台存储服务器分担存储负荷并配置数据备份节点,不但提高系统可靠性、存取效率和安全性,还易于扩展,将通用硬件引入的不稳定性降到最低,可高效应对本方案中异构复杂场景对存储性能和安全性的要求。
3.2.3 网络资源 多组学分析计算过程中计算节点间、存储节点与计算节点间需要交换大量数据,对网络带宽要求高,网络无阻塞性、低丢包率很重要。目前市面上常用的IB协议从硬件级别保证可靠传输、高吞吐量,技术先进但成本高昂。RoCE协议在性能上与IB相当,稳定性较好且成本低[22],国内市场已推出基于RoCE协议的网络和存储设备,具备国产化替代条件。在部署方式上可采用管理网和业务网分离模式,管理网主要负责传输管理节点与存储节点、计算节点之间的管理任务,业务网主要为节点间数据传输提供网络支撑,大吞吐量、稳定的数据传输是保障高算力的关键。
3.3.1 操作系统层面 鉴于Linux系统在服务器领域的稳定性和安全性优势,选择基于开源Linux开发的国产操作系统,基于现有Linux生态支持部分生物信息分析软件安装和使用,减少适配工作量。
3.3.2 数据库层面 在医疗科研平台中,Oracle等国外产品长期占有大量市场份额。目前国内已拥有一系列完全自主可控的数据库产品,与大部分国产芯片、操作系统完成适配,稳定性和高可用性接近国外主流产品,支持在医疗领域的推广应用。数据迁移方面需要根据国产数据库特性,从数据结构、类型和使用场景3方面制定迁移实施方案。通过语法、语义对比找到静态数据差异,根据数据使用场景将业务流程梳理清晰,明确业务与数据库之间的调用方式,重点需要对一些复杂的长事务操作进行程序适配,例如特殊分析函数、存储过程等,避免出现数据丢失等问题。
3.3.3 中间件层面 主要是JDK适配,由于国产化平台不支持SUN JDK,应用系统业务不能直接迁移到国产化平台,在原X86平台下预编译的JSP文件需重新修改编译。
构建自主可控的应用系统首要任务是平滑迁移,即从国外分析工具生态迁移到国产化生态后力求对用户行为习惯影响最小。在生物信息科研场景应用分析中,从数据采集到数据归档,需要通过大规模计算分析从海量数据信息中辨识有用基因及其序列,最终获取遗传信息。这一过程常用的分析软件繁多,在进行国产化平台迁移时,每个阶段所用到的软件都需要根据底层国产化软硬件做兼容性测试,必要时还需开发同类型可替代的分析工具,见表1。目前大部分多组学分析软件都基于X86架构开发,在ARM等其他架构的自主可控平台上还没有完整的适用于生物信息科研分析的应用软件生态,尚待进一步完善。
表1 生物信息科研典型应用软件
目前能支撑医疗大数据高性能计算的国产化芯片产品相对单一,性能与国外产品尚有差距。国内厂商已具备一定芯片设计能力,但芯片生产关键技术还有待突破。国产CPU架构大多采用国外技术,受专利壁垒限制,一旦架构更新将面临重新授权的问题,能否自主研发具有更高性能的CPU内核成为关键。在提升单颗CPU主频成为瓶颈时,国产化替代需要从架构创新寻找突破,针对特定领域的特定需求,设计不同的异构计算平台,实现专用性能扩展,或能成为性能提升的新方向。
自主可控技术在电子政务、金融、交通等领域得到很好的应用,但在医疗大数据领域还欠缺行业解决方案。完整、商业化的生态体系构建是自主可控技术发展的关键,尤其是高成熟度的解决方案。自主可控技术在医疗大数据领域的推广应用阶段,芯片与下游产业融合发展,增强与医疗机构和高校的合作,鼓励创新,从用户实际需求出发,积极推进医疗分析应用软件的优化适配工作,在满足科研平台多样化应用需求的基础上形成软硬件结合的平台解决方案,健全医疗行业科研应用软件生态,填补医疗大数据领域国产化分析软件空白。在此过程中应用和研发同步走,做好国产化和非国产化两类环境的双向适配及融合解决方案,鼓励重点医疗机构首批应用试点及规模推广,在市场应用过程中不断发现问题、解决问题,做强生态。
医疗行业安全关系民生,基于自主可控技术的医疗卫生信息化建设、大数据健康产业及智慧医疗推进将惠及亿万公众。“十四五”规划已明确要求面向人民生命健康深入实施科技自立自强,未来几年将是自主可控技术大规模推广和应用的关键时期。相信在不久的将来,随着关键技术突破、产业生态完善,在政府的鼓励和应用牵引下,我国医疗健康领域信息化发展将进入以自主创新为主的新局面。