茅 枫,张燕娜,刘乾宇,闫思桃,胡 倩,罗 妍,李金斌,付 磊,4
1中国医学科学院 北京协和医学院 北京协和医院乳腺外科,北京 100730 2北京邮电大学计算机学院(国家示范性软件学院),北京 100876 3中国人民解放军总医院临床生物样本中心,北京 100853 4国防大学联合勤务学院联合后勤保障系卫勤教研室,北京 100858
自2008年以来,全球每年乳腺癌病例以超过20%的速度增长,而死亡率每年增长超过14%[1]。根据世界卫生组织下属的国际癌症研究中心近几年公布的数据显示,乳腺癌是导致女性患癌死亡的第二大病症,且发病率和死亡率呈逐年上升趋势。2015年我国新发乳腺癌30.4万例,死亡7万例,与之伴随的是个人、家庭和社会保障体系治疗负担的加重[2]。因此,乳腺癌的早期诊断对乳腺癌的治疗、预后等具有重大意义。医学影像诊断是乳腺癌鉴别和早诊的重要手段。而利用计算机视觉技术进行医学影像识别,辅助医生对乳腺癌进行诊断是目前的研究热点之一。通过对乳腺影像的自动化处理,可以帮助医生进行乳腺癌的筛查,从而提高诊断效率。这在当前我国医疗资源整体不足、地域分布不平衡、全科医生短缺、分级诊疗不理想、医疗需求持续攀升等大背景下,实现普惠和精准医疗,促进医疗健康事业平衡充分发展具有重大意义。深度学习模型图像处理作为计算机视觉技术的重要组成部分,已经在医学影像领域得到了广泛的应用。对于利用深度学习训练图像模型本身,影像数据集的样本量是影像识别准确率的重要影响因素,样本量缺失必定会导致模型性能的泛化能力过低。目前,国内医疗影像公开数据集仍处于比较匮乏的阶段,这会在一定程度上制约医学影像辅助诊疗技术的快速发展。因此,本文以乳腺癌为例,对国外大型公开数据集如乳腺X线影像数据集、乳腺癌磁共振数据集进行广泛调研,并对这些数据集的基本情况、具体信息、相关研究现状以及共享利用四个方面进行深入的比较分析,进而总结阐述国外公开影像数据集对我国医疗健康数据开放方案的启示。
乳腺X线数字图像数据集
数据集基本情况:乳腺X线数字图像数据集(Digital Database for Screening Mamography,DDSM)在美国陆军医学研究和材料司令部的资助下,由美国马萨诸塞州综合医院、南佛罗里达大学和桑迪亚国家实验室合作完成,已经在乳腺影像分析研究中被广泛使用,截止到2019年11月,DDSM在谷歌学术上已被引用995次。DDSM主要用于促进计算机辅助诊断算法的研究及教学、培训辅助工具的开发。
数据基本信息:DDSM包含2620个病例,共计20 480张影像资料。该数据集的所有病例均为女性患者,其中大部分来自马萨诸塞州综合医院,另外一部分来自维克森林大学医学院。数据集中的每个病例均由患者基本信息、图像基本信息和原始图像等组成。其中,患者基本信息包括年龄、就诊日期、由放射科医生评估的美国放射学会乳房组织密度评级等,图像基本信息包括扫描仪型号、空间分辨率等。
针对每个具体病例,DDSM提供了4张JPEG格式的压缩的原始图像,其大小为3000×4800像素,分辨率为42~50 μm。4张图像分别为左右内外斜位和头尾位视图,1个带有.ics扩展名的包含患者和图像信息的文本文件和1个仅用于快速查看图像的PGM格式的缩略图。此外,每个异常视图都有一个标注框,描述了图像中由放射科医生标记的异常位置和边界。并且,DDSM携带了癌症、正常、良性三类数据。与大多数只包含一个感兴趣区域(region of intersect,ROI)的乳腺X线影像数据集相比,该数据集含有像素水平级别的标签和每个ROI的类型,如钙化或肿块。
相关研究:Yoon和Kim[3]提出了一种基于AdaBoost的多支持向量机递归特征消除算法,用于对DDSM中的乳腺X线影像进行分类,在有许多ROI的情况下,其提出的方法可能是支持向量机递归特征消除或原始多支持向量机递归特征消除的有效替代方案。2017年,Samala等[4]提出了一种多任务迁移学习的深度神经网络,利用DDSM数据集进行测试,实现了乳腺肿块良恶性的分类。此外,Elter等[5]提出了两种计算机辅助诊断系统方法用于理解决策树对乳腺活检结果的决策过程,在DDSM数据集上验证得出的结果优于医师的诊断决策。
数据共享利用:DDSM[6]由南佛罗里达大学维护,研究者可以通过南佛罗里达大学乳腺数字影像官网主页免费下载使用。该网站提供在线检索工具,可以帮助研究者识别符合指定标准的病例。并且,DDSM提供一些处理数据的软件,如compareTemplates用于将检测算法的结果与图像的标注框进行比较,DDSMView用于显示用户所选病例的图像。此外,还提供匿名ftp访问统计信息,显示每周从DDSM匿名ftp下载的数量。
乳腺X线影像分析协会
数据集基本情况:乳腺X线影像分析协会(Mammographic Image Analysis Society,MIAS)致力于乳腺X线影像研究并建立了数字乳腺X线影像数据库,MIAS数据集[7]是最早公开的乳腺X线影像数据集,目前被广泛应用于乳腺相关的各类研究。截止到2019年11月,MIAS数据集在谷歌学术上被引用次数高达1408次。
数据基本信息:MIAS数据集采用英国国家乳房筛查计划的胶片,该胶片在50 μm像素边缘数字化,使用Joyce-Loebl扫描显微光密度计,其光学密度为0~3.2,每个像素用8-bit表示。具体而言,该数据集包含161例病例,共计322张数字化图片。每例病例都以成对的胶片排列,每对胶片包括患者的左(偶数文件名编号)和右乳房(奇数文件名编号)X线影像,以及放射科医生对所有可能存在的异常位置的标记。所有影像分辨率均为1024×1024像素,可在2.3 GB8mm(ExaByte)磁带上使用。并且,MIAS提供了该数据集的详细信息,包括病例类别(正常影像以及良、恶性病变的多种病征影像)、严重程度、异常中心位置的坐标和半径等。
相关研究:Sankar和Thomas[8]在2010年提出了一种新的快速分型建模方法,通过确定性分型编码方法对MIAS数据集中乳腺X线影像进行建模,以检测微钙化病灶是否存在,相比较于传统的分型图像编码方法,提高了建模效率。Ibrahim等[9]将团队自身研发的计算机辅助诊断系统应用于MIAS数据集,对微钙化病灶的自动检测准确率达到了95.8%,有效提高了医生诊断的敏感性和特异性。2018年,Chougrad等[10]将深度学习应用到乳腺癌影像的分类中,通过对预训练的卷积神经网络进行微调,在MIAS数据集进行测试获得了98.23%的准确率。Mohanty等[11]在2019年提出一种混合计算机辅助诊断系统框架,用于乳腺癌影像的分类并在MIAS数据集上得到了验证。
数据共享利用:MIAS数据集由MIAS维护,受英国版权法、国际条约规定和其他所有适用的国家法律保护。研究者可以通过MIAS数据库网址[12]免费下载使用,在使用时须在出版物中明确标注参考该数据集。
DMD
数据集基本情况:DMD(Digital Mammography Dataset,DMD)是由美国乳腺癌监测联合会(Breast Cancer Surveillance Consortium,BCSC)根据收集的乳腺X线数字影像整理出的数据集,由美国国家癌症研究所等机构提供资助。
数据基本信息:DMD包括2005年1月至2008年12月的20 000个数字乳腺X线影像和20 000个胶片乳腺X线影像样本的病理信息。该数据集提供了患者在乳腺X线检查时的年龄、放射科医生根据乳房成像报告和数据系统量表进行的评估结果、乳腺癌家族史、是否使用激素治疗、乳房密度、活检史、癌症类型以及体质量指数等多项信息。BCSC认为所提供的数据样本数量仍旧相对有限,为慎重起见,其建议研究者仅将这些数据用于教学和科研数据分析。
相关研究:Hinton等[13]使用从ImageNet初始化的权重进行深度学习网络的迁移学习方法,对DMD中乳腺X线影像进行测试,确定了乳腺癌前状态下X线影像中除乳房密度以外的信息,以预测罹患乳腺癌的概率。BCSC研究员Diana Miglioretti博士于2019年4月5日向乳腺成像学会发表了主题演讲,谈到了风险分层筛查的潜在益处,并对BCSC免费提供的风险计算器的作用给出了肯定评价[14]。同年,Mercan等[15]使用计算机视觉的方法对乳房活检样品进行分类并开发了自动图像分析的辅助诊断系统,将辅助诊断系统的性能与87位病理学家的解释进行比较,得到了预期的效果,验证了该辅助诊断系统能够帮助病理学家诊断从良性到浸润性癌症的全范围乳房活检样品。
数据共享利用:研究者可以通过BCSC网站的乳腺X线影像网址免费下载使用该数据集,使用时须包含数据引用说明[16],下载时需提交申请信息和使用说明获得下载链接。网站还会将有关数据更新的通知通过电子邮件发送到研究者提供的注册邮箱。此外,BCSC网站还提供了多种工具,如Bcsc Risk Calculator,可用于预测女性5年内罹患浸润性乳腺癌的风险;Basc Data Explorer,可用于帮助用户检索1994至2009年的BCSC数据,包括乳房X线检查和其他乳房成像检查表格和图表。
QIN Breast DCE-MRI
数据集基本情况:QIN Breast DCE-MRI数据集由俄勒冈健康与科学大学PI Wei Huang博士提供,该数据集主要收集了纵向研究的影像资料,以评估乳腺癌对新辅助化疗的反应。
数据基本信息:QIN Breast DCE-MRI数据集包含672个序列,共计76 328张乳腺癌影像图片。所有影像图片由西门子3T TIM Trio系统采集。该数据集主要包括10例病例在4个时间点(治疗开始之前、第1个治疗周期之后、治疗过程的中点、完成治疗之后)的核磁共振影像资料,共提供了DICOM+NIFTI、Matlab两种版本格式的数据。
相关研究:Nowaková等[17]提出了一种模糊图像检索的新方法,使用QIN Breast DCE-MRI数据集进行测试,解决了不能捕获图像中ROI的问题。Weis 等[18]使用QIN Breast DCE-MRI数据集建模,以预测乳腺癌患者第一个治疗周期后是否能达到病理完全缓解。
数据共享利用:QIN Breast DCE-MRI数据集保存于TCIA(The Cancer Imaging Archive),研究者可以通过访问维基癌症影像档案网[19]免费下载使用。TCIA提供了更高级的搜索、浏览和过滤功能,以选择图像子集或从满足搜索条件的多个集合中下载图像。如果研究者使用此数据集,须包含数据引用[20]。
Breast-MRI-NACT-Pilot
数据集基本情况:Breast-MRI-NACT-Pilot数据集由加州大学旧金山分校的David Newitt博士和Nola Hylton博士提供。该数据集来源于加州大学旧金山分校乳腺成像研究项目,由美国国家癌症研究所提供资助。
数据基本信息:Breast-MRI-NACT-Pilot数据集收集了包括64例接受新辅助化疗治疗浸润性乳腺癌患者的纵向研究影像,共包含2228个序列,共计99 058张乳腺癌影像图片。每个病例包括患者年龄、病变特征等。病变特征的具体内容有肿瘤大小、组织类型、病理类型、肿瘤亚型和是否有淋巴结受侵。
相关研究:Jones 等[21]针对乳腺肿瘤周围存在的异常基质组织可能增加局部复发风险的问题,提出了一种新的成像方法,并利用该数据集中的病例进行测试,得出可以通过动态对比增强磁共振定量肿瘤周围基质组织表征的结论。Natsheh等[22]为多帧DICOM医学图像提供了一种简单有效的像素数据加密方法,通过在Breast-MRI-NACT-Pilot数据集上进行测试,验证了所提出的方法能够缩短加密和解密时间,降低了网络传输医疗图像的安全风险。2019年,Samala等[23]提出了一种均质化的方法用于减少不同成像方案和扫描仪对核磁共振影像的影响,并在Breast-MRI-NACT-Pilot数据集中得到了验证。
数据共享利用:Breast-MRI-NACT-Pilot数据集保存于TCIA,研究者可以访问维基癌症影像档案网[24]免费下载使用,该网站上还附有数据集的详细说明及下载链接。如果研究者使用Breast DCE-MRI数据集,须包含数据引用[25]。
相对于国外公开的乳腺癌影像数据集,我国公开的乳腺癌影像数据集极为匮乏。医疗数据共享程度的偏低一定程度上影响了以计算机视觉技术为代表的、能够提高医疗健康服务效率和质量的新技术在医疗领域的快速发展和应用。同时,我国乳腺癌数据集开放的现状只是医疗健康大数据开放共享力度不足的一个缩影。受制度保障体系、建设理念先进性、技术开发水平或其他方面的影响,国内医疗健康领域科学数据共享平台的数据集成度和开放共享程度仍十分有限[26]。
现以国内外乳腺癌数据集开放共享现状调研视角,结合国外医疗数据共享利用的经验与不足,针对目前我国医疗健康大数据的共享利用提出以下几点建议。
(1)完善相关政策,提高共享水平。国外公开的乳腺癌数据集大多可以免费申请使用,研究人员可以便捷地获取高质量数据。对比欧美发达国家对科学数据等信息资源的重视和管理,我国一直缺少国家层面的制度保障。中华人民共和国科学技术部基础司司长叶玉江和中国科学院地理与资源研究所研究员孙九林曾指出我国科学数据的管理与应用存在着明显不足,特别是许多高价值的科学数据并未在国内得到充分的共享和使用就流向国外[27]。推动数据的共享利用,核心是要通过全国人大立法,建立数据开放标准、界定数据开放边界,需要建立切实有效的数据开放共享法制基础。虽然我国目前尚无全国人大及其常委会审议通过的数据共享方面的法律颁布,但国家、地方已有一些法规、规章颁布实施。2018年我国印发了《科学数据管理办法》(以下简称《办法》),旨在进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,以更好地为国家科技创新、经济社会发展和国家安全提供支撑。《办法》首次站在国家高度、面向多领域科学数据,提出以开放为主的指导原则,其贯彻落实仍需多年探索积累。此外,基于现有的科学体系和数据资源量,数据政策宏观管理体系尚待扩展,科学数据开放共享整体水平仍需提升,分散于各研究机构的数据孤岛仍客观存在。目前,对于数据共享的具体实践和实务操作,仍有待主管部门根据《办法》第32条规定制定具体实施细则。同年,中华人民共和国国家卫生健康委员会发布了《国家健康医疗大数据标准、安全和服务管理办法(试行)》(以下简称《管理办法(试行)》),进一步明确了各级卫生健康行政部门、医疗卫生机构、相关应用单位及个人在健康医疗大数据标准管理、安全管理、服务管理中的责权利,虽然《管理办法(试行)》中仍有不少问题尚待进一步明确,但其对于统筹标准管理、落实安全责任、规范数据服务管理等方面已经有了明确的方向和要求。故在此基础上,可通过进一步跟踪《办法》等文件实施情况,及时提炼总结文件在试行过程中出现的问题和经验,完善健康医疗大数据的标准管理、安全管理和服务管理,促进健康医疗大数据规范有序发展来提高医疗数据的共享。
(2)建立健全医疗数据隐私标准。健全的医疗数据隐私保护标准是实现数据开放共享的基础与前提。随着欧盟《一般数据保护条例》的生效,欧洲范围内建立起了一套在隐私管理、个人信息安全保护和数据流动之间的复合机制。《一般数据保护条例》之后,越来越多的国家开始聚焦自身隐私安全问题,我国也不例外。我国正在快速推进隐私保护工作。《中华人民共和国网络安全法》(以下简称《网络安全法》)于2017年6月1日起实施,其包含一个全局性的框架,旨在监管网络安全、保护个人隐私和敏感信息以及维护国家网络空间主权安全。虽然《网络安全法》已经通过并得以施行,但由于部分要求模棱两可,定义也比较宽泛,在其使用方面仍存在不确定性。2018年5月我国正式实施了《信息安全技术个人信息安全规范》(以下简称《规范》),目的是规范个人信息控制者在收集、保存、使用、共享、转让、公开披露等信息处理环节中的相关行为,旨在遏制个人信息非法收集、滥用、泄漏等乱象,最大程度地保障个人的合法权益和社会公共利益。但该《规范》为推荐性标准而非强制性标准,不具备法律强制力,在对信息主体的个人信息保护力度上远远不够。因此,根据国际医学研究标准和我国国情,仍应进一步在立法层面上制定相应的数据安全规范、责任规范、数据审计制度,建立统一的数据脱敏标准,确保数据存储、传输、使用过程中符合规定,落实隐私泄露等责任问题,规范数据开放共享中的审核过程,不断完善隐私保护法律体系。
(3)加强数据的集成融合。国外公开的乳腺癌数据集有很高的数据集成度,MIAS数据集、Breast-MRI-NACT-Pilot数据集、DDSM、Breast-MRI-NACT-Pilot都提供了患者的病例信息和影像数据,但提供的数据存在一些不足,如MIAS数据集提供了322个影像数据,由于数量较少不能够用于深度学习的训练集,会造成欠拟合现象。各个数据集都将分散的数据进行整合、统一、集中管理,有利于科研人员有针对性地进行数据的分析与挖掘。我国现阶段的医疗环境中,充斥着大量分布式的异构数据、信息、仪器设备和系统,为医疗信息的表达、存储、交换、共享、系统协同工作带来了诸多障碍。以市场需求为导向,根据需求整合医疗健康数据资源[28],研究构建适用于医学研究的关联数据表述、组织与整合的标准化体系,加强多类型数据集成融合,不断增加数据模态,为研究人员提供便捷的数据检索与共享服务,提供多维、动态、多层次的数据管理、分析和应用的技术平台与环境,并且制作相关数据产品有利于数据的管理与使用,以提高数据的使用效率及价值。
(4)建立和制定数据集标注的标准和规范。数据集标注质量良莠不齐是制约数据开放共享的一个重要原因。现阶段数据标注主要依靠人力完成,而当前国内数据标注行业正在起步阶段,行业准入、门槛标准、人员素质、数据安全等问题迫切需要加强规范。一方面需要较完善的标注流程和规范进行质量控制,另一方面需要建立完善的从业资格审核机制,并从行业发展、标注规范、业务标准、数据安全、保密规则等方面对标注人员做培训以引导行业人员各方面素质的提高。如以国家相关部门牵头,联合一些数据标注公司和互联网巨头参与,提供专项资金,共同做好数据标注工作,开发半自动标注工具等。
(5)探索和创新多机构合作机制。国外公开乳腺数据集的创建多在国家相关医疗研究机构的资助下,由医院、大学和学术机构等合作完成。赞助者除了政府机构,也有个人或制药公司、学术机构、私人组织或其他组织进行的联合研究。可以借鉴吸收国外乳腺癌数据集的建设管理经验,以项目为牵引,探索不同地域、不同性质机构间数据共享利用的合作机制,创新合作模式,尝试建立不同疾病领域国际一流、国内领先的医疗数据集共享平台。
(6)推进跨区域协同。政府数据资源是大数据资源的重要组成部分,其基于公共事务管理和服务采集与产生,具有较强的公信力,甚至可能是唯一的数据来源。国务院办公厅印发的《进一步深化“互联网+政务服务”推进政务服务“一网、一门、一次”改革实施方案》已明确提出要建立完善全国数据共享交换体系。除了政府部门内部的互联互通,还需要在一些领域建立政府与企业数据的互联互通,从而为电子政务和数字经济并驾齐驱创造良好的条件。正如习近平总书记所强调的:“要加强政企合作、多方参与,加快公共服务领域数据集中和共享,推进同企业积累的社会数据进行平台对接。”在中共中央政治局就区块链技术发展现状和趋势进行第十八次集体学习中,习近平总书记指出,要抓住区块链技术融合、功能拓展、产业细分的契机,发挥区块链在促进数据共享、优化业务流程、降低运营成本、提升协同效率、建设可信体系等方面的作用。区块链技术为跨地区、跨部门和跨层级的数据交换和信息共享提供了可能,其技术特征有利于建立政府部门之间的信任和共识,在确保数据安全的同时促进政府数据跨界共享。总之,在跨区域政策协同、利益补偿分配等重点领域进行政策创新,推进跨区域数据资源、专家资源共享,同时要推进协同监管、大数据协作,以深化数据等资源共享。
(7)完善和丰富多样化、精准化数据服务。国外公开的乳腺癌数据集除相关数据外,还提供一系列服务和工具供研究人员使用,如数据检索工具、数据处理工具等,为用户创造了良好的科研与工作环境。除数据检索外,可借鉴国外医疗影像数据库的管理服务理念,针对不同的数据库建设特点提供多元化的数据统计与挖掘服务,并从中探索多样化的数据管理服务模式,从而为研究人员利用数据提供便利。基于用户行为大数据分析,为研究人员提供精准化的信息推送服务,持续提高医学研究人员的信息获取效率。
综上,我国医疗健康大数据的开放共享应从各方面着手,加快推动立法保障,不断完善监管制度和技术方法,逐步提高开放共享程度,全面提升数据质量和应用环境,为医疗健康领域的发展提供高质量的数据支撑和研究基础。