医学人工智能产品测试数据集通用化描述方法研究

2023-09-05 09:28车贺宾薛万国徐洪丽汪安安刘广东
医疗卫生装备 2023年7期
关键词:数字影像值域测试数据

车贺宾,薛万国,徐洪丽,董 敬,汪安安,刘广东

(1.解放军总医院医学大数据研究中心,北京100853;2.解放军总医院第六医学中心卫勤部,北京100037)

0 引言

人工智能(artificial intelligence,AI)在社会生活中发挥着重要的作用。我国高度重视AI 的发展,要求抓住机遇,积极推进政策落实,加快AI 技术发展和产品部署实施[1]。自国家《新一代人工智能发展规划》重点提出要发展智能医疗以来,我国医学AI 产业进入了全新的高速发展轨道,且呈现三大特征:(1)数据模态多样化:数据类型由单一影像扩展到影像、文本、信号、视频等模态及模态组合;(2)技术架构多样化:包含基于特征的模式识别、基于深度学习的数据挖掘、基于知识图谱推理的临床辅助决策等;(3)产品迭代常态化:随着技术、数据和需求的变化,产品迭代和更新后再评价的内容也变得愈加常态化[2]。当前医学AI 产品检测服务还普遍存在局限性,比如以单一病种为维度的标准数据集建设无法覆盖多目标、多用途产品的检测需求;业内很多公司自行尝试建立测试集来满足中试加速和针对性调优的需求,导致重复投入、方法不一、数据集质量和产品指标缺乏可比性,大大影响了我国新兴医学AI 产业的创新发展[3-4]。

为实现测试数据集快速建设、打破数据模态与病种单一导致难以适应繁杂多变的产品检测需求的困境,亟须建立统一管理不同主题的基础测试数据集体系,以便针对不同的产品生成具体的测试数据。基于此,本文提出医学人工智能产品测试数据集通用化描述方法,为有效检测产品的准确性、实用性等性能提供数据支撑。

1 测试数据集通用化描述思路

本文通过调研7 家国内AI 医学影像典型公司、7家国内AI 辅助诊断典型公司、7 家国内外AI 药物研发典型公司、5 家AI 健康管理典型公司、2 家AI 疾病预测典型公司,梳理各企业旗下标志性产品,以及其需要的数据和产品功能,总结出当前市场医学AI 产品的检测需求及热门的医学AI 产品研发方向。结合专家经验,抽象融合真实世界中医院数据结构和门诊、体检、急诊、住院等诊疗流程,提炼出医学AI 产品相关数据项,并归纳组合为不同的医学数据模块。

为实现医学AI 产品测试数据集统一管理,本文提出通过构建底层通用医学数据模块、高层配置基础测试数据集的2 层架构解决医学数据模块通用化和测试数据集专用化的矛盾,制订具有一定灵活性的测试数据集通用化描述方法,将多元化的测试需求统一到一个规则体系下,实现底层通用可组配、约束不同主题的产品测试数据集构建,如图1 所示。不同医学AI 产品根据不同需求对不同主题的基础测试数据集进行文本分词、图像标注、特征筛选等加工处理,从而生成具体的测试数据,满足不同的医学AI产品检测数据需求。

图1 不同主题的基础测试数据集通用化描述思路

2 医学数据模块描述

测试数据集所包含的测试用例定义为样本,1 个样本为1 个测试用例。样本数据中某一类型医疗观察的数据定义为医学数据模块。在原有医学多源数据结构化的基础上,调研多家医学AI 企业旗下标志性产品的功能和所需测试数据。在此基础上,以医疗多源异构性的全域思想为指导,统筹多系统[电子病历系统、实验室(检验科)信息系统、医学影像信息系统等]、多模态(文本、影像、视频、信号等)数据,对有研究价值的构成医学AI 产品测试数据集的13 类医学数据模块及其内容结构进行了规范化约定,形成《医学人工智能产品测试数据集医学数据模块描述规范》。

13 类医学数据模块包括样本基本信息、生命体征、疾病诊断、手术记录、用药记录、检验结果、检查报告、病历记录、医学波形、医学数字影像、医学图片、门诊病历知识图谱问答集和标注记录,覆盖了市面典型AI 医学产品研发所需(除组学数据外)测试数据和标注数据类型。每个数据模块包含模块名称和数据元,数据元包含中文名称、字段名、数据类型、长度、必填项、说明和值域等属性,值域取值范围参考WS 364.9—2011《卫生信息数据元值域代码 第9部分:实验室检查》、WS 445.10—2014《电子病历基本数据集 第10 部分:住院病案首页》、WS 538—2017《医学数字影像通信基本数据集》等卫生行业数据标准[5-7]。其中值域是数据元的允许值,包含可枚举值域、不可枚举值域2 种类型。医学数字影像数据模块的数据元构成及属性见表1。

表1 医学数字影像数据模块的数据元构成及属性

13 类医学数据模块按照数据结构化的形式要求、语义理解的简易化要求制订,并考虑以下几点:

(1)去隐私化。与医院信息系统数据结构相比,不纳入可能泄露个人隐私且与医学AI 产品检测不相关的数据元。如样本基本信息不涉及姓名、手机号、身份证号码、地址、婚姻状态、医保类型等;对于医学数字影像,同样将DICOM 文件的患者姓名、机构名称进行删除,将患者ID 修改为新生成的虚拟ID。

(2)去过程化。AI 产品训练数据主要是结果数据,一般不含有业务过程数据,如医生、技师、中间结果、临时状态等。如疾病诊断不区分门诊初诊和住院诊断;病历记录不区分门诊、急诊和住院,只包含样本标识、病历记录代码、病历文本内容和病历内容记录日期时间。

(3)数据元质控。质控依赖规范中的数据类型、长度、是否必填项、值域范围等属性。除此之外,医学数字影像头文件包含的影像序列可补充校验。

(4)兼顾具体数据元和不确定数据元。具体数据元指市面已有医学AI 产品的测试数据常用字段,值域明确;不确定数据元指未来医学AI 产品可能需要的测试数据字段,值域未做限制。如医学数字影像模块包含检查类型、检查部位等值域受限的数据元,也包含检查参数等未做值域限制的数据元,满足在13类医学数据模块外的不确定数据元存储要求。

(5)数据来源为医疗器械。在检验结果、检查报告、医学波形、医学数字影像、医学图片等模块加入医疗器械唯一标识编码体系名称、设备标识、设备名称等数据元。

3 测试数据集构建描述

通过调研医学AI 产品检测需求与临床对于测试数据集构建的专业意见,测试数据集具有短期的相对稳定与长期的动态更新的特征。为了实现测试数据集开放共享,必须保证数据集构建的通用性和可灵活配置。本文在规范化的数据模块基础上,通过数据模块组合和约束限制实现特定主题测试数据集的构建,规定了测试数据集的结构构成,包括数据内容的结构和样本数据的条件,说明具体的测试数据集配置涉及哪几类医学数据模块(支持模块复用)、模块中哪些数据元以及具体数据元质控要求,形成《医学人工智能产品测试数据集构造描述规范》。

每个数据集通用化描述由一个XML 格式的数据集构建结构文件进行描述定义,其根元素为<dataset>,包含数据集的基本信息、数据构成与数据条件[8]。数据集基本信息包含数据集的标识、名称、版本、描述文本、用途等内容[9],由<dataset>下的一组XML 元素表达。数据构成与数据条件描述了数据集所包含的数据模块以及对数据元的要求,由<dataset>下的<modules>元素表达。<modules>元素又由一系列的<module>元素构成,每个<module>元素描述了一个单一数据模块以及施加其上的数据条件要求。测试数据集通用化描述文件的整体结构如图2 所示。

图2 测试数据集通用化描述文件整体结构图

测试数据集通用化描述文件整体结构XML示例如下:

3.1 数据集的构成

不同主题的测试数据集可由不同的医学数据模块组合构成,医学数据模块按需配置(支持模块复用),包括模块中包含哪些数据元以及每个数据元质控要求等。例如,肺部影像数据集由样本基本信息、医学数字影像数据模块构成,宫颈癌病理数据集由疾病诊断和医学图片数据模块构成。测试数据集数据模块的定义决定了样本数据的结构。

对单一数据模块的要求由<module>元素表达。<module>元素具有name 属性,表示该数据模块的名称。该属性所指定的数据模块将构成测试数据集的一部分,且<module>元素下的数据条件为对该模块数据施加的条件。<module>元素的另一个属性为occurs,其取值可以为“R”或“O”,分别代表该数据模块在样本数据中是“必须数据”或“可选数据”。

测试数据集数据构成的XML 示例如下:

3.2 数据条件描述

为保证数据集构建模板描述方法具有一定的通用性、灵活性,对于构成数据集的每个数据模块可以根据需要进一步限定数据的条件,用于数据集收集时的质控。数据条件通过数据模块内数据元的取值进行表达,可限制的条件包括数据元不可为空、取值范围约束等,可以同时对一个数据模块的多个数据元施加条件限制,其最终条件为各数据元条件的“与”运算结果。

数据元的条件要求由元素<dataElement>表示。<dataElement>元素的必需属性name 表示对应数据元的中文名称。如果一个数据模块的数据元没有在<dataElement>中定义,则该数据元的值是否允许为空以及取值范围取决于在数据模块规范中的定义;如果上述规范定义的数据模块的数据元在<dataElement>中出现,则以<dataElement>定义的取值约束条件为准。

对数据元的约束条件描述由<dataElement>下的一组元素构成,条件描述项以及对应的XML 元素包括数据元最小值限定、最大值限定和值域限定。如数据元的值域限定由元素<enumeration>表示,取值类型与《医学人工智能产品测试数据集医学数据模块描述规范》中定义的要求一致,<enumeration>为可枚举元素。如果数据元的值域有特殊的限定,则需要定义该元素,否则无需定义该元素。

测试数据集数据元值域限定的XML 示例如下:

4 测试数据集的构建和实现

基于上文中医学AI 产品测试数据集医学数据模块描述和测试数据集构建描述文件定义具体测试数据集,包含Excel 格式文件和相关医学波形、数字影像、图片和标注文件等附件文件。测试数据集文件名为测试数据集名称,每个医学数据模块表示为.xlsx文件的一个sheet 工作表,sheet 工作表表名对应医学数据模块中文名称。一个样本数据在不同医学数据模块之间通过唯一样本标识关联,sheet 工作表中的列名对应医学数据模块的中文字段名,每列存储对应数据元的值。如果涉及到包含附件的医学数据模块,如医学波形、医学数字影像、医学图片和标注记录等,则在其sheet 工作表的文件字段中记录相关医学波形、影像、图片和标注结果等文件资料的文件名,不包含文件后缀名。测试数据集通用化实体结构组成如图3 所示。

图3 测试数据集通用化实体结构示意图

除测试数据集实体文件外,每个基础测试数据集配备一个数据集说明文档和XML 配置文件。其中,数据集说明文档包含数据集整体描述、数据采集信息和数据集标注说明,具体包括数据集样本来源、统计结果、数据类型、存储形态、应用场景,采集过程中的技术标准、筛选条件、清洗规则、多样性描述,以及数据集标注内容、标注工具和标注分歧解决方案等。XML 配置文件可用于测试数据集的提交说明,也可用于测试数据集收集时的质量控制。

为了在平台层面实现对不同主题的基础测试数据集进行统一管理,研制了医学开放式数据入库及管理平台,该平台集成了医学数据模块和测试数据集构建描述的规范,允许根据测试需求自定义不同主题的测试数据集需要组配的内容,然后测试数据集严格按照组配的目标规则上传入库[10]。测试数据集定义规则并上传数据样本的页面如图4 所示。

图4 测试数据集定义规则并上传数据样本的页面

医学开放式数据入库及管理平台已入库管理肝脏CT 影像数据集、肺结节CT 影像数据集、乳腺MRI影像数据集、前列腺MRI 影像数据集、冠状动脉CT血管造影(CT angiography,CTA)影像数据集等18 个基础测试数据集。基础测试数据集不针对具体病种,而是以某个部位的某项检查或病历文本为研究对象,预期用途比较广泛。数据采集阶段从患者维度、场所与设备及数据采集技术标准、病种维度3 个方面尽可能地覆盖到不同情况,降低数据集的覆盖偏倚[11]。如肝脏CT 影像数据集包含不同性别、年龄段的样本,考虑了体检、筛查、门诊、住院等不同场景以及肝脏常见良性病变、不同类型恶性病变等,适用于基于CT 影像进行肝脏局域性与弥漫性病灶检出与分类的医学AI 产品的训练和验证。

肝脏CT 影像数据集、肺结节CT 影像数据集、乳腺MRI 影像数据集、心脏超声图像数据集、眼底图像数据集、前列腺MRI 影像数据集、冠状动脉CTA影像数据集7 个数据集被AI 公司产品实际应用,按照规定格式整理后成功入库。另外11 个数据集根据市场应用场景建立,尚未被AI 公司产品实际应用。

5 结语

本文结合临床专家的知识贡献,按照数据结构化、语义理解简易化等符合数据抽取及临床认知的要求,在医学数据模块基础上制订测试数据集构建基本情况描述和不同测试需求限定的规范表述方法,将多元化的测试需求统一到一个规则体系下,从而实现底层通用、高层配置的测试数据集构建过程,缩短测试数据集的构建时间、提高测试效率,更好地满足真实世界中多应用场景和功能不断扩展的医学AI 产品检测需求。

猜你喜欢
数字影像值域测试数据
岩画保护,数字影像数据库来帮忙
数字影像艺术创作多元化研究
函数的值域与最值
函数的值域与最值
测试数据管理系统设计与实现
值域求解——一个“少”字了得
破解函数值域的十招
基于自适应粒子群优化算法的测试数据扩增方法
空间co-location挖掘模式在学生体能测试数据中的应用
数字影像技术对摄影专业教学和创作思维的影响