基于深度学习算法的新一代人工智能独立软件研究的伦理审查重点

2023-02-27 10:38杨千粟
中国医学伦理学 2023年2期
关键词:医疗器械受试者伦理

杨千粟,白 楠,曹 江,王 瑾

(中国人民解放军总医院医疗保障中心药剂科,北京 100853)

近年来,人工智能技术已广泛应用到智能终端、智慧城市、智能交通等行业领域中[1],大幅度提高了人们的生产效率和生活便利性。人工智能在医疗领域的应用大多尚处在研究阶段,其主要的使用形式为医疗器械独立软件(software as a medical device,SaMD),即软件本身就是独立的医疗器械[2]。在卷积神经网络(convolutional neural networks,CNN)等深度学习算法驱动的新一代人工智能技术应用在医疗领域后,已有部分新一代人工智能医疗器械软件通过药品监督管理局审查并获得了医疗器械注册证,如颅内肿瘤磁共振影像辅助诊断软件(注册证号国械注进20203210321)、糖尿病视网膜病变眼底图像辅助诊断软件(注册证号国械注准20203210686)等,在临床诊断和疾病筛查中提高了诊断效率,并降低了误诊和漏诊的发生,在医务人员相对匮乏的基层医疗机构中,可以辅助医生对特定疾病进行诊断。

越来越多的医疗器械公司、研究者进行基于深度学习的人工智能独立软件的研究及临床应用。但由于这一类人工智能软件在研发阶段需要通过大量的临床数据进行训练,且需从诊疗实际应用中通过数据积累不断提高其性能,这些均区别于传统的临床研究,因此也给伦理审查带来了新的问题。2022年3月国家药品监督管理局医疗器械技术审评中心发布《人工智能医疗器械注册审查指导原则》[3],填补了国内对人工智能独立软件注册管理的法规空缺,但伦理实际审查工作仍缺乏可操作化的审查标准和程序。本文结合医院伦理审查情况,通过对相关法律法规、文献等资料进行研究,对涉及人工智能独立软件研究项目的伦理审查要点进行分析。

1 资料和方法

1.1 资料

对北京市某三甲医院2017年1月—2021年11月各科室提交的初始审查资料进行分析,共筛选出人工智能独立软件研制或模型搭建的科学研究和注册医疗器械临床试验项目36项,其中纵向课题研究20项、研究者发起的研究12项、医疗器械临床试验4项。

1.2 方法

按照《涉及人的生物医学研究伦理审查办法》[4],伦理委员会应当审查研究的科学性和伦理性。参考国家关于人工智能医疗器械的法规和指导原则[3,5-6],以及美国食品药品监督管理局发布的《基于医疗器械研发的机器学习训练指导原则》[7]中对基于机器学习的医疗器械提供的10条指导原则,考虑到人工智能为新兴技术,研究者对技术的原理和应用可能存在认知较浅的情况,且人工智能独立软件相较于其他医用软件具有数据驱动等特点。因此在满足常规临床研究的科学性和伦理性审查的要求外,对方案完整性(科学性)、权益保护(伦理性)、数据利用(数据驱动特点)3个重点因素作详细分析。

2 结果

2.1 项目基本情况

项目基本情况主要包括研究类型、专业、用途共3个方面,结果见表1。

表1 项目基本情况(n=36)

2.2 方案完整性

方案完整性主要考察适应证、入排标准、病例纳入类型、数据来源、有效性评价指标、算法可靠性验证、样本量或其计算方式、版本更新的相关内容等8个方面。适应证主要是考察研究方案是否清晰描述了该研究的用途和适用范围,包括疾病、特征人群、手术适应证等。入排标准考察的是能否根据研究目的,通过有限条件筛选出符合算法适用条件的特征人群。病例纳入类型可以帮助委员了解研究类型,如前瞻性研究或回顾性研究。数据来源主要是考察纳入的病例或数据的方式和来源是否合规,主要是历史病案、影像资料、招募受试者和公共数据库等。有效性评价指标是考察方案中是否有研究结果的验证指标,如疾病的检出率、准确率等。算法可靠性验证是考察方案中是否有对研究成果可重复性和特异性的考量和方法。样本量或样本量计算方式是考察方案中是否有拟纳入训练或验证的样本量数量,以及根据统计学方法计算得出的测试集样本数量或样本量计算公式。版本更新的相关内容主要考虑软件的更新可能存在功能和性能的改变,从而影响医疗器械的安全性或有效性。结果见表2。

表2 方案完整性(n=36)

2.3 权益保护

权益保护主要考察知情同意、受试者直接获益、经济补偿、数据脱敏、数据安全和器械缺陷6个方面。知情同意部分主要考察申报材料是否提供知情同意书内容和/或豁免知情同意申请是否合理。受试者获益和经济补偿主要考虑受试者是否有直接或潜在受益,受益相较于风险是否合理,何种人工智能独立软件应对受试者进行补偿。数据脱敏主要是考察方案中是否有对医学影像、患者病历等有敏感信息的数据进行脱敏处理。数据安全考察的是对于使用的电子数据是否有严密的数据流向、备份、存储内容,能否符合安全管理的相关要求。器械缺陷主要考察方案中是否有对软件或模型等发生崩溃或失效等可能产生的器械缺陷的记录和处理。结果见表3。

表3 权益保护(n=36)

2.4 数据利用

数据利用主要针对新一代人工智能软件的算法特性,主要考察数据集划分、校验方式、特征信息记录载体、研究成果体现共4个方面。数据集划分主要是评价方案中对收集的数据是否区分训练集、测试集、校验集等明确用途。校验方式主要是评价方案中是否对设计的软件或模型进行验证,目前主流的验证方式为独立的验证集或者交叉验证方式。特征信息记录载体主要是考察纳入样本的特征信息和经算法或标注处理的样本特征信息的存储或呈现形式,主要包括病例报告表(CRF)、病例报告表+医学影像等。研究成果体现主要是考察研究的最终目的,主要是建立模型、建立数据库、软件系统研制、出具临床试验报告等形式。由于参与统计的4项医疗器械临床试验为完整的医用软件,已完成前期的标注训练和验证,并通过医疗器械注册检验,收集的病例无需进行训练、测试、校验,故数据集划分、校验方式两部分纳为不适用。结果见表4。

表4 数据利用(n=36)

3 讨论

3.1 目前人工智能独立软件的研究方案普遍成熟度偏低

本研究收集的审查资料以医学影像辅助诊断、手术规划软件为主,分析发现大部分方案缺乏研究的基本要素,如入排标准不明确、没有有效性评价指标、没有明确的纳入样本量、没有测试集样本量计算方式等。考虑主要原因有三点:①人工智能算法作为新兴的应用工具,研究者对其预期效能不明;②部分探索疾病与体征因素关联关系的人工智能项目的研究缺少明确的理论基础;③研究者对于这类研究的时效性要求高,急于开展研究。以上三点导致提请伦理委员会审查的项目方案不成熟,预期的社会和经济效益不明确,部分项目可能存在盲目探索的情况。

3.2 对研究病例权益保护、数据保护的认识程度低

Python编程语言的普及和TensorFlow、Caffe等深度学习框架的完善,降低了人工智能算法应用的技术门槛,医务工作者可以更加容易地利用算法处理大量数据,挖掘疾病与各类指征的潜在联系,或利用机器视觉技术对医学影像等进行分析标注,辅助医护人员高效、精确地进行诊断和治疗。但分析发现初审材料中存在知情同意不规范、未设计数据脱敏和数据安全保护措施的情况。且除医疗器械临床试验项目外,其他研究均未设计器械缺陷的处理程序,这都体现了研究者对人工智能研究可能存在的伦理风险认知不明确,对受试者信息保护和数据安全管理的不重视。

因为目前深度学习算法的局限性,诸如“算法黑箱”“算法歧视”等现象导致软件使用者无法透析软件自主性学习和计算的过程,以及因算法决策中数据抽样偏差及其所设置的权重等原因导致对某些特征群体的不公平对待。

研究过程中涉及的第三方人员,如数据标注员、算法工程师等均可能接触研究数据。另外,因为传统硬件模式导致的算力不足等问题,部分研究将运算过程平移至统一的数据计算中心或第三方云服务器。这些环节均可能因数据脱敏措施不严格、数据流转安全性低,致使医疗信息存在泄露风险。

3.3 对数据的用途和使用方法不明确

分析发现,47.22%的研究方案中未对实验数据的用途(比如用于模型训练或测试)进行明确划分,66.67%的方案中未提及对建立的模型进行校验,55.56%的方案未明确训练的结果将用哪种方式记录。主要考虑是由于人工智能研究主要为回顾性研究,数据多来源于PACS系统、病案系统,特别是部分项目的研究资料为科室专有的数据库,数据获取难度较低。另外,目前临床科学研究的人工智能项目大多不直接作用于受试者,对受试者的直接风险和损害较低,且都处于应用的探索阶段,这都导致了研究者对研究结果的有效性评价不明确,对研究涉及的伦理问题不容易引起研究者重视。同时,研究者对人工智能的知识储备和开发工具的使用经验不足,对人工智能技术潜在的伦理问题缺乏意识,也导致了在研究设计中对数据利用和保护不充分。

3.4 人工智能医疗器械软件上市后的应用风险将更加突出

此类软件在研制过程中是通过有限的数据进行训练,而这些数据往往是经过病理证实和高标准采集得来的,与临床实际工作情况有所不同。所以训练数据的代表性不足,软件在大规模应用后的算法偏见或算法歧视可能导致结果偏差情况持续出现,软件在实际临床应用过程中能效降低。如影像类的人工智能辅助诊断软件,训练集通常采用清晰、无伪影的医学图像进行标注,但在实际临床诊疗中,患者常会因身体位移或携带金属物品,产生图像伪影,进而影响软件的识别能力。

4 建议

4.1 应当注意对人工智能研究项目方案的完整性

首先,方案中对研究背景、研究目的、数据来源、有效性指标、验证方式和样本量等内容都应当有详细的描述;其次,人工智能独立软件的风险评估应当考量其临床使用情景中的风险[8],需要重点关注在临床中进行辅助诊断时的研究对象及入排标准,避免因目标人群与纳入病例不符导致的临床使用效果产生偏差,防止假阳性率和假阴性率等指标过高,造成患者的漏诊和误诊,影响其远期的诊疗效果[9]。测试集的样本量计算可以参照临床评价试验的样本量计算要求[10-11]。

另外,软件更新同样是人工智能独立软件不可回避的问题。软件更新的类型可分为数据驱动型软件更新和算法驱动型软件更新两类。数据驱动型软件更新是指由于数据量增加或原有训练数据库改变而产生的软件更新,依据软件更新后算法评估结果与前次伦理审查时提供的评估结果相比是否发生显著性改变,可将数据驱动型软件更新区分为轻微软件更新和重大软件更新两类。算法驱动型软件更新是指深度学习所用算法类型、算法结构、算法输入输出或算法流程等改变而导致的更新。算法驱动型软件更新通常属于重大软件更新。

伦理审查过程中,轻微软件更新和重大软件更新均需许可事项变更,并且具备相应的版本命名规则。针对轻微软件更新,伦理审查过程中应重点审查软件更新内容,以及更新后的适用范围、数据库构成和产品性能等是否满足质控要求。针对重大软件更新,伦理审查应对软件的更新内容和程度等逐一进行反复确认,如果涉及临床适用范围的变更,理论上应当另行开展研究。

4.2 应当依据人工智能和医用软件特点加强权益保护和数据安全防范措施

目前,医疗行业是数据泄露较严重的领域之一[12]。医疗数据与患者的健康息息相关,具有特殊的敏感性。医疗器械软件依赖于医疗数据,因此,对数据安全性进行审查同样重要。对于人工智能独立软件的数据收集和处理需要满足《中华人民共和国个人信息保护法》[13]的有关要求,承担信息保护义务。研究过程中,研究人员需要注重对敏感数据进行脱敏和加密处理,尤其是相关数据需要通过公共互联网进行传输时,要做好数据安全和网络安全的双重防护。医疗数据应当设置访问控制,并对数据进行匿名化和加密处理,同时保证数据的可溯源性,做好数据备份工作。医疗数据理论上应当与互联网进行物理隔绝,数据传输应当尽可能地通过物理介质进行。如果数据传输必须通过公共互联网进行,医院应当充分考虑软件自身的网络安全防护,避免因网络漏洞导致数据泄露。

伦理审查时,要重点关注临床试验方案是否涉及对数据脱敏、数据安全的监管和预警。建议受理初始审查申请时,可根据项目情况要求提供1例测试样本的输入和输出结果,查看数据中是否存在敏感信息。此外,如果研究过程需要使用云计算服务,临床方案中建议明确服务模式、数据接口和第三方的网络安全防护能力等指标。

应当关注知情同意书中是否明确告知受试者数据的使用范围和方式,并告知受试者可能存在的算法偏见、数据泄露风险。同时描述风险的算法黑箱、算法偏见等专业技术词汇难以被受试者理解,所以人工智能软件研究中知情同意书的可读性和全面性更要受到重视。

4.3 加强研究的科学性和数据规范管理

人工智能算法在探索不同类型事件之间的关联方面具有突出优势,但由于“算法黑箱”的存在,研究人员难以判断输入输出关系,弱化了理论基础和研究价值。尤其是对发病机制不明确,寻找疾病关联特征信息的模型设计等研究更为明显。所以方案设计应当建立在一定的理论指导基础上,研究者应尊重研究数据,避免对研究数据造成滥用或错用。同时,方案中应当对结果的有效性验证建立明确的标准。

用于训练、测试、校验软件的数据应当建立恰当类型的数据库。数据库中数据的质量和可信度都应满足质控要求[14]。

对于回顾性的研究,伦理审查过程中应重点关注数据来源是否清晰和数据存储是否规范。如果数据来源于医院PACS、LIS等系统,临床试验方案应当明确数据如何抽样、抽样时间段和抽样总数等信息;如果数据并非来源于医院信息系统,例如来源于研究者保管的前期课题积累的数据,临床试验方案中应当说明科研课题名称、数据总量和数据存储方式等信息。

对于前瞻性的研究,伦理审查过程中应当重点关注知情同意过程。知情同意书应遵循“完全告知”的原则,采用受试者能够理解的语言和文字,在基本知情同意内容的基础上,告知受试者数据使用范围和数据脱敏过程。此外,知情同意的获取过程也应当符合标准,充分尊重受试者意愿,有完备的退出机制,包括需要考虑受试者退出研究后数据不再继续使用的相关操作规程。

4.4 风险评估应当长期进行,跟踪审查模式可不局限于现有模式

针对算法问题应当长期监管,在初期审查的基础上做好跟踪审查。人工智能的基本算法是在不断发展的,由于认知的限制,当前最优的深度学习方法在未来可能会出现缺陷。中国信息通讯研究院《人工智能数据安全白皮书(2019年)》指出,360、腾讯等企业安全团队曾多次发现TensorFlow、Caffe、Torch等深度学习框架及其依赖库的安全漏洞,攻击者可利用相关漏洞篡改或窃取人工智能系统数据[15]。因此,在人工智能独立软件的伦理审查中要对算法进行长期跟踪审查。如果出现算法漏洞等问题,应当及时上报此类器械缺陷问题。

因人工智能算法可在短时间内处理大量的医疗数据,研究中实际的计算周期短,根据临床试验经验,研究开始后通常集中在1~3个月内即完成所有的数据计算过程,按照伦理常规的审查频率(如6个月、12个月等)无法做到对该类研究的监管,应根据项目特点调整跟踪审查的模式和频率。伦理委员会可根据项目风险情况,在首次标注、脱敏、计算等操作时进行跟踪。

4.5 聘请独立顾问和增加人工智能相关的培训

根据《涉及人的生物医学研究伦理审查办法》[4]对伦理委员会委员的组成要求,常规伦理委员会委员无法完全满足人工智能医疗器械独立软件研究的科学性审查,建议在对人工智能项目进行伦理审查时,聘请人工智能相关领域的专家作为独立顾问。同时,可在对伦理委员和秘书组织的定期继续教育时,增加人工智能医疗器械伦理审查要点的培训,有助于把好形式审查关和伦理审查关。

5 总结

人工智能是近几年才逐渐兴起的新型技术,尚未构建完整的伦理审查体系,缺乏对伦理委员会审查此类项目的指导规范和政策标准。人工智能的研究涉及临床医学、计算机、工程学、医学信息学等多个学科的专业知识[16],且多元化的数据使用、储存、传输方式也大幅提高了监管难度,伦理委员的专业方向往往力有不逮,审查面临一定的困境,针对人工智能项目的伦理审查标准和经验仍有待探索。

猜你喜欢
医疗器械受试者伦理
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
《心之死》的趣味与伦理焦虑
涉及人的生物医学研究应遵循的伦理原则
北京市医疗器械检验所
护生眼中的伦理修养
北京市医疗器械检验所
涉及人的生物医学研究应遵循的伦理原则
北京市医疗器械检验所简介
医改莫忘构建伦理新机制