人工智能技术辅助肺癌早筛的社会影响评价指标体系构建

2023-11-16 14:46罗文涛刘雨杨王格格
医学与社会 2023年11期
关键词:权重辅助专家

罗文涛,刘雨杨,杨 鑫,王格格,陈 昶

同济大学医学院,上海,200092

近年来,人工智能技术(artificial intelligence,AI)逐渐开始在肿瘤学中应用。AI在癌症筛查、临床诊断、放射治疗(图像采集、有风险器官分割、图像校准和交付)等方面发展迅速。但是医疗AI能否进行社会化推广,一定程度取决于公众的态度和接受程度[1]。AI模型所使用的数据类型很敏感,而数据又和用户互动存在密切关联[2]。因此,要让AI真正应用于社会场景,建立AI社会影响评价指标体系不可或缺。如果不能提早建立起监督制度,将会成为对道德、法律和社会的挑战[3]。以AI辅助癌症早筛为例,目前公开的较有代表性的产品包括ISICAD、SubsolidCAD、LargeCAD、ETROCAD等[4]。然而,针对这些产品的评价集中在其阅片效率、对肺部小结节发现的灵敏度、对结节性质判断的准确性等方面,近期的少数研究引入了AI与资深医师的阅片能力对比[5-8]。总体而言,现有对医疗AI的评价都集中在其基础效能。需要认识到的是,医疗AI有其社会角色的特性,社会角色在社会实际使用中会与社会多个维度形成不同的主客体关系,因而针对医疗AI的评价也应当全面,而不是局限于某一侧面。目前的医疗AI与社会各维度的关系还不够清晰,在一项研究中,大部分参与者并不在意数据被匿名用于研究目的,也不反对在决策过程中纳入个人信息,反对者主要是由于对数据安全性和对应用程序信任不足[9]。还有研究认为医疗AI的社会应用离不开临床医生的支持,绩效预期与医护人员利用AI辅助诊断的意愿呈正相关,这提示AI的社会影响力可能在绩效预期和医护人员利用AI辅助诊断的意愿之间起了连锁和中介作用[10]。更为高效的诊断和不太准确的诊断分别是AI的最大优势和劣势,正是这两种特性造成了人类和AI的冲突[11]。AI辅助肺癌早筛是指利用AI对肺癌早期筛查数据进行分析和处理,通过建立肺部影像学特征模型、生物标志物模型等方法,对肺癌的早期诊断进行辅助和支持,以提高肺癌早期诊断准确率和筛查效率的一种新型技术[12]。AI辅助肺癌早筛是最早研发的医疗AI之一,未来也将进行快速社会化推广。目前国内外关于AI辅助肺癌早筛的研究多集中于其与某一社会关系的相互影响,例如对AI本身研发的风险评估、医生对AI的接纳程度、民众对于AI接纳程度的研究等,缺乏AI辅助肺癌早筛与社会各层面的综合评价[13-14]。因此,本研究旨在构建AI辅助肺癌早筛的社会影响评价指标体系,以探讨AI辅助肺癌早筛与社会各角色之间的相互影响作用。

1 资料来源与方法

1.1 资料来源

基于文献数据库进行检索,包括PubMed、Web of Science、中国期刊全文数据库(CNKI)、重庆维普中文科技期刊数据库(VIP)、中国生物医学文献数据库(CBM)、万方数据库(Wanfang Database)等,检索词由肺癌早筛、人工智能、社会影响以及三者英文相互组合而成,检索时间从建库至2023年2月1日,对文献类型没有限制,研究对象主要限制为医疗AI,排除标准为非医疗AI的相关文献,最后对符合研究需要的文献及其相关文献进行阅读。研究人员独立筛选研究的标题、摘要和全文,并初步构建了评价指标,随后通过交流对指标进行修改,直至达到一致观点,以保证准确性。

1.2 指标的初步构建及调整

1.2.1 评价指标体系的初步构建。采用专家法筛选在相关领域具有权威性的专家, 根据入选标准,由同济大学医学院多名教授、研究生、本科生组建了专题小组,入选标准为:对研究项目感兴趣或有专业知识背景的研究者。采用文献分析法,从多个数据库查阅有关AI辅助肺癌早筛的社会影响相关文献,进行多轮讨论,建立递阶层次机构模型,即为评价指标体系初步框架[15]。

1.2.2 第一轮专家咨询。调查时间为2022年3月,收集有意向参与问卷的社会学、AI辅助肺癌早筛等领域一线专家资料,并通过邮件发送、现场问卷的方式,采用德尔菲法进行专家咨询,共咨询专家16名。本轮咨询的意图主要是对初步构建的指标进行调整与修改,专家通过打分来决定各级指标的保留与否,若专家意见一致则对指标进行调整。具体方法为:各位专家按照分数1-5对指标构建的合理性进行评判,若各级指标得分均值>3.5、变异系数<0.3则保留,反之删除。

1.2.3 第二轮专家咨询。调查时间为2022年6月,将经一轮咨询调整后的指标体系以邮件形式发送返回各专家。本轮咨询的意图主要是比较各级指标相互的重要性,为后续权重计算提供依据。具体方法为:专家根据“稍微重要”“明显重要”“强烈重要”“极端重要”“同等重要”5个等级对指标体系中同级指标的重要程度进行两两比较,以构建判断矩阵。

1.3 专家数据分析

1.4 研究方法

1.5 统计学方法

采用SPSS 21.0分析专家协调系数并进行χ2检验,P<0.05为差异有统计学意义。采用层次分析软件构建层次模型,将咨询结果录入构建判断矩阵,计算各级指标权重并进行一致性检验检查逻辑。专家权威系数(Cr)和肯德尔(Kendall)协调系数(W)表示专家权威程度和意见协调程度。通过专家对指标重要性和可行性打分数值计算W;Cr值为专家对指标判断依据系数(Ca)与熟悉程度系数(Cs)的算术平均值,Cr>0.7认为专家权威程度高[16]。

2 结果

2.1 德尔菲法结果

2.1.1 专家基本情况。16名专家中,西南地区专家占12.5%(2/16),华东地区专家占87.5%(14/16);高级职称专家占43.75%(7/16),中级职称专家占37.50%(6/16),初级职称专家占18.75%(3/16);工作单位为医院占50.00%(8/16),为高等院校占50.00%(8/16);从事专业为医学占56.25%(9/16),医疗AI占43.75%(7/16);文化程度博士学历占62.50%(10/16),硕士学历占37.50%(6/16);工作年限10年及以上占62.50%(10/16),5-10年占37.50%(6/16)。

2.1.2 专家积极系数。专家积极系数即专家对问卷的应答率。第一轮问卷发放16份,16位专家给予回复,专家积极率100%。第二轮问卷发放16份,15位专家给予回复,专家积极率93.75%。

2.1.3 专家权威程度。两轮问卷咨询的专家Cr分别为0.8233和0.8125。见表1。

表1 专家权威程度结果

2.1.4 专家意见协调程度。第一轮问卷咨询各级指标重要性协调系数分0.204、0.120、0.136,专家的W检验差异具有统计学意义(P均<0.05)。见表2。

表2 专家肯德尔协调系数

2.2 指标筛选

根据专家咨询结果确定AI辅助肺癌早筛的社会影响评价指标体系最终框架,包括 “自身条件”和“个体关系”“群体关系”“社会关系”4个一级指标,开发团队、使用者、风险人群、政府管控等12个二级指标及36个三级指标。见表3。

表3 AI辅助肺癌早筛的社会影响评价指标体系

2.3 指标权重

判断矩阵A中,一级指标“自身条件”权重为0.4615,“个体关系”权重为0.2889,“群体关系”权重为0.1136,“社会关系”权重为0.1360,一级指标CR=0.0197;二级指标“个体关系”权重为0.0921,“软件性能”权重为0.2865,“维保特性”权重为0.0829,“使用者”权重为0.0487,“医生”权重为0.1283,“投资者”权重为0.0260,“风险人群”权重为0.2889,“医院”权重为0.0401,“公众”权重为0.0249,“政府管控”权重为0.0406,“社会效益”权重为0.0361,“国家层面”权重为0.0594,二级指标CR均<0.10,三级指标CR均<0.10。见表3。

3 讨论

3.1 本研究构建的指标体系有一定必要性及创新性

在社会系统中,AI辅助肺癌早筛可被视作一个社会角色,能产生一定的正面或负面社会影响。从使用AI辅助肺癌早筛的个体来看,肺癌早筛是肺癌患者治疗的重要一环,其有助于及时发现病灶进而改善肺癌患者的预后效果,降低治疗成本。AI在肺癌早筛中的应用,可以提高筛查的准确性和效率,帮助医生更早地发现患者的肺癌病变,从而提高治疗效果和生存率[18]。另外,AI在肺癌早筛的应用能在一定程度上辅助影像科医生诊断,同时大量节省患者的等候时间。但是,AI辅助肺癌早筛的应用可能会让部分影像科医生面临失业的困境,而AI诊断失误也会带来与患者的医疗纠纷,这些都是不可忽视的问题。从使用AI辅助肺癌早筛的群体角度看,少数医疗机构拥有足够的技术和设备支持可能会导致医疗资源的集中和分配不均,同时其在数据隐私、数据安全、道德问题、技术可靠性、临床实际应用和报告标准等方面还面临巨大挑战[12,19]。从医疗卫生管理管控的层面看,Amy等人认为,卫生系统领导者还必须满足对强大数据、金融投资、医疗保健部门之间有效沟通和协作、隐私和数据保护以及持续跨学科研究的需求,以发挥这项技术的潜在优势[20]。综上所述,在社会系统中,AI辅助肺癌早筛无论是在个体层面还是群体层面都被赋予身份并发挥其功能,它与各种社会角色之间的互动可能会为社会系统的健康运作带来一些负面影响。因此,为了维持社会系统的稳态,需要全面挖掘那些可能与AI辅助肺癌早筛发生互动的社会角色并研究它们之间的相互影响作用,同时还要对这种影响的程度进行量化评估,以加速AI辅助肺癌早筛系统的更新迭代。

研究还具有一定创新性。首先,本项目以肺癌早筛为小的出发点,将人的胜任素质评判理论运用到AI辅助肺癌早筛上,并深挖该AI胜任素质的评估指标,建立一个相对全面的评估体系以评判其社会影响力。其次,研究对多个数据库进行了检索,仅发现从单一角度论述医疗AI与社会角色间影响的文献,并没有发现对AI辅助肺癌早筛的社会影响进行系统性论述的研究。研究中不仅包含医疗AI与个体、群体以及社会间的关系,还讨论了医疗AI本身,囊括的范围是综合的,这是一种突破领域的创新。综上,研究所建立的指标体系在指标维度的设计上具有一定创新性和应用价值。

3.2 本研究构建指标体系的方法具有一定科学性及可靠性

各级指标都是基于一定科学方法或是强力的逻辑联系而构建的,并且每一级指标的确定均通过了专题小组的多轮讨论并最终达成一致。一级指标依照“洋葱模型”自内向外可以划分出对自身、对个体、对群体、对社会系统的4类应用场景,基本涵盖所有可能的社会关系。二级指标则为每个应用场景中的12个主要互动者或是互动群体,例如在个体关系的下属指标中,选择了在实际中与医疗AI接触最密切的个体,即需要利用医疗AI进行诊断的患者、医生以及投资者。最后,通过对12个互动者及群体进行专门分析,最终确立36个关联者下属的三级指标,这些指标将定量和定性相结合,客观且准确地评价了它们的上级指标。各级指标关联密切,层层决定,对探究医疗AI的临床应用与社会各成员之间的联系有重要意义。

在德尔菲法中,专家的权威性是评估意见可靠性的一个重要指标。本项目咨询的专家组大多为博士,且均涉足医学或医疗AI领域,有丰富的专业背景及临床经验。专家权威系数调查显示Cr均较高,说明可对指标的构建给予建树性的指导;专家积极系数结果显示,各专家对于指标构建有相当的积极性。德尔菲法采用匿名化的专家意见征询和反馈方式,避免了专家之间的互相影响和压力,提高了意见的客观性和独立性。另外,多轮征询和反馈的方式也逐步缩小意见差距,最终达成了统一的意见,提高了评价体系的可信度和可靠性[21]。在专家回访意见的结果中,新增2个指标,即“可以获得有价值的专业建议”和“认为有可及性及普适性”;删除1个指标,即“维护成本低”;修改1个指标,即“利于分诊”。根据各专家在行业中的实践发现,很多患者认为影像学诊断报告的专业性太强,如若AI辅助肺癌早筛能增加影像学报告的解读功能,将有利于提高患者满意程度,所以增加了“可以获得有价值的专业建议”指标;医疗器械的临床应用价值很大程度上决定了其投资价值,如若医疗AI的维护成本太高或是不能大规模应用,投资者不会倾向于对其投资,故增加了“认为有可及性及普适性”指标;专家认为“维护成本低”指标应囊括在“投资者”下属指标,故删除;“利于分诊”指标描述太过宽泛,更改为“利于诊断危重病人以对其进行优先手术”。综上所述,指标的构建及调整均经过严格的讨论及协调,最终消除分歧,总体保证了研究的科学性、独立性、客观性及可信度。

3.3 本研究为AI辅助肺癌早筛的临床转化提供了量化依据

3.3.1 医疗AI的自身条件是其最重要的社会特性。研究采用层次分析法构建模型的方法有很强的科学性及适用性,经一致性检验,所有判断均通过说明所构建的指标逻辑性强。一级指标中“自身条件”的权重高达0.4615,因为AI辅助肺癌早筛良好的自身性能及特性是其在社会上进行应用的基础;而“个体关系”的权重比群体关系和社会关系更高,是因为AI辅助肺癌早筛在日常中主要与患者、医生等个体进行互动,仅偶尔在大型筛查、医疗AI使用引起的社会舆论等情况中才会更多地与群体及社会发生互动。

3.3.2 医疗AI的性能及其在医疗系统的定位需重点关注。“自身条件”的3个二级指标中,“软件性能”权重最高。在AI辅助肺癌早筛系统中,诊断的准确性、可及性及效率是核心,其性能的良好可以提高筛查的效率、增加经济效益、提升诊断质量以及提升患者感知,故最为重要[22]。 另一方面,就目前而言,以CT为主的影像学检查是临床上进行肺部肿瘤早期筛查的主要手段。成熟的AI因其阅片效率高、时间场所限制小,有着良好的应用前景。其以准确高效的自身特性能够有效地辅助影像科医生做出对应的诊断,因而也最受各行业专家看重[7]。“开发团队”和“维保特性”权重基本一致。“开发团队”是人工智能系统的研究者,他们所拥有的能力及资源一定程度上可以反映AI系统的优劣;而优良的“维保特性”则能延长AI系统的使用寿命,开发方不断进行的模型优化也能更好的提高AI的性能。增加经济效益。“个体关系”的3个二级指标中,“使用者”一般指使用AI辅助肺癌早筛系统的患者,其与“医生”的权重相当且远高于投资者,这与他们平时与人工智能的高互动频率有关。相比之下“投资者”与AI的日常活动频率低,故权重较低。“群体关系”的3个二级指标中,“医院”权重最高,这也与其和该人工智能的高互动频次紧密相关,相比之下,“风险人群”与“公众”仅在特定场景如大型肺癌筛查及AI引发社会舆论时与AI有互动。“社会关系”的3个二级指标权重基本相当。“政府管控”主要涉及AI的法律法规,AI给作为社会治理与宏观经济调控决策中枢的政府创造了更加精准、真实、全面的决策信息场景,可以有效减少决策的逆预期效果[23]。“社会效益”主要与社会资源的分配相关,AI辅助肺癌早筛带来的医疗资源优化或是社会舆论的热度也会反过来助推AI的快速升级。“国家层面”则主要涉及我国的国家安全、国家形象及国家生产力,这亦是一项不容忽略的维度。综上可知,“社会关系”的3项指标重要程度均衡,各项均需重视。总而言之,软件的性能及其与医疗系统间各角色的关系所占权重更大,提示如果要通过使用医疗AI为社会带来良好的影响,需要提高AI辅助诊断的准确率、效率以及明确医疗AI在医疗系统中的定位。

3.3.3 医疗AI的更新迭代需考虑多种因素。在三级指标中,“准确度高”“运算效率高”“多场景兼容性好”综合权重分别位于第1、第3、第6。AI诊断肺癌的准确度一般要求不低于影像科医生,运算效率高低主要看每分钟诊断量,多场景兼容性主要看其是否与多系统兼容,三者均是评判AI辅助肺癌早筛系统性能的重要标准。“诊断具有可持续性”权重第2,如果临床医生长时间使用AI,一定程度上会影响其对于肺癌诊断的准确性,所以临床上使用AI需要注意,对机器的过分依赖,会使人变懒惰。“可以获得有价值的专业建议”权重第4,其取决于AI诊断之后所生成的诊断报告对于患者及风险人群而言是否专业且友好,在AI辅助肺癌早筛系统开发过程中需注意这一点。“数据来源完善”权重第5,数据库的完善与否一般与开发团队合作医院有关,对于门诊量大的医院,各类肺癌患者数量多,因而数据一般更为权威。另外需要注意“能够保护用户隐私”权重第7,大数据平台作为AI深度学习和决策的基础,大量的数据涉及个人隐私,一旦受到黑客与不法分子的攻击,将导致公民个人隐私信息的泄露。要进一步的完善隐私保护法律体系,培养网络安全人才以减少技术漏洞,进一步降低大数据平台漏洞带来的隐患。“利于优化医院重分工”权重远高于同级另外两项指标,AI在不同行业和组织中的应用,加快了组织的信息流动,更新了组织成员的构成,带来了人机交互的新形态和新模式,推动着行业和组织架构、组织目标与任务的变革与再造[23]。综上所述,医疗AI的运用关键在于是否能够有效辅助诊断,其更新迭代的突破口在于提升其本身素质。

猜你喜欢
权重辅助专家
致谢审稿专家
小议灵活构造辅助函数
倒开水辅助装置
权重常思“浮名轻”
为党督政勤履职 代民行权重担当
基于公约式权重的截短线性分组码盲识别方法
减压辅助法制备PPDO
请叫我专家
提高车辆响应的转向辅助控制系统
专家面对面