分类多种疾病人工智能算法诊断常见皮肤病的准确性

2022-05-16 14:05卢枫刘欣朱亚杰李小红于建斌董慧婷

河南医学研究 2022年8期

卢枫，刘欣，朱亚杰，李小红，于建斌，董慧婷

（1.郑州大学第一附属医院皮肤科，河南郑州 450052；2.新乡市第二人民医院皮肤科，河南新乡 453000）

随着AI技术的快速发展及逐渐成熟，其在临床工作中的应用也越来越广泛，不仅在医学影像科室、病理科及重症医学科的临床工作中取得了卓越的成绩［1-5］，在皮肤科中的应用成果也尤为显著，从最初通过AI对皮肤科良恶性肿瘤的二分类诊断技术逐渐发展到对多种皮肤病的分类诊断［6-8］，尽管部分AI算法诊断皮肤病的能力几乎达到了与皮肤科医生的诊断能力相当的水平［9-11］，但是在医生使用人工智能技术辅助临床工作或患者独立使用人工智能诊断软件时，仍要警惕在应用过程中可能会出现的一些问题。本文的研究目的是指出人工智能诊断皮肤病过程中出现的问题，以期为使用人工智能辅助诊断软件的医生与患者提供更多的参考与注意事项。

1 资料与方法

1.1 资料收集

1.1.1病历资料收集本研究已通过郑州大学第一附属医院医学伦理委员会批准。于2021年2—8月在郑州大学第一附属医院皮肤科门诊前瞻性地收集761例皮肤病患者的临床资料，分别记录患者的年龄、性别、医生的诊断，对符合纳入标准的患者或者患者的法定代理人以书面形式告知本次研究的目的、方法及有可能对病人及其家属带来的风险及益处，由患者和／或家属完全自愿决定是否加入本研究，并且每一位招募的患者都签署了知情同意书。由患者本人或其陪同者在诊室中对皮损进行拍摄，拍摄时使用常规的房间照明，拍摄部位由患者选取其认为最具代表性的皮肤病变的一个或多个临床图像。每位患者留取一张临床皮损照片并依次上传至人工智能软件［Autoderm，一个可识别包括良恶性肿瘤、炎症性皮肤病等44种常见皮肤病的AI诊断平台（https：／／autoderm.firstderm.com／en／gp_app），见表1］进行诊断，记录其输出结果，使用统计分析软件IBM SPSS 27.0计算准确性指数，包括灵敏度、特异度，使用相关公式计算准确度。所有图像均使用一部智能手机（Mate 20，华为技术有限公司，中国深圳）拍摄，拍摄时使用原相机的默认设置，未加用任何滤镜、美颜等可能干扰图像质量及皮损清晰度的设置，对所采集的临床图像进行编号及归纳整理。

表1 Autoderm能识别的44种疾病种类

1.1.2纳入标准（1）皮肤病诊断明确；（2）同意参与本研究并签署同意书；（3）皮肤病变位于可以方便拍摄临床照片的区域。

1.1.3排除标准（1）皮肤病诊断不明确；（2）不能配合采集照片；（3）皮肤病变位于不方便拍摄临床照片的区域；（4）拒绝参加该项研究。

1.1.4照片收集收集30张非人类皮肤（non-human skin object，NHSO）的照片、20张由2名皮肤科医生共同确认为正常人体皮肤（normal human skin，NHS）的照片、3张用薄材料覆盖的NHS照片、3张去毛生猪皮照片以及2张人工伪造的皮肤病变的NHS照片。30张NHSO的照片是从手机相册或互联网上所收集的，收集地点主要在2所公寓和医院，包括植物、玩具、布料、地毯、家具、自动售货机、自动扶梯、走廊、地板和墙壁等一些非人类皮肤照片，因为它们可能代表在应用AI诊断软件时所上传患病皮肤照片的背景中出现的物品。以一部智能手机（iPhone 12）为拍摄工具，将相机设置在默认模式下拍摄照片，拍摄者为1名皮肤科医生。选取20名志愿者，采取他们的20张NHS照片、3张被薄材料（包括肉色长袜，乳胶手套和薄透明塑料薄膜）覆盖的NHS照片、2张有人工伪造皮肤病变（分别为用一滴咖啡和黑色墨水笔画圆圈在正常皮肤上做标记）的照片。

1.2 研究方法将上述照片逐张上传至AI诊断平台，Autoderm会对它所能识别到皮肤的每张照片输出5个可能的皮肤病诊断，分别记录并总结Autoderm对上述照片的输出结果。在测试Autoderm诊断能力的试验过程中，发现Autoderm对上传的一些临床照片作出了“No skin detected in the image”（图像中未检测到皮肤）的输出结果，猜想Autoderm在使用过程中是否存在截止距离，即Autoderm的“视觉”无法检测到图像中的皮肤的最大距离。分别拍摄1名志愿者的头颈部、躯干、上肢和下肢的皮肤在不同距离下的照片，拍摄距离（即手机相机距离皮肤表面的距离）在5～100 cm，选取首次拍摄距离为50 cm，拍摄间隔为5 cm或10 cm，当拍摄距离的区间缩小至0～5 cm后，再以1 cm为拍摄距离逐次采取照片，在拍摄照片时，对每个拍摄距离处的每一个身体部位均采取多张照片，并且保证每个部位的暴露面积不变，选择质量适中或质量最好的照片进行截止距离测试。将拍摄照片分别上传至Autoderm平台，记录其输出结果为“No skin detected in the image”（图像中未检测到皮肤）时的照片序号，将该照片的拍摄距离标记为该部位的截止距离，分别记录每个部位的截止距离数据。将上述测试每个部位截止距离的过程均重复3次，计算每个身体部位的平均截止距离。

2 结果

2.1 一般资料分析共招募了从2021年2—8月于郑州大学第一附属医院皮肤科门诊就诊的761例符合纳入标准和排除标准的患者，共纳入761例皮肤病诊断，其中女434例（57.0%），男327例（43.0%），患者的年龄为（31±13.6）岁。

2.2 Autoderm对761例病例照片的输出结果在对761例病例的诊断中，Autoderm的第一诊断的平均灵敏度为53.4%（95% CI 36.4～70.4），平均特异度为96.3%（95% CI 90.8～100.0），其诊断准确度较高，第一诊断的平均准确度为92.3%（95% CI 86.3～98.2）。

2.3 Autoderm对30张NHSO照片的输出结果将30张NHSO照片分别上传至Autoderm，记录总结Autoderm对30张NHSO照片的输出结果，其正确识别的照片共22张（73.3%），其中包括动物皮革制品（猪或羊），得出“No skin detected in the image”（图像中未检测到皮肤）的输出结果，余8张（26.7%）NHSO照片与人类皮肤非常相似，Autoderm将该8张照片错误地识别为人类皮肤，并输出5种可能的皮肤病诊断的结果（图1）。

图1 Autoderm对NHSO照片的输出结果示例

2.4 Autoderm 对20张NHS照片的输出结果将20张NHS照片分别上传至Autoderm平台，Autoderm均能识别到是人类皮肤并对每张照片均输出有皮肤病诊断的结果（图2）。

图2 Autoderm对NHS照片的输出结果示例

2.5 Autoderm 对3张用薄材料覆盖的NHS照片、2张人工伪造皮肤病变的NHS照片的输出结果分别上传3张用薄材料（包括肉色长袜、乳胶手套和薄透明塑料薄膜）覆盖的NHS照片上传至Autoderm，Autoderm均能将上述照片识别为人类皮肤，得到5个皮肤病诊断的输出结果。在上传2张经过人工伪造的皮肤病变的NHS照片至Autoderm平台时，也均作出患有皮肤病诊断的输出结果。

图3 Autoderm对人工伪造的皮肤病变的NHS照片的输出结果示例

2.6 对Autoderm 检测照片中皮肤截止距离的测试结果Autoderm分别对面颈部、躯干、上肢、下肢皮肤的截止距离进行3次测量，面颈部皮肤的3次测量的截止距离分别为74、80、95 cm，躯干皮肤的3次测量的截止距离分别为94、98、99 cm，上肢皮肤的3次测量的截止距离分别为70、72、78 cm，下肢皮肤的3次测量的截止距离分别为70、75、77 cm，测量Autoderm能检测到的照片中头颈部、躯干、上肢和下肢皮肤的平均截止距离，分别为83、97、75和76 cm，4个部位的平均截止值为83 cm。

3 讨论

我国皮肤病学开发的人工智能算法主要针对以下各病类别的二元或多类（3～6种皮肤病）分类，主要包括：皮肤良恶性肿瘤、面部色素性皮肤病或炎症性皮肤病［12-15］，目前已报道的只有1种算法能够根据皮肤镜图像识别出14种皮肤病，包括皮肤良恶性肿瘤、炎症性和感染性皮肤病［16］。本次试验中使用的Autoderm是由美国公司所开发的一款诊断软件，其训练数据集由皮肤良恶性肿瘤、炎症和感染性皮肤病图像共约60 000张组成，能识别44种皮肤良恶性肿瘤、炎症性和感染性皮肤病［17］。其对上传的一个病例生成输出结果时，仅需要单张临床图像，在运行过程中不需要整合患者的人口统计学特征、病史和相关检查信息。在对所提供的761例中国患者图像的诊断中，Autoderm表现出中等水平的第一诊断平均敏感度（53.4%），较高水平的平均特异度（96.3%），因此，其可能会成为皮肤科医生在早期职业生涯阶段或在资源贫乏的偏远和农村地区的诊所以及全科医生和护理工作者的辅助工具。

在对Autoderm识别NHS照片的测试过程中，发现即使在正常人类皮肤表面套以宽松的手套或透明塑料薄膜，它仍能够将其识别为人类皮肤，并输出它“认为”的5个可能的诊断，不可否认AI诊断软件在识别皮肤方面具有敏锐的“视觉”能力，但只要该照片被其识别为人类皮肤，不管是否为患病皮肤，其均会对该照片作出5个相应的皮肤病诊断的输出结果。在测试Autoderm对30张NHSO照片的输出结果中有8张（26.7%）照片被识别为人类皮肤，这8张照片与人类皮肤有着较大的相似点，其中包括去毛生猪皮照片、具有皮肤质感的肉色书封面照片、冷军逼真的人物肖像油画照片及瑞士皮肤病蜡像模型照片等，该软件在准确分辨与人类皮肤接近的物体的能力中仍有一些不足，其对正确识别人类皮肤的敏感度仍有待提高。若正常皮肤表面覆盖有污渍等干扰物，如咖啡滴或用黑色墨水笔绘制的3 mm圆圈，甚至可能被认为是皮肤病变，这也会增加AI诊断软件诊断的假阳性率。在Winkler等［18］的一项研究中提出，皮肤上的标记可能会增加AI算法将良性痣被误诊为恶性黑色素瘤的概率，导致假阳性率的增加，因此建议在用于AI算法分析的皮肤镜图像中应避免使用皮肤标志物。虽然目前的人工智能辅助诊断技术已经发展得相当成熟，甚至有些人工智能诊断能力已经达到了专家级医生的水平［9］，迄今为止，仍然无AI算法能将其不能识别的疾病归类为不符合该软件诊断范围的病例的相关报道，目前的AI算法仍无法将NHS或将正常皮肤上的人工伪造病变识别为非皮肤病变。在运用AI算法分析临床皮肤照片时，也应将皮损处污渍等可能影响诊断的标记去除，以避免造成假阳性诊断的结局，影响医生的诊疗过程及引起患者的不必要的紧张情绪。

在用761张照片测试Autoderm的诊断能力的实验中，发现当上传某些临床照片至AI诊断平台时，可能会得到“No skin detected in the image（图像中未检测到皮肤）”的输出结果，通过记录Autoderm对不同拍摄距离的临床照片的输出结果，发现其对平均拍摄距离在83 cm以上的临床照片得到上述的输出结果的概率较高，在使用AI算法对临床皮肤病照片进行识别时，为确保上传的照片能被该诊断软件识别，应控制拍摄距离尽可能在83 cm以内。

但该项测试具有一定的局限性，Autoderm平台在作出“诊断”时，仅需使用者上传一张患处照片，并未采集患者的临床症状、病史演变等详细资料，虽然这在一定程度上更好地保护了患者的隐私信息，但在其作出诊断时过于片面，即使是皮肤科医生在无病史资料的情况下进行临床诊疗也是具有较大难度的。其次，在测量截止距离时，仅保证该测试是在同一环境、光照条件、拍摄人员的条件下进行，但拍摄时的拍摄角度及水平的高低等影响因素未能严格控制及测试过程中的不可避免的人为误差，且仅对1名志愿者的面颈部、躯干、上肢、下肢皮肤的照片进行采集，因此该数据提供的参考价值有一定的限制，由于本试验的测量距离活动在70～99 cm间，建议医生及患者在使用该AI诊断软件时，尽可能保证拍摄距离保持在70 cm以内，并确保患处位于所拍摄照片的中央且清晰。

在Hay等［19］于2013年发表的一项有关2010年全球皮肤疾病负担的研究中提出，真菌性皮肤病、其他皮肤及皮下组织皮肤病、痤疮在2010年全球最流行的十大疾病中分别占据第四位、第五位、第八位，皮肤病对全球人民的健康造成了巨大负担。尤其在目前新型冠状病毒肺炎疫情防控期间，可能会影响部分患者及时至医院就诊的时间，AI诊断软件的出现对于部分患者独立处理某些皮肤病也将会提供很多便利。在中国一些地区的基层医院，由于部分皮肤科医生存在对相关皮肤科知识的储备不足、错诊率高及处理方式欠缺等问题，因此在临床工作中借助于AI诊断软件对于提高他们工作的效率及质量都将会有很大帮助［20］。但由于AI诊断软件在诊断过程中存在将正常皮肤识别为患病皮肤及对与人类皮肤相似的非人类皮肤物体分辨能力不足等问题，因此对于基层、全科及低年资皮肤科医生等在应用AI诊断软件时，虽然它能够提供更多的诊疗思路，但仍要由医生作出最终的诊断并设计治疗方案。

随着全球科技的飞速发展，AI诊断技术应用领域也越来越广泛，由于皮肤科的大量图像资料的可用性，AI诊断技术在皮肤科有着广阔的发展空间与潜力［21］。将其与皮肤科的深度结合，不仅会使皮肤科患者的就诊效率大大提高，也能减轻皮肤科医生的部分负担，但仍要警惕AI应用中的局限性与潜在问题，由于皮肤科疾病种类的多样性、复杂性，对AI诊断技术的要求也更加严格，进一步完善AI诊断技术，提高其可识别疾病的准确度，增加可识别疾病的种类，将会使其发挥出更大的应用价值，为医生提供一种新型的诊疗方式［22］。