陈碧江
(暨南大学附属复大肿瘤医院 信息部,广东 广州 510665)
我国是一个癌症发病率较高的国家,每年因癌症死亡的人数也非常多。而人们对于卫生服务的需求与医疗卫生具备的资源之间存在的矛盾,导致传统医疗模式难以满足当代社会发展的需求[1]。在大数据背景下和云计算的支撑中,人工智能也得到了高速的发展,应用于疾病诊断、药品研发、中药辨识、医学理论及病理知识等方面取得可观成就。为了进一步探讨人工智能的应用价值,本文对人工智能在肿瘤科病理诊断以及评估当中的应用价值进行分析,如下。
人工智能以深度学习作为核心,深度学习则来源于人工神经网络的研究,对低层特征进行组合后,使其形成更加抽象的类别表现或高层属性,由此显示出数据的分布特征。在大数据时代与图形处理器等各类强大的计算设备得到不断改进及发展的背景下,深度学习能够充分利用各种数据,对抽象知识表达也可以做到自动学习,即在某种知识中将原始数据进行浓缩[2]。在大规模的结构化数据分析中,深度学习能够把各种无法采用生物学统计提取或者肉眼辨别出来的数据特征识别出来,如CT、MRI 以及病理图片等,不仅属于结构化数据,同时也可作为人工智能最佳的深度学习资料。
病理切片属于二维医学图像,是一种结构化数据,具有典型性,适合在人工智能的深度学习中应用。我国的病理医师在职人数非常少,且收入较低,工作环境差,使人才严重流失,加大了疾病漏诊和误诊率。而人工智在改善病理困境上可以发挥一定的作用,它具有速度快、准确度高、无地理空间要求、病理切片识别诊断标准统一等优点,可以帮助肿瘤科医师进行病理照片的识别、筛查和评估,提高疾病诊断水平。
在肿瘤科人工智能识别模型的构建过程中,精确性高的计算机模型都必须以大量的病理切片作为数据支撑,通过利用这些数据进行深度的学习,该过程拥有大量病理切片的数据支持,并利用这些数据进行后续深度学习,可分成五个阶段,即:①数据标注:收集肿瘤病理切片,将所有切片数据化,通过标注工具对图像加以分类,做好肿瘤细胞及特殊结构的位置标定,并详细说明其主要特点之后将其录至数据库[3]。②数据预处理:对做了标注的图像加以预处理,如反转、模糊化以及曝光度调节等,让神经网络的整个训练过程得以更全面学习到病理疾病的本质特征,避免人为与环境因素的干扰,提高数据的准确性。在数据处理完成后,把图片数据重新随机排列,按6:2:2比例分成训练集、验证集、测试集三种,对其进行计算,确保效果的真实性。③算法设计:使用几种在图像识别和分类中有效的基本模型对系统进行基准测试,根据文献设计算法模型,在每个神经网络中输入训练集并对其进行训练,并通过验证集对算法进行验证。④算法训练:经过比较,确定了两个或三个最优模型,并在基本模型的基础上进一步调整了神经网络的结果和网络参数,以提高算法的准确性。在获得相位训练的结果之后,测试算法以比较该算法是否可以正确识别出未经训练的图像为标准。⑤算法测试:通过使用接收者的工作特征曲线来客观地评估算法的性能,并构造灵敏度曲线和特异性曲线作为度量,其中,敏感性指示正确识别肿瘤的能力,而特异性指示正确识别良性肿瘤病变的能力。
算法作为病理人工智能的核心关键,有效的数据是其运行的基础和必要的条件。在肿瘤病理诊断中,人工智能若对出去无法完整处理或者出偏移,就会导致最终的决策出现错误或者偏差,使人工智能的应用受限。和其他的图像比较,病理图像有其显著特点,主要表现在:①获取高质量且尺寸适宜的图像,联合显微镜及数字切片扫描仪等可以进一步提高图像质量,但当病理切片图片尺寸比较大时,则要按算法不断进行训练及调整[4]。②数据标注置信度,体现在人工智能于肿瘤病理算法中是否可以完全做到精准,这是由标注的可靠性来决定的,但病理切片标准非常繁琐,工作量大,特殊病理还需由多名专家和特殊的染色审核进行辅助标注。③在病理诊断中涉及到的病种比较多,且每个病种都具备需要独立模型的可能,尤其是肿瘤疾病,要求每一名专家都要对部分病种做到熟透于心。
病理标注的方式及算法不同,其表现也不同,但其原则是一致的,也就是准确完整的标记所有肿瘤细胞,标记原则包括:
3.1 标注团队权威性。对肿瘤病理进行标准的工作人员必须有扎实的医学知识和实践能力,要求团队成员中要有1 名固定病理专家、1 名病理技术者、3 名有医学背景的年轻医师等,其中,病理专家负责审核工作,适当修正错漏标注;病理技术者主要负责特殊染色比如免疫组化等工作,年轻医师则负责标注,在标注疾病前必须经专家培训及指导后进行。
3.2 标注工具简单化。目前市场上可用于进行标准的软件繁多,如Photoshop、view、image 等,这些工具都可对肿瘤细胞进行标记,但在像素及方便程度上有一定限制[5]。不同团队使用的标注工具也不同,有简单的也有复杂的,但均以简单化为主,如选择不连续线性标准工具,线的起始点可自动连接,线的粗细及颜色也可调节,且附带有自定义功能,可大大提高标注速度及标注的准确性。
3.3 标注序列程序化。明确了肿瘤人工智能诊断后,先掌握其细节与宏观情况,如肿瘤细胞特点的分类等,如在胃癌的诊断中,由于胃癌类型有十多个,这就需要建立十多个序列,而在每个序列中都包含有一种类型的上百或者上千张病理图片,借助统一扫描工具数字化所有图片,再经标注工具切取所需预期图片,之后做好人员标注,最后经专家审核及补充后方可使用。
3.4 制片流程标准化。如果图片的质量比较低,很容易算成肿瘤,出现误诊情况,伊红染色时间过长或过短都会发生偏差,如果伊红染色太浓,将无法完全识别病理图像神经,但是能够完全识别正常染色,同时,不同组织结构的对比度将降低,从而难以区分。 该解决方案主要包括增加用于深度学习的不同染色质量切片的样本大小;建造全自动的摄片和染色设备,并优化工艺,提供数字化及标准化病理图像。
3.5 标注流程规范性。在肿瘤的病理诊断中,即便医师熟练标注的方法,在标注工具的使用中也要花费大量的时间及精力去摸索,如对分化程度比较低,如2048×2048 像素腺癌图片在放大了200 倍后,要做的标记可能达到上百个,对印绒细胞癌病理照片的标注则可能要上千个。所以,为了减少再次返工情况,标注之前要制定规范流程进行标准,要求首先要明确好标记方式,专家获取图片后,按算法明确标注的方式;其次,明确标注的范围,也就是要明确标记线与腺体是否要紧贴,若有空隙时是否会影响算法等;第三,标记清晰的组织,由于肿瘤组织有许多成分,其中一些在指导治疗和评估预后方面起着重要作用,有必要事先确定是否贴标签;最后,合理安排时间,及时报告疑难病理。
在肿瘤病理诊断中,计算机辅助算法的广泛应用可大大提高肿瘤病理诊断准确性,以减轻临床病理医师的负担,但由于病理人工智能处在研发的初始阶段,在短时间内进入到临床实践比较困难。而病理诊断作为最终诊断,不可出现任何差错时间,但由于当前人工智能在肿瘤病理诊断中的准确性还未能达到百分百,所以需要增加相应的医疗数据,在病理专家的参与和深度学习中结合人类智能,人工智能和实验室方法来提高肿瘤病理诊断的准确性。同时,我们必须整合分子检测和免疫组织化学等先进的技术方法,以最大程度地减少漏诊和误诊的发生率,为临床后期治疗和改善疾病预后等提供重要参考。