马艳宁 金作林
710032 西安, 国家军事口腔医学重点实验室, 国家口腔疾病临床医学研究中心, 陕西省口腔疾病临床研究中心, 空军军医大学第三附属医院正畸科
近年来,在医学领域人工智能得到了前所未有的繁荣,智慧诊疗与辅助医疗决策等技术不断涌现。在这样的大环境之下,人工智能的优势也体现在了口腔数字化的扫描、诊断、设计与制造、临场手术等疾病诊疗等方面。同时融合了三维数据采集技术、数学建模技术、计算机辅助设计与增材制造技术等,使得数字化口腔诊疗技术不断的发展与革新[1]。随着口腔正畸学科的发展,人工智能被广泛运用在智能影像识别系统、医疗决策系统、语音智能系统等方面,对于正畸诊疗方案的制定,拔牙非拔牙的决策以及诊疗过程中的辅助等方面都表现出相当的优势[2]。但值得注意的是,在人工智能的开发与应用上,存在着一些目前的技术水平尚无法解决的科学问题,加之医学是一门复杂的学科,关乎患者的切身利益,并且由于个体差异性,用人工智能进行医疗决策并完全替代医生尚不可行。但要肯定的是随着人工智能在医学诊疗中的优势逐渐体现,未来将会在正畸治疗中逐步实现三维化、智能化、精准化。
由于人工智能可以根据先验知识对相关知识点进行识别加之边缘检测技术的运用,因此在正畸领域涉猎最广的就是头影测量,对于二维影像的识别定位方法,从图像过滤与基于知识的标志点搜索、主动形状模型和主动外观模型建立以及相关学习的方法等技术的演变与发展,目前二维头影测量自动定点研究已日趋成熟,在临床运用中有效减少了头影测量分析所需要的时间和因主观因素而导致的误差,提高了标志点识别的准确性,临床运用较为广泛。Arik等[3]首次将卷积神经网络(CNN)应用于识别头颅侧位片,将19 个标志点中2 mm以内的误差检测成功率提高到了76%,接着Leonardi等[4]运用机器学习进行定点,在前期自动定点软件基础上又将准确率提高了5%~15%。Park等[5]运用YOLOv3方法对80 个标志点进行检测,在此方法下,将其中19 个主要标志点2 mm内误差范围的检测成功率提高到80.4%,重复性明显高于人工标注,且不受性别、骨骼分类、图像质量的影响,通过Park团队的研究[6]证实深度学习方法在标志点定位中有高精度的表达。在此基础上,Kunz等[7]使用深度学习方法对标志点进行自动识别,在参数水平上验证了CNN检测18 个标志点的准确率与人工没有显著差异,同时Lee等[8]应用CNN对18 个标志点自动定位,定位准确率达到了82.11%~95.95%。以上这些研究无不证实采用人工智能方法助力头影测量的实现,可以有效提高工作效率, 但在运用中仍需医生检查自动定点的准确性,以确保在此基础上的诊断以及诊疗的准确性,因此如何提高人工智能头影测量软件的稳定性与精准性是目前一直在继续深入研究的内容。
在二维影像资料中发挥出不小的潜力之后,人工智能也在三维影像数据的识别与提取中崭露头角,三维计算机断层扫描中三维头影测量标志的标注已成为头影测量分析的重要组成部分,常用于诊断、手术计划和治疗评估。由于训练数据的可获得性和计算量的限制,高精度三维标注的自动化仍然具有挑战性。Yun等[9]提出了一种分层的深度学习方法对CBCT特征点进行标注,该方法实现了基于二维图像的三维形态特征学习和头影标记的连接向量的相似/不相似表示学习。该方法使用少量训练CBCT数据集,对93 个头影测量标志点实现了平均3.63 mm的三维点误差。Minnema等[10]通过patch深度学习网络对CBCT 的13 个常用标志点定位进行自动识别,评价实验表明,该CNN模型平均处理时间为37.871 s,平均精度为5.785 mm。Gupta等[11]在处理CBCT标志点时,将相邻的标志点分成不同的组来检测,最终20 个标志点的总平均误差降低到2.01 mm。这一精度有效减轻了医生的工作量并弱化平时依赖于人类经验的解剖定位方法,更加精准可靠。但值得注意的是,个体解剖学存在差异,并且容易出现学习的结果受到数据多样性的影响,使得定位常常出现较大的偏差,加之一些标志点本身影像结构重叠不清,或图形特征不明显等原因,再加上人工智能最大的困扰数据集有限等问题,目前关于三维影像资料的定点仍需要较多的人工参与进行校准。
随着各种深度学习的算法在头影测量分析中的成功应用与不断深入,其也在正畸临床的诊断中彰显优势,可以用来诊断患者的错畸形类型以及生长发育阶段的判断等。最初的方案设计方法是基于专家系统的人工智能分析方法,主要包括基于规则的专家系统、基于案例的专家系统以及基于人工神经网络的专家系统等[12-13]。随着机器学习以及深度学习的发展,正畸诊断方法变得更加智能化。Yu等[14]提出了一种利用CNN建立端到端的深度学习模型用于垂直向和矢状向骨性错畸形的诊断,该方法省略了复杂的头影测量过程,直接将头颅侧位片和正位片与诊断结果端对端联系,结果显示该模型诊断性能的灵敏度、特异度和准确率均大于90%。Makaremi等[15]应用CNN判断头颅侧位片CVMS分期,在不同环境下对不同数量的图像进行训练、评估和测试,并对这些图像进行不同的预处理。对模型和方法进行了交叉验证。发现更均匀的类别分布有助于提高准确率。另一方面,Liu等[16]通过1 023 张标注头颅侧位片建立了一种基于VGG-Lite的深度学习模型,进行病理性腺样体肥大的定性诊断。平均单张计算时间仅为4.2 s,诊断准确率与专家水平接近。虽然在运用中发现其精度并不能达到百分百的评估预测能力,但在一定程度上表明人工智能可以对生长发育阶段以及临床表现做出评估,以帮助临床医生诊断分析。
基于人工智能方法下的辅助诊断模型,可以有效帮助医生制定正畸方案。Suhail等[17]率先通过人工选定特征制定拔牙或者不拔牙的计划,运用287 例患者的数据训练了一些机器学习模型,得到较准确的训练结果。国内学者[12]利用人工神经网络(ANN)构建11~15 岁患者正畸治疗决策专家系统(ES),以确定是否需要拔牙,并且揭示出影响拔牙与否的重要因素。结果显示该方法的准确性达到80%,并且前牙暴露量以及下前牙唇倾度(IMPA)是贡献最大的指标。Thanathornwong等[18]从常用指标中筛选出包括覆盖、覆在内的15 个变量,选择贝叶斯网络(BN)作为基础模型,辅助评估患者是否需要正畸治疗。Lee等[19]利用深度学习方法研究了正颌手术或正畸治疗的必要性,消除了由标志性测量值引起的误差,大大提升了治疗诊断的精准率。Choi等[20]运用一种双层神经网络,实现正颌/不正颌的决策,准确度可以达到96%,同时运用这样的网络评估手术类型与拔牙决策时,表现出91%的准确度。考虑到正畸方案的设计要根据错畸形类型,非常规拔牙,患者遗传因素等问题,另外人工智能在运用中的缺陷会影响整个正畸方案的设计,关乎患者自身的切身利益,因此人工智能的方案决策仍具有局限性,若可以纳入更多的影响因素,将会大幅提升人工智能在方案决策中的作用。
人工智能中的图像识别技术最显著的优势在于处理图片过程中的智能化,可以对图片进行智能化的分析处理与选择。人工智能图像识别是基于信息技术基础衍生发展而来,其融合了计算机对数据信息处理的技术,依赖于计算机辅助完成,但目前图像处理中的分辨率受到图像信息的影响,准确性也会随之受到影响。
在目前正畸相关的深度学习方法研究中,二维图像仍是主要的数据来源。二维图像的局限性包括因透视成像过程导致原本的三维结构投射在二维图像时的解剖结构重叠、失真,图像间尺度差异,以及缺乏相关标志物或病变的三维信息,二维图像无法对三维结构信息进行表达,在利用机器学习对二维图像进行训练时,可能会由于信息缺失影响模型的准确性[21],将这些二维图像转为三维模型后更便于诊断分析,可有效降低以上误差。考虑到在图像识别技术中的缺陷性,即使是三维图像,由于其所包含的信息量较大,仍然会影响图像识别的准确性,因此需要不断优化图像识别,使基于人工智能的图像识别技术的应用变得更加的便捷,更全面发挥其优势。
训练深度学习网络的方式包括监督学习、无监督学习和半监督学习等,监督学习指的是先使用标记过的训练集进行预训练,得到模型参数,然后将这种学习到的经验在验证集上进行验证。而无监督学习则不对训练集进行标记,让深度神经网络自动学习内在的规则[22]。目前正畸相关的深度学习研究中,常用的模型包括CNN(卷积神经网络),RNN(循环神经网络)等往往需要进行监督学习,但是和普通训练数据集不同,正畸主要面对的各类非正常的畸形情况,正畸数据集并无通用标准对数据进行标注,因此标记数据的误差也会影响深度学习模型训练结果的准确性。另外对于三维影像资料由于其包含的信息较多,由不同的平扫层面组成,标记需要分层进行,往往费时较多,同时不同水平与认知的工作人员对于标记的把握也参差不齐,因此标记的准确性影响着正畸相关决策的制定。
基于深度神经网络的智能系统,由于学习和预测过程不透明,不知道其根据学到的哪部分特征进行的预测和判断,操作者难以解释其科学性,被称为“黑盒特性”。深度学习的“黑盒特性”,难以用纯数学理论的方法进行分析解释,目前缺乏完备的理论和方法体系对其网络架构进行解释[23]。在众多研究中,很多学者也给出了多种非数学上的定义,包括人类对于决策原因理解的程度、人类可以持续预测模型结果的程度、向人类做出解释的过程等[24]。在神经网络的运行中可解释性与决策能力呈正相关,也就是说可解释性越高,做出决策与预测的准确性才能越高。深度神经网络的不透明性、不可解释性和不可理解性,成为制约深度学习技术可靠和可信应用的主要瓶颈。目前大多数正畸相关的深度学习研究,都无法可视化的解释其深度学习模型运行结果的逻辑。对于正畸医生而言,单纯依赖深度学习模型的结果做出决策就会显得缺乏依据,尤其是预测性结果的可靠性难以确认,而这种医疗决策的不可追溯性可能会导致潜在的医患纠纷。
正畸患者治疗的长周期,决定了正畸医生难以获取大样本量的数据集用于深度学习的研究。在目前正畸相关的深度学习文献中,所使用的样本量通常在1 000 例以下,少数研究的样本量达到了几千例。对于数据驱动的深度神经网络而言,数据量对于模型的性能有着显著的影响,通常训练良好的深度学习模型所需要的数据量在十万以上,过小的样本量容易导致过拟合的问题[25]。除此之外,正畸样本的可标记数据获取困难,标签数据的获取需要大量专业医师进行数据标注,这为正畸数据用于机器学习训练产生了巨大的挑战。
大多数正畸相关的深度学习模型,都是使用同一机构在一段规定的时间内收集的少量图像开发的。此外,用于开发算法的图像很可能是使用相同的设备和成像协议捕获的。因此不同时间不同设备采集的数据缺乏数据异构性。在模型推广应用时,面对各种异构数据往往鲁棒性和泛化能力欠佳,这可能会导致模型缺乏通用性和可靠性,并可能由于变量(包括设备、成像方案和患者群体)的不同而导致在广泛的临床实践中的表现不尽如人意[26]。
机器学习作为人工智能的核心技术,其性能和隐私受到在近年来广泛关注,传统的机器学习需要有服务商收集用户的数据后集中训练, 但是用户的数据与用户个体紧密相关, 其中不乏一些敏感信息,而这些信息若被挪作他用,则可能威胁用户的人身安全、个人名誉和财产安全。另外集中训练后发布的模型也可能因为受到攻击而泄露隐私[27]。但是人工智能技术却需要对大量数据进行收集和融合, 如果不能获取完整丰富的信息来训练模型人工智能这门技术将会受到严重的制约。正畸学科中的隐私保护同样是人工智能正畸领域发展的制约因素,很多隐形矫治器公司,需要大数据才能确保治疗方案的可靠性,但大量资料的获得与存储就使得患者的隐私受到威胁,若资料数据量不足,则严重制约隐形矫治技术的发展。目前大数据的个人隐私保护仍处于起步阶段,在生态环境和研究的各个层面上都提出了挑战性研究问题。
基于人工智能在正畸学科中的运用现状,其在未来仍有较大的发展空间,若未来可以将深度学习的训练方法围绕着半监督学习方法展开[28],从原来需要大量的数据以及大规模数据任务的监督学习现状转变为较少数据需求以及较少标注工作的转变,则在有效降低工作量的同时,不断增加辅助诊疗的精准度,这样就使得人工智能这门技术实现低门槛,高收益,更好的服务于临床。
在隐私保护方面,联邦学习在数据孤岛现象与数据融合需求的矛盾背景下,应运而生。它通过多个数据持有方协同训练模型而不分享数据,这样在保证足够的训练集的前提下,患者仍可对自己的资料进行控制[29]。
从应用层面上来说,人工智能技术可以将优质化的正畸医疗资源加以智能化分析,通过数字化技术的分析存储以及分享,更快更精准实现正畸方案的确定,资源共享,可以短时间解决优质医疗资源分布不均衡问题。目前人工智能针对正畸数字化技术正逐步实现从单模态到多模态,单一因素到多因素的分类分析。未来将有效解决正畸资源分布不均的问题,让更多的患者享受到规范化的正畸诊疗。
总之,借助于人工智能技术,发挥其在正畸诊断治疗中的优势,形成三维化、智能化正畸辅助诊断和治疗计划、并使相关数据可存可访,对于提高基层和边缘地区正畸方案设计的精准性与高效性,提升正畸医生的专业水平,有着重要的社会意义。但在人工智能迅速发展的当下,需要认清其仅可作为辅助诊疗的手段,人工智能本身所存在的问题以及医疗本身的个体差异性与复杂性,意味着医生仍是治疗的主体,切不可过分依赖于人工智能。