邱 韬,何 涛,张 强,肖雨璇,郭维华,3
面部美学可追溯至古希腊时期[1],口腔领域常将具有客观分析标准的“审美”[2]用于美学研究。面相分析已从直接人体测量[3]发展为二维[4]及三维[5]分析。由于伦理因素,儿童可用的X线检查有限,面相常用于跟踪儿童生长发育变化及评估治疗效果,而二维面相设备简单、易于操作,目前仍是临床面相分析的主流手段[6]。目前许多面相分析软件仍需手动定点[7],且高度依赖于临床医生的经验[8],亟需一种可自动定点及分析的面相分析软件。
随着人工智能技术的发展,深度学习[9]、随机森林[10]以及决策树等新算法已用于提高标志点检测的准确性。在这些算法中,卷积神经网络(CNN)在图形处理方面优势显著,已广泛应用于人脸识别、人体姿态估计[11]、病变区域检测[12]和分类[13]、图像分割[14]、辅助诊断[15]等领域。Hwang等[16]使用2种CNN模型成功完成了X线头影测量中80个标志点检测。然而面相照片多为彩色照片,分辨率远高于X线片,缺乏比例尺[17],且来源复杂[18],难以进行客观量化比较,目前关于自动化面相定点分析的研究较少。
因此,本研究基于CNN开发了面相自动定点及测量分析系统,该系统能自动高效准确检测标志点并分析面相比例及角度,此外还提出面相分析准确性评价体系,包括两项定点准确性指标(NME/SDR)及一项测量准确性指标(SCR),以优化及对比正侧貌照片自动定点方法。
收集467例2019—2021年于四川大学华西口腔医院就诊的替/恒牙列期患者,由于需患者配合面相拍摄及后续正畸治疗,患者年龄范围限制在6~55岁,其中162例为男性,305例为女性。所有患者及家属理解并愿意参与研究,并签署知情同意书。四川大学华西口腔医院伦理委员会批准了本研究(WCHSIRB-D-2019-030)。排除标准为:①头位明显不正;②先天性颅颌面畸形;③颅颌面创伤;④整形手术或赝复体植入;⑤过度肥胖(BMI>28)。
患者以自然头部姿势(NHP)直立,由微距闪光灯(佳能MT-26EX-RT)和定焦镜头(佳能微距镜头EF 100 mm f/2.8 IS USM)采集;光圈f.5.6-7,快门速度1/160~1/100 s,感光度(ISO)为100,导出JPG 格式的原始图像(dpi 为 72)。
开发手动定点系统(颅颌面部智能定点系统 软著登字第10278567号)以标记所有常用面相分析标志点的坐标,正侧貌照各标志点图例见图1,定义见表1、2。
表1 正貌照标志点定义Tab.1 Landmark definitions of frontage subset
表2 侧貌照标志点定义Tab.2 Landmark definitions of profile subset
A:正貌相所有标志点;B:正貌鼻唇部标志点;C:侧貌相所有标志点;D:侧貌鼻唇部标志点
各标志点均由2位经验丰富的正畸医生就标志点定义达成一致后,独立标记2次,记平均位置为标志点真实位置。随后将正侧貌照依次分为两个数据集保存所有标志点的坐标信息,并进行后续卷积神经网络训练。
各数据集包含 467 张面相,其中327张用于训练,50张用于验证,90张用于测试。利用PyTorch搭建标志点自动检测模型,使用NVIDIA Titan XP GPU显卡,采取由粗到精策略解决高分辨率面相普遍存在的小标志点检测难题,使用目前广泛使用的U-Net网络进行训练,训练模型说明见图2、3。
图3 将获得的初始位置通过局部U-Net及真实位置修订模块进一步调整,以提高准确性Fig.3 The initial position obtained in the first step was further adjusted with a locally modified module to improve accuracy
本研究使用Adam优化器进行训练。学习率初始化为0.001,以系数0.98呈指数衰减,重量衰减为5e-4。数据增强中随机裁剪范围在0.6~1.0的图片,并调整颜色饱和度、亮度和对比度以扩展数据。以选点为中心,半径20个像素的圆内选择切片。热图回归中执行负例挖掘,在热图圈外选择固定数量的阴性样本进行训练。
针对高分辨率面相普遍缺乏比例尺且来源广泛、难以量化比较的难点,本研究提出基于审美考量的面相自动化定点分析的准确性评价体系,具体如下。
1.5.1 标准化的平均误差(NME)
正畸治疗主要调整患者面中下1/3,而面上1/3(Tr-G′)高度在正侧貌照中通常稳定,因此本研究采用Tr-G′高度作为“d”。
1.5.2 单位距离内的定点成功率(SDR)
1.5.3 测量指标的成功分类率(SCR)
选取面相分析常用角、比例等检测指标,若自动测量、手动测量的分类结果一致,则为成功分类,并可计算对应SCR。
本研究构建了基于卷积神经网络的二维面相自动定点系统,可在20 s内确定76个标志点。
在正貌照子集中,验证集NME为0.079±0.221,0.02、0.04、0.06、0.08和0.10单位,SDR(%)分别为61.75、90.54、96.36、98.65和99.22。测试集NME为0.025±0.021,0.02、0.04、0.06、0.08和0.10单位SDR(%)分别为58.54、87.59、95.64、98.03和99.00。正貌照各标志点中,Stnr的NME最小0.013±0.008,而Me′的NME最大0.092±0.533,提示在正貌照子集中,Stnr的人工智能定点最为准确,而Me′点的人工智能定点相对不准确,但仍满足临床分析需要,此外,面中份标志点的人工智能定位普遍较颏部标志点准确。
在侧貌照子集中,验证集NME为0.052±0.011,0.02、0.04、0.06、0.08和0.10单位SDR(%)分别为57.3、87.33、95.29、97.37和98.3。测试集NME为0.079±0.221,0.02、0.04、0.06、0.08和0.10单位SDR(%)分别为54.17、85.71、93.94、96.69和97.37。侧貌照各标志点中,Ex的NME最小0.013±0.009,C的NME最大0.409±1.336,提示在侧貌照子集中,Ex的人工智能定点最为准确,而C点的人工智能定点相对不准确,且无法满足临床分析需要,需进行手动校正。此外,与正貌照子集类似,颏部标志点人工智能定位的准确性均较低。侧貌照和正貌照子集中各标志点具体NME和SDR如图4、5所示。
A:侧貌照各标志点验证集SDR;B:侧貌照各标志点测试集SDR;C:正貌照各标志点验证集SDR;D:正貌照各标志点测试集SDR
验证、测试集SCR结果见表3,可见大部分测量指标的SCR均为100%,提示下人工智能面相诊断的准确性较高,但仍可见如颏唇沟角(16%)、鼻面角(81.3%)等涉及颏部标志点的测量指标的分类准确性较低,提示仍需针对颏部标志点进行手动校正。
表3 面相分析角和比例的定义及其SCRTab.3 Definitions of angles and proportions and SCR in the evaluation and test set
面相照片具有无创、无辐射等优势,可视化效果优异,但其智能化分析也在分辨率、标准化等方面面临的挑战远超传统头颅侧位片X线头影测量。
首先,目前面部软组织的标志点检测主要集中于图形处理[19-20]、视频制作[21]及人脸识别领域[21],适用于颌面软组织的解剖特征点检测的相关方法及研究开展较少[22],亟需有关正侧貌照自动化定点分析的研究。
其次,由于正侧貌面相分辨率高,本研究面临超高分辨率图像中小目标检测的难题。超高分辨率图像通常会出现在卫星地图中建筑物检测[23-24],高分辨医疗影像中病灶检测[12-14],无人机航拍图中车船等[25],其所面临的挑战是:①机器显存负载,无法进行模型训练任务;②检测目标往往<10个像素点,常规算法在多次采样操作后,其特征难以被提取到。
因此本研究采取粗到精策略[26],对面相照片进行有重叠区域的滑窗裁剪,以免标志点被截断,同时对重叠区域采用非极大值抑制法(non-maximum suppression,NMS)去除多余无用的检测结果框以解决该难题。
最后,由于面相照普遍缺乏比例尺[17],来自不同的数据库且获取难度大,难以进行客观量化比较[18],因此本研究引入新的评估系统以评价二维面相定点准确性。评估检测质量的核心是找到一些相对固定的面部长度参数d作为标尺。例如COFW数据集中d为瞳孔距离(眼中心的距离);WFLW数据集和300W数据集中d为眼角距(外眼角间距)。NME和FR通常用于人脸识别领域[27-28],要求人们直面相机,因此,面宽、眼间距或双侧瞳孔宽度是相对固定的。而正畸治疗中患者面型的变化主要发生在面中下1/3,正侧貌面上1/3通常是稳定的。因此,本研究选择Tr-G的高度作为标尺,在各国研究中,成年人Tr-G的绝对高度在37~50 mm[29-30],且头颅X线自动化头影测量分析已提出,<4 mm的测量值是有意义的[31],因此可认为当NME≤0.1单位的SDR为100%时该标志点检测成功。
在解决上述问题后,本研究构建了颅颌面部智能定点系统,可在20 s内定点76个标志点,而手动测量耗时十余分钟,且颅颌面区域35~40个标志点通常用于面相分析[32]。正貌照中标志点总体测量相对准确,且各点NME均在可接受的范围内;而在侧貌照中,颏部标志点如Pog′、Me′等定点不够准确,仍需手动矫正。分析可能的原因在于:①某些患者尤其是骨性Ⅱ类错畸形和垂直生长型患者,颏部后缩,很难在颏部找到标志点;②患者在拍照时肌肉未放松,导致了面部紧绷等非典型的软组织形态,使颏部标志点的定点更为复杂;③面部脂肪尤其是在脸、颈部的堆积,也会影响标志点的判断。因此,尽管侧貌颏部标志点仍需手动校正,本研究标志点定点速度、数量及精度足以减轻面相分析工作量,辅助进行面相分析。此外,不同算法研究均基于私人数据,难以进行客观量化比较,本研究通过数据标准化评价以及算法改进解决了上述问题。
本研究仍存在一定的局限性:①研究方法需进一步改进以应对标志点被遮挡等特殊情况;②本研究中SCR仅采用一组标准,未针对不同种族、性别、年龄、文化的审美差异设置其他正常值范围;③本研究仍需更多照片以增加样本量。
综上所述,本研究成功开发了基于卷积神经网络的面相照片自动定点及分析系统,并针对面相照片和头颅X线片之间的差异,提出了一种新的定点准确性评价方式,得出以下结论:①该系统可以在20 s内一次检测76个标志点;②该系统对大部分标志点识别精度高,但对某些处于颏部的标志点识别精度较低,需手动校正;③面上1/3(Tr-G′)在正畸治疗中相对稳定,当NME<0.1或0.1单位的SDR为100时该标志点检测成功。下一步,我们将重叠面相照和X片以进一步升级完善系统;根据年龄,种族和性别设置更多正常值以供参考,并增加研究的样本量以更好地实现面相分析的精准自动化定点。