徐梓航,胡媛媛,3,温 莹,3,毕宏生,3
近视是最常见的屈光不正之一,并已逐渐成为一个严重的公共卫生问题,影响着全球近30%的人口[1]。随着屈光不正快速低龄化,近视已成为影响当代和未来人口素质的“国病”,带来了更多的视力挑战,高度近视增加了视网膜脱离、近视性黄斑变性等病理性眼部病变的风险,这些疾病常常伴随不可逆转的视力下降,将导致10亿人口患致盲性疾病[2]。同时带来了巨大的社会经济负担,除非目前近视和高度近视发病率上升的轨迹有所降低,否则由近视导致的直接经济支出和生产力损失有关的经济成本将继续增长[3]。
目前,近视发生发展的机制尚未完全阐明,遗传和环境等多种因素对近视发生发展的相对重要性一直备受关注,越来越多的研究表明近视主要是由遗传因素和环境因素共同造成的[4]。国际近视研究学会在《近视防控研究白皮书》[5]中详细回顾了关于近视危险因素的科学证据,其中学校教育及户外时间两个因素被视为强风险因素且与近视呈现明显的因果关系,父母近视情况同样被认为是强风险因素,智商、体育运动、社会经济情况、城市或农村居住等四个因素是中度影响因素。而屈光度和眼生物学参数是近视发育进程中的一部分,未被视为近视的危险因素。
随着我国近视发病率的不断攀升,近视的早期筛查、诊断的需求也逐年升高,传统医疗手段已难以满足现实近视群体防控的需要,预测模型为解决这一困境提供了新的思路。在模型建立过程中,研究数据在分析影响因素、识别近视发生发展和建模预测结果等方面起着至关重要的作用。而预测因子和预测结局作为模型建立的关键性因素,直接决定了模型的准确性和适用范围,选择合适的建模因素有助于提高个性化预测水平,但其测量成本和应用价值也是不容忽视的问题。由于研究设计、预测定义和风险特征的差异,很难将现有的预测模型进行直接比较。本文就应用对象、预测因子和预测结局三个方面对近视预测模型研究领域已经取得的诸多成果予以综述。
根据国家疾控局最新监测数据显示,2022年我国儿童青少年总体近视率为51.9%,其中小学生为36.7%,初中生为71.4%,高中生为81.2%[6]。研究发现,伴随着高强度的学校教育,大多数近视会在学龄期发病,且持续进展直到青年期。同时,近视在学龄期的进展速度也往往较快,在青春期后期逐渐减缓,并在成年后趋于稳定。但在某些情况下,近视会在学龄前就发生,或者直到成年早期仍在持续进展[7]。作为近视的主要防控对象,儿童青少年在不同年龄段有不同的眼和视觉发育特点[8],因此在构建近视预测模型时,在保证预测准确性的基础上,选择合适的预测和应用对象,有助于实现精准和个性化预测。
有研究曾提出应当将近视前期儿童作为高危人群,特别是在学龄前儿童或小学低年龄儿童中是非常重要的,这有助于近视的早期预防[9]。纵观国内外已经建立并有较好性能的预测模型均是基于学龄儿童,而学龄前儿童受眼调节因素和认知水平的影响,很难获得准确的屈光数据及良好的预测情况[10]。Zadnik等[9]基于4 512名6-11岁非近视学龄儿童,建立了高度近视发生的预测模型,结果发现,随着基线年龄的增加,ROC曲线下面积(AUC)从0.88提高到0.94,可能是由于该模型对此研究中大龄儿童高度近视预测的准确性增加,使得表现出更好的性能。Sanz Diez等[11]基于中国武汉12 780名5-16岁学龄儿童建立了眼轴长度的百分位曲线,9岁男生和女生的第25百分位数AUC分别为0.781、0.876,而6-9岁男生和女生的第50百分位数AUC分别为0.825、0.875,该研究通过针对不同年龄和性别的儿童青少年进行近视预测并获得了不同的结果。Zhang等[12]在中国厦门招募了236名小学二年级受试者,其预测3 a近视发生模型的AUC高达0.974,而在1 979名同年龄段的新加坡儿童(72.5%华人)中进行模型验证时,仅表现出了AUC为0.815的预测性能,推测可能受居住环境的影响,该预测模型更适合用于厦门儿童近视预测。此外,种族也被证实是影响模型预测性能的因素之一[13-15]。由此可见,有针对性的进行预测对象的选择可以一定程度上提高模型的预测性能,但不可避免的是,此类模型的通用性和适用范围会受样本年龄范围相对狭窄等相关因素的限制。同时,高拟合度是优秀模型的重要标志,但也需要注意过度追求高拟合度将会导致过拟合的发生[16]。因此,如何在保证预测性能的基础上,选择合适的预测对象并提高模型的通用性和适用范围应是未来研究的重点方向之一。
在临床模型中,预测因子的选择必须始终以临床相关性判断为指导,以防止无意义或相关性较低的变量被纳入模型。预测因子的选择应是基于尽量简化模型的情况下,不损害模型的预测表现,纳入过多的预测因子不仅不会对模型的预测性能起到积极作用,反而会提高检测及数据获取成本[17]。
总结过去的研究,各预测模型在预测因子的选择上存在一定的共性,主要分为基于个人参数、生活方式参数、遗传参数三类。在个人参数方面,屈光数据及眼部生物学参数中蕴含着近视发生发展的潜在信息,虽然国际近视研究协会没有将基线屈光度和眼部生物学参数作为影响近视发生发展的因素[5],但在过去的研究中,这两种因素一直被报道为近视发生和进展的危险因素[18],并广泛用于近视预测。Lin等[19]利用年龄、睫状肌麻痹后等效球镜和近视年进展率3个预测因子用于预测未来10 a内高度近视的发生情况,预测3、5、8 a的模型AUC分别为0.903-0.986、0.875-0.901、0.852-0.888。Zhang等[12]利用眼轴长度、前房深度、晶状体厚度、玻璃体腔深度和角膜曲率等预测因子及Zadnik等[9]利用睫状肌麻痹后等效球镜、眼轴长度、晶状体厚度、角膜曲率、调节性集合与调节的比值(AC/A)、水平或垂直散光大小等预测因子建立的近视发生预测模型均表现出良好的预测性能(AUC:0.840-0.974)。此外,轴率比(AL/CR)[20-22]、正相对调节度(PRA)[23]等视觉指标也曾纳入预测模型的建立中。值得一提的是,在近视的临床诊断中,常将睫状肌麻痹等效球镜视为近视诊断的金标准[24],可以避免因儿童青少年调节能力较强导致的屈光数据测量误差,因此其常被视为近视预测的关键因素[9,13,19-21]。但其受医生处方权使用的限制[25]及睫状肌麻痹后不良反应[2]的影响,很难在以人群为基础的近视群体筛查中使用。因此,基于非睫状肌麻痹等效球镜的近视预测模型已经尝试被建立,Du等[26]对武汉地区7 410名6-19岁儿童和Guo等[23]对温州地区1 073名二、三年级学生建立的预测模型分别表现出AUC为0.735及0.74-0.86的预测性能。因此,建立基于学校的有利于大规模推广和普及的近视筛查模型,同时验证和提升其准确性应是下一步研究的重点内容。
更多的近距离工作时间和更少的户外活动时间等生活方式参数曾被证实是近视发生发展的强风险因素[5,27]。在之前的几项研究中,生活方式参数也曾被用于近视预测模型的建立和验证。Yang等[28]利用室内和户外活动时间,吃白肉、红肉和鸡蛋的频率,喝碳酸饮料的频率及脉搏等预测因子建立的6年级儿童近视率预测模型,AUC为0.98,F1分数为0.94。李婷等[29]利用阅读习惯、吃甜食习惯、睡眠时间和读书坐姿等预测因子建立评价近视风险的预测模型,表现出AUC为0.719的预测性能。运动习惯[30]、眼保健操[26]、坐姿[23]等生活方式也曾被考虑成为模型建立的预测因子。一项系统综述[31]表明添加生活方式参数对近视预测模型的影响有限,可能是由于许多环境影响已经在基线屈光度或近视发病年龄上有体现。由于尚无有国际公认水准的日常行为记录方式,上述研究纳入的儿童青少年生活方式参数均是通过调查问卷和自评量表收集的。因此,受回忆偏颇的影响,在纳入生活方式数据进行模型建立或应用纳入生活方式参数预测近视的模型时,应注意相关数据采集的准确性对预测结果的影响。
较多研究证实近视是遗传和环境因素相结合的结果[4]。因此,父母近视情况被许多研究视为重要的预测因子之一[9,13-15,20-22,29-30,32-33],究其原因,可能是近视的父母将易患近视的变异基因遗传给了孩子[5],而在部分模型研究中,母亲教育水平[32,34]也被尝试纳入预测模型的建立,也有可能是受到高于平均水平教育的父母传递了一种易致近视的生活方式[5]。对近视遗传基因的研究是近年来研究的热点话题,MYP1等相关致病基因和基因位点相继被证实与近视的发病相关[35],但受检测成本的和部分医疗机构资源及设备的限制,尚无预测模型将其纳入讨论。
近视虽难以治愈,但可防可控。针对处于不同发育阶段的儿童青少年,应该有不同的防控重点。对于远视和近视临床前期的儿童青少年应注重预防近视的发生,减缓近视发生的进程;对于低度近视的儿童青少年应注意避免发展成为高度近视[8]。在之前的研究中,预测结局的定义主要分为预测近视发生和预测近视进展两类。预测近视发生模型的结局指标包括预测一定时间内初发近视的概率,例如预测二年级学生3 a后初发近视的概率[12]、一至三年级学生2、4 a后初发近视的概率[20]、一至六年级学生在六年级初发近视的概率[28]等,也包括预测高度近视发生的概率,如7-9岁儿童发生高度近视的概率[14]、7-15岁儿童青少年在18岁时发生高度近视的概率[21]、6-20岁儿童青少年10 a内发生高度近视的概率[19]等。而预测近视进展模型的研究目前还处在探索阶段,Lin等[19]基于多中心的电子病历建立的模型,能够预测6-20岁儿童青少年的球镜度数和近视进展情况。由此可见,如何能基于预测一定时期内屈光状态的前提下,准确预测近视进展情况,将更有利于实现近视的个体化防控。
目前,尽管在众多研究中,近视预测模型的准确度、特异度等都达到了一定水平的高度,但当前所开发的模型仍存在模型开发中心单一、跟踪时间短、适用范围小等局限性,因此仍面临着临床实践的考验,将其真正应用于临床工作还存在着较大距离。未来仍需进一步开展相关研究,以探索应用便捷、便于临床推广的预测模型。
首先是预测模型的可重复性和可比性问题,由于研究设计、预测定义、风险特征以及建模数据集的差异,很难将现有的预测模型进行直接比较,且无法验证现有模型的可重复性。建议在严格保护受试者隐私的前提下,建立一个大型的、具有代表性的、真实全面的公开数据集,以用于现有和未来预测模型的外部验证,增加后续研究的可重复性和可比性。值得一提的是近视的发生发展与多种危险因素长期综合作用相关,除屈光度、眼轴长度等眼健康指标外,持续近距离用眼时间、每天户外活动时间、睡眠情况等用眼行为数据也应被纳入预测模型的建立和验证[36],进一步提高预测的精准性。因此,如何选择合适的建模因素进行综合评估和结合还需要更深层次的研究。其次,尽管人工智能具有强大的分析、学习和预测能力,但目前大多数建模方法的训练过程依赖于建立输入和输出结果之间的联系,具有黑箱性、不确定性、复杂性以及运行逻辑难以解释等特性[37],缺乏对建模过程的解释能力。因此,下一步应对学习过程及决策过程进行拆解,对建模步骤进一步细分,有助于提高建模方法的可解释性。最后,虽然预测模型的建立使得近视的个体化防控成为可能,大幅降低了近视筛查的经济及人力成本,但不容忽视的是预测模型是支持临床医生的工具,不能取代医生的评估和判断。在预测模型推广和应用时,需要关注医学伦理和问责制度、数据安全和患者隐私问题以及相关法律问题,确保其安全性和可靠性[38]。