女孩中枢性性早熟诊断预测模型的建立和验证

2021-06-07 06:13:20吴文涌陈瑞敏

中国循证儿科杂志 2021年2期

吴文涌陈瑞敏袁欣

中枢性性早熟(CPP)是由于下丘脑-垂体-性腺轴(HPGA)功能提前启动而导致女孩8岁前、男孩9岁前出现第二性征的一种常见儿科内分泌疾病，发病率1/5 000～1/10 000，女孩发病率为男孩的5～10倍[1]。CPP可导致骨骼成熟速度加快，骨龄(BA)提前，骨骺提前闭合，影响患儿终身高；也可导致心理问题或社会行为异常。因此，如何从性早熟的患儿中早期识别出CPP并及时干预，已是临床亟待解决的问题。

促性腺激素释放激素(GnRH)激发试验是目前诊断CPP的金标准，需在2 h内多次采血，且可能引起不良反应。如何不依赖于GnRH激发试验诊断CPP？目前已有许多学者就此进行了研究[2-3]，其中大多数集中于探讨激素等实验室指标，如黄体生成素(LH)和/或卵泡刺激素(FSH)的基础值及其比值，或者子宫大小、卵巢大小、垂体体积等彩超或影像学指标，以LH基础值诊断CPP有较高的特异性，但不同研究中的截断值差异较大[4-10]。由于往往无法同时获得较好的检测敏感度和特异度，单一指标用于诊断的局限性较大。近年来，Yuan等[11]以经直肠盆腔超声为基础构建了特发性CPP诊断预测模型，但有在操作不便；Calcaterra等[12]以盆腔彩超为基础构建了快进展型CPP诊断模型，但其诊断效能不满意；Pan等[13]以机器学习算法构建CPP诊断预测模型，极端梯度提升(XGBoost)模型和随机森林(random forest)模型的诊断效能尚可，但预测因子数多达19个，临床应用有困难。本研究旨在尽可能纳入较少检测项目的情况下，基于Lasso回归，应用Logistic回归方法开发新的女孩CPP多因素预测模型并评价其诊断效能。

1 方法

1.1 研究设计收集完成GnRH激发试验的性早熟(PP)女孩的临床资料及实验室检查数据，使用R软件(4.0.2版本)，应用Lasso回归分析筛选CPP的预测因子，Logistic回归建立预测模型，并对模型进行诊断和内部验证。

1.2 诊断标准参照中华医学会儿科学分会内分泌遗传代谢学组2015年修订的CPP诊断与治疗共识[1]，女孩8岁前出现第二性征发育即诊断为PP，在此基础上，GnRH激发试验LH峰值≥5.0 IU·L-1或LH峰值/FSH峰值≥0.6，诊断为CPP，否则，诊断为非CPP，包括外周性性早熟和部分性性早熟。

1.3 病例纳入标准 ①2014年1月至2020年4月在福建医科大学附属福州儿童医院(我院)就诊且有门诊病历留档的PP女孩；②开始出现乳房发育的年龄≥4岁且<8岁；③完成GnRH激发试验。

1.4 病例排除标准 ①根据门诊病历中的辅助检查结果，提示合并肝、肾等其他器官或系统的慢性疾病者；②行头颅MR检查者显示颅内占位；③门诊病历中缺失BA、盆腔彩超、LH基础值，FSH基础值、GnRH激发试验检查结果。

1.5 资料截取由我院3名内分泌科医生通过查阅门诊纸质病历、留档检查报告及检索检验科信息系统的方式收集纳入患儿的临床资料和辅助检查结果，并统一规范记录。截取以下资料：①发病年龄，就诊年龄，病程；②首次就诊体格检查，包括身高、体重，乳房Tanner分期；③LH和FSH基础值，LH/FSH比值，GnRH激发试验(LH和FSH峰值、LH峰值/FSH峰值)；④BA，截取病历中的报告记录(左侧腕骨指骨X线片TW3法评估)；⑤子宫和卵巢大小根据盆腔彩超报告重新计算。

需要说明的是：①就诊年龄根据门诊病历中的就诊日期和出生日期计算，发病年龄通过就诊年龄和病程计算。②身高、体重为就诊当日由内分泌专科护士测量记录；乳房Tanner分期为就诊当天接诊医师评估并记录；BMI=体重(kg)/身高(m)2。③实验室检查结果取首次就诊时检测结果。④LH、FSH通过化学发光法测定；GnRH激发试验使用简易戈那瑞林激发试验，戈那瑞林2.5 μg·kg-1静脉注射，注射前(0 min)及注射后30 min、60 min测定LH、FSH。

1.6 预测因子的选取及赋值基于Lasso回归分析筛选预测因子以构建女孩CPP预测模型，研究采用R软件(4.0.2版本)完成统计分析。通过检索既往报道的CPP单因素及多因素预测模型文献，进行文献复习，并咨询内分泌专业临床专家意见，初步筛选出相互独立的预测因子。根据各预测因子数据的分布特点及其与结局事件的线性关系进行变量转换。如连续变量与结局符合或近似线性关系，则不进行转换；连续变量不符合线性关系时，转换为分类变量；分类变量若存在某分组病例数远低于其他组的情况，则进行重新分组。为保证不对变量的临床意义产生影响，仅进行一步简单转换。运用Lasso回归分析对初步筛选的预测因子进一步筛选，确定最终预测因子。Lasso回归通过构建惩罚系数λ对预测因子进行筛选，λ越大，筛选越严格，进入最终模型的预测因子越少。λ处于1个标准误时，模型表现良好，预测因子数较少。

1.7 模型的构建使用Lasso回归纳入的预测因子重新拟合Logistic模型，确定每个预测因子的回归系数，建立女孩CPP诊断预测模型：LN [P/(1 -P)]=β0+β1×预测因子1+β2×预测因子2+……+βn×预测因子n，其中β为各预测因子的回归系数，P为预测概率。使用Cook距离(cook’s distance)检验最终拟合模型是否存在强影响点，样条函数检验预测因子与结局的线性关系，方差膨胀因子(VIF)验证多重共线性。通过绘制预测结果与实际结果的校正曲线，进行一致性测试。绘制模型的受试者工作特征(ROC)曲线，AUC>0.75说明模型具备较好的预测能力。通过计算ROC曲线的最大约登指数，得到预测模型的最佳诊断截点。

1.8 模型的验证使用k折交叉验证法(k=10)对最终拟合模型行内部验证，评估模型的平均一致性指数(C-index)及Brier评分。k折交叉验证法是将数据规模为n的数据集划分为大小(约为n/k)大致相等的k个子集，每次选择1个子集作为验证集，其余k-1个子集作为训练集，记录验证集上模型的诊断结果。将k次循环后得到的k个验证子集的诊断结果合并后，计算模型的性能评价指标。C-index范围为0.5～1.0，数值越高，表明模型区分度越高。Brier评分为0～1，越接近于0，模型越精准，校准度越高。

2 结果

2.1 一般情况研究期间在我院就诊且有门诊病历留档的PP女孩1 232例，其中104例缺失盆腔彩超检查报告，18例缺失BA检查报告，3例盆腔彩超及BA检查报告均缺失，1 107例进入本文分析，年龄5.8～10.3岁，平均年龄7.6岁；CPP 537例(48.5%)，非CPP 570例。

2.2 预测因子的筛选通过文献复习[6,8,12-16]、咨询专家意见，共得到10个初步预测因子：就诊年龄，病程，BMI，乳房Tanner分期，LH基础值，FSH基础值，BA、子宫、左卵巢、右卵巢大小。

根据各预测因子的数据分布特点及与结局事件的线性关系，①连续变量就诊年龄、BMI、FSH基础值、BA、子宫大小、左卵巢大小、右卵巢大小不进行任何转换。②连续变量LH基础值、病程与结局之间不符合线性关系，根据文献复习及线性关系图选择截点，转换为分类变量，LH基础值<0.3分组为“Low”，～0.83分组为“Middle”，≥0.83分组为“High”；病程<0.5分组为“Short”，～1.0分组为“Middle”，≥1.0分组为“Long”。③分类变量乳房Tanner分期由于B4期分组人数仅2例，将其重新分组，B2期进入“B2”组，B3期与B4期进入“B>2”组。

转换的初步筛选预测因子纳入Lasso回归分析进一步筛选，λ=0.007时模型表现最佳，共纳入7个预测因子：病程(“Middle”、“Long”)、BMI、乳房Tanner分期(“B>2”)、LH基础值(“Middle”、High”)、BA、子宫大小、右卵巢大小。为便于临床使用，增大惩罚系数λ，当λ处于1个标准误即λ=0.033时，剩余6个预测因子：病程(“Long”)、乳房Tanner分期(“B>2”)、LH基础值(“Middle”、High”)，BA、子宫大小、右卵巢大小(图1)。鉴于临床上左、右卵巢预测能力相近，另外，卵巢大小的数据可能因人为测量因素干扰而误差较大，故排除卵巢大小这个预测因子，最终纳入的预测因子包括：病程、乳房Tanner分期、LH基础值、BA、子宫大小。

图1 基于Lasso回归的特征性变量筛选

2.3 模型拟合与模型验证将最终纳入的预测因子重新拟合Logistic模型：LN[P/(1-P)]=-5.508+1.579×LH基础值(“Middle”)+2.861×LH基础值(“High”)+1.191×子宫大小+0.316×BA+0.371×病程(“Middle”)+0.430×病程(“Long”)+0.285×乳房Tanner分期(“B>2”)。Cook距离最大约0.04，远低于1，模型不存在强影响点(图2)；连续变量BA与结局呈线性关系，子宫大小与结局呈接近线性的单调关系(图3)；LH基础值、子宫大小、BA、病程、乳房Tanner分期的VIF值分别为1.040、1.039、1.218、1.199、1.188，预测因子间不存在多重共线性。绘制ROC曲线(图4)，AUC=0.858(95%CI：0.836～0.880)，模型具备较好的预测能力。当预测概率的诊断截点为0.476时，约登指数最大，为0.593，此时模型敏感度为72.6%(95%CI：68.6%～76.3%)，特异度为86.7%(95%CI：83.5%～89.3%)。不同的诊断截点下模型的诊断性能见图5。图6校正曲线显示，该模型的预测结果和实际结果之间一致性较好。k折交叉验证法(k=10)对最终拟合模型行内部验证，10次建模验证的C-index均值为0.859，Brier评分均值0.158，模型具备较好的区分度和校准度。

图2 CPP诊断预测模型强影响点分析

2.4 模型展示使用“DynNom”R包绘制动态列线图，构建网页计算器对模型进行展示，可通过网址：https://wuwenyong.shinyapps.io/dynnomapp访问使用。

3 讨论

长期以来，GnRH激发试验都是作为诊断CPP的金标准，但需反复采血，操作繁琐，甚至会引起不良反应。2019年，Pan等[13]以机器学习算法构建了CPP诊断预测的XGBoost模型和random forest模型，模型主要纳入了年龄、LH基础值、FSH基础值、胰岛素样生长因子-1(IGF-1)、生长激素(GH)等19个预测因子，AUC为0.88～0.90，敏感度为77.91%～77.94%，特异度为84.32%～87.66%。虽然较多的预测因子为模型的预测能力提供了保障，模型具备较高的预测敏感度与特异度；但同时为临床工作带来了不便，不利于临床应用，其他研究者也很难对其模型进行验证。利用传统Logistic统计方法结合临床实际构建的多因素预测模型，可能更有利于临床实际应用。Calcaterra等[12]构建的快进展型CPP多因素Logistic诊断模型，以LH基础值≥0.2 U·L-1、雌二醇(E2)≥50 pmol·L-1、纵向子宫直径≥3.5 cm、横向子宫直径≥1.5 cm、卵巢体积≥2 cm3和有无子宫内膜回声为预测因子，敏感度为58%，特异度为85%，AUC为0.71，诊断效能不甚理想。

本研究首次基于Lasso回归，应用Logistic回归方法，在较大样本中建立了女孩CPP诊断预测模型。建立的模型中，LH基础值和子宫大小对模型的影响最大。LH基础值的预测作用已得到广泛验证，而子宫大小常作为CPP诊断的辅助指标。既往研究以1.8～5.0 mL不同子宫大小作为诊断截点时，诊断敏感度为52%～100%，特异度为64%～100%[14-18]，波动较大，且测量者水平不同也会对测量结果造成一定误差，建议在保证测量质量的前提下使用该预测因子。本模型的AUC为0.858，通过本文开发的网页计算器可得到预测概率，0.476为预测截点时，约登指数最大，模型敏感度为72.6%(95%CI：68.6%～76.3%)、特异度为86.7%(95%CI：83.5%～89.3%)。为提高临床实用价值，将预测截点调整为0.75时，模型特异度可达95.1%(95%CI：92.9%～96.7%)，敏感度为50.5%(95%CI：46.2%～54.8%)，可用于临床诊断；当预测截点调整为0.25时，模型敏感度可达90.9%(95%CI：88.0%～93.1%)，特异度为51.9%(95%CI：47.7%～56.1%)，可指导临床筛查。相比于既往单个基础值的诊断预测，本模型具备了更好的预测能力和更广的预测范围。10折交叉内部验证显示，模型稳定性较好。模型最大程度减少了采血的次数与时间，仅需获得必要的LH基础值结果，其余预测因子均采取无创的检测方式获得。此外，网页计算器可快速访问并得出预测概率，在临床上简便易行。

本模型的局限性：研究数据来源于单个研究中心，研究对象主要为福建省内以PP就诊的女孩，模型是否对于其他省市的研究中心有稳定的诊断效能，仍有待进一步外部验证；由于部分临床病史，如身高增长速率、体重增长速率等采集困难，这些潜在的预测因子未纳入进一步分析，后续工作中有待完善儿童保健记录，进一步优化诊断模型。