张娟,刘依萍,曹士盛,李欣,董晓曦,李宏霄
(1.天津医科大学口腔医院修复科,天津 300070;2.天津医科大学口腔医院牙周科,天津 300070;3.中国医学科学院生物医学工程研究所,天津 300192)
慢性牙周炎是由牙菌斑生物膜中的牙周致病菌引起的牙周组织慢性感染性疾病[1]。2型糖尿病是以胰岛素作用受损引起的高血糖为主要特征的代谢紊乱[2]。研究[3-4]表明,伴或不伴2型糖尿病的慢性牙周炎患者的龈下菌斑微生物水平存在差异。
拉曼光谱技术是一种非侵入性的分析技术,可检测生物流体、细胞和组织等复杂生物样品的化学成分。拉曼光谱技术与机器学习算法相结合,已广泛用于微生物学和医学研究[5-6]。本研究运用拉曼光谱技术获得伴或不伴2型糖尿病的慢性牙周炎患者及健康成人龈下菌斑的拉曼光谱数据,并通过机器学习算法构建分类模型,区分这3种类型受试者的龈下菌斑,验证龈下菌斑微生物在2型糖尿病中的监测预警功能,以期为2型糖尿病的早期发现提供新思路。
于2021年12月至2022年2月期间,在天津医科大学口腔医院、天津医科大学朱宪彝纪念医院招募志愿者,最终纳入受试者66例,包括确诊慢性牙周炎伴2型糖尿病患者20例(A组),确诊单纯慢性牙周炎(不伴2型糖尿病)患者23例(B组),无2型糖尿病和慢性牙周炎的健康成人23例(C组)。纳入标准:(1)年龄20~70岁;(2)不限性别;(3)口内天然牙≥14颗;(4)3年内无吸烟史。排除标准:(1)1型糖尿病或其他特殊类型糖尿病;(2)伴有全身其他系统疾病,如高血压、心血管疾病、肝、肾功能异常、免疫疾病、骨质疏松症等;(3)妊娠期或哺乳期;(4)服用双磷酸盐、环孢霉素、苯妥英钠、硝苯地平、钙通道阻滞剂等药物;(5)3个月内接受过牙周治疗、抗生素治疗或使用含有抗菌素的漱口水。慢性牙周炎纳入标准:(1)口内天然牙≥14颗;(2)临床附着丧失(clinical attachment loss,CAL)≥1 mm牙齿占受检牙齿的30%以上。2型糖尿病诊断标准符合1999年WHO糖尿病诊断标准,已确诊≥1年,近3个月服药无变化。本研究获得天津医科大学伦理委员会批准(编号:TMUh-MEC2019047),所有受试者均签署知情同意书。
1.2.1 牙周检查:使用UNC-15牙周探针(豪孚迪Hu-Friedy公司,美国)检查并记录所有研究对象口内余留牙,每颗牙记录6个位点(近颊、正中、远颊、近舌、正中、远舌)的牙周探诊深度(probing depth,PD)和CAL,记录每颗牙颊舌面的牙龈出血指数(bleeding index,BI)和菌斑指数(plaque index,PLI)。
1.2.2 指数牙的龈下菌斑获取:所有研究对象选取6颗指数牙16、11、26、31、36、46(若指数牙缺失则以该区段其他牙齿代替)。用无菌棉球擦去龈上软垢,使用消毒后的Gracey刮治器(豪孚迪Hu-Friedy公司,美国)于每颗牙刮取6个位点(近颊、正中、远颊、近舌、正中、远舌)的龈下菌斑,置于装有1.5 mL PBS(北京索莱宝科技有限公司,中国)的微量离心管中,冻存于-80 ℃备用。
1.2.3 拉曼光谱数据采集:(1)将奥谱天成拉曼光谱仪(ATR3110-785,奥谱天成公司,中国)与电脑连接,显示在线状态;(2)调整拉曼光谱仪参数,激光波长785 nm,激光强度200 mW,积分时间10 s,积分次数1次,光谱扫描范围200~2 600 cm-1,擦镜纸擦拭拉曼光谱仪光纤探头;(3)使用校准样品乙腈作为测量样品,得到正确光谱曲线数据,确认可使用;(4)对装在1.5 mL微量离心管中的菌斑样本进行测量(注意使光纤探头正对菌斑样本),每个样本重复测量10次。
采用SPSS 25.0统计软件进行数据分析,计数资料采用Fisher’s精确检验或Pearson χ2检验比较;计量资料以±s表示,2组比较采用独立样本t检验,3组比较采用单因素方差分析。P<0.05为差异有统计学意义。
本研究使用拉曼光谱仪自带的扣除暗底功能,将扣除暗底基线平滑后的原始数据纳入研究。应用Auto-Sklearn工具包[7],使用8种机器学习算法构建模型,算法包括极限树(extra trees,ET)、自适应提升(AdaBoost,ADA)、梯度提升(gradient boosting,GB)、线性判别分析(linear discriminant analysis,LDA)、支持向量机(support vector machine,SVM)、多层感知器(multi-layer perceptron,MLP)、被动攻击分类器(passive-aggressive classifier,PAC)和二次判别分析(quadratic discriminant analysis,QDA)。
本研究共得到20个A组龈下菌斑样本(200个光谱)、23个B组龈下菌斑样本(230个光谱)和23个C组龈下菌斑样本(230个光谱)3个数据集。验证过程采用3折交叉验证[8],3个数据集中的每一个均按照龈下菌斑样本编号随机划分为3个大小近似相等的子集,3次训练和验证过程中,每次都有3个类别的各1个子集作为验证集,其余2个子集作为训练集,重复3次后,每个子集都作为1次验证集和2次训练集参与了整个交叉验证过程。样本的类别标签由其10个光谱的预测标签采用多数投票制决定。
如表1所示,3组年龄比较有统计学差异(P<0.05);3组性别比较无统计学差异(P=0.11);A组与B组体质量指数(body mass index,BMI)比较无统计学差异(P=0.06),A组、B组与C组BMI比较有统计学差异(P<0.01)。
表1 3组一般特征比较Tab.1 Comparison of general characteristics among the three groups
如表2所示,A组与B组PD比较无统计学差异(P=0.14),A组、B组与C组比较有统计学差异(P<0.05);A组与B组CAL比较有统计学差异(P<0.05);A组与B组BI比较无统计学差异(P=0.52),A组、B组与C组比较有统计学差异(P<0.05);A组与B组PLI比较无统计学差异(P=0.95),A组、B组与C组比较有统计学差异(P<0.05)。
表2 3组牙周状况比较Tab.2 Comparison of periodontal status among the three groups
如图1所示,3组龈下菌斑的平均拉曼光谱中,较为明显的拉曼高峰为代表鸟嘌呤的397 cm-1[9],代表蛋白质S-S二硫键拉伸的524 cm-1[10],代表磷酸盐离子相互作用的806/807 cm-1[10],代表脯氨酸和羟脯氨酸C-C拉伸的839 cm-1[10],代表蛋白质和核酸的υ(C-C)摆动的971 cm-1[10],代表脂质υ(C-C)的1 151 cm-1[10],代表核酸嘌呤碱基中CH3/CH2摆动模式的1 328 cm-1[10],代表核酸模式的1 458 cm-1[10]。
图1 3组龈下菌斑的平均拉曼光谱Fig.1 Average Raman spectra of the three groups of subgingival plaques
2.4.1 三分类的最优模型:图2所示为测试的8种算法模型在光谱级别的3折交叉验证结果。该准确率是3组子集分别作为验证集时的准确率均值。区分3组龈下菌斑在光谱级别的最优模型是LDA,准确率为62.5%。图3所示为测试的8种算法模型在样本级别的3折交叉验证准确率,最优模型是LDA,准确率为60.6%。
图2 测试的8种算法模型在光谱级别的3折交叉验证结果汇总的混淆矩阵Fig.2 Confusion matrix of the 3-fold cross-validation results at the spectral level for the eight tested models
图3 测试的8种算法模型在样本级别的3折交叉验证结果汇总的混淆矩阵Fig.3 Confusion matrix of the 3-fold cross-validation results at the sample level for the eight tested models
2.4.2 二分类的最佳模型:为了探索任意2组龈下菌斑拉曼光谱之间的差异,分别在3组二分类数据上训练了8个机器学习算法模型。图4中条形图显示了分类器在光谱级别和样本级别区分2组(A组 vs.B组、A组 vs.C组、B组 vs.C组)龈下菌斑的准确率。在光谱级别,3组二分类数据的最佳模型分别来自LDA算法(A组 vs.B组,准确率75.7%),ET和SVM算法(A组 vs.C组,准确率70.9%),LDA算法(B组 vs.C组,准确率86.9%)。在样本级别,3组二分类数据的最佳模型分别来自LDA算法(A组 vs.B组,准确率79.3%),ET和QDA算法(A组 vs.C组,准确率74.2%)和LDA算法(B组 vs.C组,准确率 87.2%)。8个模型中有7个模型区分“B组 vs.C组”比区分“A组 vs.C组”准确率更高,区分“A组 vs.C组”比区分“A组 vs.B组”准确率更高。
图4 机器学习算法在样本或光谱级别区分龈下菌斑的准确率Fig.4 Accuracy rate of machine learning algorithm in differentiating subgingival plaque at the sample or spectral level
2型糖尿病可能会在一定程度上影响龈下牙周致病菌的水平,与健康对照组相比,2型糖尿病患者的龈下菌斑样本中牙周致病菌的检出率更高[4],2型糖尿病患者比单纯慢性牙周炎患者具有更多龈下菌斑细菌计数[3],龈下菌斑微生物具有提示2型糖尿病的潜力。
既往对不同人群龈下菌斑的研究常用常规和实时PCR及16s rRNA基因测序技术,需要复杂的样品制备、昂贵的实验试剂和很高的技术要求。本研究使用拉曼光谱技术结合机器学习算法构建模型,可区分不同人群的龈下菌斑,不需要复杂的样本制备及昂贵的试剂,甚至可以椅旁操作,具有简便、快速的优点。
本研究应用拉曼光谱技术结合机器学习算法构建模型,对伴或不伴2型糖尿病的慢性牙周炎患者及健康成人的龈下菌斑进行区分,准确率最高达62.5%(LDA算法)。当本研究对3组龈下菌斑进行两两比较时,模型分类准确率有了一定的提高,模型分类准确率最高可达70.9%~87.2%(LDA算法和ET算法)。如图4所示,在3组龈下菌斑的二分类模型中,8个模型中有7个模型区分单纯慢性牙周炎和健康成人的准确率比区分慢性牙周炎伴2型糖尿病和健康成人更高,区分慢性牙周炎伴2型糖尿病和健康成人的准确率比区分慢性牙周炎伴2型糖尿病和单纯慢性牙周炎更高。说明本研究中伴或不伴2型糖尿病慢性牙周炎患者的龈下菌斑差异要小于健康成人和慢性牙周炎患者的龈下菌斑差异。本研究发现,LDA算法在三分类模型和二分类模型中分类准确率高且性能良好,推荐用于类似的鉴别工作。
综上所述,拉曼光谱技术与机器学习算法结合的方案在识别3种人群龈下菌斑和探究不同人群龈下菌斑成分方面显示出广阔的发展前景,未来可作为筛查或诊断工具与临床实践相结合。该模型还具有改进的空间,今后可通过增加样本量,丰富训练和测试数据,在更大的人群筛查中进行2型糖尿病诊断时,将获得更高的灵敏度和特异度。