薛莹莹 张 涛 杨婷婷 陈远涛 张钧煜 万 浩 叶 玮* 王 平#*
1(浙江大学生物医学工程与仪器科学学院, 生物传感器国家专业实验室,生物医学工程教育部重点实验室, 杭州 310027)2(上海交通大学医学院附属第九人民医院,上海 200011)
口腔疾病是全球最流行的疾病之一,影响超过35亿人口,接近全球人口的一半。口腔疾病包括一系列影响牙齿和口腔的慢性临床疾病,如龋齿、牙周病和口腔癌[1-2]。口腔疾病在损害患者健康的同时,还会带来口腔异味,即口臭。口臭影响了全世界约50%~65%的人口,给患者日常生活造成极大的困扰[3]。此外,口腔疾病往往容易受到忽视,而治疗口腔疾病的费用昂贵,可能给患者带来严重的经济负担[1]。因此,口腔疾病(尤其是口臭和牙周病)的早期筛查和诊断尤为重要。
近年来,呼气诊断技术由于其安全、快捷、低成本的特点,正成为一种越来越重要的诊断方法,广泛应用在哮喘、肺癌、胃癌、乳腺癌等领域[4]。呼出气体成分复杂,包含大量关于人体健康和疾病的“呼吸印记”,能够反映当前的健康状况。有研究表明,口腔气体中含有挥发性含硫化合物 (volatile sulfur compounds, VSCs),包括硫化氢 (H2S)、甲硫醇 (CH3SH)、二甲基硫 ((CH3)2S) 等,这些气体由口腔内的微生物,尤其是革兰阴性厌氧菌分解有机物后产生,是造成口臭的主要原因[5]。国内外学者对挥发性含硫化合物与口臭、牙周病之间的关系进行了研究,发现口臭与牙周炎之间存在正相关性,硫化物浓度水平能够反映牙周病的严重程度[6-7]。因此,通过探究呼出气中VSCs与口臭、牙周病之间的关系,利用VSCs来对口臭与牙周病进行筛查和诊断,可视为一种行之有效的方法。
当前,临床上有许多方法被用于诊断口臭,常用的技术包括感官测量、气相色谱和硫化物传感器监测等[3]。其中,感官测量由训练有素的嗅辨员对口腔异味进行感官评分,是口臭检测的“金标准”。 气相色谱仪能分别测出H2S、CH3SH、(CH3)2S 等3种挥发性含硫气体的具体含量。便携式硫化物检测仪能检测VSCs总含量,一般情况下,健康人的检测值小于100 ppb。气相色谱-质谱法 (GC-MS) 通过质谱进行定性和定量化合物的种类和含量,广泛地应用于呼出气挥发性有机化合物 (volatile organic compounds, VOCs) 的检测中。但是,由于硫化氢和甲硫醇的挥发性和反应活性强,GC-MS系统难以检测到[8],当前利用GC-MS分析口腔气体的研究较少。
本研究首次建立了利用GC-MS测量口腔内3种硫化物的方法与流程,并研究了GC-MS与便携式硫化物检测仪、便携式气相色谱仪之间检测结果的相关性和一致性。检测仪只能检测气体含量,无法为医生的临床诊断提供进一步帮助[9]。因此,本研究通过分析仪器浓度数值测量结果和临床诊断结果之间的关系,确定了不同仪器用于口臭等级诊断的诊断阈值。进一步利用VCSs和年龄、舌苔指数等多因素,建立了牙周疾病诊断模型,提出可利用呼出气诊断技术对牙周疾病进行初步诊断。
采气过程所用到的材料有:便携式硫化物监测仪 (HalimeterTM, Interscan, 美国),便携式气相色谱仪 (Oral ChromaTM, Nissha FIS, 日本)、GCMS-QP 2010 Plus (岛津,日本)、一次性特氟龙吹嘴、100 mL Tedlar采气袋、一次性注射器。采气袋可重复利用,每次使用前进行老化处理:充入高纯氮气后在60℃烘箱中烘干,抽干气体后待用。每次采样后进行清洗处理:将气袋内的气体抽干,充入高纯氮气,在60℃下烘干60 min,重复5次,以保证气袋处于洁净状态。
1.2.1实验对象
在上海交通大学医学院附属第九人民医院共采集了65名就诊者的气体样本 (30名男性),其中健康人17例,厚舌苔18例,牙周病患者 (包括牙龈炎和牙周炎) 30例。所有受试者经过临床检查,其中舌苔指数基于Kojima提出的评分标准[10],分为5级:0级为无舌苔,1级薄舌苔占舌背总面积<1/3,2级薄舌苔占舌背总面积<1/3~2/3或厚舌苔占1/3,3级薄舌苔占舌背总面积>2/3或厚舌苔占1/3~2/3,4级厚舌苔占舌背总面积>2/3,所有样本的详细信息见表1。将年龄划分为3组:青年组 (年龄<30岁)、中年组 (30≤年龄<50岁) 和老年组 (年龄≥50岁)。采用卡方检验,比较不同性别、不同年龄组的临床诊断结果的差别,不同性别的口臭等级结果采用秩和检验。结果表明,不同性别的牙周临床诊断结果、口臭等级均无显著性差异 (P>0.05)。因此,在后续的研究中,不考虑性别这一因素。而不同年龄组的临床诊断结果间有显著性差异 (P<0.05)。因此,在后续的牙周疾病诊断建模中,将年龄作为影响因素之一。
表1 样本信息表Tab.1 The information of samples
受试者在测试前一个月内不能服用抗生素。检查前24 h内禁烟禁酒,避免食用辛辣食物(如大蒜、洋葱等)。检查前12 h内不应清洁或冲洗牙齿,避免使用漱口水、香水。检查前至少6 h,避免摄入食物或液体。
1.2.2感官评分
所有受试者均在统一环境下测试,由训练有素的嗅辨员进行评分。受试者与嗅辨员之间隔有不透明的屏风,受试者在距离嗅辨员10 cm处缓缓呼气。采用0~5分评分法[11]对气味进行等级量化:0级代表无异味,1级几乎没有明显的气味,2级有轻微的气味,3级的气味中等,4级有强烈的气味,5级代表有极强的气味,而难以忍受。感官等级分数越高,表示臭味越强烈。
1.2.3基于便携式硫化物检测仪的口气检测
使用Halimeter对口腔内VSCs总含量进行检测。被测前,受试者紧闭嘴唇,采用鼻呼吸,紧闭口腔1 min。测试时,将一根连接仪器的吸管深入紧闭的口腔大约2.5~5.0 cm处,待数值稳定后,记录最高峰的数值。该过程重复3次,取平均值。
1.2.4基于便携式气相色谱仪的口气检测
使用Oral Chroma对口腔3种硫化物的含量进行检测。测试时,受试者采用鼻呼吸,并口含一个1 mL一次性注射器 (无针头),注射器前端深入口腔内4~5 cm。1 min后缓慢抽取口腔气体0.5 mL,并将注射器内气体快速注入仪器中。8 min后读取仪器测量结果。
1.2.5基于气相色谱-质谱联用仪的口气检测
成年人每次呼吸会排出约500 mL气体,其中前150 mL来自上呼吸道和鼻咽,后350 mL来自肺泡[8]。因此,使用100 mL Tedlar采样袋收集呼出气样本,以排除肺泡气干扰。将一次性特氟龙吹嘴接到采样袋的出气口,受试者口含吹嘴30 s后,缓慢打开采样袋气密阀。受试者平静呼吸,向气袋内缓慢吹气,待收集到100 mL气体后,迅速关闭气密阀,密封保存。
采用GC-MS分析气袋内气体。使用微量进样针穿透采样袋的阀门隔垫,伸入气袋中;拉动手柄活塞进行抽气,反复推拉3次,以保证去除进样针内的死腔气体。抽取1 mL气体样本后,迅速转移至GC上进行分析。每个气袋的样本重复测量3次,取平均值。实验用的色谱柱选择GS-GasPro Columns (30 m×0.32 mm, Agilient)。GC进样口温度设置为80℃,进样方式为分流,分流比为4∶1,载气为纯度高于99.999%的高纯氦气。柱箱初始温度设置为80℃,以40℃ /min的升温速率升到220℃,并保持此温度2 min。MS离子源以70 eV进行电子轰击电离分离化合物,温度设置为200℃,接口温度设置为250℃,选择SIM模式进行检测,检测离子分别选取硫化氢、二甲基硫、甲硫醇丰度最大的离子,即34、62、47。基于以上的操作方法,从而建立用于口腔VSCs检测的标准化方法与流程。
1.3.1数据转换与统计分析
通过质谱库 (NIST 05和NIST 05 s) 匹配和搜索相似度来确定3种气体的保留时间,相似度超过90%。图1为口腔呼出气体色谱图,硫化氢、甲硫醇、二甲基硫3种物质的保留时间分别为1.5、2.98、4.92 min。使用岛津气质联用工作站软件,对每个峰进行积分,获得峰面积。再利用标准样品外标法建立浓度与峰面积的标准曲线,对3种气体进行定量。对数转换广泛应用于生物医学研究,可将偏态分布的数据转换为正态分布或近似正态分布,使样本数据符合参数统计如方差分析、t检验等的假设前提。对测量得到的所有浓度数值x分别进行对数转换[12]和逆变换,有
图1 口腔呼出气体色谱图(1—硫化氢;2—甲硫醇;3—二甲基硫)Fig.1 Chromatogram of the exhaled breath sample (1—hydrogen sulfide; 2—methyl mercaptan; 3—dimethyl sulfide)
Y=ln(x+c)
(1)
x=eY-c
(2)
式中,c值设为1。
使用IBM SPSS Statistics 20 进行统计分析。采用Pearson相关分析和Spearman相关分析,比较3种仪器检测VSCs浓度的相关性,并使用单因素方差分析,比较不同口气等级的VSCs浓度。
1.3.2ROC曲线分析
在医学研究中,受试者工作特征曲线 (receiver operating characteristic, ROC)常用于判断生物标志物的诊断能力,可以提供诊断的准确性和最佳阈值点[13]。ROC曲线下面积 (area under the curve, AUC)综合了灵敏度和特异度,不受决策指标的影响,是反映诊断整体准确性的有效方法。AUC的范围从0~1,数值越大,表示诊断能力越好。一般情况下,AUC为0.5,表示无诊断能力;在0.7~0.8之间诊断价值中等,被认为可以接受;0.8~0.9诊断价值较高;大于0.9表示诊断价值极好[14-15]。ROC曲线还能确定最优截断值,约登指数最大化了真阳性率和假阳性率之间的差异,是一种常用的获得最佳截断点的方法。根据约登公式[16]获得约登指数最大的点作为最佳阈值点,所对应的敏感度与特异度作为用于诊断的敏感度和特异度,有
约登指数=敏感度+特异度-1
(3)
将ROC曲线分析用于口臭等级的气体浓度阈值确定。每次分析时,将低于或等于当前口臭等级的样本设为阴性,高于的设为阳性。如讨论等级1与等级2之间的阈值时,将等级≤1的样本设为阴性,等级>1的样本设为阳性,以此类推,进行多次ROC曲线分析以确定3个阈值。
1.3.3牙周疾病诊断模型的建立
近年来,机器学习方法(如判别分析、逻辑回归、支持向量机、分类树、随机森林等)被广泛用于医学分类问题中,作为疾病诊断和检测的辅助手段[17-18]。本研究采用线性判别分析、逻辑回归、贝叶斯优化的高斯核支持向量机,建立牙周疾病诊断模型。
逻辑回归是一种广义线性模型,常用于二分类问题。该模型构建了自变量和因变量之间的多元关系,通过模型可以评估患牙周疾病的后验概率,概率大于0.5则认为有牙周疾病。线性判别分析是一种常用的统计分类方法,它将数据投影到另一个空间,使类内距最小的同时类间距最大,从而达到不同类别分离的目的。支持向量机是一种有监督的统计学习方法,通过线性和非线性核将向量映射到高维平面中,并在特征空间寻找最佳超平面,使两个类别中的最近点到该超平面的距离最大化,用于线性和非线性数据的分类。本研究采用高斯内核,它具有两个超参数:惩罚系数C和核函数系数Y。为了获得这两个超参数的最佳性能,采用贝叶斯方法进行自动优化。贝叶斯优化方法基于贝叶斯定理,主要由两部分组成:构造一个目标函数,用于评估训练过程;基于先前样本的后验概率构造采集函数,用于确定下一个要评估的点。重复该过程,最终确定优化后的参数。
采用ROC曲线分析的方法,分析单一影响因素对牙周疾病诊断的判别能力。进一步以年龄、VSCs浓度、舌苔指数等影响因素,用3种算法建立纳入厚舌苔样例前后的牙周疾病诊断模型,并采用五折交叉验证评估诊断模型的性能,包括诊断的准确率、灵敏度、特异度、AUC等。需要指出的是,当剔除厚舌苔样本后,健康组的样本数量 (17个) 与牙周疾病组的数量 (30个) 不均衡,会导致诊断模型结果有误。因此,在建模前对健康组样本进行两倍扩充。
1.3.4统计学分析
对Halimeter、Oral Chroma和GC-MS这3种仪器检测到的VSCs对数浓度之间进行相关性分析。对符合正态分布的数据进行Pearson相关分析,否则进行Spearman相关分析。同时,对这3种测试仪器检测的VSCs浓度数据进行不同口气等级间的比较。采用单因素方差分析,并进行组间比较。P<0.05被认为有显著性差异。
图2以GC-MS所测的VSCs浓度为例,给出了浓度数据对数变换前后的分布。如图2(a)所示,变换前浓度分布范围较广,为0~4 000×10-9,由于健康人群的数值低,大多数数据聚集在低浓度范围内,导致整个分布呈现正偏态。对数转换(见图2(b)) 很好地改善了样本的正态性,有助于后续数据分析。
图2 对数变换前后的GC-MS测得的VSCs浓度。(a)原始VSCs浓度;(b)对数变换后VSCs浓度Fig.2 The concentration of VSCs measured by GC-MS before and after logarithmic transformation. (a) Original VSCs concentration; (b) The VSCs concentration after logarithmic transformation
表2为对Halimeter、Oral Chroma和GC-MS 这3种仪器检测到的VSCs对数浓度之间进行相关性分析的结果。3种仪器测量的VSCs总浓度、GC-MS测得的H2S和CH3SH均为正态分布,其余对数变换后不为正态分布。对表2中的前3组数据进行Pearson相关分析,其余的进行Spearman相关分析。3种测试方式VSCs总浓度均呈现显著相关性 (P<0.01), 其中GC-MS测得结果与Halimeter所测浓度之间的相关系数最高,为0.655。Oral Chroma与GC-MS检测到的甲硫醇和硫化氢有很好的相关性 (P<0.01), 但是二甲基硫的检测结果之间不具有显著相关性 (P>0.05)。
表2 相关系数Tab.2 The correlation coefficient
对3种测试仪器检测的VSCs浓度数据进行不同口气等级间的比较,其单因素方差分析结果如图3所示。3种仪器测试的VSCs整体浓度随着口臭等级的增加而增加。除了Halimeter外,其余两种仪器测试结果显示,口臭等级0和等级1之间有显著性差异 (P<0.05)。3种仪器在口臭等级1与等级2之间有显著性差异,Halimeter和GC-MS的P值小于0.01,Oral Chroma的P值小于0.05。
图3 不同口气等级的VSCs分布情况 (*代表显著性差异水平为0.05,**代表显著性差异水平为0.01)Fig.3 The distribution of VSCs at different organoleptic scale (*represents the significance difference level of 0.05, while ** represents the significance difference level of 0.01)
对3种仪器VSCs测试结果进行ROC分析,用于确定等级诊断阈值,图4(a)~(c)分别用于区分口臭等级0和>0、口臭等级≤1和>1、口臭等级≤2和>2。总体而言,利用VSCs判断诊断阈值的方法是可行的,其ROC曲线均在参考线上方。从图4(a)看出,当区分口臭等级0和>0时,3种仪器的诊断能力基本相同,其ROC曲线较为接近,而图4(b)和图4(c)反映了使用Halimeter测量的VSCs用于判断口臭等级≤1和>1、口臭等级≤2和>2的诊断效果优于其他两种仪器的诊断效果。不同口臭等级之间的诊断阈值如图4标注所示,其中阈值结果经过对数逆转换,转换为原始10-9级浓度值。利用ROC曲线分别获得的3种仪器对于口臭等级的诊断,除了GC-MS在区分口臭等级≤2和>2时其AUC小于0.7,表现出诊断能力稍弱,其余阈值表现出较好的诊断价值 (AUC>0.7)。其中,Halimeter检测结果的灵敏度和特异度均大于0.7,其AUC均大于0.8,表现出优异的诊断价值。Oral Chroma和GC-MS在区分口臭等级≤2和>2时,特异度较低 (<0.7)。
图4 不同口气等级ROC曲线分析结果(每行上为ROC曲线,曲线中标注了最优阈值(10-9)及其对应的灵敏度和特异度;下为AUC统计结果,其中*代表所得面积与AUC=0.5相比显著性差异水平为0.05,**代表显著性差异水平为0.01)。 (a) 区分口臭等级0和>0;(b)区分口臭等级≤1和>1;(c) 区分口臭等级≤2和>2Fig.4 The ROC results of different halitosis levels (The top of each row is the ROC curve, in which the optimal threshold (10-9) and its corresponding sensitivity and specificity are marked. AUC statistical results are shown below, in which * represents the significant difference level of 0.05 compared with AUC=0.5, and ** represents the significant difference level of 0.01). (a) The results of distinguishing halitosis level 0 and >0; (b) The results of distinguishing halitosis level≤1 and > 1; (c) The results of distinguishing halitosis level≤2 and > 2
利用ROC曲线计算GC-MS测量的气体浓度,用于诊断牙周疾病的效果(见表3),两种气体对牙周疾病诊断的曲线下面积均有意义 (P<0.05),但AUC均小于0.7。因此,单一因素对牙周疾病的诊断效果不佳。
表3 ROC诊断牙周疾病Tab.3 The result of ROC curve
表4为不同诊断模型5次交叉验证后的结果。当不考虑舌苔因素时,以年龄、VSCs浓度为参数建模,3种模型的准确率均低于0.7。纳入舌苔指数后,3种模型的准确率及AUC均有所提高,灵敏度和特异度达到0.7以上,满足筛查要求。3种模型中,逻辑回归方法的诊断准确率最高,达到75.38%,其AUC也为3种模型中最高。
进一步,为了排除厚舌苔组的干扰,只考虑健康组和牙周疾病组 (见表4)。同样地,分别用3种模型建模,在排除厚舌苔组的干扰后,3种模型的准确率均有提高,尤其是支持向量机模型的各项指标大幅提高,在有无舌苔指数的模型中准确率均高于90%。由此可见,厚舌苔组对疾病的诊断产生了一定的干扰,且对支持向量机模型的诊断影响最大。
表4 不同模型诊断结果Tab.4 The result of different models
本课题建立了利用GC-MS分析人口腔呼出气体中硫化物的方法,从结果上看,与商用仪器结果显著相关,证明了该流程与方法的可靠性。GC-MS作为一种常用的气体分析仪器,广泛地应用于呼出气挥发性有机化合物VOCs的检测中,本研究仅仅对口腔内挥发性含硫化合物进行了检测。结果表明引起口臭的病理原因80%~90%来源于口腔,仍有10%~20%的非口源性原因,包括了糖尿病患者呼出的丙酮气味、肾功能不全患者呼出氨气气味等。这些物质由血液循环运输到肺部,并由口鼻呼出。GC-MS能够有效地检测到这些非口源性气体[8]。本研究通过控制样本采集过程及样本气体采集体积,保证所采集气体来源于上呼吸道,从而排除其他来源气体的干扰。在后续的研究中,可以进一步纳入VOCs进行检测,以更深层次探究和区分口腔疾病与非口源性疾病。
GC-MS与Oral Chroma两种方法检测到的甲硫醇和硫化氢浓度显著相关 (P<0.01),但是二甲基硫不具有显著相关性 (P=0.389>0.05),这与先前的研究一致[8]。考虑到由于口腔气体内的二甲基硫含量较低,容易产生较大偏差。除此之外,在肝硬化患者中的呼吸和血液中检测到高浓度二甲基硫,提示二甲基硫可能是引起口腔外或血源性口臭的主要因素[19]。另外,本研究中GC-MS所检测的二甲基硫样本偏少 (27个样本,总样本为65个),且大部分样本结果为0即低于检测阈值,因此需要后续进一步扩充样本以验证该结论的正确性。
利用ROC模型确定了不同检测仪器的口臭等级阈值,结果显示其能够较好地划分口臭等级。由于样本有限,高于口臭等级3级的样本暂时未获取,无法确定更高口臭等级诊断阈值。然而,当口臭等级>3时,口腔异味明显,患者会自主就医。因此,低等级口臭的确定和筛查更有意义。一般而言,筛查应具有较高灵敏度,以确保真阳性结果,虽然GC-MS在区分口臭等级≤2与>2时的特异度仅为0.5,但其灵敏度达到了0.895,亦可作为有效筛查。3种仪器检测结果的差异性来源一是样本采集方式不同,Halimeter采用的是自动进样的方式,而Oral Chroma和GC-MS均采用人工手动进样方式,在测量过程中有可能引入人为误差。除此之外,口臭等级模型中所采用的是硫化物总浓度, Halimeter直接测量VSCs总含量,而气相色谱检测方式单独测量每种气体的含量,引入偏差。
牙周疾病与性别无关,而年龄是一个重要的影响因素,与Miyazaki的研究结果相符[20]。纳入舌苔指数因素后及剔除厚舌苔组的样本后,模型的准确率均有提高,因此舌苔也是诊断口腔疾病一个重要的影响因素。有研究认为,舌头具有较大的乳头状表面积,保留了大量的微生物和脱落的细胞,舌苔是硫化物的主要来源。舌头上的革兰氏阴性菌降解口腔中的半胱氨酸和蛋氨酸等含硫底物,产生VSCs。相比于健康者,口臭严重患者的舌上细菌密度和细菌种类明显增加[21]。舌苔的厚度还与年龄有关,这可能与随着年龄增大,唾液流量减少,唾液性质改变以及唾液对舌头的自然清洁减少有关[22-23]。
另外,由于门诊就诊患者的随机性,本研究中口臭等级为0的健康人的样本数偏少。除此之外,不同性别、年龄个体由于就诊意图不一致,会引入诸如性别、年龄等因素上的差异。为了进一步建立更加准确的诊断模型,需要人为控制不同口臭等级、不同口腔疾病的样本数量,并需要继续扩充样本量。
本研究首次建立了利用GC-MS检测口腔内挥发性硫化物的方法与流程,与临床所用仪器测试结果进行相关性分析,并建立了口臭等级阈值诊断模型和牙周疾病诊断模型,其灵敏度均大于0.7,证明了所提出的基于口腔挥发性含硫气体标志物诊断口臭和牙周疾病方法能初步实现口腔疾病的筛查,用于辅助临床诊断。下一步,纳入更多VOCs标志物和呼出气体冷凝物 (exhaled breath condensate, EBC) 等,实现更多疾病的综合筛查与诊断。基于呼出气体标志物的疾病筛查与诊断技术在临床医学应用方面有极大的前景,需要进行进一步探索和研究。