阮燕萍,陆义杰,朱皞罡,韩建成,刘晓伟,孙琳,张烨,谷孝艳,赵映,李磊,冉素珍,陈景丽,于琼,许燕,夏红梅,何怡华
先天性心脏病(CHD)是胎儿期心脏发育异常引起的心脏结构和功能缺陷,其发病率为每1000个活产儿中19~75个,因包含的缺陷类型不同而导致发病率不同[1],是中国最常见的先天性缺陷之一[2]。许多因素与胎儿CHD风险增加有关,分为遗传[3],母体或胎儿因素。母体因素包括糖尿病、结缔组织病、药物暴露、感染、使用辅助生殖技术及家族史等,而胎儿因素包括心律失常或水肿。在美国心脏协会关于胎儿心脏病的诊断和治疗的科学声明中详细阐述了各种因素的风险[4]。
以往研究中,胎儿CHD影响因素的统计建模方法通常基于因素相互独立的前提,建立逻辑回归模型,根据比值比(OR)值反映每个因素与CHD之间的相关性。然而,CHD是一种多因素复杂疾病,在既往研究中CHD影响因素之间的相互作用和多因素协同的效应难以考虑和准确估计。
贝叶斯网络是概率图形模型的一个分支,也称为信念网络,它主要学习变量之间的因果关系,有力地进行概率推理和临床诊断,对统计假设没有严格要求。通过构造有向无环图(DAG)来直观地反映多个因素之间的潜在关系,条件概率分布表用于反映相关程度[5]。本研究主要根据庞大的母胎数据建立最佳BN模型,检测胎儿CHD的影响因素并量化相关性的程度。 同时,我们将准确估计多因素组合对胎儿CHD的影响。
1.1 研究对象从2010年6月至2017年6月连续纳入首都医科大学附属北京安贞医院母胎数据库中进行胎儿超声心动图检查的孕妇(n=16 086)。孕周为16~39周。孕周由最后一次月经计算并用胎儿生物测定法校正,包括双顶径,头围,腹围和股骨长度。入组标准包括:①相对完整的孕妇和胎儿因素数据;②胎儿心脏检查和胎儿CHD的诊断符合来自美国心脏协会的科学声明于2013年发表DE胎儿心脏病诊断和治疗规范[4]。排除标准为:①缺失变量超过50%的受试者;②数据缺失超过50%的变量。本研究经首都医科大学附属北京安贞医院机构审查委员会批准,所有参与者均签署知情同意书。
1.2 数据收集和变量赋值来自参与机构的数据和胎儿超声心动图图像在我中心进行分析,这些图像与我中心自己的数据一起从母胎数据库中导出。通过问卷调查获得了以下信息,母体因素包括:年龄,合并症(糖尿病、妊娠早期上呼吸道感染、贫血、抗SSA/SSB阳性结缔组织疾病和甲状腺疾病),药物暴露,引产或自发流产,以及CHD家族史,近亲婚姻,孕妇和配偶的职业和不良习惯,接触放射性物质,精神压力,怀孕方式和怀孕期间的遗传学检测。胎儿因素包括妊娠周,单胎或双胎,胎儿水肿以及胎儿心律失常。此外,根据胎儿超声心动图的诊断,将胎儿分为正常组和CHD组两组。根据入选和排除标准筛选,最终分析中包含16 086个研究对象和26个变量。变量及其赋值见表1。
表1 研究所包含变量及其赋值
1.3 胎儿CHD诊断胎儿CHD是通过胎儿超声心动图检查来诊断的,使用Voluson E8-RAB4-8和2到8-MHz换能器(GE Healthcare,Little Chalfont,英国),Aloka 10,UST-9130用3到36-MHz换能器(Aloka,Tokyo,Japan),或Philips IU-22,C5-1,带有1或5-MHz换能器(Philips Healthcare,Bothell,WA)。胎儿超声心动图图像的采集遵循美国超声心动图学会(ASE)[4]和国际妇产科超声学会(ISUOG)的指南和标准[6]。
胎儿超声心动图由经验丰富的副主任医师和主任医师进行操作及诊断。根据多节段筛查,基于灰阶,彩色图像和脉搏波多普勒进行诊断,包括四腔心,左右心室流出道(LVOT和RVOT),三血管(3V),三血管和气管(3VT)切面,以及上下腔静脉切面,主动脉弓和导管弓的矢状面。参与机构的所有相关医生都按照这些指南进行了培训。从参与机构上传到我们数据库的所有图像均由两位经验丰富的医生独立审查,并确认或纠正外院上传图像的诊断。
1.4 统计学分析基本统计采用SPSS 22.0进行分析。服从正态分布的连续变量表示为平均值±标准差,组间比较采用t检验。而不服从正态分布的变量表示为中位数(四分位数间距,IQR),组间比较采用非参数检验。计数资料以例数(构成比)表示,组间比较采用卡方检验。
1.4.1 构建贝叶斯网络贝叶斯网络采用matlab软件,主要由两个部分组成:编码网络依赖结构的有向无环图(DAG)和在给定父节点情况下,每个节点的条件概率表(CPT)。数据处理阶段:为了简化模型,这里采用的是基于离散变量的贝叶斯网络。大部分的暴露变量的取值都是离散的,将孕周、孕妇年龄等多个取值较多的变量,根据临床划分标准,归类几个取值状态的离散变量,方便贝叶斯网络的学习。
采用基于评分搜索和贪心算法计算得到近似最佳的贝叶斯网络结构。由于贝叶斯网络结构空间是节点个数的超指数函数,因此首先通过最小权重生成树(MWST)算法确定贝叶斯网络的拓扑排序,降低贝叶斯网络结构的搜索空间范围。该方法是在每一条边上计算两个节点的互信息权重,再通过最小生成树算法将图转化为一个树形结构,从而确定了节点的拓扑顺序(即排在前面的节点不能是后面节点的子节点,排在后面的节点不能是节前面点的父节点),这样可以大大减小DAG的搜索空间,优化网络结构的学习时间。
K2算法是通过最大化网络后验概率来选择贝叶斯网络的最佳结构,但是由于贝叶斯网络结构的搜索空间很大,计算时间较长,因此,一般的方法是通过MWST算法来缩小网络的搜索空间来提高计算速率。K2+T算法便是在MWST确定的搜索空间范围内,找到的最优网络结构的算法;K2-T算法是在MWST确定的节点逆序的搜索空间范围内,找到的最优网络结构的算法[7]。GS+T算法是在MWST确定的搜索空间范围内,采用贪心算法搜索最佳的网络结构。GES算法在马尔科夫等效空间中使用贪婪搜索,因为马尔科夫等效贝叶斯网络被认为符合等价性质[8]。
1.4.2 贝叶斯网络参数学习当确定好贝叶斯网络的结构后,给定完整数据D,通过最大似然函数估计(MLE)学习每个节点的CPT参数。对数似然函数计算见公式(1.1)。
K2+T,K2-T,GS+T和GES算法可以搜索得到四个最佳的网络结构,再通过参数学习的方式,最终完成贝叶斯网络结构的构建。四个模型从不同的角度拟合了环境变量的联合概率分布,本文通过K折交叉验证的方法,画出四个模型ROC曲线,根据ROC曲线围成的面积AUC值来选择最优的贝叶斯网络模型。
在忽略孕周和考虑孕周变量两种条件下,采用四种贝叶斯网络结构学习算法,通过十折交叉验证的方法,得到二分类AUC值如表2所示。可以看出,通过K2-T算法学习得到的贝叶斯网络结构是最优的,且考虑孕周后,二分类AUC的值提升了将近6%,虽说临床没有将孕周划分为危险环境因素,但从模型的分类结果上表现出的差异,在量化不同危险环境因素的致病风险时,需分类讨论忽略孕周变量和考虑孕周变量两种情况。
表2 贝叶斯网络交叉验证的分类结果
1.4.3 联合树推理算法(JTA)贝叶斯网络推理是在观测到部分变量的取值证据信息后,结合贝叶斯网络的结构信息和每个节点上的条件概率表CPT,在网络中计算目标节点的概率分布信息。贝叶斯网络推理算法分为精确推理和近似推理两种算法,联合树推理算法是目前使用范围最广,计算速度最快的精确推理算法。其JTA推理过程是将贝叶斯网络转换为一个联接树(每个节点由无向图的最大完全子图构成的无向树),然后通过联合树上的证据收集或证据扩散消息传递方案,计算目标节点的概率分布。
1.4.4 致病风险量化指标研究环境因素对于结局的致病风险,通常设置实验组和对照组,计算两组的风险比(RR),又称为相对风险度,表示实验组与对照组患病率之比。如表3和公式(1.2)所示,RR表示暴露于危险环境条件下的患病率是对照组的倍数,取值范围为非负数。当RR>1,表示暴露的环境使得患病的风险增加,该环境是疾病风险因素,称做“正相关”;当RR<1,说明暴露的环境使得患病的风险减少,称做“负相关”;当RR=1,表示暴露的环境与疾病无关,计算过程见公式(1.2)。
表3 风险比计算表
在本文中,实验组和对照组通过控制环境变量取值来区分的。在贝叶斯网络模型下,风险比RR值的计算见公式(1.3)。表示实验组患病率与对照组患病率的比值。
2.1 正常组和胎儿CHD组的基线特征在所有参与者中共检出3312例胎儿患有胎儿CHD,其余为正常胎儿(表4)。大多数孕妇(约80%)的年龄范围在20~35岁。妊娠周(GW)的范围为16~39周。与正常组相比,CHD组糖尿病、贫血、上呼吸道感染、黄体酮使用和冠心病史的比例低于正常组(P<0.05);而自然流产,配偶吸烟和饮酒,双胞胎的比例高于正常组(P<0.05)。两组间其他因素无明显差异(P>0.05),表5。
表4 检出胎儿CHD的类型
表5 正常胎儿组与CHD胎儿组孕妇基线资料比较
2.2 基于BN的单因素和多因素效应分析通过K2-T算法学习得到的贝叶斯网络结果如图1所示。红色节点表示的是先心病变量,蓝色节点是影响先心病的环境因素变量,网络中两个节点直接通过边相连,边则表示两个变量直接相关关系。因此,可以得出和先心病直接相关的环境变量分别是感冒、胞胎数、糖尿病、贫血和流产,这些环境变量的不同取值直接影响先心病的发生概率;其他环境变量通过影响这些环境变量间接的改变胎儿患上先心病的风险。
图1 忽略孕周的贝叶斯网络结构图
通过枚举单个至全部环境变量组合的不同取值集空间,计算实验组(暴露在危险环境条件)和对照组(暴露在正常环境条件)致病率的比值RR,找到相互加重的危险环境变量组合及风险值,结果如图2所示。
BN结构分析显示了因素之间的相互作用,以及与胎儿冠心病直接相关的几个因素,包括自发流产,妊娠早期上呼吸道感染,贫血和孕妇精神压力,以及单胎或双胞胎和配偶吸烟。基于BN的因果推理,我们发现从单因素暴露逐渐增加到多因素暴露胎儿CHD的风险逐渐增加。单因素分析表明,胞胎数、自发流产、配偶吸烟的风险比分别为1.50、1.38和1.11。当胞胎数与自发流产或配偶吸烟相结合时,FHD的RR比单因子暴露更大(RR=1.96或1.63)。当三个因素叠加时,风险继续增加,例如贫血和上呼吸道感染的组合,加入胞胎数,或自发流产,或配偶吸烟,RR分别为1.56,1.45或1.17。以此类推,当我们结合四个因素,包括胞胎数,孕早期上呼吸道感染,孕妇的贫血,精神压力,以及自发流产或配偶吸烟时,风险范围可达1.67到2.12。当将上述因素合并为五个因子时,风险增加1.62倍(RR=2.62或2.28),高于那些低于五个因素组合的情况(图2)。除上述因素外,其他因素不会继续导致胎儿CHD的风险。
图2 忽略孕周的多环境因素组合的致病风险
变量 CHD胎儿组 正常胎儿组 P值近亲结婚(n,%) 0.283是2(0.06) 3(0.02)否3310(99.94) 12 771(99.98)先天性心脏病家族史(n,%) 0.030是24(0.72) 148(1.16)否3288(99.28) 12626(98.84)单胎或双胎(n,%) <0.001单胎 3235(97.68) 12601(98.65)双胎 77(2.32) 173(1.35)胎儿心律失常(n,%) 0.950是40(1.21) 156(1.22)否3272(98.79) 12618(98.78)胎儿水肿(n,%) 0.124是72(2.17) 338(2.65)否3240(97.83) 12436(97.35)
2.3 基于孕周分组的单因素和多因素效应分析在分析中发现,孕周是一个很强的混杂变量,而非风险因素,因此进一步对患者按孕周划分为(A组:16~28周,B组:28~40周)两组人群。基于K2-T算法,学习得到贝叶斯网络结构如图3所示。
图3 考虑孕周的贝叶斯网络结构图
可以看出,相对于忽略孕周变量构建的贝叶斯网络,该网络中直接影响先心病的环境因素除了感冒、胞胎数、糖尿病、贫血和流产,又多了一个孕周因素,因此可看出,在量化危险环境因素得致病风险时,孕周是重要的影响因素。
进一步对参与者按孕周进行敏感性分析(A组:16~28周,B组:28~40周)。基于BN的因果推理,无论是针对A组还是B组的人群,单因素或多因素暴露分析,都能得出与上述一致的结果。不同之处在于,我们发现A组胎儿CHD的风险高于B组,单因素暴露和多因素暴露呈现相同的趋势。结果表明,A组五个因素合并的风险高达2.88,B组的风险高达2.02,其中的危险因素包括胞胎数,妊娠早期上呼吸道感染,贫血,精神压力以及自发流产(图4)。
图4 多环境因素组合对于胎儿CHD的致病风险结果
这项横断面研究是目前样本量很大的胎儿CHD危险因素分析,16 086例受试者中冠心病3312例。更重要的是,我们使用BN,一种基于概率推理的方法来揭示多个数据集之间的潜在关系,检测因子的相互作用以及与胎儿CHD风险增加相关的因素,而不是传统的逻辑回归分析。这项研究的结果发现,胎儿CHD的直接相关因素包括自发流产史,孕早期上呼吸道感染,贫血和孕妇精神压力及胞胎数和配偶吸烟。当上述因素合并时风险逐渐增加,五个因素协同效应风险比达2.62。
前面提到,有许多与冠心病相关的因素,包括母体疾病,母体治疗和非治疗药物暴露,环境暴露和父亲暴露,这在美国心脏病学会的胎儿心脏病科学声明中已有阐述。在该研究中发现的与胎儿CHD相关的因素也已在其他类似研究中描述。
其中一个因素是妊娠早期上呼吸道感染。在2019年,Ye等[9]发表的关于母体病毒感染和胎儿冠心病风险的观察性研究的荟萃分析表明,怀孕初期有病毒感染史的母亲后代患CHD的风险显着增加(RR=2.28),在患有风疹和巨细胞病毒的母亲中更为显著。然而,其他病毒感染与CHD无明确关系。正如我们所知,非特异性母体感染的影响难以与用于治疗疾病的药物,产妇发热和感染的效应明确区分开来。Jenkins等报道,与母亲发热性疾病相关的心脏缺陷风险增加高达1.9倍,妊娠早期母体感染的任何心脏缺陷增加1.1倍[10]。这些研究的结果与我们的一致。本研究中未对病毒进行详细分类。
除了母体感染外,还有报告称母体其他慢性病与后代患有CHD风险相关,如糖尿病,高血压,CHD,贫血,结缔组织疾病,癫痫和情绪障碍与后代任何形式CHD的高发病率显著相关。同时,调查了人群归因于CHD的风险,表明最高的人群归因风险是贫血(2.17%),其次是2型糖尿病(1.45%)和高血压(0.71%)[11]。类似的结果由Liu等[12]报道。贫血是一种复杂的疾病,可能与许多因素有关,应该仔细分析以确定CHD风险的潜在原因和混杂因素的可能性,如多种维生素和叶酸补充剂或营养不良。与CHD相关的另一个风险因素是妊娠早期的母亲精神压力(OR=2.48~3.93),这个结果是两个基于医院的病例对照研究得出的[13,14]。本研究亦有此结论。虽然产妇压力导致冠心病的生物学机制尚不清楚,但我们强烈建议加强对孕妇的心理管理,特别是在怀孕初期。本研究中发现,自发性流产与CHD风险有关。自发流产的增加常由先天性畸形引起的。根据目前的知识无法推断出二者因果关系,我们只是观察到流产是婴儿出生时CHD的预测因子,或与法洛四联症风险增加有关[14,15]。无论如何,这些研究结果表明应该加强对有流产史的妇女的产科保健和咨询管理,以减少冠心病的发病率。
许多研究[4,11,12]表明母体糖尿病与CHD风险增加有关。但在本研究中没有类似的发现。可能是由于我们中心人群的选择偏倚造成的,因为许多患有糖尿病的孕妇被当地医院转诊到我们的胎儿超声心动图中心,这些胎儿大多数是正常的,导致非随机选择的人群,并进一步影响研究结果。
父亲吸烟与先天性心血管缺陷之间的相关性已有报道。有研究显示在托儿所的许多先天性缺陷中,烟草暴露组心血管系统异常的发生率显着增加[16]。2011年,一项病例对照研究[17]表明受孕期间烟草暴露与新生儿期CHD风险增加之间存在关联,并且还表明剂量效应,这需要通过大量人群来证实。不幸的是,我们的研究无法验证这种剂量-效应关系,尽管它确实表明父亲吸烟是CHD的危险因素。与受孕期间烟草暴露相关的致畸性的潜在机制仍不清楚。一个可能的原因是尼古丁和一氧化碳对胎盘功能造成损害,导致胎儿缺氧[18,19]。
对于胎儿因素,我们发现多胎妊娠与胎儿CHD之间存在相关性。2016年,Panagiotopoulou等进行了双胞胎CHD的研究,结果表明单绒毛膜双胎(OR=3.49,95%CI:1.57~7.77)是CHD的重要决定因素,独立于母亲年龄,分娩次数和后代性别[20]。在另一项研究中,与单胎相比,单绒毛膜双胞胎患CHD风险显著增高。这些发现对医师对于多胎妊娠孕妇进行咨询是很重要的[21]。
此外,我们根据妊娠周组进行了敏感性分析,这是一个重要的混杂因素,表明胎儿CHD的风险在妊娠周<28周的参与者中高于超过28周者,主要是因为人群的选择偏倚,或者部分是因为胎心检查的最佳时间是18~24周。
本研究是大样本量研究,且首次使用贝叶斯网络探索了与胎儿CHD相关的因素。该方法不仅显示出与胎儿CHD明显相关的因素,而且还呈现了对多因素协同作用因素的准确估计,以弥补当前研究的不足。但单本研究亦有一定的局限性,首先,数据主要来自于问卷,这意味着信息收集的准确性是一个需要考虑的问题。本研究探讨了胎儿CHD的相关因素,而不仅是活产儿,本研究的结局变量是通过胎儿超声心动图诊断的,并没有逐一进行出生后确诊,但是基于我中心此前关于胎儿超声心动图与尸体解剖的对比研究,我中心胎儿超声心动图对于胎儿CHD的准确性很高,完全吻合率在87%左右[22]。其次,这是一项横断面研究,仅显示因子与胎儿CHD之间的相关性,而非因果关系。再次,我中心是胎儿心脏病的转诊中心,来我中心的一些患者是已知危险因素的孕妇或在当地医院发现患有CHD的胎儿,这可能导致人群的选择偏倚。最后,本研究中未考虑遗传因素与胎儿CHD之间的关系,只关注临床特征。考虑到上述因素,我们的研究结果需谨慎解读,可能不适用于所有患者和所有情况。
综上所述,贝叶斯网络的结构学习和参数估计表明,胎儿CHD直接相关因素包括自发流产史,孕早期上呼吸道感染,贫血和孕妇精神压力,以及胞胎数和配偶吸烟。上述因素越多,胎儿冠心病的风险越高。研究表明,应加强对上述危险因素妇女的产科保健和产前咨询的管理,以降低冠心病的发病率。