王宁 郑璐瑶 孟秀娟 刘海婷 丁杨明 姚蓉 郭少晨 陆宇
【Fundprogram】 Beijing Municipal Science and Technology Commission (Z191100006619090); Special Program for Clinical Medicine Development of Beijing Hospital Management Center (ZYLX202123)
N-乙酰基转移酶2(N-acetyltransferase-2,NAT2)是人体内一种重要的Ⅱ相代谢酶,主要在肝脏及肠道上皮中表达,参与体内多种物质的代谢过程[1]。由于基因多态性的存在,个体NAT2代谢能力存在明显差异,可分为NAT2快、中间及慢代谢型[2]。研究证实,人群中不同NAT2代谢型与肿瘤、帕金森病等多种疾病及药物不良反应的发生和发展相关,发病机制考虑与NAT2慢乙酰化导致的机体毒性物质蓄积有关[3-7]。2021年11月发布的《结核病患者N-乙酰基转移酶2编码基因多态性检测与异烟肼合理用药专家共识》明确指出NAT2代谢型与抗结核药物异烟肼的疗效与不良反应有关,在患者接受异烟肼抗结核治疗时确定其NAT2基因型对患者的精准化治疗至关重要[8]。
不同种族、地区人群NAT2基因型、单体型分布存在明显差异[2,9]。例如,在欧洲人群中NAT2*5等位基因携带率约为50%左右,但该等位基因在东亚人群中携带率仅为5%;在东亚人群中携带率约为20%的NAT2*7等位基因,在欧洲人群中携带率却不足5%;NAT2*14等位基因在非洲及美洲人群中携带率约为10%,但在欧洲及亚洲人群中基本不携带此等位基因。因此,明确中国人群NAT2基因型及等位基因分布至关重要。
目前国内外结核病研究领域NAT2基因多态性研究中大多以检测NAT2中特定单核苷酸多态性(single nucleotide polymorphism,SNP)位点作为确定NAT2基因型的依据,常见的检测位点为341T→C(或481C→T)、590G/A、857G/A,分别对应*5、*6、*7等位基因,上述3种等位基因可解释中国人群中大部分的慢乙酰化代谢类型[10]。3SNP法采用341T→C、590G→A、857G→A等3个SNP位点对NAT2基因型进行推断,2SNP法利用2个SNP位点(282C→T、341T→C)推断NAT2基因型。Hein和Doll[11]报道4SNP法(191G→A、341T→C、590G→A、857G→A)推断NAT2基因型的准确性与7SNP法相当,优于tagSNP(rs1495741)、2SNP(282C→T和341T→C)及3SNP法(341T→C、590G→A、857G→A)。由于rs180127919(191G→A)位点突变仅存在于非洲人群中,因此,其研究中4SNP法在中国人群NAT2基因型推断时实质上等同于3SNP法。Selinski等[12]发现2SNP法推断NAT2基因型的效能与经典的7SNP法相当,优于tagSNP法。在中国人群中NAT2不同推断方法效能的比较研究尚未见报道,笔者对已发表的包含中国人群NAT2基因型信息的文献进行了检索,构建了中国人群NAT2基因型数据库,并对不同NAT2基因型推断方法的效能进行评价。
1.文献检索:对包含中国人群NAT2基因多态性数据的文献进行检索,检索范围包括Medline、PubMed、Embase、维普中文科技期刊数据库、中国知网和万方医学网等数据库,检索时限为数据库建库至2021年12月1日,同时对纳入文献的参考文献进一步手工检索。英文检索词:NAT2、N-acetyltransferase、polymorphism、China或Chinese,以及这些词的同义词或扩展词;中文检索词:NAT2、基因多态性、中国,以及这些词的同义词或扩展词。
2.文献纳入及排除标准:(1)纳入标准:①NAT2 基因多态性检测方法为PCR直接测序法或至少检测NAT2基因第2外显子6个SNP位点(rs1041983、rs1801280、rs1799929、rs1799930、rs1208、rs1799931);②研究结果NAT2基因多态性数据中包含亚型(如*6A、*7B等)信息及对应频数信息;③如遇同一项研究阶段结果发表在不同期刊的情况,则对数据进行合并、整理,选择包含内容详细、数据广泛的研究。(2)排除标准:①文献结果只报道NAT2快、慢代谢基因型而未报道具体NAT2基因型(双体型)及亚型数据;②研究人群不在中国境内。
3.文献数据评价及处理:使用Newcastle-Ottawa Scale(NOS)评分表对纳入的文献进行质量评价和风险评估。提取文献中NAT2基因型及等位基因信息,重建单项研究NAT2基因型数据库并利用Phase 2.1软件[13-15]进行单体型和双体型重建及验证,对于文献中与软件基因型推测不符的数据进行分析和修正。NAT2等位基因和基因型分型标准参考人类NAT2等位基因库(http://nat.mbg.duth.gr/Human%20NAT2%20alleles_2013.htm)。提取文献中对照组人群NAT2基因型数据构建中国人群NAT2基因型分布数据库,比较和分析不同地区NAT2等位基因和基因型分布特点。SNP位点信息及人群分布数据通过美国国家生物信息中心SNP数据(https://www.ncbi.nlm.nih.gov/)及中国汉族基因组数据库(https://www.biosino.org/pgghan2/index)查询。基于构建的NAT2基因型数据库,评估不同NAT2基因型分型方法的准确性。
4.统计学处理:不同研究的NAT2基因型及等位基因分布以“频数和频率(%)”描述,通过WPS电子表格整理数据。不同NAT2基因型推断方法(3SNP法及2SNP法[11])性能评价指标包括敏感度、特异度、阳性预测值、阴性预测值、准确度,推断方法效能的比较采用McNemar检验和Kappa一致性检验,以P<0.05为差异有统计学意义。
1.文献筛选结果:经过文献检索及筛选,最终纳入10项研究[4-5,16-23]。具体文献筛选过程及文献基本信息见图1及表1。
表1 纳入研究文献信息汇总
图1 文献筛选流程图
2.纳入文献风险偏倚评价:使用NOS评分表对纳入的文献进行质量评价和风险评估。量表共分为3个主要评价指标,分别为研究对象选择、组间可比性、暴露因素测量。每项下分别有4、2、3个小项,根据文献内容是否符合分别赋值,最高为9★,得分越高,文献质量越高,纳入文献评价情况见表2。
表2 纳入文献的偏差风险和质量评估
3.文献中NAT2基因型及等位基因信息提取及整理:10篇文献中3篇文献NAT2基因型分型采用直接测序法,7篇采用间接方法检测至少6个SNP位点的多态性并对个体的NAT2基因型进行推断。利用7篇文献中个体的NAT2基因型(双体型)信息重建各自单项研究NAT2基因型数据,并使用Phase 2.1软件验证原文献的推测结果。
在上海-2012研究[20]中检测到*14A等位基因,查询美国国家生物技术信息中心SNP数据库及中国汉族人群基因组数据库,*14A等位基因对应的rs1801279位点仅在非洲裔人群具有多态性,中国人群此位点全部为GG型,在整理数据时将该研究中的这2例删除。
在上海-2016研究[5]中,共有477例中间代谢型,根据Phase 2.1基因型推断结果,分别将477例推断为*4/*5B(31例)、*4/*6A(261例)及*4/*7B(185例)。该研究中有12例未能明确基因亚型,仅能判断为快代谢及慢代谢等位基因杂合个体,在计算人群NAT2基因型分布时纳入这12例,由于不能确定SNP位点多态性信息,评估不同NAT2分型方法及统计不同等位基因频率时未纳入这12例中间代谢型个体。
在长沙-2006研究[4]中,NAT2分型结果汇总表中,共有3种基因型无法确定基因亚型,分别是NAT2*6A/282.481、NAT2*6B/282.481及NAT2*6E/282.481,通过查询人类NAT2基因数据库(最后更新2016年4月18日),未查询到同时携带282C→T与481C→T的NAT2等位基因,且即使理论上存在282C→T与481C→T共同突变的等位基因,由于此2个位点都是同义突变,带有282C→T与481C→T的等位基因也应该是NAT2快代谢等位基因。利用Phase 2.1软件对该研究NAT2基因型数据进行单体型及双体型重建,上述3种基因型重新推断为*13/*6N、*4/*6N、*11/*6N。由于3种基因型都是快代谢及慢代谢等位基因杂合子,3种基因型均推断为NAT2中间代谢基因型。
剩余4项研究中,经Phase 2.1软件推断结果与研究汇报推断结果一致。
4.纳入文献中对照组NAT2基因型及等位基因信息汇总:对上述整理后的数据进行汇总,提取单个研究中对照组NAT2基因型及等位基因数据(广州-2011研究为结核病患者,该研究所有数据纳入汇总)构建中国人群NAT2基因型数据库,数据库包含4010例个体的基因型数据汇总信息。(1)汇总数据中NAT2快代谢基因型、中间代谢基因型、慢代谢基因型总体频率分别为25.79%(1034/4010)、50.87%(2040/4010)、23.34%(936/4010),NAT2非慢代谢基因型总体频率为76.66%(3074/4010),具体见表3。(2)汇总数据中NAT2快代谢等位基因包括*4、*13、*11A、*12A、*12B、*12C,NAT2快代谢等位基因总体携带频率为51.19%(4096/8002)。其中,*4等位基因占全部快代谢等位基因的96.92%(3970/4096);汇总数据中慢代谢等位基因包括*5、*6、*7、*10、*19,NAT2慢代谢等位基因总体携带频率为48.81%(3906/8002),其中*5、*6、*7等位基因占所有慢代谢等位基因的99.90%(3902/3906),具体见表4。北京-2012研究[16]在北方人群中检测到*10及*19等位基因,在该研究人群中的携带率均为0.93%(2/214)。
表3 纳入研究文献中NAT2基因型分布情况
表4 纳入研究文献中NAT2等位基因分布情况
5.不同方法推断NAT2基因型效能:基于10篇文献的所有能够获得精确基因型(双体型)的NAT2多态性数据,重建包含5448例NAT2基因型信息数据库(表5),基于此数据库,对3SNP及2SNP法推断NAT2代谢基因型的效能进行评价。
表5 3SNP法及2SNP法推断NAT2基因型结果
续表5
3SNP法采用341T→C、590G→A、857G→A等3个SNP位点对NAT2基因型进行推断。借鉴文献报道中采用的积分法,每个位点如果为野生型纯合子,则积0分,如果为杂合子则积1分,突变纯合子则积2分,将上述3个位点所得积分相加,如果总分为0分,则推断为NAT2快代谢型,如果总分为1分,则推断为NAT2中间代谢型,积分≥2分,则推断为NAT2慢代谢型。3SNP法推断NAT2基因型共有4种基因型出现错误,分别是*4/*6J、*4/*10、*4/*19、*6A/*19,总体推断错误率为0.22%(12/5448)。3SNP法推断NAT2慢代谢基因型的敏感度、特异度、阳性预测值、阴性预测值、准确度分别为99.92%、99.81%、99.36%、99.98%、99.83%;推断NAT2快代谢基因型的敏感度、特异度、阳性预测值、阴性预测值、准确度分别为100.00%、99.92%、99.80%、100.00%、99.94%(表6,7)。
表6 3SNP法推断NAT2慢代谢基因型效能分析
表7 3SNP法推断NAT2快代谢基因型效能分析
2SNP法利用2个SNP位点(282C→T、341T→C)推断NAT2基因型。每个位点如果为野生型纯合子,则积0分,如果为杂合子则积1分,突变纯合子则积2分,将上述3个位点所得积分相加,总分为0分推断为NAT2快代谢基因型,总分为1分推断为NAT2中间代谢基因型,积分≥2分推断为NAT2慢代谢基因型。2SNP法推断NAT2基因型共有19种基因型出现推断错误,总体推断错误率为6.74%(367/5448)。2SNP法推断NAT2慢代谢基因型的敏感度、特异度、阳性预测值、阴性预测值、准确度分别为99.52%、98.36%、94.54%、98.66%、97.71%;推断NAT2快代谢基因型的敏感度、特异度、阳性预测值、阴性预测值、准确度分别为93.19%、96.01%、89.75%、97.41%、95.25%(表8,9)。
表8 2SNP法推断NAT2慢代谢基因型效能分析
表9 2SNP法推断NAT2快代谢基因型效能分析
将3SNP法及2SNP法推断NAT2快、慢代谢基因型的效能进行对比。经McNemer检验,两种方法推断NAT2慢代谢基因型敏感度的差异无统计学意义(χ2=0.189,P=0.664),具有较高的一致性(Kappa=0.932,P<0.01)。两种方法推断NAT2快代谢基因型敏感度的差异有统计学意义(χ2=10.973,P=0.001),3SNP法推断NAT2快代谢基因型时优于2SNP法。
本研究纳入10项研究,重建的NAT2数据库在一定程度上可以反映中国人群NAT2基因型构成情况。10项研究中对照组共4010例,非慢代谢基因型占到了所有人群的76.7%,快、慢等位基因分别占51.19%及48.81%。在中国人群中,NAT2基因型分布以非慢代谢型为主。
除了常见的NAT2慢代谢等位基因*5、*6、*7外,在北京-2012[16]研究中检测到*10及*19等位基因。*19等位基因最早由日本学者发现[24],190C→T(rs1805158)突变使NAT2基因第64位的精氨酸变成了色氨酸,导致NAT2酶活性的下降。通过在中国汉族基因组数据库查询,rs1805158位点在我国汉族人群中碱基T总体携带率为0.146%,在北京、河南、江苏、贵州、陕西5个地市均检测到碱基T携带者,携带率分别为0.12%、0.089%、0.209%、2.08%、0.059%。*10等位基因对应的是rs72554617(499G→A),该突变使NAT2基因第167位的谷氨酸变成了赖氨酸,导致NAT2酶活性的下降。rs72554617位点在我国汉族人群中碱基A总体携带率为0.049%,在北京、上海、陕西、陕西、河南等9个地市均检测到碱基A携带者,以安徽省携带率最高(0.45%),其余地市携带率均低于0.15%。
采用既往文献中报道的3SNP积分法对重建数据库中的样本进行推断,所有46种NAT2基因型中,共有4种基因型推断错误,分别是*4/*6J、*4/*10、*4/*19、*6A/*19,总体推断错误率为0.22%。错误原因分为2类,其中,*10、*19等位基因存在499G→A和190C→T突变,这使得在使用3SNP方法对*4/*10、*4/*19基因型推断时,将中间代谢型错误地推断为快代谢型,而*6A/*19慢代谢型推断为中间代谢型。另一类推断错误是由于*6J等位基因的存在,基因型为*4/*6J的个体3SNP推断法积分为2分,3SNP法将该种基因型推断为慢代谢型。针对此种情况,如果受检者通过3SNP法检测结果为TT、AG、AG,则该个体可能的基因型为*4/*6J或者*6/*7,其抗结核治疗异烟肼用量可根据异烟肼血药浓度检测结果进行调整。
当SNP检测对341T→C、590G→A、857G→A等3个位点检测结果为CT、AG、GG或CT、GG、AG或TT、AG、AG或CT、AG、AG等4种情况时,理论上可能NAT2基因型为中间代谢型或者慢代谢型。但在本研究构建的数据库中仅出现*4/*6J这一种基因型,其他理论上存在的3种检测结果在纳入的3项研究中并未检测到。另外,笔者进一步查询了人类NAT2等位基因库,并未发现341T→C、590G→A、857G→A等3个位点同时为突变位点的NAT2等位基因。因此,如果样本检测为CT、AG、AG,3SNP法计算得分为3分,则按照目前人类NAT2等位基因库的数据推断该个体可确定为NAT2慢代谢型。
采用既往文献中报道的2SNP积分法对数据库中的样本进行推断,所有46种NAT2基因型中,共有19种基因型出现错误,总体推断错误率为6.74%,远高于3SNP法的推断错误率(0.22%)。2SNP法推断NAT2基因型的基础是SNP位点590G→A和857G→A与282C→T存在连锁不平衡,人群中282C→T一般伴随590G→A或857G→A中的一种出现。因此,当个体中检测到282C→T时,可以认为该个体携带590G→A或857G→A,此2种突变与*6及*7相对应。但在中国人群中,根据本研究结果看,282C→T与590G→A或857G→A之间的关联强度并不高,282C→T也与*12或*13 相关联。因此,2SNP法会将携带*13或*12等位基因的个体错误推断为携带*6或*7等位基因,导致了较高的推断错误率。2SNP法推断性能在不同人群中存在较大差异,考虑与不同人群*13或*12等位基因携带比例有关,在*12及*13等位基因携带比例较高的人群中,2SNP法推断NAT2基因型效能较差。
笔者对3SNP及2SNP法推断NAT2基因型的效能进行了比较。在中国人群中推断NAT慢代谢基因型时,3SNP法与2SNP法推断结果一致性较好;但推断NAT2快代谢基因型时,3SNP法推断NAT2基因型总体效能优于2SNP法。
本次纳入研究中有3项研究的NAT2基因多态性检测采用PCR直接测序法,7项研究基于有限SNP检测的结果进行NAT2基因型推断。为了确保数据的准确性,本文在7项研究结果NAT2基因型数据的基础上采用Phase 2.1软件进行了验证,最大限度保证了NAT2基因型推断结果的正确性。个别研究中部分样本未能明确汇报NAT2基因亚型信息,因此,在对NAT2推断方法进行评价时,删除了这部分数据。尽管本研究纳入了5448例样本构建数据库,研究群体涉及北京、上海、广州等多个地区,但相对于我国庞大的人口数量,纳入的样本数据仍不能完全反映中国人群NAT2基因多态性特点。因此,本研究的结论需更大样本的研究验证。另外,纳入研究中研究人群大部分以汉族为主,故尚需明确少数民族人群的NAT2基因型分布情况。
综上所述,本研究中NAT2基因型数据库的建立能够为临床工作中NAT2基因分型工作提供参考。由于不同人群NAT2基因型分布和构成具有地域性差异,在*10、*19等罕见等位基因携带率较高地区,增加对190C→T和499G→A位点的检测可以提高NAT2基因型推断的准确性。综合考虑3SNP法与2SNP法推断NAT2基因分型效能的差异,建议在中国人群中采用3SNP法推断NAT2基因型。
利益冲突所有作者均声明不存在利益冲突
作者贡献王宁:酝酿和设计实验、实施研究、采集数据、分析/解释数据、起草文章、统计分析;郑璐瑶:实施研究、采集数据、分析/解释数据、起草文章、统计分析;孟秀娟:分析/解释数据、对文章的知识性内容作批评性审阅、统计分析、指导;刘海婷:实施研究、采集数据、支持性贡献;丁杨明:采集数据、分析/解释数据、对文章的知识性内容作批评性审阅、统计分析;姚蓉:实施研究、采集数据;郭少晨:实施研究、分析/解释数据、对文章的知识性内容作批评性审阅;陆宇:酝酿和设计实验、实施研究、对文章的知识性内容作批评性审阅、获取研究经费、行政和技术及材料支持、指导