基于血浆游离DNA片段组学特征的肝细胞癌预后分析

2023-01-14 05:05宋健闫泽宇彭帆谢凡凡董晓天安家泽
中国癌症防治杂志 2022年6期
关键词:基序碱基组学

宋健 闫泽宇 彭帆 谢凡凡 董晓天 安家泽

作者单位:710000 西安 1空军军医大学第一附属医院肝胆外科;2空军军医大学基础医学院生理与病理生理学教研室

肝细胞癌(hepatocellular carcinoma,HCC)是我国常见的恶性肿瘤之一,在恶性肿瘤中其发病率居第四位,死亡率居第五位[1-2]。HCC患者术后复发转移率较高,术后5年生存率仅为12.1%[1-2]。现阶段,可用于HCC预后预测的血清标志物有甲胎蛋白(alphafetoprotein,AFP)[3]、Glypcian-3[4]、CK19[5]等,既往研究表明三者联合应用可提高预后预测的准确性[6],然而这些标志物也仍存在灵敏度和特异度较低的问题。因此,开发灵敏度和特异度更高的新型生物标志物用于HCC早期诊断、治疗监测和预后评估,对提高疗效,延长HCC患者生存期十分关键。随着液体活检技术的发展,已有研究证实循环肿瘤DNA(circulating tumor DNA,ctDNA)可用于动态监测HCC术后情况[7],但ctDNA检测操作复杂,成本高,能否在临床上广泛开展仍待考量。血浆游离DNA(cell-free DNA,cfDNA)是在血液循环中的短DNA分子,被认为是来源于凋亡和坏死细胞的基因组片段化产物[8]。目前,cfDNA片段组学已成为一大新兴技术,且被应用于多种癌症的诊断研究中,比如肺癌[9]、结肠癌[10]、脑肿瘤[11]等,这表明cfDNA的片段组学特征可能是一类潜在的肿瘤标志物。另有研究表明,cfDNA片段组学是检测原发性肝癌一种高效且经济的方法[12],提示cfDNA片段组学具有应用于预测HCC预后的潜能。然而,HCC患者中cfDNA片段组学的相关研究鲜见报道。本研究利用cfDNA全基因组测序数据分析cfDNA片段组学特征,并采用列线图构建HCC预后模型,以探索cfDNA片段组学特征在HCC预后中的应用潜力。

1 资料与方法

1.1 研究对象

选取2016年6月至2016年9月在空军军医大学第一附属医院肝胆外科接受手术治疗的50例HCC患者作为研究对象。患者纳入标准:⑴经实验室、影像学、病理学检查诊断为HCC;⑵明确的慢性乙型肝炎病史;⑶均为首次确诊,首次接受手术治疗,且既往未接受任何抗癌治疗;⑷临床资料完整。排除标准:⑴严重器官功能不全者;⑵合并其他部位恶性肿瘤者;⑶妊娠期、哺乳期妇女;⑷不能配合检查者。入组前所有患者均签署知情同意书,并经空军军医大学第一附属医院伦理委员会批准,伦理号:KY20183331-1号。

1.2 实验方法

1.2.1 cfDNA提取 采集HCC患者术前静脉血至EDTA-K2抗凝管,4℃下1 600 g离心10 min,留取上清液,4℃下10 000 g再次离心15 min,所得血浆样品置于-80℃冰箱中保存。严格按照QIAamp Circulating Nucleic Acid Kit(Qiagen,Dusseldorf,Germany)说明书提取HCC患者的cfDNA,并用Nonodrop(Thermal Fisher,Massachusetts,USA)、Qubit 3.0(Thermo Fisher,Massachusetts,USA)和Agilent 2100 bioanalyzer system(Agilent,California,USA)分别进行 cfDNA 的浓度检测和质控。

1.2.2 DNA文库构建与测序 严格按照NEB ultra v2 kit说明书构建cfDNA文库,使用Qubit 3.0和Agilent 2100 bioanalyzer system分别进行cfDNA文库的定量和质控。利用Illumina HiSeq X Ten二代测序平台(Thermo Fisher,Massachusetts,USA)进行双端150 bp(PE150)测序。

1.2.3 随访 50例HCC患者出院后均通过门诊或电话进行随访,术后3个月和6个月各随访1次,此后每6个月随访1次,术后3年后每年随访1次。随访期间,未按期随诊或连续3次联系失败者,定义为失访,随访截至2022年5月。总生存期(overall survival,OS)定义为患者手术当天至死亡或最后一次随访的时间。

1.2.4 测序数据分析 使用Fastp软件(版本0.20.0)对测序数据进行预处理,去除接头污染的reads;低质量的reads;含N碱基比例大于5%的reads。使用BWA-MEM软件(版本0.7.17)将符合要求的reads比对至人类参考基因组hg19上,得到BAM文件。使用Picard软件(版本2.18.27)中的SortSam将BAM文件中同一染色体对应的reads按坐标排序。使用Picard软件中的MarkDuplicates对BAM文件进行去重,去除PCR扩增产生的重复reads。使用GATK软件(版本3.2-2)中的IndelRealigner工具将比对到indel附近的reads进行局部重新比对。使用Samtools软件(版本1.8)中的depth计算得到每个位点的测序深度。最后,利用R语言(版本4.2.0)分析片段大小及末端碱基基序。

1.3 统计学方法

采用SPSS 26.0和GraphPad Prism 8.3.0软件处理数据。计量资料以均数±标准差表示,两组配对变量的差异比较采用Wilcoxon符号配对秩检验,多组间比较首先采用Kruskal-Wallis检验,然后再采用Bonferroni进行两两比较。预后因素分析采用单因素和多因素Cox回归分析,基于HCC患者cfDNA片段特征(其中将cfDNA中长片段数量与短片段数量的比值定义为片段大小得分)和临床特征,使用R软件中的“rms”包建立列线图模型,“timeROC”包构建受试者工作特征(receiver operating characteristic,ROC)曲线,并测量曲线下面积(area under the curve,AUC),使用SPSS 26.0中“ROC分析”进行模型效能评估。使用R软件的“survival”包绘制生存分析图并进行log-rank检验。本研究检验水准为双侧α=0.05。

2 结果

2.1 基线资料及生存情况

50例HCC患者中男性39例,女性11例,年龄范围34~75岁,平均年龄(53.98±8.58)岁。50例HCC患者的临床病理特征见表1。50例患者中位随访34个月(范围:3~72个月),依据患者的生存情况分为存活组和死亡组,其中存活组共11例,男性8例,女性3例;死亡组共39例,男31例,女8例。所有患者术后1年、3年、5年总生存率分别为80%、42%、24%,中位OS为28个月。生存曲线见图1。

图1 50例HCC患者的生存曲线Fig.1 Survival curves for 50 patients with HCC

表1 50例HCC患者的临床病理特征Tab.1 Clinicopathological characteristics of 50 patients with HCC

2.2 cfDNA片段组学特征

2.2.1 cfDNA片段大小与片段占比特征分析 本研究首先针对测序数据进行质控,质控结果如表2所示,测序总reads数为70 887 190,平均测序深度为6.09×,平均覆盖度为100%。其次分析cfDNA不同片段大小的占比,发现在167 bp处出现一峰值,占比为0.028%;在100~200 bp之间出现间隔约10 bp的连续峰值波(图2A)。再次分析cfDNA不同片段大小的累计占比,在100~200 bp之间呈明显上升趋势,200 bp之后趋于饱和,累计占比达50%时片段大小大约在167 bp处(图2B)。最后比较<100 bp、100~150 bp、150~200 bp以及>200 bp等4个区域的片段占比,发现在 150~200 bp片段占比最多,其次是 100~150 bp、>200 bp、<100 bp,平均占比依次是 71.961%、18.316%、7.588%、2.135%(图2C)。

图2 HCC患者血浆游离DNA片段大小与片段占比特征Fig.2 Characteristics of size and proportion of cfDNA fragments in HCC patients

表2 研究样本测序数据的概况Tab.2 Overview of study sample sequencing data

2.2.2 cfDNA末端碱基基序分布特征分析 对cfDNA总片段(定义为未经筛选的所有片段)范围内末端碱基基序占比进行分析(图3A),结果显示除A-end与G-end、T-end与C-end之间比较差异无统计学意义(均P>0.05)外,其余比较差异均有计学意义(均P<0.001)。其中T、C末端碱基平均占比分别为27.516%、27.483%;A、G末端碱基平均占比分别为22.509%、22.492%。随后,将cfDNA片段长度≤150 bp的片段定义为短片段,片段长度>150 bp的片段定义为长片段,分别对短片段和长片段之间的A、T、C、G等4个末端碱基占比情况进行比较分析,发现A、T、C、G等4个末端碱基在短片段的平均占比与对应末端碱基在长片段的占比比较,差异均有统计学意义(均P<0.001),短片段的A、T末端碱基比长片段的占比少,C、G末端碱基比长片段的占比多。短片段中A、T、C、G 4个末端碱基平均占比依次为20.765%、26.578%、29.299%、23.357%;长片段中A、T、C、G 4个末端碱基平均占比依次为23.121%、28.034%、26.743%、22.102%(图3B)。

图3 血浆游离DNA不同片段大小范围内末端碱基基序的比较Fig.3 Comparison of terminal base motifs in different fragment sizes of cfDNA

2.3 cfDNA片段组学特征在评估HCC患者预后中的价值

2.3.1 cfDNA片段组学及临床病理指标的单因素和多因素Cox回归分析 单因素Cox回归分析结果显示,肿瘤分化程度、BCLC分期、片段大小得分均与HCC患者预后相关(均P<0.05),见表3。基于这3个指标进行多因素Cox回归分析,结果发现肿瘤分化程度、BCLC分期、片段大小得分均是影响HCC患者预后的独立危险因素(均P<0.05),见表4。

表3 影响HCC患者预后的单因素Cox风险回归分析Tab.3 Univariable Cox regression analysis of prognostic factors in HCC patients

表4 影响HCC患者预后的多因素Cox风险回归分析Tab.4 Multivariable Cox regression analysis of prognostic factors in HCC patients

2.3.2 构建HCC患者术后的列线图预后模型 基于HCC患者肿瘤分化程度、BCLC分期、片段大小得分3个HCC预后独立影响因素构建列线图模型。通过列线图可明确患者各项预后指标对应的分值,其中肿瘤分化程度中高分化和中分化为0分,低分化为35分;BCLC分期中0~A期为0分,B~C期为42分;片段大小得分随着数值增大,对应模型中的分值从0~100分递增。各类型HCC患者根据3个指标的分数值之和得出总分,总分相对应患者的1年和3年总生存率预测值,见图4。

图4 预测HCC患者预后的列线图模型Fig.4 Nomogram model for predicting the prognosis of HCC patients

2.3.3 列线图模型的效能评估 ROC曲线结果显示,肿瘤分化程度、BCLC分期、片段大小得分以及列线图模型预测1年总生存率的AUC分别为0.722、0.611、0.644、0.836(图5A),预测3年总生存率的AUC 分别为0.571、0.536、0.799、0.840(图 5B)。ROC分析比较结果显示,列线图模型预测1年、3年总生存率的效能均优于肿瘤分化程度以及BCLC分期(均P<0.05)。根据列线图模型计算50例HCC患者的风险评分,并根据风险评分中位数将患者划分为低危组和高危组,同时绘制生存分析曲线,结果显示高危组的预后明显差于低危组(log-rank χ2=9.915,P=0.001),见图6。

图5 预测HCC患者总生存率的ROC曲线Fig.5 ROC curves for predicting the overall survival rate of HCC patients

图6 基于列线图风险评分的生存分析曲线Fig.6 Survival analysis curves based on nomogram risk score

3 讨论

本研究严格按照纳入和排除标准收集了50例HCC患者进行cfDNA的捕获测序,根据测序结果分析了cfDNA片段大小特征,发现HCC患者的cfDNA片段大小主要集中在150~200 bp区间,且在167 bp处出现峰值,该长度与缠绕在核小体周围的DNA片段长度接近[13],表明cfDNA的片段切割可能与细胞凋亡和坏死相关,而组蛋白复合体充当了避免DNA随即断裂的保护因素[14-15]。此外,在100~200 bp之间出现间隔约10 bp的连续峰值波,这可能是核酸酶切割核小体的结果[16]。同时,基于cfDNA片段长度在其他癌种中的预后预测价值[8],本研究选取HCC患者的cfDNA片段长度区间的平均值,将cfDNA片段长度≤150 bp的片段定义为短片段,片段长度>150 bp的片段定义为长片段,并将总片段中长片段数量和短片段数量的比值定义为片段大小得分,以此作为患者预后分析的因素之一。有研究表明,cfDNA可以在特定的基因组区域或位点被切割,因此对特定的末端碱基基序具有更高的偏好[8],其原因可能是肿瘤基因组中的遗传或表观遗传学变化会导致DNA内切酶表达异常,从而导致血浆DNA末端碱基基序的变化[17]。通过对本研究中总片段末端碱基基序进行两两比较发现,碱基基序为A与G、T与C的片段数量在总片段数中差异无统计学意义,其余分组比较差异有统计学意义,同时分别比较每个末端碱基基序在短片段和长片段中的数量占比,发现每个末端碱基基序在两组中占比的差异均有统计学意义,提示HCC患者cfDNA的片段化具有非随机性,片段末端可能存在特定的DNA酶切割位点,其原因可能与上述提到的肿瘤中DNA内切酶的表达异常有关,但由于样本量较少、测序深度等因素,这种碱基基序的差异也可能是肿瘤相关的末端碱基基序突变导致[17],因此肿瘤患者的cfDNA末端碱基基序分析需要进一步完善。

已有研究报道,癌症患者与健康人群的cfDNA片段组学特征存在差异,如肿瘤来源的cfDNA片段长度更短,癌症患者的cfDNA末端碱基序列多样性更高等[17]。目前已在多种肿瘤中利用cfDNA片段组学特征进行癌症早期诊断,如MENG等[18]发现HCC患者的cfDNA拷贝数变异,与片段大小和AFP联合使用在HCC的早期诊断具有更好的效能。但是利用cfDNA基因组学特征分析患者预后的研究较少,且大多数研究关注了cfDNA的拷贝数(丰度)、基因突变情况能否作为癌症患者的预后影响因素,如HIGUERA等[19]提出cfDNA的丰度、突变基因数量和突变率更高的HCC患者在治疗后具有更高的复发风险和死亡风险;DONG等[20]同样提出了cfDNA的拷贝数可作为预测经动脉化疗栓塞术后的HCC患者预后的指标。区别于以往研究,本研究主要关注HCC患者cfDNA的片段大小分布特征以及cfDNA片段末端碱基基序特征,根据测序数据定义了片段大小得分,并分析了不同片段大小的末端碱基基序特征,同时结合临床指标,再利用多因素Cox回归分析,将cfDNA片段大小得分与临床指标中的肿瘤分化程度、BCLC分期共同纳入HCC患者预后模型中,然后对预后模型进行评估,结果发现预后模型在预测HCC患者术后1年和3年死亡率中具有良好的效能。说明HCC患者的cfDNA片段特征作为一项独立于临床特征的指标,其对精准评估患者预后具有临床指标不能替代的作用,与前期研究[8]结论基本一致。因此,结合HCC患者临床评价与cfDNA特征指标,对HCC预后评估以及指导患者临床治疗及术后管理具有重要的意义。

本研究也有一定局限性。第一,测序数据来源有限,纳入研究的样本地理位置比较单一,无法全面阐明HCC患者的cfDNA特征,其结果可能只适用于本次队列人群,尚不能普及;第二,缺乏对cfDNA片段特征结果背后潜在机制的更深层次探讨,也缺少HCC患者与肝炎患者cfDNA片段特征的比较,主要借鉴既往研究成果进行判断;第三,由于样本量较少,因此参与构建模型的因素较少,缺乏对HCC患者预后更加全面的评估,在后续研究中需要更加注重多中心来源大样本量的研究,以及筛选更多的临床指标和深入分析cfDNA片段组学特征参与模型构建,以构建效能更加理想的预后评估模型。

综上,本研究发现cfDNA片段组学特征联合临床指标在HCC预后评估中具有一定潜力。作为液体活检的检测内容之一,cfDNA检测取材方便,标本相对均质,可实现实时动态检测,因此分析其组学特征并结合患者临床指标,有望用于HCC的早期诊断以及预后评估。未来通过多中心大样本构建cfDNA片段组学标准,确定不同疾病状态下的cfDNA特征阈值,实现个体化精准检测评估,将有助于HCC患者的早期诊断、治疗决策、治疗疗效评估等,进而提高患者的生存率。

猜你喜欢
基序碱基组学
影像组学在肾上腺肿瘤中的研究进展
带TRS基序突变的新型冠状病毒威胁更大
东莨菪碱中毒大鼠的代谢组学
芥蓝Aux/IAA家族基因生物信息学与表达分析
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用
应用思维进阶构建模型 例谈培养学生创造性思维
鼠伤寒沙门菌小RNA GcvB 靶基因筛选和验证分析
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
中国科学家创建出新型糖基化酶碱基编辑器