李 琳, 张学良, 王 哲, 杨日东, 周 毅
(1新疆医科大学公共卫生学院, 乌鲁木齐 830011; 2新疆医科大学医学工程技术学院, 乌鲁木齐 830011; 3中山大学中山医学院, 广州 510080)
肝细胞癌(hepatocellular carcinoma ,HCC)是全球最常见的恶性肿瘤之一,2015发布的“全球癌症统计”中指出2012年全球肝癌新发病例数约为78.25万人,死亡病例数约为74.55万人[1]。我国的肝癌死亡总数占全球肝癌死亡总数的51.4%,其发病率呈上升趋势,严重威胁人民的生命健康[2]。随着科学技术的发展和对肝癌认识的加深,肝癌的治疗方式不断进展(目前手术切除仍是肝癌患者首选治疗方法),肝癌患者的5年生存率有所上升,但肝癌的整体预后还是较差。针对这种现状,提高预后质量是目前世界医学界的重大攻关课题。
目前基于临床风险因素,如年龄、肿瘤大小、是否出现淋巴结转移、脉管瘤栓和肿瘤分期等,能够粗略预测肝癌患者的预后状况。但是由于临床数据呈现高维度、多样化的特点,若不能将这些高维度信息综合进行总体科学预测的探索和结论,会造成预后预测准性下降。而聚类分析作为一种非监督式的机器学习方式,可以在研究对象未标记的情况下,利用算法对高维度、大样本数据集进行对象间相似性分析,将数据库中自然存在的、非常相似的对象聚集在一起。
根据患者的临床表型信息使用聚类方法区分亚组,已经在其他疾病运用并取得了结果,王智等[3]通过聚类分析获得pT1~2N0 期浸润性乳腺癌患者的12个表型亚组,且不同亚组的患者在临床病理特征上存在明显差异。Ahmad等[4]使用聚类分析来探索慢性心脏病患者的临床表型,确定了4种不同的慢性心衰表型。聚类分析也被应用于其他疾病的临床表型,如慢性阻塞性肺病[5-7]、脑膜炎[8]、帕金森症[9]。
因此,对原发性肝癌患者,聚类分析可以基于临床病理特点分析患者间相似性,进而归纳出具有相似特征的表型亚组。基于表型亚组进行个体化预后评估和治疗指导,可以避免过度治疗或治疗不足。本研究中,我们通过聚类分析386例原发性肝癌患者的临床表型信息,并根据临床表型得到不同的临床表型亚组,进而评估亚组患者的临床病理特征,分析患者进行肝切除手术后的预后状况。
1.1一般资料本研究收集了2005-2009年在广东省某三甲医院收治的540例肝肿瘤患者资料,随访截至时间为2013年12月。纳入标准:(1)手术前未行其他治疗的HCC患者;(2)病理检查证实为HCC;(3)行根治性肝癌切除术。排除标准:(1)没有完整随访时间和随访结局;(2)患者的变量信息缺失≥13个。最终386名患者纳入分析。
根据临床医生指导,并结合其他研究文献,筛选出可能影响HCC患者生存时间的34个变量,纳入的34的变量包括患者的人口学特征、家族史、体格检查以及术前最近一次的实验室检查。患者的人口学特征包括患者性别、年龄、患肝癌家族史的信息,并将患者的年龄分为≥60岁和<60岁。在根治性肝切除术前获得了患者的白细胞计数(WBC)、红细胞计数(RBC)、血红蛋白(Hb)、血小板计数(PLT)、尿素氮(BUN)、丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、γ-谷氨酰转肽酶(rGGT)、总胆红素(TBIL)、白蛋白(ALB)、甲胎蛋白(ALP),因为不同患者的检查值差异较大,本研究依据医学参考值范围将患者分为正常值和异常值。此外还获得患者的乙肝表面抗原(HBsAg)的信息,患者是否还有门静脉癌栓瘤栓(PVTT)、肝静脉瘤栓(HVT)、胆管瘤栓(BDT)、下腔静脉瘤栓(IVCT)、大血管侵犯、脉管侵犯、周围器官侵犯、并发症、淋巴结转移的信息。肿瘤大小采用最大肿瘤直径纳入分析。
除了癌细胞的内在特性,一些与身体炎症相关的因素也被越来越多的研究者认为是不良预后的影响因素[10-11]。最近的研究表明基于炎症的预后分数(如嗜中性粒细胞/淋巴细胞比例(Neutrophil to Lymphocyte Ratio,NLR)对肿瘤患者具有预后预测价值[10, 12-13]。因此本研究纳入NLR作为分析变量。
1.2临床终点本次研究的随访时间为从患者进行肝切除手术日期至2013年12月,主要结局事件是中位随访时间为26个月(95%CI:20.823~31.177) 的所有原因导致的死亡和复发肿瘤。预后评价指标为无瘤生存时间(disease-free survival,DFS)和总体生存时间(overall survival,OS)。无瘤生存时间是指从肝切除手术时间开始至首次出现疾病复发的时间、无复发而死亡的时间或者末次随访时间。总体生存时间则是指从肝切除手术日期开始至任何原因死亡的时间或末次随访时间。
1.3统计学处理首先对数据进行预处理,删除没有记录无病生存时间的患者之后共有样本386个,缺失率约为4.299%,为保证数据样本含量,对缺失数据采用最近邻(KNN)插补[14],获得完整数据集。接着采用主成分分析(principal component analysis,PCA)对34个选定的变量进行综合分析。再基于PCA结果采取层次聚类分析的方法获得了原发性肝癌的4组临床表型亚组。最后使用Kaplan-Meier方法和Cox比例风险模型评估各亚组的生存率和复发率,检验水准α=0.05。层次聚类分析的验证采用假设检验,分类变量和连续变量分别使用卡方检验和秩和检验验证不同亚组患者的临床表型是否具有统计学差异,连续变量的描述性分析使用均值和极值表示[M(Xmin,Xmax)]。所有统计分析采用RStudio 1.0.143软件和SPSS Staticis 17.0统计分析。
2.1PCA结果为保证要解释变量方差的累计贡献率达到80%以上,因此选择20个主成分纳入分析,这20个主成分能够解释原始信息的82%。这20个主成分的特征根以及特征根的累计贡献率见表1。
表1 20个主成分的特征根以及特征根的累计贡献率
2.2聚类分析结果本研究中采用层次聚类的方法,它是通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。类与类之间的距离采用Ward法,即两类之间所有变量方差分析的平方和,Ward连接尽可能缩小类内差距,使得类内患者的临床病理特点更加相似,并且扩大类间差距,使得不同类患者的临床病理特点差异更大。根据PCA中确定的20个主成分,使用聚类分析对386例原发性肝癌患者进行分析,结果显示树状图显示聚类过程逐渐加入(图 1)。聚类分析确定了4个肝肿瘤亚组。
图1 聚类分析结果
2.2.1 4个亚组临床表型信息分析结果 通过对临床表型特点分析,4组患者的家族史、HBsAg、肝硬化、ALP、WBC、Hb、PLT、BUN、ALB、PVTT、HVT、BDT、大血管侵犯、脉管侵犯、周围器官侵犯、包膜不完整、淋巴结转移、是否有腹水、中性粒细胞比、淋巴细胞比以及NLR有统计学差异(P<0.05)。亚组1 包括145名患者,男性占98.6%,没有肝癌家族史,有99.3%的患者HBsAg检查结果呈阳性,95.2%的患者Hb值为异常值,大多数患者的LDH、ALP、WBC、RBC、PLT、ALT、TBIL值在正常医学参考值范围内,而所有患者的BUN和ALB值都在正常值范围内。这组患者几乎没有PVTT、HVT、BDT、IVCT、大血管侵犯、脉管侵犯、周围器官侵犯、并发症和淋巴结转移。此外这组患者大多包膜完整,肿瘤单发,平均最大肿瘤直径为7.76 cm(4组中最小),中性粒细胞比的平均值为56.29%(4组中较小),淋巴细胞比的平均值为30.51%(4组中最大),NLP的平均值为2.12(4组中最小)。亚组2包括198名HCC患者,患者倾向于没有肝癌家族史的男性,有64.6%的患者年龄<60岁,有85.9%的患者伴有肝硬化,较少患者的实验室检查结果为异常值。但是,第2亚组有33.8%、37.4%、43.4%和47.0%的患者伴有PVTT、大血管侵犯、脉管侵犯和包膜不完整。第2亚组的患者均没有发生淋巴结转移,肿瘤大小平均为8.5 cm,NLR的平均值为2.82。亚组3有12名HCC患者,第3亚组为男性,年龄大于60岁,约有70.6%的患者的ALP检查结果为异常值,第3亚组的大多数患者的ALP、Hb、AST和rGGT检查结果不在正常医学参考值范围内,少数患者的BUN、RBC值不在正常医学参考值范围内。第3亚组的患者约有一半有脉管侵犯和包膜不完整,本研究人群中的有淋巴结节转移的患者均在第3亚组。同第1亚组相反,患者的最大肿瘤直径的平均值为10 cm,其值为四组中最大的;中性粒细胞比的平均值为60.36%,也是四组中平均值较大的一组;淋巴细胞比为24.39%,为四组中平均值最小的。第3亚组的患者的1年的无瘤生存率和总体生存率分别为16.7%和50%, 3年的无瘤生存率和总生存率均为零,与第1亚组相反,这组的预后效果是最差的。亚组4有31名患者,第4亚组为男性,年龄小于60岁,大多数患者有肝癌家族史,有80%左右的人HbSAg检查为阳性且有肝硬化,有80.6%的患者的Hb结果为异常值,几乎所有患者的实验室检查结果均为正常值。第4亚组的患者没有HVT,BDT,IVCT和淋巴结转移,几乎所有患者没有大血管侵犯、脉管侵犯、周围器官侵犯和并发症。这组的最大肿瘤的平均直径为8.5 cm,中性粒细胞比、淋巴细胞比和NLR的平均值为60.63%,25.98%和2.82,具体见表2。
表2 4个亚组的临床表型信息分析结果/%
2.2.2 4个亚组患者1年、3年无瘤生存和总体生存状况 4组患者的1年、3年无瘤生存时间和总体生存时间均有统计学差异(P<0.05)。第1亚组的患者的1年和 3年无瘤生存率分别为51.0%和40.00%,1年和3年的总生存率分别为75.9%和55.4%,相较于其他组,这组患者有较好的预后效果。第2亚组的患者的1年和 3年无瘤生存率分别为42.4%和25.3%,1年和3年的总生存率分别为61.6%和40.9%。第3亚组的患者的1年的无瘤生存率和总体生存率分别为16.7%和50%, 3年的无瘤生存率和总生存率均为零,与第1亚组相反,这组的预后效果是最差的。从Kaplan-Meier曲线可以看出,不管是复发还是死亡,亚组3的结局风险最高,亚组1的结局风险风险最低,亚组2和亚组4的结局风险相似。也就是说亚组3患者有较差的预后情况,而且与其他组的预后差异都比较大,亚组1相对于其他亚组有较好的预后效果,见表3、图2、3。
表3 4个亚组患者1年、3年无瘤生存和总体生存状况/%
图2 各亚组患者1年、3年无瘤生存时间的风险函数曲线
图3 各亚组患者1年、3年总生存时间的风险函数曲线
2.2.3 4个亚组患者无瘤生存时间和总体生存时间的风险比 将亚组1作为对照组,第2亚组的复发风险比(Hazard Ratio,HR)为1.32(95%CI:1.03~1.70),第3亚组的HR为3.60(95%CI:1.97~6.58);在考虑死亡风险时,第2亚组的死亡风险提高了1.43倍(95%CI:1.10~1.86),第3亚组的死亡风险是第1亚组的4.11倍(95%CI:2.11~8.00),见表4。
以患者临床表型信息为划分依据,对HCC患者进行分型,能够对患者进行个体化预后评估和治疗指导。本研究运用聚类分析结合PCA方法,基于包括患者的人口学特征,家族史,体格检查以及术前最近一次的实验室检查的34项临床表型变量,对386名HCC患者进行表型差异性分析和预后分析。
表4 各亚组患者无瘤生存时间和总体生存时间的风险比
本研究结果显示,4个表型亚组患者均有各自明显的临床特征,基于临床表型的特点分析分析各组预后状况,第1亚组的HCC患者生存质量最高,3年无瘤生存率和3年总生存率分别为40.0%和52.4%。可能是因为实验室检查结果多为正常,且没有发生癌转移,表明这一组患者的肝功能储备较好,且本研究证明了该组患者在进行肝切除手术后的预后最好,因此建议针对这类患者考虑进行肝切除手术进行治疗[15],同时也可以考虑冷冻治疗和肝动脉栓塞治疗。
第2亚组相较于第4亚组患者,有较多的癌细胞侵犯,但都没有淋巴结转移,且大部分患者有肝硬化,亚组4的复发和死亡风险都略高于亚组2,且这2组的3年无瘤生存率分别为25.3%和19.4%,2组的3年总生存率分别为40.9%和41.9%。有研究证实,当肿瘤直径在5 cm且伴有肝硬化的患者,肝移植为较好的治疗方案[16]。因此第2亚组患者考虑进行肝移植手术,第4亚组有较少的患者出现癌转移,可以考虑肝动脉栓塞治疗。
第3亚组的患者预后最差,3年无瘤生存率和3年总生存率均为0,可能是发生了淋巴结转移,发生淋巴结转移意味着患者进入晚期,且NLR值(1.68~4.36)较大,这与一些研究[11,13]报道的NLR为HCC患者的独立性预测因子,且NLR值越高预后效果越差的结论相符。并且这组患者大多是男性,年龄较大,都可能是其预后差的影响因素,这一亚组患者的术后生存质量差,且复发和死亡风险极高,下一步可以分析其他治疗方式的生存质量。针对晚期原发性肝癌主要以全身系统性治疗为主,包括:分子靶向治疗、全身系统化疗及免疫等治疗方法[17]。
虽然本研究获得了较理想的结果,但仍然有一些潜在的局限性需要考虑。第一,HCC患者的随访时间较短,为了更全面的分析患者的术后生存状况,需要进行长期随访后再进一步分析。第二,本研究的数据集仅包括386名患者,且所有数据来源于同一家医院,为了覆盖更多人群,获得更加个体化的预后分析,需收集其他地区其他医院的HCC患者纳入研究。第三,本研究为保证样本量,对个别缺失值进行插值处理,其结果可能会影响聚类分析结果。接下来本研究将扩大样本含量,对大样本的HCC患者进行聚类分析,同时寻求更好的降维方法,比如使用现在流行的机器学习方法,以减少在降维处理时损失过多的原始信息,并建立区分HCC患者亚组的模型并希望应用于临床实践。