李珂璇,孙 振,邱辉忠,吴 斌,林国乐,陆君阳,孙曦羽,牛备战,徐 徕,肖 毅
中国医学科学院北京协和医院基本外科,北京 100730
结直肠癌是消化系统常见的恶性肿瘤之一,具有较高的发病率和死亡率。为整合资源,深度挖掘数据信息,进一步提升结直肠癌诊疗水平和患者管理水平,急需建立科学规范的标准化结直肠癌专病数据库。国外的肿瘤登记数据库建设起步早、覆盖面广、发展较为成熟,如美国国家癌症数据库(National Cancer Database,NCDB)是全球范围内最大的肿瘤登记数据库,有超过1500家医院向该数据库报告肿瘤数据,可覆盖约70%的新发癌症人群[1];SEER(Surveillance,Epidemiology,and End Results)数据库是以美国部分州县肿瘤人群(17家区域性登记中心)为基础的公共卫生数据库,自1973年开始数据登记,内容涵盖肿瘤监测、流行病学及预后等信息[2],上述两家数据库均具有较高的覆盖面及合理的登记、核查系统,为肿瘤防控策略的制订提供了诸多高级别循证医学证据。就国内而言,此领域起步较晚,2017年8月中国临床肿瘤学会(Chinese Society of Clinical Oncology,CSCO)成立的结直肠癌大数据中心(Bigdata Alliance for Colorectal Cancer,BACC)和2017年9月中华医学会外科学分会结直肠外科学组所建立的中国结直肠癌手术病例登记数据库(Chinese Colorectal Cancer Surgery Database,CCCD)是我国国家级结直肠癌数据库建设的初步尝试,但其临床管理和信息登记仍需完善。
除国家级数据库外,国内单中心数据库的建设也处于蓬勃发展状态。四川大学华西医院于1995年建立了来源于区域性医疗中心的华西肠癌数据库(Database from Colorectal Cancer,DACCA)。为适应学科发展需求,北京协和医院结直肠专业组2016年1月正式建立北京协和医院结肠癌专病数据库,该数据库可与全院的医院信息系统(Hospital Information System,HIS)相关联,并由专职科研助理进行管理。截至目前,北京协和医院结肠癌专病数据库已运行6年余,完成近2000例行手术治疗结肠癌患者的数据录入及随访工作,本研究基于该数据库中结肠癌患者的基础特征和生存信息,首次对该数据库进行介绍和展示,并计算相关条目的缺失率及随访率,以期为我国结直肠癌数据库的建设与发展提供借鉴。
本研究数据来源于北京协和医院结肠癌专病数据库中2016年1月5日—2022年5月11日行手术治疗的结肠癌患者。该数据库为前瞻性登记的临床数据库,其基于全院HIS系统,可于病历录入界面设置提取字段(如外院辅助检查报告提示的病变部位等),并自动同步录入临床科研数据管理系统,最终由全职科研助理进行信息的二次核对及随访信息录入,数据库相关操作界面见图1。纳入标准:入院诊断为结肠癌并行结肠癌手术的患者。
排除标准:(1)病理诊断为非结肠癌(如直肠癌)患者;(2)TNM分期为0期或分期未知患者。
本研究已通过北京协和医院伦理审查委员会审批(审批号:ZS-2888),并豁免患者知情同意。
由于2020年7月2日该数据库进行迁移更新时对数据条目进行了一定调整,故本研究主要涉及数据库迁移前后均有登记且具有代表性的条目,主要包括:(1)患者基本信息:性别、年龄、民族、婚姻状态、体质量指数(body mass index,BMI)、手术年份、美国麻醉医师协会(American Society of Anesthesiologists,ASA)分级;(2)原发灶特征:原发灶数量、病变部位(肠镜检查探测的肿瘤位置);(3)手术相关信息:术前化疗(有/无),手术类型(腹腔镜、开腹、中转开腹),术式(右半结肠癌根治术、横结肠癌根治术等),联合脏器切除(有/无);(4)术后病理信息(基因检测相关数据较少,未纳入本文分析):粘液腺癌、印戒细胞癌、低分化腺癌、T分期、N分期、M分期、TNM分期、环周切缘情况、脉管瘤栓、神经侵犯、免疫组化错配修复(mismatch repair,MMR)状态;(5)术后并发症相关信息(截至术后30 d);(6)随访信息:术后6个月至5.5年间每6个月随访1次,由全职科研助理负责录入随访日期及患者生存状态(无瘤生存、带瘤生存、死亡)。
基于收集的33个信息字段和随访信息,进行如下分析:(1)条目缺失率=该条目信息缺失的患者数目/纳入分析的患者总数×100%;(2)术后并发症发生率;(3)随访率和失访率,包括:①术后6个月至5.5年间每隔6个月的随访率,其为具有生存状态的患者数目在满随访期患者总数中的占比[由于数据库迁移导致数据提取格式发生转变,仅2020年7月2日之前(含2020年7月2日)的患者可提取每6个月随访情况,2020年7月2日之后的患者仅可统计总体失访率];②完全随访率:除死亡患者外,2020年7月2日前登记的患者均应完成术后2年共计4次随访,统计本部分患者2年完全随访率(4次随访均完成或死亡前随访均完成的比例);③完全失访率:将任何1次随访均未获知生存状态的患者定义为完全失访,计算研究期间患者的完全失访率。
采用SPSS 22.0软件进行统计学分析,采用GraphPad Prism 8软件绘制图表。年龄、BMI为正态分布计量资料,以均数±标准差表示;随访期为偏态分布计量资料,以中位数(四分位数)表示;条目缺失率、并发症发生率、随访率等计数资料以频数(百分数)表示。采用Kaplan-Meier法绘制生存曲线。
研究期间北京协和医院结肠癌专病数据库中共登记1781例行手术治疗的结肠癌患者,排除TNM分期为0期或分期未知87例,被错误分类入库12例(直肠癌患者4例、阑尾癌患者8例),共1682例结肠癌患者纳入分析。其中男性981例,女性701例;年龄为(62.75±11.97)岁;BMI为(23.68±3.46)kg/m2;汉族1600例,少数民族82例。不同年份患者的年龄、BMI分布基本一致(图2)。
图2 不同手术时间患者年龄、BMI分布特征
基本信息方面,性别、年龄、民族信息均无缺失,ASA分级、BMI、婚姻状态、手术年份缺失情况均较少见,缺失率分别为2.7%、0.7%、0.1%、0.1%;原发灶信息方面,原发灶数量缺失率为0.4%,病变部位缺失率为12.2%,见表1。
表1 1682例结肠癌患者基本资料及原发灶特征登记情况
手术信息方面缺失率均较低,其中以术式的缺失率相对较高(1.7%),手术类型、有/无术前化疗、有/无联合脏器切除的缺失率分别为0.4%、0.3%、0.1%;病理信息方面,病理分期均无缺失,余信息缺失率分布于0.4%~8.0%,见表2,3。
表2 1682例结肠癌患者手术相关信息登记情况[n(%)]
表3 1682例结肠癌患者术后病理信息登记情况[n(%)]
1682例结肠癌患者中,共263例(15.6%)发生术后并发症,按照发生率高低依次为切口并发症(3.3%,55/1682)、腹泻(3.2%,54/1682)、肺部感染(2.7%,45/1682)、肠梗阻(2.7%,45/1682)、腹腔感染(2.0%,34/1682)、泌尿系统感染(1.4%,23/1682)、吻合口漏(1.3%,22/1682)、淋巴漏(1.3%,22/1682)、吻合口出血(1.0%,17/1682)。
对2016年1月5日至2020年7月2日期间的1068例患者每6个月进行1次随访统计,结果显示第1、2、3、4、5年随访率分别为55.02%、70.96%、72.02%、65.42%、70.91%,其中以第3.5年时的随访率最高(73.20%),见表4。该期间共208例患者满足完全随访的定义,2年完全随访率为19.5%。
表4 1068例结肠癌患者随访率信息
2016年1月5日至2022年5月11日的1682例结肠癌患者中,共28例(1.7%)患者完全失访,至少有1次随访率数据的患者占比98.3%,即98.3%的人群具备随访信息。1682例结肠癌患者的中位随访期为31(16,53)个月。其中TNM Ⅰ期、Ⅱ期、Ⅲ期、Ⅳ期患者的5年总生存率分别为92.8%、92.9%、79.4%、41.6%,Ⅰ期、Ⅱ期、Ⅲ期患者的无病生存率分别为89.8%、87.5%、71.2%(Ⅳ期患者存在转移灶未处理的病例,其不具有无病生存率),见图3。
图3 1682例结肠癌患者随访期内Kaplan-Meier生存曲线
本研究基于1682例结肠癌患者的临床数据,从基本资料、原发灶信息、手术相关信息、病理特征等方面展示了北京协和医院结肠癌专病数据库中条目缺失情况,并统计分析了患者的随访率,以期为单中心结直肠癌数据库的建设提供参考。结果显示,各条目信息整体较完整,缺失率分布于0~12.2%,其中以病变部位(12.2%)、免疫组化MMR状态(8.0%)的缺失率相对较高。随访率方面,98.3%的患者具备生存信息,完全失访者仅占比1.7%。提示该数据库条目信息缺失率较低,数据完整性较好,具有参考价值。虽然完全失访患者的比例较低,但连续随访率仍存在改善空间。
高质量的肿瘤单病数据库蕴含丰富的肿瘤诊断、治疗及预后信息,对肿瘤基础与临床研究及学科发展均有极大的推动作用,并可助力健康中国战略的实施。数据可信是针对数据库进行一系列研究的基础和前提,其包括数据条目的完整性和准确性两个方面,而数据完整性一方面可体现出数据高质量的收集,亦可通过多维度数据验证,从侧面反映数据的准确性。本研究分析的北京协和医院结肠癌专病数据库中33个数据条目,囊括了患者基本信息、病变特征、手术与病理信息、术后并发症及随访相关数据,维度多、覆盖面广,在数据库条目缺失率方面表现出了较强优越性:纳入分析的条目中,数据整体较完整,缺失率<1%与<5%的条目分别占比81.8%和93.9%,其中患者基础信息中各条目的最高缺失率为2.7%,手术相关信息为1.7%,病理相关信息为8.0%。缺失率最高的条目为肠镜检查时的病变部位(12.2%)。根据后续查询结果,此部分数据缺失主要是由于患者入院记录中未包含肠镜信息或肠镜未指出病变所在的具体部位。其余缺失数据亦存在类似现象,即多数因报告单缺失或不完整导致的数据缺失。如此低的数据缺失率提示该数据完整性较好,这在既往报告的单中心数据中十分少见。笔者通过回顾文献的方式描述了既往肿瘤专病数据库的条目缺失情况,如在肿瘤部位方面,根据DACCA数据库2019年10月6日更新的数据[3],11 898例患者中登记肿瘤部位者仅4454例;在病理信息方面,根据基于海军军医大学第一附属医院结直肠癌病理登记库所发表论文的数据[4],其脉管瘤栓、神经侵犯缺失率分别达51.86%和51.74%。
在随访率方面,CCCD数据库2018年3月至2019年10月登记的72 560例行手术治疗的结直肠癌患者中,具有长期随访资料者仅占比20%[5]。本中心数据库中完全失访患者的比例仅为1.7%,提示数据的连续性和完整性较好。保持较高的随访率主要依赖于本中心专职科研助理每6个月对患者进行1次定期随访(包括电话随访、门诊随访),相较于外科医生利用临床工作以外的时间进行随访,此种由专人负责随访的模式对随访数据的一致性和完整性更有保障。
真实的数据分析是相关部门制订卫生决策的重要依据,而真实的数据分析需以数据准确性为前提。在数据库准确性方面,主要有以下3种可评估的方式:(1)人工复核数据库条目与病历登记信息,以查验其准确性;(2)与国家保险等其他客观数据来源进行数据比对;(3)通过该数据库中某些关键特征信息与高质量研究进行比对,以间接判断数据库数据准确性。第一种方式实际操作存在较大难度。以本中心数据库为例,研究期间共登记250 980个单独的数据字段,一次性进行人工复核可行性差。通过与其他客观数据来源进行核验是一种潜在的数据验证方式,如Mallin等[6]通过比对NCDB数据库与俄亥俄州保险赔付的信息,认为NCDB数据库手术信息登记具备的准确性为中等(k=0.64)。但其他客观数据可及性差,可行性仍不高。因此,本数据中心一方面通过数据库与病历系统的链接实现条目直接导入,减少人工录入或重复录入导致的失误;另一方面,在日常研究统计分析时注意数据的核对,若发现登记有误则及时反馈科研助理,从而不断提高数据质量。
在数据库关键信息方面,本中心数据库体现出了北京协和医院就诊患者的特点。患者平均年龄为(62.75±11.97)岁,BMI为(23.68±3.46)kg/m2,与华西医院DACCA数据库较为一致[年龄:(59±13)岁,BMI:(22.77±3.30)kg/m2],且本中心数据库患者年龄、BMI分布未随手术时间改变而发生显著变化,与DACCA数据库中患者年龄、BMI随时间变化趋势的拟合结果亦不具有显著性相符合。在患者病理分期信息方面,DACCA数据库中患者的TNM分期分布为Ⅰ期11.7%、Ⅱ期31.4%、Ⅲ期31.1%、Ⅳ期22.5%,而本中心数据库TNM分期Ⅰ~Ⅳ期患者占比分别为16.1%、40.3%、36.6%和7.0%,该数据库中Ⅳ期患者的占比较DACCA数据库明显减少,可能与二者的数据来源存在差异有关,DACCA数据库建设初期包含了由肿瘤内科申请进行多学科协作诊疗的患者,此部分病例病情复杂、病理分期较晚[7]。在其他一些关键标志性数据方面,北京协和医院结肠癌专病数据库与既往高质量前瞻性研究亦具有一致性,如本中心数据库显示结肠癌术后吻合口漏发生率为1.3%,与COLOR随机对照临床试验中吻合口漏发生率相近(2.5%)[8]。与SEER数据库中按照美国癌症联合委员会(American Joint Committee on Cancer,AJCC)分期的患者相比,本中心数据库中不同TNM分期结肠癌患者的5年生存率均增高[9],推测可能的原因:(1)本中心数据库建立时间晚于SEER数据库,随着医疗水平的提高,肿瘤患者预后得到了改善;(2)SEER数据库反映了美国各医疗机构整体的结肠癌流行病学数据,而单中心数据则与本中心的医疗水平和患者依从性相关。
相较于既往数据库,本中心数据库存在如下优势:(1)与全院HIS系统相关联,可高效获取标准化的信息,保障了数据条目的统一性、完整性,减少了统计分析过程中的数据损失;(2)由专人负责数据维护与核对并对患者定期随访,发现登记错误能及时更正,保障了数据的真实性、连续性。该数据库亦存在需完善之处:(1)进一步细化登记条目手册,明确定义条目的分类规则,并根据临床指南的更新及时迭代登记分类条目;(2)与肿瘤内科、消化内科开展多学科协作联合登记;(3)与国外一些数据库相比,随访率仍有待提高,如梅奥诊所建立的结直肠癌登记数据库中1972—2017年登记患者的完全失访比例仅为0.16%(44/26 908)[10]。此外,本数据库中完全按照要求进行随访的患者比例亦较低,而连续随访是保障生存结局准确性的关键,因此进一步提升随访率是下一步亟待改善的目标。
肿瘤专病数据库包含大量真实的临床数据,不仅可为基础研究和临床科研提供思路和素材,同时是数据挖掘、人工智能与机器学习、卫生经济学研究溯源的基础。本研究对北京协和医院结肠癌专病数据库建立以来连续6年余的数据进行了分析,结果显示该数据库条目缺失率较低,几乎所有的患者均具有随访信息,整体数据质量较高,具有一定的参考价值,但连续随访率仍存在较大的提升空间。单中心数据库是未来建设多中心联合专病数据库的基础,通过总结本中心结肠癌数据库相关经验,相信可为其他专业医疗数据库的建立提供参考。
作者贡献:李珂璇、孙振负责数据收集与整理、统计分析及论文撰写;肖毅负责研究设计与论文修订;邱辉忠、吴斌、林国乐、陆君阳、孙曦羽、牛备战、徐徕负责数据质控。
利益冲突:所有作者均声明不存在利益冲突