赵丹丹 何 萍 夏 寒 道 理
流行病学调查研究是了解疾病流行病学特征最常用的方法之一,根据不同的研究目的,可采用普查或抽样调查等方式进行。对于慢性非传染性疾病的流行病学调查,由于时间跨度、经费、人力资源等客观因素的存在,常常采用抽样调查的方式;对于恶性肿瘤的流行病学调查,通常采用医院登记上报的方式[1]。不论采用哪种方法,都需要投入大量的人力资源,且存在资源消耗大、调查周期长等缺限,难以快速地得到流行病调查结果。
以上海市为例,依托于现有的肿瘤登记报告数据,每隔2年公布1次恶性肿瘤报告。恶性肿瘤报告采用的数据为报告当年之前2年的登记数据,经过人工核查、随访等工作,最终形成恶性肿瘤等级报告数据。由于高血压、糖尿病等慢性病的患者基数大,只能采用抽样调查的方式估算患者总数,虽投入了大量的人力资源,但结果却不理想。
上海市自2011年起,建立了上海健康信息网工程,建成了覆盖上海全市公立医疗卫生机构的数据交换网络,实现全市卫生信息的数据共享与业务协同。健康信息网平台以人为主线,按照健康档案三维模型实现了健康信息的汇聚与整合,包括居民在全市各级医疗机构就诊的门急诊就诊记录、住院病案、出院小结、检验和检查报告、用药信息、费用信息等。本研究从真实世界临床数据的角度出发,利用上海市健康信息网工程成果,通过对临床电子病历数据的处理,分析不同类别恶性肿瘤的发病情况,并与传统报告登记方法进行比较,以期探索一种基于大数据的流行病学统计方法,为流行病学调查研究提供一条新途径。
1.1 病历资料 选取2014—2018年间上海健康信息网大数据平台中全部上海市户籍恶性肿瘤患者就诊的病历资料,所有病例的疾病分类编码按照WHO《国际疾病分类》(ICD-10)进行编码。
上海市于2011年4月12日正式启用上海健康信息网,是实现上海市所有公立医疗卫生机构互联互通、共享整合的基础[2]。已基本建立覆盖全市各级各类公立医疗卫生机构的健康信息网,建成市区两级数据交换共享平台,实现了所有区县的38家三级医院、近100家二级医疗机构、240家社区卫生服务中心,以及各级、各类公共卫生机构和10 000余个医生工作站的互联互通。该网连通的信息系统包括医疗服务相关的医院管理信息系统、临床信息系统、实验室信息管理系统及公共卫生服务相关系统等。目前,上海市市级数据中心已集中汇总了200多亿条的诊疗数据,并以每天1 600多万条的速度急速增长,是目前最大的单体真实医疗数据库[3]。
上海市恶性肿瘤发病率资料来源于上海市恶性肿瘤报告,其病例来源于上海市肿瘤登记系统。早在20世纪60年代上海就开始了肿瘤登记工作[4],积累了1973年至今市区恶性肿瘤病例的发病和死亡资料,且在2002年起实现了全市范围内的肿瘤登记[5]。本研究中所参考的发病率数据由上海市CDC发布[6-7]。
1.2 人口资料 选取2017年末上海市人口各年龄段分布数据。2017年(年末)上海全市户籍人口约1 452.33万人。随着期望寿命的不断延长,老龄人口比例大幅度增高,65岁及以上人口已占全人群的21.3%,整体人口年龄结构趋向老龄化。2017年末上海市户籍人口各年龄段分布情况见图1。
图1 2017年末上海市户籍人口各年龄段分布情况
1.3 数据去隐私化 研究过程中,病历所涉及的患者身份信息全部采用商密3算法(SM3,国家标准《信息安全技术SM3密码杂凑算法》,GB/T 32905-2016)进行脱敏处理。患者身份采用去隐私化的通用唯一识别码(universally unique identifier,UUID)来表示。
1.4 数据预处理 本研究中,肿瘤新发病例的准入标准为每年1月1日前未被确诊,且在该统计年度被确诊。对多部位原发恶性肿瘤的新发病例统计是按照各部位恶性肿瘤首次诊断日期分别计入当年的该部位发病病例。实际研究工作中,根据“患者标识+确诊疾病”对数据进行去重处理。
为方便统计比对,本研究基于规范的诊断编码(ICD-10编码)对肿瘤部位进行归类处理:唇、口腔及咽部(鼻咽部除外)(C00-10、C12-14),鼻咽(C11),食管(C15),胃(C16),结直肠(C18-21),肝脏(C22),胆囊(C23-24),胰腺(C25),喉(C32),气管、支气管和肺(C33-34),其他胸腔器官(C37-38),骨(C40-41),皮肤黑色素瘤(C43),乳腺(C50),子宫颈(C53),子宫(C54-55),卵巢(C56),前列腺(C61),睾丸(C62),肾(C64-66、C68),膀胱(C67),脑及中枢神经系统(C70-72),甲状腺(C73),淋巴瘤(C81-85、C88、C90、C96),白血病(C91-95)。
1.3 屈光异常标准 参考仪器厂家提供的范围,S表示眼的球径屈光度(sphere diameter diopter),C表示眼的柱径屈光度(column diameter diopter)。近视:各年龄组均为S≤-1.0;远视:2~3岁S≥3.0,4~5岁S≥2.5,5岁以上S≥2.0;散光:各年龄组均为C≤-1.0或≥1.0。
1.5 统计学处理 以上海健康信息网大数据平台的恶性肿瘤临床就诊病例为数据基础,按性别分层,分别计算恶性肿瘤发病例数和粗发病率、标化率。采用世界标准人口年龄构成进行世界人口标化率计算[8],分析上海市恶性肿瘤发病特征(发病情况、前10位恶性肿瘤的发病部位情况)和发病年度趋势。
2.1 上海市恶性肿瘤发病特征
2.1.1 发病情况 2018年度上海市诊断新发恶性肿瘤病例共计83 152例,其中男43 322例(52.1%)、女39 830例(47.9%);恶性肿瘤粗发病率为702.68/10万(男性为735.47/10万、女性为672.52/10万),标化率为329.05/10万(男性为321.21/10万、女性为339.28/10万)。
2.1.2 前10位恶性肿瘤的发病部位情况 2018年度上海市新发恶性肿瘤病例数按发病部位排名第1位为气管、支气管和肺(16 234例,粗发病率为139.23/10万,标化率为61.67/10万),后依次为结直肠(10 972例,粗发病率为87.19/10万,标化率为34.75/10万)、乳腺(6 815例,粗发病率为58.60/10万,标化率为30.56/10万)、胃(5 336例,粗发病率为43.75/10万,标化率为17.27/10万)、甲状腺(4 556例,粗发病率为47.55/10万,标化率为34.77/10万)、肝脏(3 819例,粗发病率为31.64/10万,标化率为13.17/10万)、前列腺(3 547例,粗发病率为27.17/10万,标化率为9.24/10万)、白血病(2 132例,粗发病率为18.98/10万,标化率为13.16/10万)、膀胱(2 132例,粗发病率为16.66/10万,标化率为6.22/10万)、肾脏(2 002例,粗发病率为16.28/10万,标化率为7.11/10万)。前10位恶性肿瘤占全部恶性肿瘤发病数量的69.2%(57 545/83 152)。
男性新发恶性肿瘤发病部位排名第1位为气管、支气管和肺(8 927例,粗发病率为153.36/10万,标化率为62.79/10万),后依次为结直肠(6 560例,粗发病率为107.10/10万,标化率为42.98/10万)、前列腺(3 547例,粗发病率为55.03/10万,标化率为18.52/10万)、胃(3 402例,粗发病率为57.34/10万,标化率为22.70/10万)、肝脏(2 594例,粗发病率为45.05/10万,标化率为19.27/10万)、膀胱(1 680例,粗发病率为27.07/10万,标化率为10.35/10万)、肾脏(1 370例,粗发病率为23.33/10万,标化率为10.13/10万)、白血病(1 232例,粗发病率为22.78/10万,标化率为16.05/10万)、甲状腺(1 147例,粗发病率为25.57/10万,标化率为19.98/10万)、胰腺(1 043例,粗发病率为17.17/10万,标化率为6.61/10万)。前10位恶性肿瘤占全部男性恶性肿瘤发病数量的72.72%(31 502/43 322)。
女性新发恶性肿瘤发病部位排名第1位为气管、支气管和肺(7 307例,粗发病率为125.31/10万,标化率为60.94/10万),后依次为乳腺(6 815例,粗发病率为115.89/10万,标化率为61.19/10万)、结直肠(4 412例,粗发病率为68.44/10万,标化率为27.19/10万)、甲状腺(3 409例,粗发病率为67.32/10万,标化率为48.54/10万)、胃(1 934例,粗发病率为30.93/10万,标化率为12.34/10万)、子宫(1 234例,粗发病率为21.22/10万,标化率为10.90/10万)、肝脏(1 225例,粗发病率为19.16/10万,标化率为7.56/10万)、子宫颈(1 172例,粗发病率为22.17/10万,标化率为13.08/10万)、白血病(900例,粗发病率为15.55/10万,标化率为10.52/10万)、卵巢(886例,粗发病率为15.28/10万,标化率为8.46/10万)。前10位恶性肿瘤占全部女性恶性肿瘤发病数量的73.55%(29 294/39 830)。
在前10位恶性肿瘤新发病例数中,男性结直肠新发恶性肿瘤标化率是女性的1.58倍,胃新发恶性肿瘤标化率是女性的1.84倍,肝脏新发恶性肿瘤标化率是女性的2.55倍,白血病标化率是女性的1.53倍;女性甲状腺新发恶性肿瘤标化率是男性的2.48倍。
2.2 发病年度趋势 上海健康信息网在2016年已基本覆盖所有的医疗机构、公共卫生中心和社区卫生中心的真实数据,考虑到覆盖之初数据质量的欠缺,本研究主要统计分析2017年、2018年恶性肿瘤的发病情况。由于本研究过程中暂未公开发布2016年上海市恶性肿瘤发病相关数据,故本研究选用上海市CDC发布的2014年、2015年的数据进行比对分析。
整体恶性肿瘤发病情况:与2014年相比,2018年的前列腺、胰腺、神经系统(脑、中枢神经系统)和甲状腺的新发恶性肿瘤标化率降低,其中胰腺、神经系统新发恶性肿瘤标化率顺位跌出前10;肺(气管、支气管和肺)、结直肠、乳腺、胃、肝脏、白血病、肾脏、膀胱的新发恶性肿瘤标化率增高,其中肺、结直肠、乳腺、白血病标化率增高明显(增高幅度>10%)。见图2。
图2 2014—2018年上海市恶性肿瘤标化率变化图(不含2016年数据)
男性恶性肿瘤发病情况:肺(气管、支气管和肺)、结直肠、胃、甲状腺、肝脏、前列腺的恶性肿瘤高发,尤其是肺、结直肠新发恶性肿瘤的标化率显著增高。见图3。
女性恶性肿瘤发病情况:乳腺、肺(气管、支气管和肺)、子宫颈的恶性肿瘤高发,且呈增长趋势;尤其是肺、乳腺新发恶性肿瘤标化率显著增高。见图4。
图4 2014—2018年上海市女性恶性肿瘤标化率变化图(不含2016年数据)
与2014年的数据相比,2018年上海市气管、支气管和肺,以及结直肠、乳腺、胃、肝脏、白血病、肾脏、膀胱部位的新发恶性肿瘤标化率增高,其中气管、支气管和肺,以及结直肠、乳腺、白血病等标化率增高明显(增高幅度>10%)。恶性肿瘤疾病谱的构成发生改变,神经系统和胰腺相关的恶性肿瘤标化率顺位退出前10,白血病和肾脏标化率顺位分别前移至7、9。在男性中,白血病取代食道恶性肿瘤标化率顺位前移至7,且胰腺恶性肿瘤标化率顺位退至第10。在女性中,子宫、白血病、卵巢新发恶性肿瘤标化率顺位移至前10,神经系统、胰腺和胆囊恶性肿瘤标化率顺位退出前10,甲状腺恶性肿瘤标化率由顺位1降至顺位3,乳腺与气管、支气管和肺癌恶性肿瘤标化率分别为顺位1和2。
乳腺恶性肿瘤在女性中高发,女性子宫颈、子宫新发恶性肿瘤标化率呈逐渐增高趋势。
2017年、2018年上海市恶性肿瘤发病例数顺位和标化率、肿瘤谱,以及上海市男、女性新发恶性肿瘤例数顺位和标化率、肿瘤谱的差异不大,数据统计分析结果稳定;表明本研究方法可较快地得到相对客观的、稳定的流行病学统计指标。
本研究方法也存在一些因为数据质量缺陷导致的准确性不足,主要包括两个方面:①疾病编码的一致性;②人员填写疾病编码的准确性。就上海市医疗信息化而言,虽然医院信息化系统普遍采用ICD-10作为疾病编码,但具体系统建设过程中,各医院的信息化系统所采用的ICD-10字典稍有差别,造成恶性肿瘤诊断编码取值可能存在不一致的情况;另一方面,由于人工输入病例数据,可能存在误编码、漏编码的现象,尤其对新发癌症和转移癌的界定不十分严谨造成数据采集误差。随着医疗标准化的进程和数据质量控制措施的不断完备,因数据质量导致的数据误差将逐渐减少。此外,随着各方数据的不断采集和融合,对新发恶性肿瘤病例的识别也能发挥出大数据的优势,将逐步减少数据误差,提高本研究方法的准确性。
本研究方法是基于真实世界临床数据的统计分析方法,与卫生统计学方法存在一些数据来源、数据处理方式的不同,相关研究对此也有描述[3]。与卫生统计学方法相比,本研究方法有人力成本低、调查进度快的优点。本研究目的并不是取代现有肿瘤登记报告制度,而是为现有肿瘤登记报告制度提供一种便捷的、有效的大数据统计方法。利用本研究方法可减少部分人力、物力成本投入,更加快速及时地获取恶性肿瘤的数据,作为传统方法的有益补充。