刘嘉庆 李 光
(中国医科大学附属第一医院放疗科,沈阳110001)
肺癌是临床常见的恶性肿瘤之一,严重威胁人类的健康。2018年全球新增肺癌患者209万人,新增比率11.6%,肺癌死亡人数176万,占所有癌症死亡患者18.4%。肺癌已成为中国乃至全球发病率和死亡率最高的恶性肿瘤,是名副其实的“癌症第一杀手”[1]。 由于肺癌早期症状并不明显,一旦发现多为中晚期。尽管,肺癌的治疗策略,如手术治疗、抗血管生成治疗、靶向治疗、化疗、免疫治疗等越来越丰富,为广大患者提供了全面的个体化治疗选择,但目前肺癌的5年生存率也仅为16.1%[2]。因此,如何早发现肺癌,采取最恰当治疗方案,是目前肺癌领域仍亟待解决的问题。
当今,我们正处在一个数据爆炸性增长的时代。大数据在医疗领域的应用和发展极大地促进了医疗模式的革命性变革,有助于扩大医疗资源的供给,降低医疗费用,提高医疗服务效率[3,4]。医疗大数据具有数量多、规模大、多样化的数据结构、数据呈几何增长、信息价值高等特点[5,6]。通过构建肺癌过大数据,可掌握省市级肺癌的发病情况、发病特点以及诊疗情况,将推动肺癌科研水平的提升,进而提高我国各省市肺癌的诊疗水平。构建省市级肺癌大数据平台,通过数据的共建共享机制,让数据汇集、流动、应用起来,在促进肺癌发展的同时,更好地造福于中国广大患者。
目前省市级医院基本上实现了病历电子化,肺癌患者在就诊过程中产生了大量肺癌数据,但这些数据基本处于“沉睡”状态,仅用于病历的保存,价值有限。各个医院间的数据相互之间并没有打通共享,已有的数据没有发挥它应有的价值。在此背景下,在政府主导下,省市级医院联合卫生管理部门、疾病预防控制以及社会医疗保险部门,建立一个多中心、常态化的、共享共建的肺癌专病平台,将癌症患者诊治过程中所产生的海量医疗大数据进行清洗、转换、脱敏后,利用大数据的技术手段进行深度分析,提取有价值的信息,辅助临床医务人员、公共卫生管理部门对肺癌进行治疗和预防,为卫生行政主管部门有针对性地降低肺癌发生率和病死率,提供决策依据[7,8]。
2.1建立数据来源 数据来源主要包括省市级医院、社区卫生服务中心、疾病预防控制中心等各级各类医疗卫生机构形成的电子病历、全员健康电子档案、体检报告等。
数据内容:(1)患者现病史、既往史、体格检查、化验检查(血常规、 尿常规、 大便常规、 肝功能、 肾功能)、辅助检查(胸部CT、核磁共振、PET-CT)以及治疗情况等数据,特别是影像、病理或细胞学数据。(2)随访资料:患者生存时间、生存状况、复发情况、末次随访结果等信息。(3)放(化)疗信息,包括放化疗方式、剂量、疗效等。(4)对原始大数据技术的统计分析数据:将得到每位患者的数据或者所有患者的有效数据进行统计分析,达到直观的统计图像。(5)肺癌基因检测数据。
2.2数据存储 应用关系数据、非关系数据和分布式数据存储等形式进行数据存储,以满足肺癌医疗数据资源存储结构特点和未来需求,静态建设要求。数据存储应具备高稳定性、高扩展性、异构性、兼容性、易维护性等要求。
2.3数据分析 采用批量、内存及流计算等技术,综合各类业务逻辑和算法,分层、分类对海量医疗大数据进行在线/离线计算、分析(统计分析、数据挖掘、人工智能等),建立可视化的肺癌医疗大数据的分析模型库。
2.4应用场景 医院、社区服务中心、疾病预防控制中心、养老机构、妇幼保健院、卫生计生委、健康相关产业部门。
3.1平台系统集成方案 可采用MapReduce、Hadoop等程序构建肺癌大数据库系统,然后对大数据平台进行访问、存储、分析和管理,将数据进行虚拟化,采用openGL 技术绘制肺癌地图,并按地图行政区划进行钻取[7,9,10]。接着,利用百度地图公开的 API,将患者的地址转换为详细的经纬度,为肺癌地图的绘制提供准确的数据。集成医院病历管理平台数据,为肺癌地图模型提供准确、完成的数据的相关海量数据。最后采用聚合算法(Aggregation algorit-hm)、分组算法(Block algorithm)、贝叶斯算法(Baiyes algorithm)等大数据算法,对癌症患者进行深度分析。
3.2系统模块组成[11,12]
3.2.1系统登录 管理系统登录界面,检查登录用户名、密码是否为系统合法用户,必要时进行管理员手机认证功能。
3.2.2病历录入 (1)基本信息:肺癌患者住院号、医保卡号、姓名、年龄、身份证号码、地址、联系方式等基本信息。(2)就诊记录:肺癌患者在本医院的历次门诊、住院就诊信息。(3)既往史:肺癌病史以及其他疾病史。(4)治疗情况:肺癌治疗历史记录。
3.2.3化验检查记录 (1)血尿便常规:肺癌患者的血常规、尿常规及大便常规检查参数。(2)肝肾功能:肺癌患者的肝肾功能检查参数。(3)影像学检查:肺癌患者的 CT、 B 超或磁共振检查参数。(4)病理学和细胞学检查:肺癌患者的病理学和细胞学检查参数。
3.2.4患者资料查询和跟踪 查询患者的病历信息、跟踪治疗情况。
3.2.5数据统计分析 对患者的各项参数进行分析统计并形成图表。
3.3平台系统具体参数设置 平台系统包括13个项目,具体设置如下:(1)既往史:平时健康状况、糖尿病病史、结核病史、高血压病史、肝炎病史、其他传染病史、输血史、药物过敏史(临床表现、过敏药物)、药源性疾病、食物过敏史(临床表现、过敏食物)、食物中毒史(临床表现、中毒食物)、手术史、外伤史、重大疾病史、预防接种史。(2)肺癌病史:KPS 评分、主诉、现病史、体检、随访医生、死亡时间生存期、疗效评价。(3)血常规:白细胞计数(WBC)、中性粒细胞、淋巴细胞、中值细胞、红细胞计数(RBC)、血红蛋白(HGB)、血小板计数(PLT)、生化检查、总蛋白、白蛋白、丙氨酸转氨酶、葡萄糖、尿素。(4)尿常规:尿胆原、Neg、酮、血、蛋白质、亚硝酸盐、白细胞、葡萄糖、比重、pH。(5)大便常规信息:粪便颜色、粪便形态、粪便细胞、粪便潜血、粪胆素、粪便胆红素、粪便细菌培养加药敏。(6)肝功能信息:GPT 或 ALT(谷丙转氨酶)、AST 或 GOT(谷草转氨酶)、AST/ALT(谷草/谷丙)、GGT(谷氨酰转移酶)、ALP 或 AKP(碱性磷酸酶)、TBILI(总胆红素)、DBILI(直接胆红素)、IBILI(间接胆红素)、TP(总蛋白)、ALB(白蛋白)、GLB(球蛋白)、A/G(白球比)、LDH-L(乳酸脱氢酶)。(7)肾功能信息:血尿素氮(BUN)、血肌酐(Scr)、血尿素、血尿酸、血尿素氮(BUN)、尿蛋白。(8)肺癌检查结果:①肿瘤标志物:AFP甲胚蛋白、CEA 癌胚抗原、CA-125糖类抗原12-5、CA-199 糖类抗原19-9、Cyfra21-1细胞角蛋白19片段、NSE 神经特异性烯醇化酶。②细胞学检查:癌细胞。③病理类型:非小细胞癌(淋癌、腺癌、大细胞癌、混合癌),小细胞癌。(9)影像学检查:胸部CT、B超、MRI。(10)病理学检查:肺部肿块的穿刺活检病理、手术标本的病理。(11)细胞学检查:淋巴结穿刺细胞学、肺部肿块的细胞学、胸水或心包积液等的细胞学染色体。(12)其他检查信息:①心电图、头颅CT或MRI:转移。②腹部CT或B超:肾上腺转移、肝转移、胸水。③胸部 CT:原发灶(位置、大小)、转移灶、胸水。④骨扫描。(13)治疗情况记录:①治疗选择:化疗、放疗、靶向治疗、介入治疗、支持治疗、能行治疗而放弃治疗的说明。②治疗后不良反应:胃肠道反应、骨髓抑制、脱发、皮疹。
4.1技术安全 为保证大数据的存储安全,要从技术层面进行安全保障。首先,可以在建立医疗大数据平台初期,采用私有云架构,将分布式云存储技术运用于肺癌大数据平台,结合对称密匙和非对称密匙的加密技术,有效保障医院医疗大数据集群数据的安全。其次,在处理数据时,通过去除、替换、泛化或者遮蔽,降低数据敏感度,保护患者是识别信息,然后采用加密技术对数据进行进一步的保护。目前多采用 HIPAA Section 164.51法案的脱密机制。另外,从网络层面设置访问权限,控制技术人员对数据的访问,限制非法分子对平台数据的非法访问和导出。最后,进行有限的监控机制,采用Ganglia+Nagios分布式监控,实现定制化监控。
4.2管理安全 建立完善的医疗大数据平台管理使用安全制度并积极落实。医院定期组织相关人员学习保密法规,树立牢固的法律意识,培养和增强保密意识。对相关人员进行定期培训,规范操作流程。将肺癌医疗大数据“化整为零”,将资源进行授权分解,明确每个环节的责任人,提供工作人员的整体责任意识。
基于医疗大数据的省市级肺癌专病平台的建设,结合专业计算机技术公司在医学数据医学数据处理和大数据平台方面的领先技术,利用真实世界数据,获得真实世界循证依据,提升肺癌在诊疗和科研方面的质量与效率;建立药物评价,规范治疗,缩小地区间和医院间诊疗差异,惠及广大患者。卫生行政部门可基于医疗机构诊疗服务实时数据,利用大数据关联分析方法可以找出影响医疗服务质量的关键环节和因素,以实现对医疗服务行为和质量的实时智能监管。