彭博 刘丽敏 张浩苒 牛文迪 薛会海 中国石油大学胜利学院 向修栋 中国石油大学(华东)
胃癌是威胁人类生命健康的最重大疾病之一。各个国家和地区之间不同的胃癌特征表明,地理多样性仍然显著,地区性的风险因素仍然存在。2004年和2005年原卫生部及中国胃癌基金会及部分省卫生厅共同建立胃癌早诊早治示范基地,并实施推广,胃癌早诊早治作为胃癌控制的主要策略之一。至今10余年来,专家模式转变政府模式,技术模式得到了广泛推广,涌现出一大批优秀示范现场,尤其在农村胃癌早诊早治项目得到最大模式化,截止2018年包括上消化道癌、结直肠癌、肝癌、鼻咽癌和肺癌,共计259个项目点,覆盖全国31个省,上消化道癌早诊早治的农村模式逐步推广及应用,覆盖的人群逐步增大,并取得良好的社会效益。
本研究对486394人,包括40217名名胃癌患者和446177名健康体检者进行了血常规,血生化和尿常规数据的分析预测。胃癌患者中,男性平均占68%,女性为32%,男性平均年龄为61岁,女性为64岁;健康体检者中,男性平均占63%,女性为37%,男性平均年龄为42岁,女性为40岁。
目前,恶性肿瘤的治疗仍以传统治疗方法为主,在对大量的恶性肿瘤患者进行规范化治疗的基础上,利用大数据对恶性肿瘤患者的临床数据进行高通量分析,可以为个体化治疗方案的制订提供重要的信息。这些新方法的提出为不同阶段恶性肿瘤的治疗提供了新的思路。研究发现,早期恶性肿瘤治疗的关键在于患者的个体因素,作为一种慢性疾病,从变异的肿瘤细胞发展至恶性肿瘤晚期一般需要几年的时间。
本研究采用的是常规健康体检中涵盖的基本数据,包括年龄,性别,身高,体重,血常规,血生化和尿常规,共计48项,部分指标见表1。
表1 预测胃癌风险的部分指标
本研究采用的预测技术为逻辑回归分析(Logistic Regression Analysis),逻辑回归分析在医学研究中应用广泛。目前主要是用于流行病学研究中危险因素的筛选,但它同时具有良好的判别和预测功能,尤其是在资料类型不能满足Fisher判别和Bayes判别的条件时,更显示出Logistic回归判别的优势和效能。
其中y为因变量,X为自变量,p为概率,α为截距(常数),β为回归系数,Exp为指数函数。
本研究采用的风险评估技术为,净提升效益算式(NetLiftAlgorithm)。
其中Pt为测试组癌症患者的百分率,Pc为对照组癌症患者的百分率。
本研究中统计分析和预测的显著性检验标准为p<0.05。统计分析预测使用的统计软件为Python。
本研究的预测模型是基于2010年到2013年共4年的数据上搭建完成的,建成的预测系统中的7个预测模型将逐一经过2014年1到7月,9931名癌症患者和110077名健康体检者的独立的数据验证。
本研究经过对2010-2013年30286名癌症患者和336100健康体检者48项指标的相关分析和显著性检验后,采用具有显著性,能够区分癌症患者和健康者的常规血尿指标建立了7种单一的癌症风险预测模型(肺癌,肝癌,胃癌,直肠癌,食管癌,乳腺癌和宫颈癌,见图1),7种癌症预测模型的准确率都超过了95%,平均为95.8%。预测模型可为用户预测出7个数值在1-100之间的标准分值,通过与癌症患者的已有血尿指标进行对比,动态分析预测结果,评估用户的癌症风险。
图1 血常规、血生化和尿常规数据的癌症风险预测报告
由于各种癌症自身的特点,不同癌症在常规血尿指标中的体现也不同,所以不同的常规血尿指标在预测不同癌症中的作用也不同。
癌症的发生和发展是一个从量变到质变的过程(如图2所示),癌细胞的变化其实都会在人体的血尿指标上反映出来。由于90%的早期癌症是没有明显症状的,癌症患者在早期不会出现明显症状或根本无任何症状,只有当癌细胞发展到一定程度,人体才会出现一系列症状,所以80%的人一旦发现癌症时已经是中期或晚期。
图2 癌细胞的生长过程
本研究的结果,癌症风险预测系统具有3大特点,第一,可以精准锁定高风险人群,预测准确率超过95%;第二,预测方法简便,基于已有血尿数据,无需进一步取样;第三,预测费用低,不到市场价格的10%。
通过大数据分析建立的癌症风险评估模型可以有效的利用正常健康体检中的血常规,血生化和尿常规的数据,用于多种癌症的风险预测,而且预测和验证的准确率均超过95%,这将为癌症的防治提供一种便捷的、经济的、有效的新手段,将在癌症的早防早治方面发挥积极的作用。