肺癌患者检验项目数据可视化及关联分析

2022-03-11 12:39王晓东孙安琪赵托亚李佳欣吴雅琴
医学信息 2022年4期
关键词:压积项集红细胞

王晓东,孙安琪,赵托亚,李佳欣,吴雅琴

(内蒙古医科大学计算机信息学院,内蒙古 呼和浩特 010110)

健康医疗大数据已被国家列为重要的基础性战略资源进行大力发展和推进[1]。健康医疗大数据中蕴含着大量非常有价值的信息,但是目前很多医疗卫生机构还没有将这些大数据充分利用起来,无法完全发掘数据的潜在价值,导致数据资源浪费。如何让服务器中的数据发挥作用,这是很多管理者和科研工作者需要面对的问题。此外,目前对于疾病的诊断与治疗很多情况下依赖于临床医师的经验,缺乏大量历史病例提供的数据参考。根据国家癌症中心发布的最新全国癌症统计数据显示,肺癌位居我国恶性肿瘤发病首位,死亡率最高[2],大约每5 位癌症死亡患者中就有1 位死于肺癌[3]。肺癌预后较差,在我国人群中其5 年生存率仍不超过20%[4],其诊治产生的医疗费用对患者家庭和社会造成了严重负担。检验项目是可以反映疾病变化的重要检测手段。探索检验项目复杂组合与疾病之间的联系,有利于优化治疗措施,避免患者承受更大的痛苦[5]。本研究针对肺癌患者在医院诊疗期间检验项目数据进行采集、处理以及可视化,以图形、图表形式直观呈现数据结果。使用FP-growth 算法构建FP 树,对数据集进行关联分析,递归挖掘频繁项集,抽取肺癌患者检验项目中相关数据实体及各实体间关系。

1 开发语言与环境

本研究使用Python 程序设计语言对数据集进行处理分析,Python 版本3.8.2,采用Anaconda3 5.1.0(64-bit)的Jupyter Notebook 作为开发环境,导入xlrd、jieba、matplotlib、wordcloud、numpy、pandas、sklearn 等包完成Excel 数据读取、分词、绘图、词云图、科学计算、统计、机器学习等功能。

2 数据采集

以某医院诊断结果为肺癌、肺癌术后、肺癌术后化疗、肺癌转移、肺癌晚期的54 例患者,在医院诊疗期间(2017 年10 月16 日-2018 年10 月15 日)的检验项目数据作为研究对象。

肺癌患者检验项目原始数据保存于ORACLE数据库中,相关数据涉及12 个数据表,使用表联接和查询操作后,生成的数据结果集含有47 个字段,同时对其进行数据脱敏处理,保护患者隐私。为了便于使用Python 进行数据处理和分析,将数据结果导出为Excel 文件。

3 数据预处理

3.1 数据归约 在不影响数据完整性和数据分析结果正确性的前提下,根据本研究的数据特点,对数据集进行维归约[6],降维后的数据集包含就诊号、年龄、性别、检验项目编号、检验项目名称、检验项目结果值、检验项目结果参考标准、所属种类等21 个字段。

3.2 数据清洗 由于原始数据可能存在“脏数据”,故需构建Python 数据检测程序,过滤掉冗余数据,将存在噪声数据与缺失数据的记录删除。经过数据清洗后,数据集共含有8921 条检验项目数据记录,此数据集记为“原始数据集”。

4 数据集生成

4.1 年龄性别数据集 构建Python 程序,提取就诊号、年龄和性别字段,过滤掉数据集内重复记录,生成年龄性别数据集。

4.2 关联分析数据集 为了使用FP-growth 算法能够准确对肺癌患者检验项目进行关联分析,构建Python 程序对原始数据集按照以下标准进行筛选与排除,处理后共计2174 条数据记录,此数据集记为“关联分析数据集”。

4.2.1 按检验次数与其他基础疾病检验项目进行筛选与排除 根据相同检验项目求和得到总次数并降序排列,排除草酸钙结晶、血氨等16 项检验次数是1 的项目,排除肺癌患者其他基础疾病(如糖尿病、高血压等)的检验项目,如空腹血糖、糖类抗原CA19-9、收缩压、舒张压等。

4.2.2 按检验结果进行筛选与排除 肺癌患者检验项目数据集字段RESULT_FLAG(检验结果)有H(高于标准值)、L(低于标准值)、M(介于标准值区间之内)3 个结果。排除结果为M 的检验项目,即检验结果为正常值的数据。保留结果值为H 和L 的检验项目,即检验结果为异常值的数据。

5 数据可视化

5.1 按性别、年龄统计 对年龄性别数据集中不同性别年龄字段的最大值、最小值和均值进行统计计算。数据集中男34 例,女20 例。统计发现男性患者最低年龄45 岁,平均年龄63.9 岁;女性患者最低年龄48岁,平均年龄64.6 岁。男女患者平均年龄差别不大。总体上男性罹患肺癌发病率高于女性,在高龄人群中表现更加明显[7]。对本研究肺癌患者样本数据集不同年龄段、不同性别人数进行统计,60 岁以下患者17 例,占样本全部患者的31.5%。肺癌呈现低龄化态势较为明显,见图1、图2。

图1 肺癌患者不同性别、年龄统计

图2 肺癌患者不同年龄段人数统计

5.2 按检验项目分类统计 统计数据发现,原始数据集内检验项目分为尿液、静脉血浆、痰液、胸水、静脉全血、静脉血清、动脉血7 个大类,每个大类中又包含若干种检验项目。按检验项目分类统计结果见表1。

表1 按检验项目分类统计结果

静脉血清包含检验项目种类最多,达到76 项。静脉全血次之,包含检验项目59 项。尿液包含35项。三者在肺癌患者所有体液检验项目中占74.23%,检验总次数占全部的94.95%。可见静脉血清、静脉全血以及尿液等体液检验项目是除了胸部X 线、CT、MRI、超声、核素显像、PET-CT 等影像学方法之外,对肺癌治疗效果监测及预后评估的有效手段。

5.3 检验项目词云图 词云图可以将数据集中出现频率较高的关键词予以视觉化呈现[8]。设计Python程序,构建自定义语料库,对肺癌患者检验项目数据集的检验项目字段进行分词以及词频统计,自动过滤冗余无效内容,设置词云图背景颜色、随机生成状态等参数,生成检验项目词云图。

检验项目按出现次数从多到少有白细胞、红细胞、血红蛋白、红细胞分布宽度SD、红细胞压积、平均血小板体积、淋巴细胞百分比等,白细胞在所有检验项目中出现次数最多,为276 次。红细胞次之,为215 次。对数据集所有检验项目字段,经去除重复项处理后得到186 种。肺癌患者检验项目数据集出现次数最多的是白细胞,患者人均达到5.1 次。肺癌化疗时,外周血中的白细胞常常会出现异常[9,10]。红细胞人均检验达到3.98 次,红细胞对于肿瘤细胞具有极强的亲和作用[11,12],红细胞的补体受体则对肿瘤细胞发挥黏附及攻击作用[13]。检验项目词云图见图3。

图3 检验项目词云图

6 关联分析

6.1 基本定义 从大规模数据集中寻找实体间的隐含关系被称作关联分析[14]。频繁项集是指出现频率较高实体的集合[15],关联规则可以找出存在强关系实体之间的规则[16]。关联分析是从大规模数据集中寻找事务之间的隐含关系。

关联规则X⇒Y 的支持度记为support(X⇒Y),表示在所有事务中,项集X 和项集Y 同时出现的频繁程度[17],如公式(1)所示。项集X 的支持度大于或等于预先设定的最小支持度阈值,则项集X 为频繁项集。

关联规则X⇒Y 的置信度记为confidence(X⇒Y),表示在事务数据库Z 中,包含项集X 的事务中包含项集Y 的百分比[18],如公式(2)所示。关联分析的目的就是找出同时满足最小支持度阈值和最小置信度阈值的强关联规则。

项集X 和项集Y 之间的提升度记为lift(X,Y),是表示项集X 和项集Y 的相关性度量[19],如公式(3)所示。

目前较常用的关联分析算法有Apriori 算法和FP-growth 算法,Apriori 算法只要增加频繁项集,就会重新扫描整个数据集。如果数据集规模很大时,会显著降低频繁项集挖掘速度。FP-growth 算法相比较于Apriori 算法,采用了优化的数据结构,只需要扫描两次数据集[20],加快了挖掘速度。鉴于此,本研究采用FP-growth 算法进行关联分析。

6.2 主程序构建与算法优化 关联分析之前,需要构建Python 主程序,将关联分析数据集内每名肺癌患者若干条检验项目数据记录中的检验项目字段转化为列表形式,然后将所有肺癌患者检验项目列表转化为一个二维列表,作为FP-growth 关联算法的输入参数。主程序在调用FP-growth 算法运行过程中,需要对算法的参数进行调整和优化。

6.3 关联分析结果 设置支持度为50%,置信度为70%,使用FP-growth 关联算法挖掘检验项目数据集的频繁项集。提升度大于1 的有16 个频繁项集,其中频繁二项集11 个,频繁三项集5 个,使用上文6.1 的公式(1)(2)(3)计算各频繁项集支持度、置信度、提升度。频繁项集及结果见图4。

图4 频繁项集及结果

提升度大于1 且值越高表明正相关性越高[21]。白细胞-淋巴细胞百分比、白细胞-尿胆原、血红蛋白-红细胞压积、血小板压积-淋巴细胞百分比、血小板压积-尿胆原5 个检验项目对在所有频繁项集中出现的概率均为12.50%。提升度最高[lift(X,Y)=1.67]的频繁二项集是血红蛋白-红细胞,其次为血红蛋白-红细胞压积、中性粒细胞百分比-淋巴细胞百分比。提升度最高[lift(X,Y)=1.67]频繁三项集是血红蛋白-红细胞压积-红细胞,其次为白细胞-尿胆原-血小板压积、白细胞-淋巴细胞百分比-血小板压积。

7 总结

本研究将大数据处理与分析技术应用于较少问津的检验项目数据,以某医院肺癌患者在医院诊疗期间检验项目数据作为研究对象,深入挖掘了肺癌患者检验项目内在规律,实现检验项目数据的知识发现,希冀为肺癌临床辅助诊疗提供参考,促进精准医疗、适度医疗。

猜你喜欢
压积项集红细胞
红细胞的奇妙旅行
红细胞压积与白蛋白差值在继发性腹腔感染患者病程中的变化
不同年龄比格犬红细胞压积、生理脆性的测定
猪附红细胞体病的发生及防治
复发性脑血栓与红细胞压积的关系分析
中老年男性血小板压积参考值与地理因素的关系
关联规则中经典的Apriori算法研究
一种频繁核心项集的快速挖掘算法
羊附红细胞体病的诊疗
一例与附红细胞体相关的犬脾脏肿大的诊治