基于医疗大数据环境的疾病预测模型设计

2024-09-27 00:00:00杨冰倩

科技资讯 2024年16期

摘要：在大数据时代背景下，为了从海量医疗数据中挖掘出有价值的信息，保证医生疾病诊断结果的精确性和可靠性，应用大数据挖掘技术完成对基于医疗大数据下的疾病预测模型的构建。首先，介绍了决策支持、数据挖掘、知识发现等大数据挖掘相关技术。其次，从数据集成与清洗、数据填补与降维和模型构建与评价3个方面入手，完成对疾病预测模型的构建。最后，验证了模型的有效性和可靠性。结果表明：该模型在医疗疾病数据集中取得良好的预测效果，其预测正确率达到77.47%，为医生诊断患者疾病提供了重要的依据和参考。希望通过这次研究为相关人员提供有效的借鉴和参考。

关键词：医疗大数据疾病预测模型设计

中图分类号：TP311.13;R44

DesignofDiseasePredictionModelBasedonMedicalBigDataEnvironment

YANGBingqian

HebeiSoftwareInstitute，Baoding，HebeiProvince，071000China

Abstrat：Inthecontextofthebigdataera，inordertoextractvaluableinformationfrommassivemedicaldataandensuretheaccuracyandreliabilityofdoctor’sdiseasediagnosisresults，thisarticleappliesBigDataMiningtechnologytocompletetheconstructionofdiseasepredictionmodelsbasedonMedicalBigData.Firstly，BigDataMiningrelatedtechnologiessuchasDecisionSupport，DataMining，andKnowledgeDiscoverywereintroduced.Secondly，staVwV8ykICmQ3PyKx6ug+MG/W8VRYPXY2lRslJtBFixZk=rtingfromthreeaspects：dataintegrationandcleaning，datafillinganddimensionalityreduction，modelconstructionandevaluation，theconstructionofdiseasepredictionmodeliscompleted.Finally，theeffectivenessandreliabilityofthemodelproposedareverified.Theresultsshowthatthemodelhasachievedgoodpredictiveperformanceinmedicaldiseasedatasets，withapredictionaccuracyof77.47%，providingimportantbasisandreferencefordoctorstodiagnosepatientdiseases.Itishopedtoprovideeffectivereferenceandguidanceforrelevantpersonnelthroughthisstudy.

KeyWords：Medicaltreatment;BigData;Diseaseprediction;Modeldesign

在医疗大数据环境下，数据挖掘技术被广泛地应用于商业、电信等领域中，并取得了良好的应用效果[1]。但是，目前，数据挖掘技术很少应用于医疗领域中。在信息时代背景下，数据信息呈现出爆炸型增长趋势，随着系统软硬件和信息技术的快速发展，各行各业每天产生海量数据，如何从海量数据中挖掘出有价值的数据是社会普遍关心的问题。医疗行业大力推广和应用医院信息系统，导致医院每时每刻都产生海量医疗数据，在海量医疗数据中，通常蕴含着有价值的信息数据[2]。通过应用数据挖掘技术，可以从海量的医疗数据中挖掘出有价值的数据，为后期医生临床诊断提供重要的依据和参考，从而有效地提高医院的医疗服务水平。为此，本文应用数据挖掘技术完成对基于医疗大数据环境的疾病预测模型的构建，并验证了该模型的有效性和可靠性。

1大数据挖掘相关技术

1.1决策支持

决策支持理论主要用于对实际决策问题的分析和处理，运用该理论可以实现对决策支持系统的构建。决策支持系统含有人机交互层、模型层、数据层等组成部分。利用该系统可以对复杂问题进行层层剖析，为决策者提供多样化处理方案，决策者可结合实际应用需求选用最佳方案。总之，通过应用决策支持系统，可以帮助决策者制定最佳决策方案，为后期基于医疗大数据环境的疾病预测模型构建决策的制定提供重要技术支持。

在任何决策过程中，首先，需要明确提出问题并确立目标。这个阶段是整个决策过程的起点，它涉及对现实情况的分析，包括问题的本质、解决方案的制订，以及决策模型和评价指标的规划。在这个阶段，决策者需要清晰地定义问题，并确保目标明确可行。其次，决策分析过程扮演着至关重要的角色。在这一阶段，决策者需要选择适当的决策方法来制定决策方案，并对所有可能的流程和结果进行全面的展示。通过拟定的评价指标，对决策结果进行定性和定量的测评，以便为最终的决策提供充分的依据。随后是决策评价过程，在这个阶段，决策者需要结合自身的工作经验、工作习惯等主客观环境因素对决策结果的价值和可行性进行定性和定量的估计，这一步旨在确保决策方案在实践中的可行性和有效性。最后，综合分析阶段决定了最终的决策方案。在这一步中，决策者需要考虑决策方案的灵敏度、可拓展性及移植到新数据集上的可行性，通过综合考虑这些因素，决策者可以确定最优的决策方案，并确定其参考范围。整个决策过程通常是一个反复调试和层层迭代的过程，它涉及人机交互，需要计算机的辅助及人工智能的判断，以便筛选出效果最佳的决策方案。因此，决策过程不是一种单一的操作，而是一个综合性的和动态的过程，需要不断地进行优化和改进。

1.2数据挖掘

数据挖掘主要是指通过对不同结构和类型的海量数据进行挖掘，提取隐含其中的规律、模型等信息。在进行数据挖掘期间，综合运用了计算机科学等相关专业知识，将统计分析法、专家评价法、机器学习法等多种方法综合运用于整个数据挖掘过程中，不断地提炼原始数据中的隐形知识，使其转变为显性知识[3]。数据挖掘具体操作如下：实时接收和输入原始数据，并从原始数据中筛选和提取出有价值的数据项，并进行数据降维、浓缩、除噪等一系列操作，最后对数据模型进行识别和评价[4]。

1.3知识发现

知识发现主要是指从海量数据集中识别出具有价值的信息过程。知识发现的具体操作流程如下：首先，按照一定规则，应用知识发现系统，对存储在多个显示数据仓库中的原始数据进行识别和提取；其次，对提取后的数据进行清洗、噪音剔除等一系列预处理，确保经过预处理后的数据处于可分析状态，并对预处理后的数据进行挖掘，从而挖掘出深层信息；最后，从深层信息中提取出隐形知识。整个过程综合运用了计算机科学、数学、人工智能等多科学知识[5]。

2基于医疗大数据的疾病预测模型构建策略

为充分发挥和利用数据挖掘技术的应用优势，本文利用数据挖掘相关理论，严格按照如图1所示的疾病预测模型构建流程，从数据集成与清洗、数据填补与降维及模型构建与评价3个方面入手，科学地设计相应的预测模型。同时，还要梳理模型构建各个步骤之间的逻辑关系，为后期医生进行疾病诊断提供一定的辅助性指导作用[6]。

2.1数据集成与清洗

目前，各大医院在信息化建设方面存在不足，缺乏对医疗数据库的构建，不利于患者诊断信息的统一化和标准化存储。电子病历数据规模大和数据种类多，为后期医疗数据的挖掘和利用增加了难度。所以，在正式分析电子病历数据之前，需要从以下2个方面入手做好对数据的集成与清洗。

2.1.1数据集成与整合

在进行数据集成与整合期间，结合数据的来源、结构和种类，严格遵循相关规律，从逻辑角度，将存储于不同数据库的数据集成与整合为统一标准的数据，方便医生对海量数据有一个整体的认识和把握[7]。

2.1.2数据清洗与规范化

在电子病历原始数据中，通常含有大量的冗余和无用的噪声数据，这些噪声数据的出现通常会对最终数据分析结果产生一定的干扰，从而降低数据分析结果的精确性和高效性。为解决以上问题，需要做好对数据的清洗与规范化处理。在进行数据清洗期间，需要从数据净化、数据提取、数据除噪等多个环节入手，筛选和删除异常数据、重复数据、虚假数据等。在进行数据规范化处理期间，需要规范处理数据内容、数据表现形式、数据处理过程、数据分析标准等。在规划化处理电子病历的诊断结果、检验结果、影像结果等数据内容时，需要利用医学主题词表（MedicalSubjectHeadings，MeSH）对最终疾病诊断结果进行科学化分类，为后期借助机器精确化识别和解读数据打下坚实的基础。在规范化处理电子病历处理流程时，需要制定一套行之有效的数据处理流程标准，促使各个数据集处理步骤变得更加标准化和统一化[8]。

2.2数据填补与降维

2.2.1变量选取原则

数据集变量包含以下两个部分：（1）对于国内外文献资料中提及的有关数字化X射线摄影系统关联因素，通过提取该部分关联因素，可以进一步地扩大分析对象覆盖范围，保证预测模型构建的精确性和高效性；（2）对于国内外文献资料中未提及的某些因素，需要通过后期探测以获得，通过探究未被证实的关联因素，并检验该关联因素是否与疾病存在一定的关联性。

2.2.2缺失数据处理

在构建疾病预测模型期间，一旦出现缺失数据，会导致任务分析过程变得更加复杂和难懂，降低数据挖掘处理效率，甚至还会增加最终分析结果误差率。通过运用常规统计方法，对缺失数据进行填补，可以降低最终分析结果的偏差。在进行缺失数据填补时，通常选用均值填补法。例如：根据相关文献记载，对糖尿病视网膜病变存在较高关联度因素是性别和年龄，为此，将均值填补法应用到统计学中缺失值处理中，并严格按照性别、年龄等字段将目标数据划分为多个子集。首先，将总体数据划分为两组数据，并检验以上两组之间是否存在患病统计学差异性。其次，严格按照年龄将不同性别的两组数据进行划分，然后，检验两组数据之间是否存在明显的统计学差异性。最后，采用求解平均值方法对每层数据进行填补处理。

2.2.3数据降维

通过进行数据降维处理，可以减小目标数据集的维数，然后，从降维后的数据中，筛选和提取出具有价值的特征向量。对于原始数据而言，通过进行降维处理，可以减小数据维数，促使数据分析过程变得更加简单化和高效化。此外，通过进行数据降维处理，可以促使医疗数据一目了然，方便后期疾病预测模型构建时选用合适的算法。

在本次研究中，为保证原始数据降维处理效果，主要选用以下3种方法：（1）在整体数据集中，结合各个属性特征根，对原始数据进行降维处理，通过观察特征根大小，可以全面地了解和把握各个特征向量对正交处理后的矩阵所做出的贡献程度，同时筛选和提取出特征根超过1的相关属性；（2）从原始数据中提取出表示数据特征86%以上的属性，并对该属性进行降维处理；（3）运用逻辑回归法，从各个分类属性中，降维处理存在显著差异的属性。

2.3模型构建与评价

当数据集成、清洗、填补和降维处理结束后，构建出疾病预测模型，并根据本文模型所获得的预测正确率，评价本文模型的有效性和可靠性。

3基于医疗大数据的疾病预测模型验证

3.1数据来源

本实验采用了美国国家糖尿病和消化及肾脏疾病研究所发布的皮马印第安人糖尿病数据集（PimaIndiansDiabetesDataSet），旨在验证所提出的模型的有效性和可靠性。该数据集包含了786条样本，其中，包含了8个不同的特征属性，展示的前5条样本如图2所示。这些特征属性包括女性的怀孕次数（Pregnancies）、口服葡萄糖耐量试验后2h的血糖浓度（Gucose）、舒张压（mmHg）、三头肌皮褶厚度（mm）、2h的血清胰岛素含量（uu/ml）、体重指数（体重（kg）/身高（m）的平方）、糖尿病家系功能及年龄（岁）。每个样本还带有一个类别标签，即指示未来5年是否会患糖尿病，其中，1代表患病，0代表未患病。

3.2实验分析

在具体实验期间，将上述实验数据集划分为以下2个部分。（1）训练集。通过运用训练集，可以对模型决策规则进行有效的构建和提取。（2）测试集。通过应用测试集，可以验证本文模型的实际应用效果。利用本文所构建的疾病预测模型可以获得较高的预测正确率，该预测正确率高达77.47%，有效地验证了本文模型的有效性和可靠性，实验结果如图3所示。实验结果表明：本文模型为医生后期进行疾病诊断提供了重要的依据和参考，促使医生工作更加高效化和智能化，解决了患者看病排队时间长、看病难等问题。总之，本文基于医疗大数据环境应用数据挖掘技术所构建的疾病预测模型具有较高的有效性和可靠性，为帮助医生诊断和治疗糖尿病等各种疾病提供重要的决策支持，有效地提高医疗服务质量和水平。

4结语

综上所述，为了从海量的医疗数据中挖掘出有价值的数据，本文应用数据挖掘技术，通过数据集成与清洗、数据填补与降维、模型构建与评价等环节，完成对新型疾病预测模型构建。同时，借助二型糖尿病真实医学数据集，采用实验的方式验证本文模型的预测效果。经过验证，发现本文模型具有预测正确率高、预测效果显著等特点，不仅为医生诊断疾病提供有价值的数据，还能保证医生疾病诊断质量和效果，为疾病的预防、诊断、治疗及预后等提供可靠的决策支持，实现了促进医疗大数据知识发现的目的。

参考文献

[1]高颖，许欣宜，刘洋，等.基于中医体质的老年人动脉粥样硬化性心血管疾病预测模型的开发研究[J].中国全科医学，2024，27（15）：1878-1885.

[2]韩慧，徐平，宋卫东.高龄慢性阻塞性肺疾病稳定期患者近期急性加重风险预测模型构建[J].实用医学杂志，2023，39（22）：2984-2988.

[3]单文琦，王波，黄青松，等.基于加权层级注意力机制的疾病预测模型[J].中文信息学报，2023，37（1）：97-103.

[4]张翠焕，满冬梅.基于孕中期临床资料构建子痫前期疾病预测模型的研究[J].中国卫生标准管理，2024，15（3）：28-33.

[5]季建生，陈梦凡，周梦林，等.构建和验证基于人口学及临床特征的妊娠期高血压疾病预测模型[J].中国妇幼保健，2021，36（21）：4878-4884.

[6]马爱娟，吕筠，董忠，等.糖尿病患者心血管疾病预测模型的研究现状[J].中华糖尿病杂志，2024，16（1）：117-126.

[7]漆华妹，胡宇轩，袁正一.一种基于降噪自动编码器和宽度学习的增量式疾病预测模型[J].电子学报，2023，51（6）：1474-1485.

[8]曹海涛，朱静，曾海波，等.基于加权平均的肠道菌群特征筛选和疾病预测模型研究[J].生物技术进展，2023，13（5）：798-806.

科技资讯2024年16期

科技资讯的其它文章: 信息时代图书馆知识资源服务平台建设探讨; 高校图书馆微信移动服务平台的构建要点探析; “图书馆+”环境下基层图书馆全民阅读推广思考; 基于学习通网络学习平台的高职英语教学系统构建探究; 泾县地震台DSQ水管倾斜仪观测资料典型干扰分析; 回龙湾隧道土建结构病害处治设计