周飞 邹宁 赵银歌 黄倩雅 刘可盈
摘 要:随着高血压患者的逐渐增多,并且日趋于年轻化,如何防治高血压病成为重要课题。鉴于此现状,文章提出基于支持向量机的高血压预测方法。根据支持向量机原理,对高血压病理属性进行分类,建立高血压病的预测模型,通过计算不同分类属性的权重指数,获取不同属性对高血压病影响的重要程度等级,进而实现潜在高血压病的预测。实验结果表明,利用支持向量机算法能够有效对潜在高血压病进行预测,为早期高血压病的检测与防治提供理论支持。
关键词:支持向量机;高血压防治;预测模型
高血压病是目前比较常见的心血管疾病[1],随着人们生活节奏的加快、生活压力的增大,高血压病的发病率也呈现出上升趋势,逐渐威胁到现代人的身体健康,对潜在高血压病的准确预测能够为高血压病的预防与早期治疗提供依据。常用的潜在高血压病预测方法主要包括基于神经网络算法的预测方法[2]、基于决策树算法的预测方法[3]、和基于关联规则算法的预测方法[4]。
上面提到的各种传统方法在进行潜在高血压病预测过程中,没有计算各项参数对高血压病的影响权重,造成拟合预测的准确度不高,致使对潜在高血压病的预测效率降低。为了避免上述算法的缺陷,本文利用支持向量机算法进行潜在高血压病的预测,能够有效提高预测的准确率与效率,为早期高血压病的检测与防治提供可靠方案。
1 综合概述
1.1高血压病影响因素
人们物质生活水平的提高也伴随着高血压现象的普遍发生,据权威机构发布的数据来看,高血压病不仅发病率持續增加,而且正趋于年轻化,如何防治人们患高血压成为重要研究课题。本文旨在根据人体的生理指标判断其是否患有高血压。
查阅相关资料[5]得出7个高血压发病的主要因素,即体质指数、腰臀比、饮酒年限、日平均运动时间性别、年龄和文化程度。本文根据以上影响因素进行建模,旨在找出影响高血压的生理指标,并根据计算出的指标权值来判断样本(人)是否患有高血压,进而实现潜在高血压病的预测。
1.2可行性分析与创新点阐述
支持向量机是一种理论完善的机器学习算法,从提出至今,已有不少专家学者利用该算法解决实际工程问题,算法理论部分日趋完备。因此,采用支持向量机算法对高血压进行预测的可行性良好。本文最大的创新之处在于,通过支持向量机算法预测出的结果只有患病和不患病两种情况,使测试结果更加明确。大量实验可以得出高血压发病指标的权重,根据不同指标的权重值可以为人们日常生活提供相关的预防建议,这对于高血压病的早期预防有重要参考价值和实际意义。
2设计方案
本文基于支持向量机算法实现对高血压疾病的预测,具体方案如下。
2.1数据处理 从开源数据库中提取100组含有上述主要生理指标数据的高血压患者作为实验样本,然后分别对不同属性进行标准化处理,最后将处理之后的100组样本作为训练集。
2.2训练阶段
建立支持向量机模型,带入影响高血压发病的因素向量,反复迭代运算直至目标函数达最大值。
2.3测试阶段
用完成训练的算法对临床患者进行高血压预测,若预测结果与临床测量的结果相近,则认为算法可行。
3 基于SVM的预测模型的建立
3.1算法简介
支持向量机(Support Vector Machine,SVM) [6-7]是基于统计学习理论框架开发的一种机器学习和分类识别方法,它较好地实现了结构风险最小化原则。最大分类间隔和核函数思想是SVM的两个最为重要的技巧,不同核函数的选择标准是要求所构造的分类器具备较好的推广性能和较强的抗扰劫能力,并适合于推广到实时分析。通过实验对比,建立的预测模型要求支持向量少、分类间隙大和分类时间适中,因此,本文选择多项式作为预测模型的核函数。SVM分类预测模型建立的核心就是确立最优决策函数:为支持向量对应的最优解,b为偏差值。
3.2具体实现
3.2.1数据处理
用i=l,…,100表示100个患者,影响患者高血压的指标性别、年龄、文化程度、体质指数、腰臀比、饮酒年限和日平均运动时间分别记为i。第x,j=l,…,7个患者的第j个指标的取值记为
计算得100组样本点的均值向量为:
标准差向量为:
对所有样本点数据进行标准化处理:
称为标准化指标变量。记xi= [xl,…,x7T。
3.2.2训练
输入训练样本向量(x,y),xi(i为患者的序号)为上述提取的特征参数;y∈{+1,-1),y,为分类标识,x,属于患高血压,DiUv。=1; xi未患高血压,贝吵。=-l。
本文使用Lagrange乘子方法解决此约束的最优问题,即在约束条件:
求解下列目标函数的最大值:
这是一个不等式约束下二次函数寻优的问题,存在唯一解。ai不为零的解ai所对应的xi就是支持向量,选取其中一个支持向量,可求得6。求得ai和b的值,就确立了最优决策函数的具体表达形式,从而建立了预测高血压分类预测模型。4结果分析
使用MATLAB对SVM模型进行求解,结果显示:在训练好的模型下,对100组样本进行测试,有80%的测试结果与临床检验结果匹配,从而说明了本文所建模型具有一定的参考价值。进一步得出各指标的影响程度依次为体质指数、腰臀比、日平均运动时间、饮酒年限、年龄文化程度及性别,具体结果如表1所示。
从结果看,体质指数、腰臀比、年龄、饮酒年限等是影响高血压发病的主要因素,这与国内外许多研究结果一致。
基于以上分析,可将本文所建立的模型应用于早期高血压病的预测,具体实现为:
Stepl:检测对象的体质指数、腰臀比、日平均运动时间、饮酒年限、年龄文化程度及性别等属性值。
Step2:将上述属性值作为输入变量带入到本文所建立的预测模型中,记录其返回值。
Step3:若返回值为1被测对象患高血压;若返回值为1,则被测对象未患高血压。
5結语
本文依据支持向量机原理,对数据属性进行分类,构建预测模型,计算各项生理参数指标与高血压病的相关属性权重,得到不同属性对高血压病影响的重要程度。实验结果表明,采用支持向量机算法进行潜在高血压病的预测,能够有效提高预测的准确率与预测效率,为早期高血压的检测与防治提供可行方案,进而满足医学检测的实际需求。
本文所建立的数学模型能够根据相关生理指标有效地判断样本(人)患高血压病的情况,这种方法可以对早期高血压病的预防提供一定的参考价值,但是具体是否患病一定要进行临床检查,并采取科学的方法进行治疗。此外,该模型即支持向量机的预测模型还能够应用于其他疾病的预测。方法大致可概括为:首先,选取疾病的影响指标;然后,构建样本数据库进行训练匹配,提取出特征向量;最后,对待测人员进行疾病预测。 本文是学校资助的大学生创新项目的研究成果之一,接下来所要研究的内容是开发交互式界面,进一步实现预测结果的可视化,为早期高血压疾病预测提供合理可行的方案。
[参考文献]
[1]孙艳秋,刘钢基于大数据分析的潜在高血压病预测研究[J]计算机仿真,2015(5):386-389. 421
[2]杨洋刑用人工神经网络模型预测原发性高血压的研究[D]沈阳:中国医科大学,2010
[3]李现文,李春玉,MIYONGK,等决策树与Logistic回归在高血压患者健康素养预测中的应用[J]护士进修杂志,2012 (13):1157-1159
[4]程远关联规则挖掘在疾病数据处理中的应用研究[D]重庆:重庆医科大学,2010
[5]黄晶晶.天津市市区高血压前期人群高血压发病危险因素的定量评价[D]天津:天津医科大学,2016.
[6]赖丽娟,王志刚,吴效明基于小波变换和支持向量机的急性低血压预测方法研究[J].透析与人工器官,2011 (1):28-33
[7]张颖.支持向量机在2型糖尿病影响因素分析中的应用[J].电子技术与软件工程,2015(9):191-192.