基于卷积神经网络的健康模型影响因素研究

2019-04-03 01:38王惠清李忠玉袁红
现代计算机 2019年35期
关键词:结节规则分类

王惠清,李忠玉,袁红

(1.西南医科大学医学信息与工程学院,泸州646000;2.成都师范学院计算机科学学院,成都611130)

0 引言

随着人们生活水平的提高,健康成为人们关注的热点,由于不健康的饮食习惯和生活方式导致的慢性病患者的数量正在增加,慢性病需要持续治疗并可能导致其他疾病。人们应该认识到慢性疾病带来的风险,需要终生通过医疗保健和疾病预防进行护理。作为智能社会的核心要素,人工智能(AI)的发展对于医疗事业起到促进作用,近年来,人们对人工智能的兴趣日益浓厚,对深度学习的研究也在积极进行中,深度学习可以根据训练得到的数据分析预测未知数据的类别,CNN 是一种被广泛应用的深度学习技术,不仅用于图像分析和语音识别,还可用于比较复杂的非线性模型,深度学习是近来备受关注的一种AI 技术,其在实际中可以用于通过学习数据集并对相似数据进行聚类或分类,此外,深度学习技术可以从各种非结构化数据中获取知识从而建立模型。例如,可以通过基于CNN的相关对象来分析非结构化数据,病历数据就是非结构化数据。CNN 由单层、多层、集成层以及完全连接的层组成,可用于实现非线性图像识别的模型、语音识别等。Swapna 等人[2]利用CNN 实现糖尿病自动检测,其使用心率变异性数据获取心率信号,使用CNN-LSTM组合网络进行自动异常检测和完全连接的结构,可实现自动检测和准确诊断糖尿病。

图1 显示了基于深度学习的健康信息系统。该系统是基于CNN 的脑肿瘤分类系统,该系统从MR 图像中提取的肿瘤区域进而分类,这样可以有效的训练系统,同时解决MRI 对脑肿瘤分类时数据不足的问题,此外,CNN 模型使用了增强的数据,这些数据可以进行微调,从而有效地对脑瘤状态进行分类。LIU 等人[6]开发了一种多视图多尺度CNN 对肺结节类型进行分类的系统,通过采集肺结节归一化数据样本,估计每个结节的估计半径数据,对结节采集图像进行预处理,如基于采样的强度分析等。在对CNN 模型进行学习后,利用最大池的方法对多视图神经网络模型进行了分析。因此即使是复杂的阴影和非结节型也可以进行分类。这使得治疗肺部疾病成为可能,在未来,必须能够对较细的结核进行分类,这需要先进的技术来自动标识结核的类型、位置和大小,以便于识别信息。

图1 基于CNN的健康信息系统

1 基于CNN的健康知识模型

基于CNN 的健康知识模型利用隐含层中影响因素的相关系数结果来分析风险因子,影响因素的相关关系可分为积极因素和消极因素,使用CNN 模型对危险因素进行细分,通过提取影响因子与模型的相关性,可以发现未被发现的有意义的规则。模型结构采用全连通网络和包含CNN 的双层结构隐含层,单层对仅由与和或运算组成的数据进行分类。相比之下,多层分类有更多的优势。因为多层分类可以执行与、或和异或操作。这使得通过将影响因子细分为肥胖、高血压和糖尿病来获得有关保健和预防的知识成为可能。图2 中,通过对多变量因素分析,可以提取20 个影响因素作为输入,在第一个隐层中,根据显著性水平0.1 对影响因素进行分离,结果剔除了12 个满足显著性水平的因子。在第二个隐层中,通过皮尔逊相关系数发现相关关系,提取影响因素的特征和相关系数,发现未被发现的隐藏规则,这些规则是为了利用影响因素寻找健康知识。这些影响因素分为积极和消极因素,最后将其细分为肥胖、高血压和糖尿病等,从而确定其影响因素,并对其标识,从而获得适当的健康保健知识。通过对具有相似特征的影响因素进行分类,提高了对影响因素和非影响因素的分析效率。图3 为影响因素的知识挖掘算法,通过知识发现得出隐藏规则。输入层是影响因素,输出层是发掘的潜在规则。IfactorCK表示k个大小的影响因素的候选集合,IfactorLK表示一组频繁的影响因素。此外,IfactorT 构成了影响因素组合效益。

图2 CNN模型的相关影响因素

在众多影响因素中找到满足最小支持度的隐藏规则,发现影响人体健康的主要因素及其规律,最后建立健康知识模型,其代码如下:

Input:Influencing-factors

Output:Hidden rules

IfactorCk=Candidates Influencing-factors of size k

IfactorLk=Frequent Influencing-factors of size k

min_supp←0.5(tentative)

IfactorL1={Frequent items}

for k ←l to infinite do begin if

(IfactorLk=Ø)

break;

IfactorCk+1=candidates generated from IfactorLk

for each transaction IfactorTin database do begin

increment the count of all candidates in IfactorCk+1, that are

contain in IfactorT

IfactorLk+1=candidates in IfactorCk+1with min_supp

end

end

return UkIfactorLk

2 结语

基于CNN 的健康知识发现模型的建立,可以较科学地发现影响人们身体健康的危险影响因素,尤其是对于慢性病的影响因素,为后期的医疗保健提供了有利的医学依据。模型的性能及知识发现的精确度需要通过相应的评价体系来评估。可以通过对模型中隐藏层的数量评估,评估单层、多层的模型性能的优劣,根据影响因素的知识挖掘是否被应用,可以对错误率进行评估。因此用户可以通过识别健康的积极因素和消极的因素来发现关于健康和预防的知识,同时可以根据影响因素的状态衍生出健康知识,提供个性化的医疗服务。在医疗大数据领域,需要谨慎地将相关性得出的结果运用到实际的决策中。本文提出的一种基于影响因素的知识发现的CNN 健康模型,提出的方法通过IoT 设备收集健康状况和生活方式模式的记录,以及关于慢性病的信息。对于健康状况和生活方式的数据,使用了韩国国民健康与营养调查提供的原始数据。对于CNN 结构,使用完全连通的网络结构和两个隐藏层结构。全连通网络结构计算量大,占用内存大,随着层数的增加,复杂性增加,容易出现过拟合,在第一层的隐层中,对输入的多元数据分析,提取出必要的影响因素。通过提取满足0.1 显著性水平的影响因素,提高了分析的准确性,减少了计算量和内存使用量,可以发现共同的影响因素。在第二隐含层中,识别个体影响因素与共同影响因素之间的相关关系,通过这个过程,发现了影响因素之间的正、负相关关系。此外,还可以根据影响因素的相关性,发现未通过分类发现的隐藏的关联规则,这为进一步细分肥胖、高血压和糖尿病的影响因素提供了知识。随着层数的增加、精度提高,内存的容量和计算速度也需要提高。因此,应根据数据分析的目的使用一些高性能的层。

猜你喜欢
结节规则分类
撑竿跳规则的制定
体检发现的结节,离癌症有多远?
肺结节,不纠结
发现肺结节需要做PET/CT吗?
肺结节≠肺癌,发现肺结节如何复查?
奥斯卡的规则变了!
让规则不规则
按需分类
教你一招:数的分类
说说分类那些事