面向甲状腺疾病诊断的指标维度最小化应用研究

2020-04-01 18:11肖钦文
现代计算机 2020年6期
关键词:诊断系统子集特征选择

肖钦文

(四川大学计算机学院,成都610065)

0 引言

(1)甲状腺疾病

人类甲状腺是位于颈部甲状软骨下方,气管两旁,形似蝴蝶的腺体。对于脊椎动物是非常重要的内分泌器官。甲状腺通过产生多种激素来影响身体的细胞核组织,以此调节人体的新陈代谢[2]。三碘甲状腺原氨酸(Triiodothyronine,T3)和四碘甲状腺原氨酸(Tetraiodo⁃thyronine,Thyroxine,T4)在产生蛋白质和整体能量来调节体温方面发挥非常重要的作用[3]。

甲状腺功能减退(Hypothyroidism)和甲状腺功能亢进(Hyperthyroidism)是两种与甲状腺激素产生有关的两种基本甲状腺疾病类型。腺体产生的甲状腺激素水平低于人体所需就会导致甲状腺功能减退,患者的症状表现为感到极度疲劳、沮丧、健忘和体重增加[4]。严重情况会引起粘液性水肿昏迷甚至死亡。T3、T4激素分泌紊乱导致的甲状腺功能减退肯呢个导致卵巢癌,卵巢癌患者的死亡率达54%,是最致命的妇科疾病。当腺体分泌的甲状腺激素水平过高就会导致甲状腺功能那个亢进,也称甲亢。甲亢会导致身体能量消耗速度过快,症状通常表现为烦躁不安、神经质、肌肉乏力、体重减轻、睡眠障碍和实力问题[5]。严重情况下会引起更复杂的问题,例如心肌病、骨质疏松症、心力衰竭和孕妇的几种妊娠并发症[1]。

目前国内对于甲状腺疾病的检查途径通常有血清甲状腺激素测定(TT4、TT3、FT4、FT3)、血清促甲状腺激素测定(TSH)、甲状腺自身抗体测定、甲状腺球蛋白测定、甲状腺球蛋白测定、降钙素测定、尿碘测定、TRH刺激测定、甲状腺细针穿刺和细胞学检查、甲状腺核素检查、甲状腺正带脑子发射断层显像(PET)、甲状腺超声检查以及计算机X线断层摄像(CT)和核磁共振显像(MRI)。

一次甲状腺超声检查的价格在120-200元人民币,同时辅助的甲状腺功能检查根据不同医生不同要求会检查3项-7项,价格通常为150-350元人民币。被诊断为甲亢的患者每4-6周需要进行一次复查,甲减患者在调整药物剂量期间每个月需要复查一次,药剂稳定后每3-6个月需要复查一次。除了检查费用和频率较高产生的经济成本之外,甲状腺疾病的诊断效果在很大程度上还取决于医生的水平。国内在甲状腺领域经验丰富的医生主要集中于大城市和三甲医院,在较偏的地区无论是医疗人员还是设备都还有所欠缺。

目前,人工智能与医学相结合的研究越来越多。一些研究者们正在研究有效的诊断系统辅助医生对不同疾病进行诊断,以及如何提高人工智能算法效果来提升诊断系统系统的工作效果的研究都得到了广泛的关注并且在一些医疗机构已经正式工作了。浙江大学第一附属医院超声科引进了一套甲状腺结节人工智能辅助诊断系统。近年来人工智能在医疗影像方面已经取得了丰硕的科研成果,也越来越多的研究者关注到这个领域,将甲状腺智能诊断的准确度一再提高。但是甲状腺检测的时候每一次超声的费用和时间成本都较高,如何减少检测的时间成本以及费用成本都还没有比较具体的研究。

(2)特征选择

在机器学习和统计学中,训练数据通常包含许多冗余或无关的特征,因而移除这些特征并不会导致丢失信息。在本研究中采用的甲状腺疾病数据集包含特征25个。特征选择与特征提取有所不同。特征提取是从原有的数据集中通过原有的特征功能创造新的特征,而特征选择只返回原有特征中的子集。其算法被认为是搜索技术和评价指标的结合,前者负责选出新的特征子集,后者负责为不同的特征子集打分,再通过比较得出最优的特征子集。其好处有:简化模型,使模型更易被用户和研究人员理解和使用;缩短训练时间;降低方差等。

1 实验

1.1 实验描述

特征选择方法根据特征选择的形式分为三种方法:过滤法(Filter)、包装法(Wrapper)、嵌入法(Embed⁃ded)。在此次实验中采用的是递归特征消除(Recur⁃sive Feature Elimination),属于包装法,其主要思想是反复构建模型(如SVM或者回归模型),然后选出最好(或最差)的特征,接着在剩余的特征上重复这个过程,直到所有的特征都遍历到了。RFE的稳定性很大程度上取决于在迭代的时候底层采用哪种模型。

图1 进行特征选择部分代码

实验流程分为三个阶段,第一阶段为实验准备阶段,在此阶段中完成准备数据集、编写实现所需程序、设计实验方法三个工作。第二阶段为实验阶段,其中包括特征提取实验和人工神经网络模型训练。第三阶段为实验效果对比,与其他文献中别人使用的方法进行对比。

图2 实验顺序结构

在实验中分别训练了3-18个特征的分类模型,并且通过其测试结果与原训练集训练的分类模型测试结果以及以往的一些诊断系统进行对比。从有7个特征的数据子集开始,特征选择模型筛选出来的子集中就含有比较多的原数据。且使用具有7个及以上的特征子集的数据集训练出来的模型中,与含有3-6个特征数量的数据集相比,其准确率并没有明显的提高,甚至是出现下跌。在考虑到本研究的最初目的是为了通过减少数据集特征数量来训练出诊断模型能够帮助患者减少经济时间成本,实验结果中只取3-6个特征数量的数据集作为所求特征集合且将其与以前的诊断系统和在不筛选的元数据集情况下进行对比。

1.2 甲状腺疾病数据集

本研究中实验所使用的数据来自加州大学欧文分校(UCI)机器学习存储库的甲状腺疾病数据集。此数据集在世界范围内的甲状腺疾病诊断研究中普遍使用,以便实验结果与以前使用的诊断系统进行比较。数据集包含3163条具有21个特征的记录,其中每条记录都显示用于阳性或者阴性的结果类属性[1]。表1列出了甲状腺疾病数据集的部分特征列表以及每个特征的相应值。

表1 甲状腺疾病数据集特征及值

1.3 实验结果

在此次实验中,为了验证之前提出的通过降低甲状腺相关数据检测的维度来降低患者在检查治疗过程中的经济成本。甲状腺疾病数据集的处理有两个阶段。一、在数据集上使用递归式特征消除法(RFE)进行特征选择选择训练。通过模型训练,选出来四个数据集,其维度分别为3-6。二、使用筛选出来的新的特征子集训练人工神经网络(ANN)分类模型。在实验结果中,新的数据集训练的模型准确度达到97.54%-99.12%。而未经处理的原数据集训练的模型准确率是98.13%,所以通过RFE选择出来的特征子集进行模型训练,再使用该模型进行辅助诊断系统的开发。其所需要的特征数据要比现有的诊断模型数据量更少,因此患者在检查阶段需要检查的指标更少,从而能够实现保证准确率的前提下降低经济成本。

表2选择出来的特征子集

表3 不同特征数量模型的准确率

图3 其他诊断系统准确度

2 结语

本文中对甲状腺疾病诊断过程中的特征维度最小化进行了讨论并且通过实验数据验证其可能性。文章首先对甲状腺疾病检查和诊断过程进行了介绍,随后讨论在整个过程中患者所承担的经济成本和时间成本都比较高。接着提出了一种方法,先对甲状腺疾病的数据集进行降维,筛选出部分特征子集再进行人工神经网络建模进行分类训练。此方法分别筛选出特征数量为3-6的子集,通过对子集训练所得的模型与原数据集所得的模型进行对比,发现当特征数量为4-6的时候都要比原数据集训练的模型准确度要高。所以证明能够在保证准确率的情况下减少特征的维度。所需要的特征数量减少,患者在进行检查的时候所需要的指标也可以相应减少,通过这种方式能够有效降低患者就医的经济成本。此方法不仅可以用在甲状腺疾病的诊断中,在其他疾病的数据集中均可使用。

此次实验中没有探讨如果具体多少个特征的情况是最好的情况,所以在以后的研究中可以研究特征数量为多少的时候是最优的情况。也可以研究如何对筛选出来的数据子集进行处理,或者在分类阶段进行优化,以达到模型准确率的进一步提升。同时,研究将此方法应用在其他疾病的数据集上也是一个有意义的方向。

猜你喜欢
诊断系统子集特征选择
高一上学年期末综合演练
基于故障树分析的液压挖掘机的故障诊断探索
断路器检测系统与诊断系统研究
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
数控机床故障诊断系统的设计与实现
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
集合的运算
每一次爱情都只是爱情的子集