基于BP神经网络的甲状腺结节辅助诊断模型

2020-09-04 04:59:00徐甜甜刘卫勇

计算机工程与设计 2020年8期

徐甜甜，薛旻，刘卫勇，付超+

(1.合肥工业大学管理学院，安徽合肥 230009；2.合肥工业大学过程优化与智能决策教育部重点实验室，安徽合肥 230009；3.中国科学技术大学附属第一医院超声科，安徽合肥 230036)

0 引言

甲状腺结节临床诊断中，医生观察超声图像中的结节特征给出诊断意见。受限于医生的专业知识和诊断经验，存在一定的误诊可能性[1]。新一代信息技术的发展及其在临床中的广泛应用，使得大量临床诊断数据得以保存，为运用SVM[2]、决策树[3]、神经网络[4]等机器学习方法进行辅助诊断提供了数据基础。文献[5]就机器学习在甲状腺疾病诊断中的应用做了详细综述，指出目前神经网络方法在甲状腺疾病诊断中使用最多。为提高甲状腺结节的临床诊断精度，降低误诊率，文献[6]提出基于卷积神经网络的诊断方法，并利用超声图像数据验证了所提方法的可行性。BP神经网络作为神经网络中最成熟的方法之一，具有较好的泛化能力和容错性，是一种极具潜力的临床决策支持工具。文献[7]建立BP神经网络模型对甲状腺结节良恶性进行分类识别，实验结果表明，该模型能得到较高的恶性识别率。

上述研究工作虽取得了较好的效果，但也存在一些不足之处。一是上述研究没有将预测精度与医生自身的精度进行对比，难以体现模型的辅助诊断意义。二是上述研究主要围绕甲状腺超声图像开展工作，忽略了文本数据在甲状腺辅助诊断中的重要性。三是TI-RADS分级作为被普遍使用的甲状腺结节临床诊断分级标准，并未被上述研究所考虑。针对上述研究不足，本文设计一套医疗诊断文本数据规范化处理流程，并在此基础上构建了基于BP神经网络的甲状腺结节辅助诊断模型，用于预测甲状腺结节TI-RADS分级。此外，在模型中引入病理结果作为精度判定的“金标准”，进而利用区间数距离测度，定义新的诊断精度公式。最后立足于安徽合肥某三甲医院甲状腺超声诊断数据，3个对比实验结果表明，所提出的辅助诊断模型能有效帮助医生提高诊断水平。

1 医疗诊断文本数据规范化处理流程

医疗领域由于缺乏标准化的数据管理模式，导致诊断数据大都是以不规范的自由文本形式记录[8]。为基于医疗诊断文本数据进行研究，首要问题是如何从中提取出真正有价值的数据并进行规范化处理。因此，本节设计一种医疗诊断文本数据规范化处理流程，并将该流程应用于甲状腺超声诊断数据的规范化处理中。

1.1 整体流程

本文将医疗诊断文本数据规范化处理流程分为4个阶段，包括数据采集、特征提取、数据分级以及数据转化，具体过程如图1所示。

数据采集取决于研究对象和研究目的。据此聚焦所需数据，采集相关原始数据并适当删减，将检查数据，医生诊断意见，病理结果及其它基本信息汇总整合。

特征提取是从采集的数据中根据检查指标提取病症的指标特征信息。疾病的诊断大都需要进行相应的检查，而每项检查都有专业的检查指标以帮助医生做出诊断。根据历史数据特点，再结合医学专业知识可以确定医院所关注的检查指标。指标确定之后，针对选定的指标从检查数据中提取各项指标的特征词，并依据特征词库规范特征词，得到规范的特征数据。

数据分级以提取的特征词为基础，对指标特征按恶性程度进行分级。疾病的良恶性会通过各项指标特征来体现，每项指标都存在很多特征，不同的特征代表病灶在该指标上的恶性程度不同。临床诊断中，仅通过检查并不能完全确定疾病的良恶性，医生只能基于各项指标的特征对疾病的恶性等级提供诊断意见。而病理检查结果才是疾病的最终确诊。鉴于此，在医生辅助下根据特征-病理的关系统计分析每个特征的恶性风险等级，实现指标特征的分级，得到特征分级标准。

图1 医疗诊断文本数据规范化处理流程

完成数据的采集、提取、规范和分级后，利用数据分级得到的特征分级标准转化相关数据，将指标特征、诊断意见、病理结果等文本数据转化为可用于计算机直接使用的数字矩阵。

该流程为医疗诊断文本数据的规范化处理提供了一个范式，解决了面对不规范的医疗诊断文本数据无从下手的困难，为面向甲状腺辅助诊断的研究工作奠定了数据基础。它不仅适用于本文研究的甲状腺超声诊断数据，同样可推广用于其它疾病的诊断文本数据处理，如乳腺，颈动脉等。

1.2 面向甲状腺超声诊断文本数据规范化处理

依据上述所设计的医疗诊断文本数据规范化处理流程，以安徽省合肥市某三甲医院的甲状腺超声诊断文本数据为例，验证该流程的可行性和合理性。

(1)数据采集

在第三作者的帮助下，从医院电子病历系统、报告系统等信息系统中采集到2014-01-01至2018-12-31期间甲状腺超声诊断相关的病症描述、医生诊断意见、病理结果以及病例基本信息等文本数据，具体数据样例见表1和表2。

表1 病症描述数据示例

表2 医生诊断意见与病理结果数据示例

(2)特征提取

据现有研究可知，通过超声检查可以检测甲状腺结节的边缘、边界、大小、轮廓、回声、钙化、血流、声晕、纵横比等多种特征信息[9]。这些特征是帮助诊断甲状腺结节的有效指标，但不同的医院选取的检查指标具有一定差异。根据历史数据及与医生讨论后，确定该医院主要关注边缘、边界、回声、钙化及血流共5项甲状腺超声指标进行诊断。

医生综合考虑各项指标特征提供诊断意见，为标准化医生的诊断意见，许多研究参考乳腺影像报告和数据系统(BI-RADS)分级，提出了不同的甲状腺影像报告和数据系统(TI-RADS)分级，但目前还未形成公认的国际标准[10]。在第三作者帮助下得知该医院的实际临床诊断中所采用的TI-RADS分级见表3，由于TI-RADS 1级和TI-RADS 2级的恶性风险概率为0%，TI-RADS 6级的恶性风险概率为100%，在甲状腺结节的超声检查中并不考虑这3类，因此本文对这3类也不予考虑。

确定指标和医院采用的TI-RADS分级标准后，便可从原始数据中提取各项指标特征和医生的TI-RADS分级意见，同时也将最终确诊的病理结果以及审核医生，审核日期等信息从原始数据中提取出来。对于表1和表2所示的原始数据，提取到的有效数据见表4，为节省空间这里省略了部分基本信息。

表3 采用的TI-RADS分级标准

(3)数据分级

基于有效数据，用统计与规则相结合的方法，依照医院的TI-RADS分级标准，将5个指标上的特征词也划分为8个等级。设计统计量对每个特征词计算恶性风险概率，统计量如下

表4 有效数据

(1)

其中，j表示边界、边缘、回声、钙化及血流5项指标，i表示j指标上的特征词。NT代表在指标j上特征词i的总数据量，NE代表在病理为恶性的前提下指标j上特征词i的数据量。据式(1)可得到每个特征词的恶性风险概率，然后依照该医院的TI-RADS分级标准的恶性风险概率区间将特征词分类，得到特征分级标准。为节省空间这里不再展示，标准详情可参见文献[11]。

(4)数据转化

数据转化以特征分级标准为转化规则，对有效数据进行数字化处理。根据该数据特点，以5*8的0-1数字矩阵表示每条病例的指标特征信息，行代表指标，列代表等级，‘1’的位置代表特征在对应指标上的等级。以1*9的0-1数字矩阵来代表医生提供的TI-RADS分级意见和最终确诊的病理结果，前8位代表TI-RADS分级，其中数字‘1’出现的位置代表TI-RADS等级，最后一位代表病理结果，‘0’表示良性，‘1’表示恶性。具体示例如图2所示。

图2 数据转化示例

2 基于BP神经网络的甲状腺结节辅助诊断模型

利用第1节得到的规范化数字矩阵，本节将进一步讨论基于BP神经网络的甲状腺结节辅助诊断模型。并以安徽省合肥市某三甲医院甲状腺超声诊断数据为例，通过3个对比实验，验证了所提模型的有效性。

2.1 模型构建

甲状腺结节的临床诊治中，外科医生依赖超声科医生提供的诊断意见，即TI-RADS分级意见，来确定患者进一步的诊治方案。由此可看出，TI-RADS分级在甲状腺结节诊治过程中起着至关重要的作用。然而，如引言所述，面向甲状腺结节临床辅助诊断的现有研究中，大多只预测得到结节的良恶性结果，而较少考虑TI-RADS分级意见。鉴于此，本文引入BP神经网络，学习隐含在历史数据中的甲状腺超声指标特征和TI-RADS分级之间的映射关系，以预测得到八分类的TI-RADS分级推荐，为超声科医生提供更具参考价值的辅助诊断意见。

此外，传统的BP神经网络中，预测精度通常是根据预测值和实测值的差距度量的。换言之，针对本文甲状腺结节临床辅助诊断问题，传统的预测精度是通过计算预测的诊断推荐和超声科医生提供的实际诊断意见之间的差异性得到。值得注意的是，超声科医生提供的诊断意见并不是最终确诊，往往并不能完全正确地反映患者甲状腺的患病情况。为了解决上述问题，本文以细针穿刺细胞学活检得到的病理结果作为“金标准”，利用区间数距离测度，用于刻画BP神经网络预测得到的TI-RADS分级推荐与“金标准”之间的差异性，基于这一差异性，本文界定了新的预测精度。综上所述，基于BP神经网络的甲状腺结节辅助诊断模型结构如图3所示。

BP神经网络由一系列神经元组成，包括输入层、隐藏层和输出层，是一种按照逆向传播算法训练的多层前馈神经网络[12]。BP神经网络由信号的前向传递与误差的逆向传播两个过程组成。其基本原理是：先是输入样本前向传播，从输入层经过隐含层到达输出层并计算误差；再是误差信号按照原路逆向传播，从输出层到隐藏层，再到输入层，不断更新网络的参数直至达到最优。

网络的隐含层可以有一层或者多层，本文实质为一般的利用BP神经网络进行分类的实验，只需构建只含有一个隐含层的网络即可。网络的输入数据为第1节得到的甲状腺指标特征矩阵，输出数据为甲状腺结节的TI-RADS分级。隐含层的节点数N采用经验式(2)来确定

(2)

其中，A代表输入层节点数，B代表输出节点数。对于网络的其它参数，在综合考虑训练时间，训练效果，硬件成本等多方面问题且经过多次训练测试对比后，确定本文BP神经网络模型的学习速率为0.005，期望误差为0.001，最大迭代次数为1000，隐含层和输出层的传递函数分别采用tansig函数和purelin函数。

图3 基于BP神经网络的甲状腺结节辅助诊断模型

为方便度量预测精度，首先将预测的TI-RADS分级推荐根据医院采用的TI-RADS分级标准转化为区间数，即{TI-RADS 3，TI-RADS 4A-1，TI-RADS 4A-2，TI-RADS 4B-1，TI-RADS 4B-2，TI-RADS 4B-3，TI-RADS 4C，TI-RADS 5} = {[0, 0.03], [0.03, 0.15], [0.15, 0.24], [0.24, 0.4], [0.4, 0.65], [0.65, 0.75], [0.75, 0.95], [0.95, 1]}。对于作为“金标准”的病理结果，用区间数[0, 0]表示良性，区间数[1, 1]表示恶性。下面引入区间数距离测度，度量TI-RADS分级推荐和“金标准”之间的差异性。

(3)

由于本文中所涉及的区间数均限于[0,1]之间，故而定义中的d(x,y)也限于[0,1]之间。TI-RADS分级推荐与病理结果之间的平均差异越小，说明BP神经网络预测精度越高。考虑这一事实，将精度计算公式定义为

(4)

其中，an表示TI-RADS分级，bn表示对应的病理结果，M表示数据量。这一精度精算公式不仅可用于预测精度的计算，同时也可用于度量医生提供的TI-RADS分级意见与“金标准”之间的差异性，从而得到医生的自身精度。因此，使用上述精度计算公式，便于将预测精度与医生自身精度进行对比，从而进一步验证本文所提辅助诊断模型的有效性。

2.2 实验与分析

实验在CPU Intel Core 2.8 GHz，8 G内存，win 10操作系统和MATLAB R2017a环境下进行，构建基于BP神经网络的甲状腺结节辅助诊断模型。利用本文第1节的医疗诊断文本数据规范化处理流程，对合作医院2014-01-01至2018-12-31期间5位超声科医生共3486条甲状腺超声诊断文本数据进行规范化处理，得到规范化数字矩阵，进而分别开展如下3个实验。

实验1：不同指标组合对预测精度的影响

基于历史数据中提取出的5项指标特征，先尝试探讨不同的指标组合对预测精度的影响，用数字1-5分别表示边界、边缘、回声、钙化、血流5项指标。以2014-01-01至2017-12-31年期间共2840条数据为训练样本集，以2018-01-01年至2018-12-31期间共646条数据为测试样本集，针对不同的指标组合进行实验，得到对应的预测精度见表5。

表5 不同指标组合下的预测精度对比

由表5可以看出，只考虑单个指标的预测精度普遍很低，其中钙化对预测精度的影响最大，血流的影响最小。同时考虑多个指标的预测精度比单个指标时有所提高。其中，指标组合{1, 2, 3, 4, 5}的预测精度最高，达到83.92%，指标组合{1, 2, 3, 4}的预测精度次之，为81.56%。因此，同时考虑5项指标的特征值训练网络模型效果最好。以下实验将均选取5项指标特征值来实现BP神经网络对甲状腺结节的TI-RADS分级预测。

实验2：模型辅助诊断有效性验证

以2014-01-01至2017-12-31期间5位超声科医生的甲状腺超声诊断数据为训练样本，2018-01-01至2018-12-31期间5位医生各自的数据为测试样本，用D1,D2,D3,D4,D5分别代表5位医生，预测样本见表6。

表6 训练样本及测试样本统计

利用2.1节所提出的BP神经网络，以5项超声指标特征矩阵作为网络输入来训练BP神经网络模型，分别对5位医生的测试样本进行TI-RADS分级推荐预测。针对预测的TI-RADS分级推荐以及医生提供的TI-RADS分级意见，利用式(3)和式(4)分别计算模型的预测精度和医生的自身精度。现随机取其中一次实验结果与医生自身的精度作对比，如图4所示。

图4 预测精度与自身精度对比

实验结果表明，BP神经网络模型的预测精度普遍高于5位医生的自身精度。对于医生D1，D2，D3，精度有提升但不太明显，有大约2%的提高，对于医生D4，D5，精度相对有明显提升，达到4%-7%。总体而言，基于BP神经网络的甲状腺结节辅助诊断模型的预测精度高于医生自身的精度，对甲状腺结节临床辅助诊断具有较好的有效性和应用性。

针对部分精度提高并不明显这一现象，考虑到BP神经网络是通过训练样本不断学习得到预测模型，训练得到的模型好坏必然受到训练样本本身质量的影响。鉴于此，为验证猜想，下面进一步探讨不同训练样本集对预测精度的影响。

实验3：不同训练样本集对预测精度的影响

为比较不同训练样本集对预测精度的影响，实验选取2014-01-01至2017-12-31期间不同医生的数据组合作为训练样本集来训练网络模型，测试样本集与实验2的测试样本集保持一致，为2018-01-01至2018-12-31期间的数据，进行对比实验。实验结果见表7。

表7 不同训练样本集的预测精度对比

由表7可以看出：①训练样本集选取{D1,D2,D3}的预测精度最好，比实验2中选用的全部医生的数据集{D1,D2,D3,D4,D5}得到的预测精度有明显提高。这主要是因为医生D3，D4和D5的自身精度相对偏低，致使预测精度降低。②训练样本集选取自身精度较高的两位医生的数据集{D1}和{D1,D2}得到的预测精度并不高。这是因为对BP神经网络来说，训练样本量太少也会影响模型训练的质量。

若只关注以{D1,D2,D3}为训练样本集的BP神经网络模型，对于医生D1，BP神经网络预测精度比医生自身提高4.02%；对于医生D2，预测精度比医生自身精度提高4.09%；对于医生D3，预测精度比医生自身精度提高4.9%；对于医生D4，预测精度比医生自身精度提高8.34%；对于医生D5，预测精度比医生自身精度提高10.09%。

综上所述，通过上述3个对比实验可以得出：①5项指标特征均会影响BP神经网络模型的预测精度，且同时考虑5个指标特征值的预测效果最好。②本文提出的基于BP神经网络的甲状腺结节辅助诊断模型具有较好的辅助诊断有效性，模型的预测精度高于医生自身的精度。③选取自身精度较高的3位医生的数据作为训练样本得到的模型预测精度最好，可将该模型用于甲状腺结节的临床辅助诊断，尤其对医技水平较差的医生或者缺乏经验的年轻医生来说，将预测得到的TI-RADS分级推荐给医生作为参考，以帮助医生进一步提高医技水平。

3 结束语

本文面向甲状腺结节辅助诊断问题，针对标准化程度较低的医疗诊断文本数据，设计了一套医疗诊断文本数据规范化处理流程，并以安徽省合肥市某三甲医院甲状腺超声检查数据为例，将该流程用于甲状腺超声检查文本数据的规范化处理。在此基础上，为利用历史数据提高甲状腺结节诊断的精度，构建了基于BP神经网络的甲状腺结节辅助诊断模型，并在该模型中引入“金标准”和区间数距离测度，定义了新的精度计算公式，用于预测精度和医生自身精度的度量。通过3个对比实验得到，基于BP神经网络预测的精度普遍高于医生自身的精度，该模型对甲状腺结节的诊治具有很好的辅助诊断价值，可以作为一种临床决策支持工具，帮助医生提升诊断水平，提高工作效率。此外，本文进一步分析了不同指标组合和不同训练样本集对预测精度的影响，得到了最优的特征组合和训练数据集。

未来将进一步将设计的医疗诊断文本数据规范化处理流程以及基于BP神经网络的辅助诊断模型用于其它疾病的临床辅助诊断中，以帮助医生提高诊断水平。