摘要:本文试图将深k近邻和朴素叶贝斯分类算法来解决肿瘤诊断的问题。肿瘤现在已经成为我国乃至世界范围内的常见病和多发病,尽早诊断和治疗对肿瘤患者的未来至关重要。异型性是肿瘤异常分化在形态上的表现。肿瘤细胞异型性小,与正常组织相似,分化和低恶性。肿瘤细胞异型性大,与正常组织相似度小,分化程度低,恶性程度高。区别这种异型性的大小是诊断肿瘤,确定其良性、恶性的主要组织学依据,但最大的问题在于准确诊断存在困难。本文从概率的角度,结合深K近邻与朴素贝叶斯分类算法开展研究,对尽可能准确的诊断提出合理的算法。
关键词:K最近邻分类算法;朴素贝叶斯分类算法;深度学习;机器学习
中图分类号:TP391.41 文献标识码:A 文章编号:1672-9129(2020)16-0067-01
1 深K最近邻算法肿瘤诊断的原理
K最近邻(Deep-k-Nearest Neighbor,DNN)分类算法是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近样本的大多数属于某一个类别,则该样本也属于这个类别。
本文建立在深度神经网络上,索引为λ的层将前一层fλ-1的输出作为其输入,并应用非线性变换来计算其自己的输出fλ。这些非线性行为通过一组参数θλ来控制,这些θλ是每个层的特定参数,这些参数将给定层的神经元链接到其前面的层的神经元。因此,对于给定输入x,神经网络f执行以下计算以预测其类:
fθ,x=fl-1(θl-1,fl-2(θl-2,…f0(θ0,x)))
2 朴素贝叶斯分类算法原理
设w为肿瘤组织与正常组织异型性的特征向量,表示组织异型性数值大小是否达到恶性肿瘤的值,1表示异型性达到,0表示未达到。用ci表示肿瘤的类别,分为良性肿瘤和恶性肿瘤,1表示恶性肿瘤,0表示良性肿瘤,则核心公式如下:
pci|w=p(w|ci)p(ci)p(w)
由于对肿瘤组织与正常组织异型性的诊断需要对多个节点进行测试,可以进一步将w扩展为多个属性节点Xi,令每个属性节点相互独立,只与该节点的相应组织C相关。那么各属性节点与组织C的关系就可表示为一个离散随机变量的有限集X1,X2,…,Xn,C,条件属性值xi是属性Xi的取值,条件属性值ci是属性C的取值,则本组织属于ci类肿瘤的概率由贝叶斯定理可表示为:
pci|w=p(x1,x2,…,xn|ci)p(ci)p(x1,x2,…,xn)
3 基于K最近邻算法和朴素贝叶斯分类算法的肿瘤诊断流程
DNN分类算法的主要思想是:首先算出待分类样本与已知样本之间的距离,进而找到距离与待分类样本数据最接近的K个样本,再根据这些样本所属的类别来判断待分类样本数据类别的分类。因为同时使用多个参数值不同的DNN算法对待同一特征数据分类得到的结果相互独立,符合朴素贝叶斯算法中所有属性相互独立的假设,所以结合朴素贝叶斯算法可以提高DNN分类的性能。
组合算法构造算法步骤如下:
Step 1:设样本集
D={(x11,x12,…,x1n,C1),(x21,x22,…,x2n,C2),…,(xm1,xm2,…,xmn,Cm)}为提取的组织C和该属性的属性节点特征向量的集合,其中Ci(i=1,2,…m)表示样本类别,取值为c1,c2,…,cn。
Step 2:将样本集D分为训练集Dtrain和测试集Dtext两部分。
Step 3:分别对属于Di的子样本集进行计算,计算出其中特征Xi=ai的概率,p=(Xi=ai|C=Ci)
Step4:计算训练集样本数据和测试集样本数据的距离,为测试集样本数据选择若干个与其距离最小的样本,对每个测试样本统计出最邻近若干個样本中大多数样本所属的分类。
Step5:针对测试集Dtext,得到C(C1,C2,…,Cn)对每个特征属性计算所有划分的概率PC=Ci|X=xtext=p(C=Ci)Πnj=1p(Xj=xtextj|C=Ci)。
4 结论
本文实现了将朴素贝叶斯分类算法合并到k深度近邻算法之中,以便提高它的效率,提高诊断的准确率,为抽象的据概率分类的算法整合出具体的步骤。虽然肿瘤诊断需要考虑的因素更加复杂,本文中形成的简单系统总体上可能不如更加复杂的系统有效。尽管如此,考虑到明显简化而达成的算法,可以认为这种简化的系统是有效的。
参考文献:
[1]李双杰,张开翔,王士栋,王淑琴.基于加权K近邻的特征选择方法[J].天津师范大学学报(自然科学版),2020,40(02):63-67.
[2]何伟. 基于朴素贝叶斯的文本分类算法研究[D].南京邮电大学,2018.
作者简介:申淑逸(2000—),女,汉族,籍贯:山东临沂,学历:本科,单位:曲阜师范大学,计算机学院。