梁怀新 宋佳霖 郑存芳,2 洪文学*
1(燕山大学电气工程学院,河北 秦皇岛 066004) 2(燕山大学里仁学院,河北 秦皇岛 066004)
乳腺癌是最常见的女性恶性肿瘤之一,不仅是中国也是世界女性发病率最高的肿瘤[1-2]。在中国,乳腺癌的发病率逐年增长,据全国肿瘤中心统计,2015年乳腺癌的病例达到26.9万例,死亡病例高达7万例[3]。并且,随着人们生活水平的提高,中国乳腺癌的发病率仍然呈逐年递增的趋势,严重威胁着女性的身体健康。因其发病机理尚未完全清楚,采用科学的手段针对乳腺癌进行早期诊断对于防治肿瘤具有十分重要的意义。目前,很多学者已对采用机器学习算法诊断乳腺癌进行了相关研究,算法涉及神经网络[4-5]、支持向量机[6]、决策树算法[7]、免疫分类算法[8]等。
很多传统的机器学习算法并不具备增量学习能力,随着数据量的增大,一次性获得知识的完备模式是很困难的,根据人类渐进式认知原理,学习知识是一个循序渐进的过程。因此,在机器学习中引入增量学习的思想尤为重要,目前增量学习的机器学习算法涉及神经网络[9]、概念格的构建[10]、随机森林[11]、支持向量机[12]、多模态增量学习[13]等。增量学习的出现使得动态自学习成为可能,有助于在大数据背景下快速挖掘有价值的信息获得完备模式。如今,机器学习方法是否具有增量学习,已经成为衡量学习方法好坏的一项重要指标。
Lasso(least absolute shrinkage and selected operator)算法[14]是一种新的高维特征选择正则化方法,于20世纪末被提出,可实现特征因子变量精简的效果。2002年,Efron提出最小角回归算法(least angle regression,LARS),使得Lasso的计算效率大大提高。Lasso算法可以方便地处理连续、离散、二值数据,具有较高的特征选择能力。目前,涉及Lasso与乳腺癌的相关融合研究[15-16]还不是很多。本研究结合增量学习和Lasso特征筛选融合,增量学习中的粒化过程必然导致特征维数的增多,结合Lasso算法,可在保证分类准确率的情况下降低维度,实现动态的数据挖掘过程。
1982年,德国Wille教授首次提出形式概念分析(formal concept analysis,FCA)理论[17],它可以有效反映出概念间的泛化与例化关系。概念格是一种形式概念分析理论的数学逻辑思维理论,是形式概念分析理论的数学化的可视化描述。但是,当数据量不断增大时,会存在连线交叉、层次不清的问题,不利于可视化数据挖掘。洪文学教授提出了一种可表示事物普遍性和特异性联系的可视化工具——属性偏序结构图,具有频数统计、关联分析等集成功能,已经在很多领域得到应用[18-22]。
目前,属性偏序结构图的生成是基于批量式生成方法,无法动态根据数据量的增大进行调整。基于此,本研究提出一种基于增量学习和Lasso特征选择的多维数据规则发现的可视化方法,针对粒化后数据维数变多的情况,采用Lasso方法进行二次特征筛选来实现降维,以降低规则复杂度;之后提出新的基于基尼指数和覆盖对象的行列优化方法,对形式背景进行优化,生成属性偏序结构图,进而进行规则提取。该方法实现了将规则提取可视化,取得了96.52%的诊断准确率,高于主流分类器水平,丰富了数据挖掘可视化方法,有助于降低与专家名医沟通的医学门槛。
实验数据选自UCI标准数据库的Wisconsin大学Madison医学院乳腺癌数据集:Breast Cancer Wisconsin Data Set (Original),http://archive.ics.uci.edu/ml/datasets.html。其中,样本总数为699个,包含条件属性8个、决策属性1个,属性说明见表1。为了处理方便,本研究将缺失的16个样本剔除,最终剩余完整样本总数为683个。
为了详细说明采用本算法对乳腺癌数据进行模式识别的过程,对一些必要概念进行定义。
1.2.1相关定义
定义1:形式背景。形式概念分析中,形式背景可以由K={P,M,G}三元组组成。其中,P表示对象集合,M表示属性集合,G⊆P×M表示P和M的二元关系组成的集合。(p,m)∈G或pGm表示对象p∈P具有属性m。此外,形式背景可用矩阵表示(见表2),每一行代表一个对象,每一列代表其具有某一属性。行列交叉处若标注1,则表示此对象具有该属性,若标注0表示不具有该属性。
表1 乳腺癌数据集属性Tab.1 The attributes of the breast cancer data
表2 形式背景Tab.2 The formal context
对象子集X⊆P,属性子集Y⊆M,则有
f(X)={y∈M|∀x∈X,xGy}
(1)
g(Y)={x∈P|∀y∈Y,xGy}
(2)
式中,f(X)表示X中所有对象具有的属性集合,g(Y)表示Y中所有属性具有的对象集合。
定义2:决策系统、决策信息表。用一个四元组S=表示一信息系统,U是对象集合,A=C∪D是属性集合,其中C是条件属性集合,D表示决策属性集合。V=∪Va,Va表示属性a的值域。f:U×A→V表示信息函数,∀a∈A,x∈U,有f(x,a)∈Va。用五元组(U,C,A,D,f)表示决策信息表,见表3。
表3 决策信息表Tab.3 The decision-making information table
在决策信息表中,若某两个对象彼此具有相同的条件属性和决策属性,则二者具有相同模式,将相同对象的数目称作模式的度,例如在表2中,对象x1与对象x5各属性完全相同,则保留x1,模式度为2。
定义3:决策模式信息表。称六元组(U,C,I′,D,K′,Du)为决策模式信息表,与信息表相比,I′表示U与C之间的映射关系,K′表示U与D之间的映射关系,Du表示模式的度。将表3表示为决策模式信息表,见表4。
表4 决策模式信息表Tab.4 The decision-making information and pattern table
定义4:等价关系、等价类。在决策系统S=中,存在属性子集B⊂A,决定了等价关系
IND(B)=
{(x,y)∈U×U|∀a∈B,f(x,a)=f(y,a)}
(3)
并得到了U的一个划分,可用U/IND(B)表示。其中,等价关系之间的交也是一种等价关系,表示为
[x]IND(B)=∩[x]B
(4)
其中
[x]B={y∈U|∀a∈B,f(x,a)=f(y,a)}
(5)
称为等价类。
定义5:集合覆盖。在学习新的模式时,根据不同的覆盖关系,将进行不同操作。为便于后面的讨论,在此定义一些关于覆盖的基本概念,关于覆盖理论的具体研究可参照文献[23]。
设U是论域,C是U的一组非空子集族,且∪C=U,则称C是U的全覆盖,或C是U的一个覆盖。设U1是U的非空真子集族,C1是U1的覆盖,则称C1是U的子域覆盖。设非空子集族C={K1,K2,…,Kn}(n>1),是论域U上的一个覆盖,若Ki∩Kj=Ф(i≠j),则C被称为论域U的一个划分,也被称为论域U上的互斥覆盖。特别地,当|C|=2时,互斥覆盖也称为矛盾覆盖。设Ci、Cj是论域U上的子域覆盖,若(∪Ci)∩(∪Cj)≠ Ф,且(∪Ci)⊆(∪Cj) (i≠j),则Ci、Cj是U上的互不包含覆盖。设非空子集族Ci、Cj是论域U的子域覆盖,若∪Ci⊆∪Cj,则称在论域U上Ci是Cj的伴生覆盖。
1.2.2增量学习
增量学习的基本思想是将新数据的对象和属性求交集,根据不同的覆盖结果关系做出不同的操作,其中涉及模式的增加、删除、更新以及相应库数据的修改等。这里定义具有相同条件属性和决策属性的集合为一个对象的模式。
置初始的形式背景K={P,M,G}为空,即论域为Ф,当存在新增对象X*时,设存在新增概念为(X*,f(X*)),其中f(X*)表示对象X*的条件属性集合。添加f(X*)到属性库L,对象X*保存到对象库Q,然后生成形式背景K*={X*,f(X*),G}。
大规模的增量学习可以认为是很多单次增量学习的叠加,这里以每次学习一个概念为例进行说明。原始形式背景K={P,M,G},设多次学习后的原有对象集合为P,属性库属性集合为L,假设存在新增的概念(X*,f(X*)),集合f(X*)与属性库集合L做覆盖运算f(X*)∩L,根据覆盖结果进行下一步操作。
若属性集合存在新增属性,则f(X*)与L是互斥覆盖关系,将新增属性追加到属性库L,形成新的属性库L*=(L∪fadd(X*)),其中fadd(X*)表示属性集合f(X*)中新增的属性。更新形式背景K*={P∪X*,M∪fadd(X*),G}。
若不存在新增属性,那么新增属性集合与原集合之间可能存在子域覆盖关系、全覆盖关系、互不包含覆盖关系、伴生覆盖关系。根据不同覆盖关系对属性库做相关操作,对于属性库L模更新有以下几种情况:
1)若为全覆盖关系,则f(X*)=L,属性库不做新增;
2)若为子域覆盖关系,f(X*)⊂L,保持属性库L不变;
3)若为互不包含覆盖关系,更新新增属性L∪fadd(X*);
4)若为伴生覆盖关系,f(X*)⊃L,同样做更新L∪fadd(X*),保留原属性集合不变。
当概念的外延很多时,对应的属性就很容易出现重复的模式,即为既存模式库中模式的全覆盖关系。因此,为了得到约简的模式,提高生成形式背景的时间效率,当有新的概念(X*,f(X*))加入形成二值背景F时,进行模式检测,将相同模式对象合并,删除新增模式,并计算合并增加属性度到当前模式。
1.2.3Lasso
特征选择对于建模具有重要的作用,在起初的研究中往往选择很多特征,以尽可能详尽地描述和表征对象。然而,一些高维的特征集合对模式识别、规则提取等数据挖掘过程有时并没有体现理想的优势,反而一些自变量因其具有强解释力、高价值,常常可以来提高模型的解释性和预测精度。因此,选择适合模型的特征尤为重要。
Lasso的提出有效解决了特征选择问题,因其具有较好的特征选择能力被广泛应用[24-25],对特征数大于实例数的模型效果尤为明显。该算法通过利用自变量系数绝对值之和构造惩罚函数,通过使其小于特定值来达到使某些变量系数压缩为零的目的,进而得到非零系数对应的特征为被选的属性变量,实现了指标集合的降维目的,有利于实现集合的精简。Lasso主要是通过一范数惩罚回归来求得最优解。
设存在数据(X,Y),其中X=(x1,x2,…,xj,…,xp)T,p表示属性特征的数量,总样本数为N,xj=(x1j,x2j,…,xnj)表示预测变量特征,Y=(y1,y2,…,yi,…,yn)T是回归量,也可以是不同样本类别标签。首先,将xj标准化、yi中心化,有
Lasso最小化残差平方和如下:
(8)
(9)
式中,yi是响应变量,xij=(xi1,xi2,…,xin)是观察向量,βj为第j个变量的回归系数。
s>0,用于控制系数压缩为零的数量。当s取较小值时,与响应变量关联小的预测变量所对应的系数将会被压缩至零;而当s很大时,回归系数一范数失去限定作用,无法起到特征选择的作用。
最小角回归算法(LAPS)是解决Lasso问题的一种经典算快速高效方法[26],LARS方法可有效得到Lasso中方程的最优解,使残差逐渐减小,只需n步(n为变量数)就可以得到寻找一范数正则化路径。LARS算法每一次选择回归残差作为被选特征的计算指标,使当前残差与预测变量的关联系数与上一被选特征相同。其中,回归残差包括响应变量和被选特征的综合信息。LARS算法基本流程如下:
Input: 原始数据,残差Y,变量集X。Output: 回归路径图。
1)X,Y中心标准化;
2)找到当前残差Y与X相关系数(记做Y^X)最大的变量X1;
3)在solution path上寻找另一个变量X2,使得Y2^X2=Y1^X1,solution path中加入X2并调整为X1和X2角分线方向;
4)重复上述方法直到所有变量加入。
根据表2生成系数回归图,见图1。从中可以得到每一个变量的回归路径,纵轴是回归系数的估计值,右侧轴上的数字对应着变量下标,可以看出特征选择顺序为X3>X1>X2。
图1 Lasso回归系数估计 Fig.1 The Lasso regression coefficient estimation diagram
1.2.4属性偏序结构图生成
属性偏序结构是基于属性偏序的性质和数学意义生成的层次结构,由经过概念格中选定顶点的完全子格构成[27]。属性偏序结构是一个有层次的倒树形结构,其数据内部关联及意义清晰,可视化效果相比概念格更好。属性偏序结构图是基于二值形式背景生成的,具有自动聚类的效果,而原始数据往往是定量的连续数据,因此需要将连续数据进行粒化、行列优化等必要处理。本研究提出了基于有监督的连续数据粒化方法,同时提出基于基尼(Gini)指数和属性覆盖对象综合指标作为行列优化中重要属性选择的指标,引入基于类别纯度表征的基尼指数,以突出类别信息。
假设集合S中包含s个数据,m个不同类别,将m个不同类定义为Ci(i=1,2,…,m)。根据属性值将集合S划分为m个子集Si(i=1,2,…,m),假设Si集合属于类别Ci,集合Si包含的样本数目为si,则集合S的Gini指数为
(10)
式中,pi表示的是某一样本属于类别Ci的概率值。
在选择分裂属性时,假设根据某个属性将集合S划分为N个子集Sj(j=1,2,…,N),则分裂后的Ginisplit指标表示为
(11)
式中,sj为属于某一个类别的样本数,s为所有类别数目。
本研究粒化算法伪代码如下:
Input:原始数据(n行m列)
Output:粒化后数据
1 for Column=1 to m
2 计算每一列数据的潜在分割点P;
3 计算每个分割点的Ginisplit,记录最小的Ginisplit对应位置wi;
4 从Wi+1开始至n行进行纯度检测,若类别一致,停止计算,否则返回2、3步;
5 End for
至此根据粒化规则生成的形式背景较为稀疏,通过行列变换可将数据内部结构和普遍性以及特异性展现得更为明显。本研究提出新的行列变换指标CGAO(combination of Gini and objects),即将表征类别纯度的Gini指数和覆盖对象数目融合进行特征提取和特征变换,有
(12)
式中,mi∈M(i=1,2,…,n)表示某个属性。
Input:形式背景K,行数m,列数n
Output:优化后形式背景
1 Row=1,Column=1;
2 For Column=1 to n;
3 得到可能的子形式背景K1与K2
4 If K1与K2没有交集
5 对当前形式背景进行优化
6 Else
7 Row++;
8 End if
9 If Row>=m
10 Column++;Row++;
11 Else
12 Continue;
13 End if
14 End for
1.2.5实验过程
为了验证规则提取方法的客观性,首先将本实验数据随机划分为训练集(80%数据)和测试集(20%数据),对比试验过程,保持训练集和测试集不变。其中,训练集中包含样本共计546例,良性360例,恶性186例。以下实验过程均在训练集上进行。
步骤1:数据标准化。为消除量纲以及数据自身变异对实验的影响,先将每一列属性值标准化,使其平均值为0,标准差为1。
步骤2:特征选择。本研究采用R语言Lasso程序包内置算法,对特征属性进行一次筛选,根据前面介绍的Lasso算法,将全部数据导入,生成系数回归路径,见图2。可以看出,经过Lasso被选择出的属性重要顺序为X6>X3>X2>X1>X7>X8>X4>X5>X9。为了清晰地说明诊断过程,将属性X6、X2、X3、X1优先选择出来。
图2 乳腺癌诊断Lasso回归系数估计Fig.2 The Lasso regression coefficient estimation
步骤3:数据粒化。采用本文第4.1节中的粒化方法,对每列属性值计算Gini指数,得到所有分割点,实现数据二值化,进而生成形式背景。经过计算,得到的分割点情况如表5所示。
将分割区间按照字母和数字组合方式加以转换,每个属性为一个字母表示,区间段的索引值用数组加以组合,对象可用数字代表,如属性X3的区间表示为C1-(0,0.278],C2-(0.278,0.389],C3-(0.389,0.833],C4-(0.833,1],以此类推。
表5 特征X1、X2、X3、X6样本分割点Tab.5 The split points of the attributes X1, X2, X3, X6
步骤4:增量学习。根据本文第1.2.2节给出的增量学习具体步骤进行数据的增量学习,而后采用基于CGAO指标进行属性特征选择,从而实现进行行列变换,生成的部分形式背景见表6。
表6 部分优化形式背景Tab.6 The partial optimized formal context
步骤5:二次特征筛选。经过粒化和增量学习后,分割点将数据划分到不同的区间,特征维数由初始的3维变为17维,提升了将近6倍,若生成属性偏序结构图会出现分支、层数较多的情况,不利于进行规则提取可视化和约简。因此,采用Lasso算法进行二次特征筛选,既有利于可视化规则发现,也保持了细化特征区间段的优点。经过Lasso算法筛选的系数回归路径如图3所示。可见,按照特征筛选顺序,优先被选择的特征为特征2、特征3、特征6,即属性B1、C1、D1。可见,基于Lasso算法的二次筛选起到了很好的降维作用。
图3 二次Lasso回归系数估计Fig.3 The second Lasso regression coefficient estimation
步骤6:生成决策模式信息表。经过对粒化后的数据进行特征筛选后,会产生大量的相同模式,形成不一致决策信息,将不一致决策按照模式度小的服从模式度大的规则进行合并。计算每一个模式的模式度,并将相同模式进行约简合并,以形成决策规则,生成决策模式信息表,见表7。
表7 乳腺癌数据决策模式信息Tab.7 The decision-making information and pattern table of the breast cancer data
图4 乳腺癌诊断属性偏序结构图Fig.4 The attribute partial order structure diagram of the breast cancer diagnosis
步骤7:生成属性偏序结构图。根据决策模式信息表的前4列数据构成形式背景,在进行基于CGAO综合指标的行列优化形式背景后,生成属性偏序结构图,如图4所示。共分为条件属性层和决策属性层两个部分,a1~a3表示属性特征,即归一化后的不同区间段,o1~o8表示对象,其中o1~o3、o5属于良性肿瘤类别,o4、o6~o8属于恶性肿瘤类别。属性偏序结构图的条件属性层分为4小层,其中越靠上层越具有普遍性,是事物共性的表达。
步骤8:规则提取。本研究的规则提取建立在将属性值归一化的基础上,每一条支路都是一条完备的规则,如支路1,当某对象具有属性a1、a2、a3时,即当细胞大小均匀性在 (0,0.167]内,细胞形状均匀性在 (0,0.278]内,裸核在 (0,0.167]区间内的条件同时满足时,判定该对象为良性。若对象不具有某个属性,则用x表示该属性为空。根据属性偏序图可得出诊断规则,转换为IF-THEN形式表示如下:
1)IF(X2(细胞大小均匀性)∈(0,0.167])AND(X3(细胞形状均匀性)∈(0,0.278])THEN 诊断=良性;
2)IF(X2(细胞大小均匀性)∈(0,0.167])AND(X3(细胞形状均匀性)=x)AND(X6(裸核)∈(0,0.167])THEN 诊断=良性;
3)IF(X2(细胞大小均匀性)∈(0,0.167])AND(X3(细胞形状均匀性)=x)AND(X6(裸核)=x)THEN 诊断=恶性;
4)IF(X2(细胞大小均匀性)=x)AND(X3(细胞形状均匀性)∈(0,0.278])AND(X6(裸核)∈(0,0.167])THEN 诊断=良性;
5)IF(X2(细胞大小均匀性)=x)AND(X3(细胞形状均匀性)∈ (0,0.278])AND(X6(裸核)=x)THEN 诊断=恶性;
6)IF(X2(细胞大小均匀性)=x)AND(X3(细胞形状均匀性)=x)AND(X6(裸核)∈(0,0.167])THEN 诊断=恶性;
7)IF(X2(细胞大小均匀性)=x)AND(X3(细胞形状均匀性)=x)AND(X6(裸核)=x)THEN 诊断=恶性。
采用上述诊断规则,对随机抽取的20%测试集数据进行测试,结果见表8。
表8 乳腺癌诊断准确率Tab.8 The precision of the breast cancer diagnosis
由表8可知,采用80%数据集提取出的7条规则进行模式识别,经过10次测试,得到平均准确率为96.52%,其中判断正确132例、错误5例,在一定程度上说明了本算法的可行性。
为了对比本算法的准确率和客观性,将数据集在其他4个分类器进行测试,其中包括随机森林、支持向量机、Adaboost、KNN分类器(K=1,3),实验数据均为经过本研究粒化、形式背景优化后的乳腺癌数据,准确率比较结果见表9。
表9 与其他分类器比较结果Tab.9 The comparison of the precision with other classifiers
经过和其他5个分类器进行比较得出:基于本研究Lasso二次筛选出的3个特征的基础上,高于主流分类器的分类水平,准确率可达96.52%,高于Adaboost、1NN、3NN、以及随机森林和SVM分类器。
在两次Lasso筛选过程中,首先在9维中选择4维进行增量学习,此后从17维增量形式背景中选出前3维特征进行基于特征的规则提取。为了说明方法选择的准确性和有效性,设计了实验进行验证:按照属性特征的相关性大小和系统推荐顺序,在对一次和二次Lasso筛选时,重要的属性特征分别筛选出来进行规则提取,设计分类器,此过程保持训练集合测试集不变,重复相同的乳腺癌数据的增量诊断过程,从而得到准确率比较,见表10。
表10 Lasso特征选择数目与准确率比较Tab.10 The comparison of the precision with the numbers of the selected Lasso attributes
由此可知,采用本研究的Lasso特征选择数目组合方式进行乳腺癌数据诊断的准确率最高,且说明了在选定一次Lasso特征数的情况下,并不是维数越高分类效果越好,因此寻求最佳的特征数目组合尤为主要。
为了更具体地说明本研究结合增量学习算法的可行性,将乳腺癌数据集合按比例分割来完成增量学习过程,采用顺序增量学习的方法来逐条学习数据,采用分类最优的Lasso特征筛选数目组合方式,对通过按比例增量学习后的数据进行规则提取,生成属性偏序结构图,以研究与分类准确率的关系,见表11。为方便进行说明,仅展示基于增量学习数据比例为20%、30%、50%、80%(依次对应图5中的(a)~(d))的属性偏序结构图。
表11 顺序学习增量比例与分类准确率比较Tab.11 The comparison of the precision with different proportions of the incremental learning data in order
图5 不同顺序增量学习比例数据属性偏序结构图。(a)20%;(b)30%;(c)50%;(d)80%Fig.5 The attribute partial order structure diagrams with different proportions of the incremental learning data in order.(a)20%; (b)30%; (c)50%; (d)80%
由表11可知,随着数据增量学习比例逐渐提升,本方法对乳腺癌数据分类准确率逐步提升,当增量学习数据量达到20%时,分类准确率已经接近支持向量机(95%)分类水平,超过随机森林分类器水平(94.25%)。结合图5中的(a)~(d)可知,当增量学习数据量达到30%时,诊断规则已经提取完备。增量学习的引入可以更加清晰地得到规则模式完备的数据量临界,有助于在满足分类正确率的前提下采用更精简的数据集进行数据挖掘,提高数据集的使用效率。
本方法实现了乳腺癌数据的诊断规则提取和可视化,其中增量学习思想的引入使得原始属性偏序结构图的批量式成图方法具有动态学习的能力;同时,由于两级Lasso特征筛选对高价值特征数目的控制,实现了降维,所以本方法可应对较大数据集的模式学习过程,保证较好的规则可视化效果。通过对原始数据的粒化、增量学习、特征筛选、模式约简等过程训练,得到最简的模式识别准则,以实现测试数据的准确性评判。直观的规则可视化对于乳腺癌的诊断降低了复杂度,提高了规则的可读性。经过属性偏序结构图的可视化,将约简后的规则以图形化的方式显示出来,一目了然,层次结构简单鲜明,提高了规则的形象化表达,降低了非医学背景人群进行诊断数据挖掘和与医生沟通的门槛和难度,证明在提供肿瘤相关参数的情况下用本方法进行乳腺癌肿瘤性质的辅助诊断是可行的。
从数据适用性角度分析,本方法可用于对连续的定量数据和离散的定性数据进行相关参数处理。连续数据经过归一化后进行粒化处理,经过增量学习系统生成形式背景;而定性数据可直接生成形式背景,并与连续数据的背景融合。
从增量学习模块设计角度,本方法的引入使属性偏序分类器具有动态学习规则的能力,同时可以自动约简冗余模式,减少了内存占用,理论上可实现较大规模数据的连续增量模式学习。
在表10的两级Lasso特征不同组合对准确率影响的试验结果中可以看到,从横向和纵向分析来看,并不是特征数越多分类效果越好,这与选择变量的相关性有关。一次Lasso特征筛选是针对原始的连续数据进行的,二次特征选择是针对经过粒化后的形式背景的二值数据进行的,因此属性特征选择的价值性也与粒化准则的选择和效果有关。针对本方法,将多级Lasso特征筛选组合设置为反馈调节,以准确率为基本决策指标来寻找局部最优组合。因此,在现有基础上扩大特征筛选数目,挖掘多数据量下稳定的特征筛选组合,是下一步研究重点。
随着数据量的不断增大,引入增量学习和Lasso特征选择算法,使得利用属性偏序结构图动态处理高维数特征的乳腺癌数据成为可能,使得诊断系统具有自学习能力,可自动根据属性和模式覆盖结果进行更新。本研究结合Lasso进行二次特征筛选,融合增量学习机器学习算法,实现了动态更新属性偏序结构图生成诊断规则;提出了基于Gini指数的粒化算法,以及基于CGAO指标最小的行列变换算法,实现了选择覆盖大且类别纯的属性作为行列变换的指标参数;同时利用提取规则与其他分类器进行分类准确率比较,得到了较为理想的分类效果。实验证明,基于本方法的乳腺癌诊断有利于诊断系统的自动化,是一种有效的肿瘤辅助诊断方式。接下来将扩大Lasso特征选取数目,寻求针对更多维数特征的数据集选取最佳Lasso特征顺序组合的研究方法,从而进一步提高基于肿瘤参数特征的癌症诊断准确率。