基于DCE-MRI影像组学非负矩阵分解的乳腺癌病理信息缺失填充研究

2021-11-12 02:02付振宇厉力华
中国生物医学工程学报 2021年4期
关键词:组学病理乳腺癌

付振宇 范 明 厉力华

(杭州电子科技大学生物医学工程与仪器研究所,杭州 310018)

引言

乳腺癌是最常见的女性癌症[1]。2019年国家癌症中心发布的中国癌症报告显示,在过去10余年中,乳腺癌患者的生存率呈上升趋势,但由于临床早期就诊率低和晚期病例临床诊疗不规范等原因,我国乳腺癌的5年生存率仍与美国等发达国家存在差距[2]。在乳腺癌诊疗中,对乳腺癌临床病理信息进行准确判断,可为乳腺癌的精准治疗提供有效参考。乳腺癌病理报告是诊断和治疗的主要依据,常见的病理信息包含乳腺癌组织学分级、Ki-67表达和分子分型等,其中乳腺癌分子分型对于选择合适的个性化治疗方法有很大帮助,有助于乳腺癌的精准诊疗。

在乳腺癌的实际诊疗过程中,可能存在病理信息不全或者病理报告缺失的问题,这对乳腺癌的精准诊疗造成困扰。肿瘤基因表达数据具有维数高、样本量少、冗余信息大且容易出现数据缺失的情况[3-4],目前针对缺失数据的填补方法包括:一是列表式删除法,即将存在缺失数据的行简单地从矩阵中删除,以得到一个完整的数据集;二是利用特定值来填补;三是利用统计学方法进行填补估计,如行均值、K近邻法、贝叶斯主成分分析法[5]、支持向量回归[6]等。这些缺失数据填补方法进展较快,但也存在一定问题:列表式删除法直接删除了许多有效信息;特定值填充法或行均值法没有考虑数据本身属性之间的关系;其他的填补方法也仅关注基因数据本身,没有考虑使用其他辅助信息来提升填补精度。

当数据矩阵中存在缺失时,利用部分已知矩阵元素来恢复整个矩阵,是矩阵填充主要解决的问题。Candes等证明,当矩阵是低秩的且采样数目满足一定条件时,大多数矩阵可以通过求解范核数最小化问题来精确地恢复所有元素[7]。若将部分采样元素这一约束推广到一般的线性约束函数,则矩阵补全就称为低秩矩阵恢复[8]。低秩矩阵分解是矩阵填充的一种主流方法,它先将数据矩阵分解为两个低秩矩阵之积,再通过求解非凸的低秩逼近问题来恢复丢失元素。其中,非负矩阵分解(non-negative matrix factorization, NMF)算法是处理非负低秩矩阵的一种流行方法,在数据矩阵所有元素为非负的条件下对其实现非负分解。如果从数值计算的角度看,矩阵分解的结果可能包含负值,但负值元素在一些实际应用问题中不具有物理意义。非负矩阵分解的结果不仅不包含负值,而且还有可解释和明确的物理意义,因此在很多领域都有具体应用。NMF分解方法相对于传统的矩阵分解算法,具有实现形式上的简便性和分解结果上的可解释性,目前已在图像分析[9]、生物信息学[10]、文本聚类[11]、语音信号处理[12]等领域有广泛应用。

影像检查是乳腺癌早期诊断的常用方法。磁共振成像(magnetic resonance imaging, MRI)技术被认为是最重要的乳腺检查方式,对乳腺癌的诊断具有较高的灵敏度和特异性,无辐射风险[13-15]。但是,常规影像不能对乳腺癌的病理信息进行精准判断[16-17]。影像组学从临床影像数据中提取特征并量化分析,利用多样化的数据挖掘和统计分析方法挖掘关键信息,辅助临床诊断和治疗决策,提高个性化治疗计划的准确性。有研究表明,对磁共振影像进行影像组学分析,可以用于预测乳腺癌分子分型[18-20]。

针对乳腺癌诊疗过程中可能存在的临床病理信息缺失问题,本研究利用乳腺癌患者的磁共振影像信息,从DCE-MRI影像病灶区域提取统计、形态和纹理特征,结合对应乳腺癌患者的临床病理信息,对由影像组学特征和病理信息构成的矩阵,分别建立基于用户的协同过滤(collaborative filtering,CF)填充模型和基于非负矩阵分解填充模型,对缺失的临床病理信息进行填充。实验结果表明,相比仅使用临床病理信息的非负矩阵填充模型,采用影像组学特征和临床病理信息结合的非负矩阵分解填充模型,可以提高填充结果的准确性,为乳腺癌的精准诊疗提供可靠参考。

1 方法

1.1 患者病理数据采集

本研究的临床病理信息数据采集自浙江省中医院,共计263个乳腺癌病理报告的浸润性乳腺癌病例。患者在进行MRI检查前,所有病例均未进行化疗或乳腺癌手术。经统计,DCE-MRI序列不全有13例,良性病例有6例,临床病理信息不完整的有102例,肿瘤直径小于10 mm的有3例。经过筛选,最终采用139个病例作为本次研究的数据集。根据病理报告,整理每个病例的病理信息情况,主要统计的有年龄、绝经情况、是否有家族史、肿瘤最大径、雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)、人类表皮生长因子受体2(human epidermal growth factor 2, HER-2)、Ki-67指数和免疫组化指标细胞角蛋白5/6(CK5/6),并以此为依据统计各个病例的分子亚型。经统计,所有139个病例均为女性乳腺癌病例,年龄最大84岁,最小30岁,平均年龄约为53岁;绝经前69例,绝经后70例;有家族史31例;分子亚型为管腔上皮A型(Luminal A型)的病例共计21例,分子亚型为管腔上皮B型(Luminal B型)的病例共计66例,分子亚型为人类表皮生长因子受体2过表达型(HER-2型)的病例共计23例,分子亚型为基底细胞样型(Basal-like型)的病例共计29例,CK5/6高表达34例;低表达105例。

1.2 患者影像数据采集

式中,raver_u和raver_u′分别表示主体u和近邻u′的平均得分,s(u,u′)表示主体u和近邻u′的皮尔逊相关系数相似度。

第二,侦查工作是一项专业性很强的法律活动,其运行必须严格遵守法律法规,严格按照法律程序来办理,任何超越法律的行为都将可能导致侦查工作失败。如在讯问犯罪嫌疑人时,犯罪嫌疑人始终闭口不言,一时拿不下犯罪嫌疑人的供述,面对这种情形,虽然采取刑讯逼供或其它手段可能会很快突破犯罪嫌疑人的心理防线,但是一旦采取这种行为,将导致侦查工作走向非法,其所收集的证据材料将不能作为定案证据,更可能直接导致侦查人员触犯法律。

表1 影像扫描参数Tab.1 Parameters of image scanning

1.3 肿瘤图像病灶分割

本研究使用的DCE-MRI影像均为原始影像,为了进行后续研究,需要从原始影像中将病灶区域分割出来,分割方法采用课题组前期研究的参数自适应的空间模糊C均值算法对病灶进行粗分割,再使用马尔科夫随机场方法进行细分割[21]。经过两个分割步骤后,可以得到DEC-MRI一个序列中的三维病灶,以此为模板通过点乘方法,可以得到另外5个序列的三维病灶。在本研究中,DCE-MRI的病灶序列选择蒙片序列、两个减影序列(第3个增强序列减去蒙片序列即S3-S0,第5个增强序列减去第3个增强序列即S5-S3)和一个减影相除序列((S5-S3)/(S3-S0))进行特征提取。DCE-MRI病灶区域提取的示例见图1,红色表示病灶区域边界。

图1 病灶分割过程Fig.1 process of lesion segmentation

1.4 影像组学特征提取

病灶区域分割后,对所使用的DCE-MRI序列的病灶影像提取了三类特征,分别是统计特征、形态特征和纹理特征。其中,统计特征提取了均值、峰度、极差等19维特征,形态特征提取了体积、表面积、紧致度等17维特征,纹理特征提取的是三维纹理特征,分别基于灰度共生矩阵、灰度区域尺寸矩阵、灰度游程长度矩阵、领域灰度差分矩阵、灰度相关矩阵,提取了熵、对比度、方差等70维特征,特征表格列举如表2所示。提取特征所使用的工具包为pyradiomics 3.0[22],Python版本3.7,在PyCharm平台上实现特征提取。

表2 特征类别与数量Tab.2 Category and quantity of features

1.5 最优影像特征选择

通过特征提取步骤,提取了424维影像组学特征。为了防止后续分解填充过程的过拟合,需要选出与目标结果紧密关联的特征,同时需要删除不稳定特征,保留与目标紧密关联的特征。从139个病例数据随机选择89例作为训练集,50例作为测试集。训练集用来获取影像组学最优特征子集,并构建矩阵填充模型,随后在测试集中测试,对模型性能进行评估。填充模型性能可通过绘制受试者工作特征曲线(receiver operating characteristic,ROC)来评估。ROC曲线能综合评价分解填充模型的灵敏度及特异度,曲线越靠近左上方,表明填充预测的性能更稳健。通过计算ROC曲线下的面积(area under the ROC,AUC)来量化ROC曲线,AUC值的取值范围为0~1,AUC值越大,表明模型的预测性能越好。

从表3可以看出,如果仅从AUC值来比较,在缺失率为10%时,用NMF分解填充方法得到的AUC值最高,AUC值为0.772,特异度为0.737,灵敏度为0.833;在缺失率为40%时,用CF分解填充方法得到的AUC值最小,AUC值为0.681,特异度为0.859,灵敏度为0.345。同时,实验通过bootstrap方法计算P值,比较两种填充方法AUC之间的差异是否显著,即在相同缺失率、使用同样数量影像特征下,NMF填充方法的填充效果是否优于CF填充方法的填充效果。通过计算的P值可以发现,在缺失率为10%和15%时,两种填充方法无明显差异;在缺失为20%~40%时,NMF填充效果显著优于CF填充效果(P<0.05)。图4是根据表3绘制的AUC误差图(errorbar),可以更直观地看到,在使用120个影像特征时,NMF方法的填充性能随着缺失率的增大而下降,且在不同缺失率下,NMF方法的AUC值均高于CF方法的AUC值。

通过SVM-RFECV特征,筛选出5个临床信息的影像最优特征子集,分别记作F1、F2、F3、F4、F5;分别取5个子集的并集,在F1~F5中都出现的子特征集合记作CF5,在F1~F5中重复出现4次的子特征集合记作CF4,在F1~F5中重复出现3次的子特征集合记作CF3,重复出现两次的子特征集合记作CF2。经统计,CF5~CF2集合中的子特征个数如图2(b)所示。

图2 特征子集数量。 (a)最优特征子集数; (b)公共特征子集数Fig.2 Number of feature subset. (a) Number of optimal feature subset; (b) Number of common feature subset

1.6 病理信息填充模型

为了研究不同缺失信息填充方法对临床病理信息的填充效果,笔者设计了两种填充方法:一种是基于用户的协同过滤方法,另一种是基于非负矩阵分解的方法,并分别对比这两种方法在不同的临床病理信息缺失率和使用不同数量影像组学特征情况下的填充效果,下面分别进行介绍。

1.6.1协同过滤填充模型

近邻模型是协同过滤算法中的常用模型,其中心思想是通过寻找k个近邻来模拟主体的行为。通过计算与k个近邻u′的相似度s,并用其作为权重来计算相主体u的加权平均[23],有

余闻孔子称曰“甚矣鲁道之衰也!洙泗之间齿斤齿斤如也”。观庆父及叔牙、闵公之际,何其乱也?隐桓之事;襄仲杀适立庶;三家北面为臣,亲攻昭公,昭公以奔。至其揖让之礼则从矣,而行事何其戾也?(《鲁周公世家》)

(1)

本研究使用的139个病例的DCE-MRI影像成像设备为德国西门子公司3.0T超导型磁共振扫描设备,患者检查过程中取俯卧、双乳自然下垂姿态,采用8通道双乳房线圈进行检查,动态往复扫描获取不同时刻的横断面DCE-MRI序列。一个完整的DEC-MRI数据包含6个时刻的断层影像序列:1个增强前序列(记作S0)和5个增强序列(分别记作S1~S5)。DCE-MRI增强序列扫描时间间隔为60 s,每个序列包含144张断层影像,分辨率为448像素×448像素。DCE-MRI影像扫描参数如表1所示。

在利用基于用户的协同过滤方法填充数据时,可以利用训练集数据确定近邻数k的大小,然后利用已知数据,依次计算各个用户间的相似度,按照相似度高低找出与待填充主体相似度最高的前k个用户,根据已知的k个近邻用户的不同评分,对缺失值进行填充。

1.6.2非负矩阵分解填充模型

事实上,学生分层、目标分层与作业分层是层层递进、相辅相成的。不同层次的学生有不同层次的目标,通过不同层次的作业巩固才能实现其目标。A类学生在学有余力的情况下可以做一些冲刺题,选题要精,避免无选择性的题海战术,这样只会挫伤其英语学习积极性,同时,教师可以通过课后沟通提供一些学习资源,布置一些有挑战性的开放性任务,以提高其学习兴趣;B类生应选择一些难度较为平实的题目,并且要重视错题的订正,明确自身薄弱点以寻求突破。C类生的首要目标是掌握基础题,平时练习中频繁出现的单词和词组搭配要熟记。结合目标分层将作业分层后,不仅仅有望大幅度提高学生的学习效率,还能减轻教学双方的负担。

按:二“範”字,涵芬楼、三家本原作“范”。古代作姓氏时,二字有别,范雎、范仲淹不能写作“範”2 详见《王力古汉语字典》,中华书局,2000年版,第873页。,道经中的二神姓氏之“范”,故不宜径改作“範”。同类错误《中华道藏》尚有一例,兹一并罗列如下:

采用非负矩阵分解算法的目的是寻找两个非负矩阵,并且使它们的乘积与原始矩阵的相似度最高。NMF算法描述如下:假设处理m个n维空间的样本数据,用Xn×m表示,该数据矩阵中各个元素都是非负的,即X≥0。找到m×r的非负矩阵U和n×r的非负矩阵V,有

Xn×m=Un×rVr×m

(2)

将乳腺癌的病理信息和影像组学特征分别看作两个矩阵X1和X2,则X1是由139个五维空间的样本数据构成,这五维空间为每个病例的4种分子分型和CK5/6表达情况(高表达记作1,低表达记作0);X2是由139个m维空间的样本数据构成,此处m代表m维乳腺癌病灶区域影像组学特征。矩阵元素的大小表示对应特征值的大小,每一列表示某个特征对应所有病例的特征值。所有临床信息均满足NMF的非负性假设,影像组学特征经过归一化后,也可满足NMF的非负性假设。图3为将病理信息和部分影像特征组合在一起的矩阵模型。

通过设置不同的临床病理信息缺失率,模拟实际诊疗过程中的数据缺失问题,并对比分析了在使用固定影像特征数下,不同临床病理信息缺失率对NMF和CF方法填充结果的影响。综合考虑实验环境和现实数据缺失情况,病理信息缺失率设置为10%~40%,步长为5%,并在随机选择的50例病例中进行测试,结果如表3所示。实验结果发现,在不同病理信息缺失率下,使用NMF方法和CF方法都能对缺失的病理信息进行有效填充,但两种方法结果有所差异。

在缺失病理信息填充实验中,先用0对缺失病理信息及影像特征矩阵X进行初步填充,并记录缺失位置的索引,采用随机初始化方式建立矩阵U和V,基于乘性迭代规则交替更新U和V,最大迭代次数设置为200,迭代完成后再通过U和V的乘积,完成对原始矩阵X的近似恢复,按照缺失位置索引得到缺失值的填充值,完成对缺失病理信息填充。

1.7 病理信息填充实验

1.7.1填充矩阵构建

式中,Xn×m是原始矩阵,Un×r称为基矩阵,Vr×m为系数矩阵,并使得分解后的两个矩阵的乘积与原始矩阵尽可能地相似。

图3 填充矩阵模型Fig.3 The matrix model

1.7.2病理信息缺失率

在乳腺癌患者的诊疗过程中,病理报告是重要的诊疗依据。但在实际操作过程中,病理报告中的信息可能存在缺失,仅从本研究所有采集的癌症病例情况来看,关键病理信息的整体缺失率达到了38.64%。直接删除缺失的病例数据虽然比较简单,但会造成可用数据的直接减少,不利于后续对乳腺癌数据的进一步挖掘。本研究从信息缺失的角度,利用已有的具有完整病理信息和DCE-MRI影像信息的病例进行研究,通过设置不同临床病理信息缺失率,模拟实际诊疗过程中的病理报告信息缺失问题。病理信息缺失方式为随机缺失型数据缺失,缺失率最小设置为10%,最大设置为40%,步长为5%。在对不同缺失率的矩阵进行分解填充时,矩阵Xn×m的m值固定为125,即包含5个临床病理信息和120个影像组学特征。

1158分段1#盘区要做到资源的最大化回收,针对1158分段主要可以从两方面入手:①对1138分段首采分层留矿尽量回收;②对1158分段上盘盘区界限以外的贫化进行兼顾回采,该部分矿石可以根据1158分段三分层现有系统进行回采,也可划入1250贫矿项目进行回收。

1.7.3影像特征数设置

设λ*,θ*,s*-,s*+为最优解,则:当θ=1,且s*-,s*+都为0时,则认为该指标配置有效,即医疗卫生资源的投入得到了充分利用;当θ=1,且s*-≠0或s*+≠0时,则认为弱有效,若其中s*+>0,则表示投入过剩,S*-<0,则表示产出不足;当θ0<1,则认为该决策单元为无效,即投入的资源没有得到充分的利用。

这天晚上,阿东一直坐在床边,看着阿里睡着。他心里很难过,不知道怎样才能安慰阿里,也不知道怎样才能帮到阿里。

经过特征筛选步骤,总共筛选出CF2~CF5等4组特征集合、共计251维影像组学特征,这些特征都与需要填充的临床病理信息紧密关联。为了研究不同特征对两种填充方法结果的影响,从特征子集CF5开始,依次往后顺序选取不同数量特征,即控制矩阵Xn×m的m值的大小,m值最小设置为45,最大设置为205,步长为20。在对不同影像组学特征分解时,临床病理信息的缺失率固定为15%。

2 结果

2.1 不同缺失率的病理信息填充结果

在通常情况下,r的取值条件为(n+m)r≤nm,矩阵U和V的秩小于矩阵X的秩。非负矩阵分解算法的求解是对分解的U和V不断迭代和更新的过程。首先对U和V赋初始值,然后在非负约束条件下,根据迭代准则不断迭代,交替更新U和V的值,直到得到满足目标函数的最小矩阵分解因子U和V。

不同的科学观蕴含着对科学研究动力的不同理解。理想主义的科学观认为,知识生产的动力源于科学家求知的内在冲动;而功利主义的科学观则认为,这种动力源于社会的现实需求。

表3 不同缺失率的填充结果Tab.3 Performance of missing value imputation for different method with varied missing rate

在训练集中,采用交叉验证的支持向量机递归特征消除(recursive feature elimination cross validation based on support vector machine,SVM-RFECV)算法,获得影像组学最优特征子集。SVM-RFE是一种将支持向量机和递归特征消除相结合的算法,采用该算法可得到所有影像特征的重要性排名,从当前特征集中删除最不重要的特征,再经过修剪的特征集合上递归地重复这个过程,直到最终达到所需的特征数量。SVM-RFECV在SVM-RFE基础上添加了交叉验证,RFECV通过交叉验证的方式执行RFE,在指定保留最小筛选特征数后,根据交叉验证的结果,选择出最优的特征评分集合;但是如果删除特征会导致性能损失,就不要删除特征。通过10折交叉验证的SVM-RFECV特征选择,对训练集89名患者的424个影像特征进行排序,分别用4种分子亚型和CK5/6作为目标标签,获取各自目标标签下的影像最优特征子集。筛选Luminal A型作为标签时,最优特征子集数为203个;Luminal B型作为标签时,最优特征子集数为335个;Basal-like型作为标签时,最优特征子集数为81个;HER-2型作为标签时,最优特征子集数为121个;根据CK5/6标签筛选出的特征子集数为214个,SVM-RFECV筛选出的最优特征子集数如图2(a)所示。

图4 不同缺失率下的填充方法的AUC误差Fig.4 AUC errorbar for different method with varied missing rate

2.2 不同特征数的病理信息填充结果

本研究利用乳腺癌患者的磁共振影像信息,从DCE-MRI影像病灶区域提取统计、形态和纹理3类特征,通过SVM-RFECV筛选出251维特征。为了研究不同数量特征对NMF和CF分解填充结果的影响,固定临床病理信息缺失率为15%,按照特征重要程度分别选取40~200个影像特征,步长为20,进行填充实验,并在测试集进行测试,实验结果如表4所示。在选用140个影像特征时,NMF方法达到0.780最佳AUC,特异度为0.654,敏感度为0.905;选用200个影像特征时,CF方法取得AUC最小为0.703,此时特异度为0.846,灵敏度为0.636。为对比在相同临床病理信息缺失率下,使用不同数量的影像特征时,NMF方法和CF方法的填充效果是否存在显著性差异,通过bootstrap方法计算P值可以看出,在使用140个影像特征时,NMF方法的填充效果显著优于CF方法的填充效果,但在使用其他数量的影像特征时结果并不显著(P>0.05)。

本文根根“压载水公约”的相关规定,采用10倍稀释涂布平板划线法,将样品中的致病菌培养成菌落,通过菌落的不同特征确定对应致病菌的种类,通过观察菌落的数量来完成对致病菌快速准确计数。

表4 使用不同特征数的填充结果 Tab.4 Performance of missing value imputation for different method with varied feature numbers

图5是根据表4绘制的AUC误差图,在信息缺失率为15%时,NMF填充性能随着不同特征的加入先上升后有所下降,在加入140个影像特征时达到最大AUC,CF方法在使用180个影像特征时达到最大AUC。

图5 使用不同特征数的填充方法的AUC误差Fig.5 AUC errorbar for different method with varied feature numbers

为进一步探究影像特征在乳腺癌临床病理信息填充中的影响,笔者设计了一组基于NMF方法的对比实验,设定临床病理信息缺失率固定为15%,分别使用120个筛选后的乳腺癌病灶影像特征和不使用任何影像特征,对缺失矩阵进行分解填充,实验结果如表5所示。在不使用影像特征应用NMF方法进行分解填充时,最高AUC为0.658,而使用影像特征时对应最高AUC为0.722。仅从AUC角度看,使用筛选后影像特征进行分解填充的效果优于不使用任何影像特征的填充效果。在相同病理信息缺失率下,对比用bootstrap方法计算的P值可以发现,当临床病理信息缺失率为10%~40%之间时,使用筛选后的影像特征进行分解填充的结果与不使用任何影像特征进行分解填充的结果在统计学上均有显著差异(P<0.05)。图6是根据表5绘制的两种填充方式AUC误差图,可以看出,使用或者不使用影像特征,NMF填充效果都随着病理信息缺失率的增大而下降。

表5 使用和不使用影像特征的填充结果Tab.5 Performance of missing value imputation for NMF method with and without radiomics features

图6 使用和不使用影像特征NMF的填充方法的AUC误差Fig.6 AUC errorbar for NMF method with and without radiomics features

3 讨论

本研究对采集的乳腺癌患者的DCE-MRI影像原始数据病灶区域提取影像组学特征,结合患者的临床病理信息,对缺失病理信息分别使用非负矩阵分解方法和协同过滤方法进行了填充研究,并分别针对不同的病理信息缺失率和使用的不同影像特征进行了分析研究。结果表明,使用筛选后影像特征的NMF方法,能有效填充缺失病理信息,可为乳腺癌的精准诊疗提供可靠参考。

在分析不同病理信息缺失率对填充结果的影响中,通过设置不同缺失率、固定使用120个影像特征,分别应用NMF方法和CF方法进行填充。若仅从AUC值来看,在病理信息缺失率为10%~40%之间,NMF方法的AUC值均高于CF方法的AUC值。通过bootstrap方法,对两种方法的填充结果差异进行显著性检验,结果表明:在缺失率为10%~15%的情况下,二者无明显差异;在缺失率为20%~40%之间,NMF方法的填充效果要显著优于CF方法的填充效果。从填充结果来看,随着信息缺失率的提高,可利用的有效信息在减少,信息不确定性在增大,所以很难保证结果的可靠度,出现了AUC值随信息缺失率的增大而减小的现象。

经过影像组学特征提取,DCE-MRI的影像特征很多,但并不是所有特征对填充效果的提升有明显效果。因此,利用SVM-RFECV特征筛选方法,筛选出与病理信息密切相关的影像特征,并通过基于并集的方法进一步筛选出影像组学特征,再对比应用NMF方法和CF方法使用不同数量影像特征的填充结果。从结果上看,NMF方法的AUC值均整体高于CF方法的AUC值,且在使用140个影像特征时,二者的差异具有统计学意义(P<0.05)。从填充原理来看,CF方法的填充主要依靠不同病例之间的相似度,即只考虑待填充矩阵中行信息之间的关系,没有充分利用不同特征对待填充信息的影响程度;而NMF方法是一种基于部分的分解方法[24],在分解过程中考虑到部分对整体的影响,有效利用了影像特征这一重要信息,提升了对缺失病理信息的填充效果。从使用120个影像特征和不使用任何影像特征的NMF分解填充结果更能进一步说明,筛选出的影像组学特征对缺失病理信息的填充有明显的提升。

基于非负矩阵分解的DCE-MRI影像组学模型,对乳腺癌临床病理信息的填充研究是一个新的探索领域,而目前针对肿瘤基因表达数据维数高、冗余信息大且容易出现数据缺失的情况,常用的填补方法有列表式删除法、特定值填充法或行均值法[25-26],但这三种方法都没有考虑数据本身属性之间的关系。Berthoumieux等的研究表明,用GO注释作为基因缺失数据填补的辅助信息,能够显著提高填补精度[27-28]。笔者首次尝试将DCE-MRI影像组学特征作为辅助信息,结合非负矩阵分解方法,同时应用于多个缺失病理信息填充,基本能达到预期效果。

巡查人员对巡查情况应逐一记录巡查时间,巡查结果,并逐次填写好入海水道工程巡查情况记录,对异常和损坏部位应有详细记录和说明,必要时进行图像记录。对发现的违法违规情况,须载明违法违规事实、违法违规时间、违法违规行为实施的主体、所产生的后果、处理结果等,根据违法违规情况,记录可用文字、照片、绘图等多种记述方式相结合,巡查结束须经巡查人签名,由单位存档备查。

本研究存在以下几个方面的局限性:一是数据样本规模较小和分子分型样本分类不均衡,在后续的研究中可扩大数据集,对填充模型的鲁棒性进行进一步提升,且样本分类不均衡可能会造成填充结果有一定偏差;二是本研究只考虑填充了4种分子分型和CK5/6这5个临床病理信息,而病理报告中还包含其他一些重要信息,如组织学分级、淋巴转移等,后续可以考虑将这些信息整理出来,进行进一步的填充研究。

4 结论

本研究针对乳腺癌诊疗过程中病理信息可能存在缺失的问题,结合DCE-MRI影像组学特征和病理报告中已有的病理信息,使用NMF方法,对缺失的病理信息进行有效填充,可为乳腺癌的诊疗和对乳腺癌患者信息的进一步挖掘提供有价值的参考。相比其他缺失数据填充方法,本研究的主要新意体现在:第一,在策略上,利用乳腺癌DCE-MRI特征与病理信息之间的相关性,采用非负矩阵分解方法,对缺失病理信息进行填充;第二,在特征选择上,该研究提取了多维乳腺癌病灶影像组学特征,并通过特征选择降低了辅助信息的冗余性。在后续的研究中,会进一步尝试使用其他矩阵分解填充方法,以提升填充效果,增加实用性。

猜你喜欢
组学病理乳腺癌
绝经了,是否就离乳腺癌越来越远呢?
病理诊断是精准诊断和治疗的“定海神针”
开展临床病理“一对一”教学培养独立行医的病理医生
乳腺癌是吃出来的吗
口腔代谢组学研究
胸大更容易得乳腺癌吗
别逗了,乳腺癌可不分男女老少!
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
不一致性淋巴瘤1例及病理分析
代谢组学在多囊卵巢综合征中的应用