武瑞霞,张子瑞,陈宇彬,叶苏哲,郑明华,柯大观
(1.温州医科大学 生物医学工程学院,浙江 温州 325035;2.温州医科大学附属第一医院 感染内科,浙江 温州 325015)
医学图像模式识别已经成为生物医学工程学和影像医学的热点领域[1-4],如何提取图像的有效特征是该领域研究的重点。本研究中应用的格子复杂性(lattice complexity,LC)是一种通用的时间序列分析算法[5-6],作为广义信息度量[7],特别适用于人体这类复杂系统所产生的数据。一维LC已在脑电数据分析上取得良好效果[8],有必要验证其二维版本的表现。而预测肝癌患者术后存活时间本身是个医学难题[9],本研究尝试基于医学影像图像建立肝癌预后模型。
1.1 材料 作为回顾性研究,实验中采用的患者资料和数据均来自温州医科大学附属第一医院,根据临床资料的完整性选取了年龄27~79岁的92例原发性肝癌患者,其中男80例,女12例,每位患者拥有至少28张腹部CT扫描图像。所有患者于2005年10月到2010年5月间接受了肿瘤切除手术。在3.5年的术后跟踪随访中,有62例患者存活,30例死亡。本研究经温州医科大学附属第一医院伦理委员会审核批准。
1.2 方法 医学图像模式识别一般过程如图1所示。将全体数据划分为训练集和测试集时通常是按比例随机划分,随后保持不变。分类模型通过训练集数据建立,而测试集用来验证模型的泛化能力。当样本量较小时,重新划分会对结果有显著影响。当只考虑验证特征的有效区分度时,也可采用全部数据交叉验证的手段。本研究首先用全部数据交叉验证挑选出有效的特征参数,随后一次性划分训练集和测试集做进一步检验。
图1 图像模式识别流程图
1.2.1 医学图像预处理:由于LC在原理上对大片相同符号的片段不敏感,为了检验算法是否确实简单易用,本研究没有在原始CT图像上进行目标定位和裁剪,而是直接将平扫的腹部CT图像连同背景(见图2)一起缩小为32像素×32像素并进行二值化。二值化的具体操作是先求整张图片所有灰度值的均值,然后以此为“阈值”,把原始图像里面≥均值的灰度值用“1”代替,反之用“0”代替。
图2 原发性肝癌患者原始腹部CT图
1.2.2 图像维度转换:二值化后的图像被保存于二维矩阵中,矩阵中每个位置上的元素只有0或1两个符号。需要先利用希尔伯特(Hilbert)曲线将二维矩阵数据转换为一维符号序列以便进行复杂性度量的计算。二维Hilbert曲线作为一种空间填充曲线可以遍历方形区域的每个位置[10-11],从而实现从二维到一维的数据转换并保留原数据局部和整体的结构信息。图3所示为三阶Hilbert曲线。
图3 三阶Hilbert曲线
1.2.3 图像复杂性特征提取:当前学界的共识是生命体之类的复杂系统应当处于一种“弱混沌”或者“混沌边缘”的状态[12-13]。LC在一定参数下对“混沌边缘”敏感[5-6],因而在医学领域有应用潜力。LC的主要思想是:凡是有确定性因果关系的,或是历史上已经出现过的片段,都可以被压缩,只有不可压缩的符号数目才能代表符号序列的复杂程度。LC值依赖于一个控制参数r,称为细粒化指数或细粒化序数(fine-graining order)。将一维符号序列细粒化,就是将序列中相邻的r个符号视为整体来判断前后次序之间的确定性因果关系。当细粒化达到一定程度时,序列中所有相邻的r个符号都不相等或周而复始,此时LC值为1,而r就是临界细粒化序数(critical fine-graining order)[5],表示为r*。
具体而言,LC值的求取过程是依次对序列中不可压缩的“添加”符号计数的过程。假定存在一个通用的非线性迭代系统,通过输入长度为r的初始符号序列来迭代产生后续的新符号[5-6],将新符号纳入初始序列并抛弃原先初始序列的第一个符号,随后继续迭代。当确定性的因果规律被破坏时,我们先检查前一次“添加”操作后的符号序列能否通过“复制”历史来得到,如果不能“复制”,就认为新符号要通过外部“添加”获得,用“∨”表示。“添加”操作将整个序列分成段落,分段数目就是LC值,代表了原符号序列中无法压缩的信息含量。
对于如下一串符号序列:
如果取r为2,可将任意相邻两符号转化为四进制数,细粒化后新序列可表示为:
则其LC值为4:
从左到右扫描序列,可以发现第一套迭代规则0→0被第五个0后出现的1破坏,只能“添加”这个1。第二套迭代规则中2→1被第二个2之后出现的0破坏,而检查发现32120在整个扫描历史0000132120中没有先例,所以也不能“复制”,因而这个0也必须“添加”,以此类推。显然,对于LC而言,无论参数r取多大,大量相同符号组成的前后“背景”会被视为简单迭代规则的产物,基本上不影响计算结果。但r*受前置“背景”影响较大,上述例子中,序列S的r*值为6,即当r大于或等于前置的“背景”长度6时,整个序列的确定性因果律才能贯穿到底。本研究中,我们计算了所有患者每张图像的r*并发现最小的r*等于69,于是就在1到69之间大致均匀地取了8个值作为r,求出对应的LC值作为模式识别特征。表1显示了所有患者图像的r*以及LC值的均数和标准差。为避免特征数值大小影响机器学习结果,加快计算速度,所有特征在使用前都做了归一化,即数值被量化到0和1之间。
表1 患者图像的复杂度特征
1.2.4 图像特征分类:支持向量机(support vector machines,SVM)[14]在机器学习领域占有重要地位,适合小样本数据的分类。本研究采用台湾大学林智仁教授开发的LIBSVM工具箱[15]。核函数选用径向基函数(radial basis function,RBF)。利用SVM建模的关键在于搜寻合适的惩罚因子“C”和RBF宽度参数“gamma”,后者通常用“G”表示。在搜寻的过程中,一般采用K-折交叉检验(K-fold cross validation)方法[14]。其做法是将样本数据划分为K个子集,每次先用其中K-1个子集作为训练集训练出模型,再用余下的一个子集作为测试集检验模型的识别准确率。不断轮换测试集,最后输出所有测试准确率的平均值作为选择“C”和“G”的依据。但选择特征时,准确率并非唯一标准,一般情况下“C”和“G”越小,越能避免“过学习”状态,而太小也可能意味着存在“欠学习”的状况,也会影响模型的泛化能力,其中“C”的作用更明显。
在本研究中,先用全部92例患者数据进行十折交叉验证,根据在“C”和“G”搜寻范围内的最佳结果选出合适的细粒化序数。采取10折交叉验证是因为纳入模型的是全部的可观的样本量,这对实验结果起到决定性作用。而作为一种补充,将对应的LC值作为后续测试的特征,再随机划分出46例训练集和46例测试集,对训练集选择3折交叉验证搜寻最佳的“C”和“G”,由训练集数据建模后再用测试集来测试模型的泛化能力。
2.1 全部数据十折交叉验证结果 作为预热,我们从每位患者的图像中先抽了最中间的单幅图像,利用不同r参数下的8个LC值和r*分别作为特征进行10折交叉验证,发现除了r取9时平均准确率为69.6%,r*和其余参数下的LC值作为特征是无效的,对应的模型都只是将所有样本识别为一类。当每位患者都采用28幅图时,如表2所示,情况有了变化,r为19时的LC全部数据10折交叉验证的平均准确率最高,选出的“C”和“G”大小比较合适,最终对全部数据建模后模型识别准确率也最高,实际上只错了一个。接下来,我们选择19作为细粒化序数来初步验证LC特征的泛化能力。
2.2 测试集结果 将92例患者数据中2个类别都以1:1的比例划分到训练集和测试集中,两集合正负样本都各有31例和15例。以r*和r=19时对应LC值为特征,由于样本量大减,我们采取训练集3折交叉验证的方法确定参数“C”和“G”,然后利用训练集全体数据建模后对测试集进行分类测试。我们发现如果每位患者只取最中间的单幅图时,两个特征及其组合都不能有效区分两类。当每位患者取28幅图时,分类准确率结果见表3,当训练的样本数量降低一半后,参数为19的LC特征交叉验证平均准确率也有所下降,这可能是训练样本数量不足所引起的。将模型应用在未经训练的测试集上,识别准确率没有降低,说明至少在这两个集合上LC特征的模式识别效果是稳定的,不存在“过学习”问题。而r*的表现不如LC稳定,两者结合也没有显示互补性。
表2 不同细粒化程度对全部数据交叉验证结果和分类准确率
表3 复杂性特征的测试集分类准确率
上述多组实验结果表明,即便不做图像分割,保留原有背景,直接将原始图像大幅缩小并二值化,利用二维格子复杂性也能有效提取医学图像隐含的预后信息,可以用来建立SVM模型预测肝癌患者术后存活时间。由医学图像反映出来的人体结构的复杂性有其他特征所不能替代的作用。人体从一个受精卵开始发育为成熟个体并维持生理机能,可以看成确定性的迭代过程,具有分形结构,即在不同尺度下有自相似性。因而,在很多尺度下的医学图像复杂性都能提取出有临床价值的信息。这是本研究将图像尺寸大幅缩小、丢失了大量数值精度后仍然能够捕捉到有效信息的原因。图像缩小并二值化之后处理的速度很快,对外部噪音也有很强的鲁棒性,意味着本研究的方法对设备不敏感。
本研究旨在对二维LC在医学图像上的应用价值进行初步验证,由于数据和计算资源有限,实验结果存在如下不足:①没有充分测试更多不同参数下LC的效果,而是只选取了8个参数,除了LC与r*结合,也没有测试不同参数下的LC特征组合;②没有尝试与临床指标之间的特征组合,追求最佳识别效果;③尽管在理论和实验上都证实LC对单调背景不敏感,但r*显然受背景影响较大,可以尝试去除背景或改变希尔伯特曲线的搜索方式来改善r*的表现;④将图像大幅缩小虽然有种种优势但也有可能错失一些有用信息,在计算资源更丰富的前提下,有必要探索更合适的压缩尺寸;⑤患者数量仅92例,且来源单一,样本量太小可能导致偏差,如果能获得更多病例或其他形式的医学图像如超声医学图像、核磁共振图像等等,会更有说服力。
未来的工作除了弥补上述不足,在预处理技术上仍然存在大幅改进的余地,比如先对图像进行二维经验模态分解(bidimensional empirical mode decomposition)[16]获取不同层次的纹理图像,在较大的图像中设立可移动的窗口来提取局部复杂性特征并和全局特征相结合等等。
总之,由于二维LC算法简单易用,对图像预处理要求低,完全有资格成为正在兴起的“影像组学”[4]特征。单就CT图像而言,更有趣的可能是将LC推广应用到三维图像的分析上。三维重建后的立体图像复杂性度量将有助于提取人体腹腔内部的立体结构信息,而不仅仅是平面结构信息,从而有更大的潜力为辅助诊断和预后建模提供帮助。
[1] BISHOP C M. Pattern recognition and machine learning[M].New York: Springer International Publishing AG, 2006.
[2] LANZARINI L C, DE GIUSTI A E. Pattern recognition in medical images using neural networks[J]. J Comput Sci Technol, 2001, 1(4): 45-54.
[3] NAGARAJ S, RAO G N, KOTESWARARAO K, et al. The role of pattern recognition in computer-aided diagnosis and computer-aided detection in medical imaging: a clinical validation[J]. Int J Comput Appl, 2010, 8(5): 18-22.
[4] GILLIES R J, KINAHAN P E, HRICAK H. Radiomics:Images are more thanpictures, they are data[J]. Radiology,2016, 278(2): 563-577.
[5] 柯大观, 张宏, 童勤业. 格子复杂性和符号序列的细粒化[J]. 物理学报,2005, 54(2): 534-542.
[6] KE D G, TONG Q Y. Easily adaptable complexity measure for finite time series[J]. Phys Rev E, 2008, 77(6 pt 2):066215.
[7] KE D G. Unifying complexity and information[J]. Sci Rep,2013, 3: 1585
[8] 刘军, 邹倩, 柯大观, 等. 基于脑电格子复杂性分析的麻醉深度监测研究[J]. 传感技术学报, 2015, 28(12): 1747-1753.
[9] QIAO G, LI J, HUANG A, et al. Artificial neural networking model for the prediction of post-hepatectomy survival of patients with early hepatocellular carcinoma[J]. J Gastroen Hepato, 2014, 29(12): 2014-2020.
[10] SAGAN H. Hilbert’s space-filling curve[M]. New York:Springer International Publishing AG, 1994: 9-30.
[11] BUTZ A R. Alternative algorithm for Hilbert’s space- filling curve[J]. IEEE T Comput, 1971, 20(4): 424-426.
[12] LANGTON C G. Computation at the edge of chaos: Phasetransitions and emergent computation[J]. Physica D, 1990,42 (1): 12-37.
[13] ANANOS G F J, TSALLIS C. Ensemble averages and nonextensivity at the edge of chaos of one-dimensional maps[J].Phys Rev Lett, 2004, 93: 020601.
[14] 丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报, 2011, 40(1): 2-10.
[15] CHANG C, LIN C. LIBSVM: A library for support vector machines[J]. ACMT Intell Syst Technol, 2011, 2(3): 1-27.
[16] NUNES J, BOUAOUNE Y, DELECHELLE E, et al. Image analysis by bidimensional empirical mode decomposition[J].Image Vision Comput, 2003, 21(12): 1019-1026.