图像智能处理方法在中医中的应用与挑战

2022-05-24 13:13赵紫娟赵涓涓赵琛琦王麒达

太原理工大学学报 2022年3期

赵紫娟，强彦，赵涓涓，赵琛琦，王麒达，李硕

(1.太原理工大学信息与计算机学院，太原 030024；2.加拿大西安大略大学医学影像和医学生物物理学系，加拿大安大略伦敦 N6A 3K7)

中医(TCM)作为世界传统医学的代表之一，具有完整的理论体系、丰富的临床实践经验，在世界范围内被广泛应用[1]。但随着西医药的发展并在世界范围传播，中医药传承与发展受到极大的影响和冲击，中医药理论、中医医疗模式及中医药人才等面临严重挑战[2]。2019年10月25日，习近平总书记在全国中医药大会上，对中医药工作做出重要指示：“要遵循中医药发展规律，传承精华，守正创新，加快推进中医药现代化、产业化，推动中医药走向世界。”中医药信息化与现代化研究逐渐成为研究的热点。

与此同时，随着人工智能与机器视觉技术的不断发展，计算机辅助技术对医学领域的影响越来越大。针对临床广泛使用的医学影像，利用计算机图像处理技术对二维切片图像进行分析和处理，实现对人体器官、软组织和病变体的分割提取、三维重建和三维显示，可以辅助医生对病变体及其它感兴趣的区域进行定性甚至定量的分析，从而大大提高医疗诊断的准确性和可靠性；在医疗教学、手术规划、手术仿真及各种医学研究中也起到了重要的辅助作用[3-4]。但是目前对于中医的图像处理方面发展还比较缓慢，在进行中医视觉信息的处理时，仍然是医生经验占主导地位，容易受到主观性和就诊环境的影响，这给中医的现代化发展带来不利的因素。因此，研究者们开始尝试从计算机图像处理角度来研究中医理论规律，从而提高数据分析的效率和准确性，提升健康与诊疗的效益及价值[5]，实现中医的智能化与现代化。

图像处理技术在中医领域应用中涉及多个环节，多个领域，并且能实现多种功能。如应用于中医望诊(面诊、手诊、舌诊、目诊)中的图像识别与疾病诊疗、中草药识别与质量评估，以及中医经络腧穴模型三维重建及可视化等。针对中医望诊，MA et al[6]提出了一种自动识别舌体构造的系统框架，设计了深度卷积神经网络用于舌苔检测、舌苔标定和舌体构造识别。在该系统框架下，提出了一种新的复杂性感知(complex perception，CP)分类方法，用于中医体质识别，体质识别准确率最高可达96.77%.ZHANG et al[7]利用一种渐进可训练的双堆栈神经网络(DsNet)，通过分析候选人的面部图像来区分慢性肾病、糖尿病患者和健康人，三种人群类别f1评分分别为95.33%、98.17%和94.67%，与其他传统的无创检测方法相比，该方法实现了显著的提升。针对中草药识别与质量评估，XU et al[8]建立了一个新的中草药标准数据集，提出了一种新的用于中药识别的注意力金字塔网络(Attention pyramid network，APN)，能够对不同特征尺度的中草药图像进行自适应建模，并将其应用于中药识别中。针对中医经络腧穴模型三维重建，HONG et al[9]提出了一种三维经穴识别与投影系统。以中医经络理论为基础，融合了3D机器视觉和投影技术，实现了人体的三维重建、腧穴的识别与标注、经穴在人体表面的同步投影，该系统操作简便，实现了穴位与经络的可视化，适合经络理论的教学与实践。

本文重点介绍计算机图像处理技术的相关研究进展以及其在中医中的应用，内容框架如图1所示。在中医望诊的应用中，总结与梳理了图像分割与特征提取以及智能诊疗中的应用现状，并且已有部分智能化望诊运用到了临床疾病研究中。在中药材图像鉴别的研究与应用方面，分别从中草药的种类识别以及等级鉴定两个角度进行分析，虽然取得了一定的成果，但基于中药材图像的等级鉴定仍然处于尝试阶段，技术及方案均没有成熟。在经络腧穴可视化方面，简单总结了中医穴位定位以及数字经络三维重建两个方面的工作，此方向研究内容较少，较分散，需要进一步挖掘。

图1 图像智能处理方法在中医中的应用Fig.1 Application of intelligent image processing in traditional Chinese medicine

1 图像处理技术的发展与应用

数字图像处理(Digital Image Processing)是通过计算机进行图像数据分析，对图像噪声去除、质量增强、复原、目标检测与分割、类型识别、重建等处理的方法和技术。近年来，随着我国各类科学技术急速发展，图像处理技术也日渐得到完善，各类相关软件对图像的高层次处理能力也日益强大。图像处理在医学方面有展现出巨大的应用价值与应用前景，医学图像处理技术正在向诊断一体化、图像描述定量化、图像三维化、可视化及网络化等方向发展。尽管数字图像处理方法和技术包含许多方面，中医图像处理主要涉及图像分类、图像去噪、图像分割、图像重建以及目标检测。

对于图像分类，在2012年之前，图片分类任务一般是首先设计特征提取器，然后对所提取的特征进行的分类和识别，这种传统的图像分类方法在PASCAL VOC竞赛中的图像分类算法中被广泛使用。KRIZHEVSKY et al[10]在深度卷积神经网络的基础上，提出了一个跨时代的图像分类网络AlexNet，开启了深度学习在图片分类任务中的广泛应用；HE et al[11]提出残差网络模型(ResNet)，该网络容易优化，内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失以及过拟合问题，促进了深度学习的进一步发展。WANG et al[12]提出了HRNet，这种网络结构可以在处理图片的高层语义信息的同时，兼顾底层的形态学信息的学习，在视觉分类任务中取得了迄今为止最高的精度。目前，基于深度学习的图片分类任务的精度已经超越了人类的识别精度，算法正朝着高精度、低复杂的方向发展。

对于图像去噪，目前主要有两种方法，分别是传统的图像去噪算法和基于深度学习的去噪算法。其中传统图像去噪算法主要是基于特征的滤波方法，小波阈值去噪算法是近年来最受欢迎，应用非常广泛的图像去噪方法，该方法简单高效，并且可以较好地保持原图中的纹理等细节信息。QIAN et al[13]提出了一种自适应中值滤波和小波阈值函数相结合的去噪方法。有效地解决了小波阈值算法所产生的伪吉布斯现象，较好的保留了图片细节信息。SHEN et al[14]针对图像去噪过程中傅里叶变换不能有效代表图像的突变，小波变换不能有效代表图像的纹理和缓慢变化的问题，提出了一种基于傅里叶去噪和小波去噪不同特点的傅里叶-小波混合去噪算法。该算法弥补了两种算法的不足，在图像去噪领域具有良好的应用前景。随着深度神经网络的不断发展与改进，其强大的特征提取与计算能力使得目前基于深度学习的图像去噪算法在性能上已经远优于传统方法，基于深度学习的图像去噪算法逐渐成为当前研究和应用的主流方法。文献[15]中NOISE2NOISE和文献[16]中NOISE2VOID方法仅使用独立的噪声图像对进行无监督训练的方法，在去除高斯噪声等问题上取得了很好的效果。实验证明了只要满足对可预测信号和像素独立噪声的初始假设，Noise2Void训练的网络就可以与传统和Noise2Noise训练的网络竞争，并为大量应用领域打开大门，例如生物医学图像数据以及中医图像数据。

对于图像分割，传统的分割方法主要包括边缘检测法、阈值法、区域增长法、聚类法等。DONG et al[17]提出了基于3D空间的超体素区域生长算法，该方法在三维掩模约束下对模糊连通图进行改进的超体素三维区域生长，在肺结节的三维分割中取得了较好的分割结果。目前图像分割领域应用最为广泛的一类方法依然是基于深度学习的图像分割技术，LONG et al[18]首次提出了一种用于图像分割的端到端的全卷积神经网络FCN(Fully Convolutional Network)，该方法可以接受任意大小的输入，通过有效的推理和学习产生相应大小的输出，并且定义了一种跳跃架构，将深层粗层的语义信息与浅层细层的外观信息结合起来，以产生准确而详细的分割结果，该算法设计简单高效、易于训练，在图像分割领域产生了重要的影响。LIU et al[19]在FCN的基础之上，提出了性能更高的DeepLab算法，这种算法在FCN分割结果的基础之上再次进行线性插值处理，更好地维持了图像的细节信息，然后使用条件随机场(conditional random fields，CRF)对插值后的结果进行后处理，解决定位精度问题，从而进一步提高了图像分割的精度。

对于图像目标检测，在深度学习时代的早期阶段，算法流程分为四个步骤：数据预处理、设计滑动窗口、特征选择与提取、特征分类与回归。部分可形变模型DPM(deformable part model)[20]是一种非常经典和简洁的算法，这种方法通过提取出SIFT、HOG、颜色直方图等特征来完成对图片中目标的识别与检测，但是该方法的速度相对较慢，鲁棒性不强，不适合在实际产品中应用。近几年来，目标检测算法取得了很大的突破，基于深度学习的目标检测技术日益成熟，与传统检测器中使用的手工描述符相比，深度卷积神经网络从原始像素到高级语义信息生成层次特征表示，并从训练数据中自动学习，在复杂环境中显示出更强的识别表达能力。基于深度学习的目标检测算法大致可分为单阶段检测算法和双阶段检测算法。双阶段检测算法主要以Fast RCNN[21]和Faster RCNN[22]及其变体为主，这一类型的算法具有更高的精测性能，但是实时性较差，适合在服务器端使用。单阶段目标检测算法主要有YOLO[23]和SSD[24]等一系列方法，这些方法的检测速度非常快，适合在实际任务中使用。

总之，自2012年AlexNet[10]提出后，深度学习领域的研究进展迅速，各类图像处理方法也逐渐传统向深度过度。在中医图像处理中的应用也呈现出这样的趋势，WANG et al[25]对图像处理在中医望诊中的应用进行了综合论述，对面部、手掌、舌像的诊察进行了详细的总结和分析。卢运西等[1]对基于传统技术的中医舌图像分割方法和基于深度学习的中医舌图像分割方法进行了系统地总结归纳，并采用临床采集和网络收集的舌象数据集对典型算法进行网络训练和性能评估。同时对这些算法的特点进行分析和讨论。图像处理技术在中医中应用范围广，如应用于中医望诊(面诊、手诊、舌诊、目诊)中的图像识别与疾病诊疗、中草药识别与质量评估，以及中医经络腧穴模型三维重建及可视化等，应用前景巨大。

2 图像处理技术在中医望诊中的应用

望、闻、问、切是中国中医治疗疾病最基础有效的诊察手段，四诊的标准化、客观化是发展中医技术的重要内容。其中，望诊是应用图像处理技术最多的诊察方法。望诊中的面象、舌象和手象可反映人身体健康状况的信息，为疾病的定性定位及预后提供有力的诊断依据，利用图像处理技术对图像特征加以提取，可捕捉到人眼不易察觉的身体特征信息，有利于提高望诊的准确性[26]。图像处理在中医望诊领域发展十分迅速，产生了许多算法，并且具有很强的应用前景。根据应用现状，图像处理在中医望诊领域的应用大致包括中医图像分割和特征提取、疾病智能诊疗和预测预后。

2.1 中医图像分割

中医自动化望诊中最具挑战性的部分是适当切分和最佳特征提取。尽管在望诊取像的过程中通过调节硬件的状态可以获得最大的目标(面部，舌体，手掌等)原始图像，但由于被检测人样本的情况各不相同，非目标部分(如背景、唇、牙齿和头发等)对颜色和纹理等特性的鉴定仍然具有很大的影响。因此，将目标区域从复杂的背景区域中分割出来是自动分析望诊指标的重要步骤。中医图像分割与特征提取通常包括面部器管分割、舌象分割与检测、手掌及掌纹分割等。

2.1.1面部器官分割

面色是人体脏腑气血的外在表现，可以反映人体疾病的变化[27]。基本上，计算机辅助面部医学分析的首要任务是从面部图像中检测和分割面部成分。肤色模型是面部器官检测与分割中最常用到的计算机图像处理方法，其中，基于高斯混合模型(gaussian mixture model，GMM)的肤色模型[28-29]应用最为广泛，并取得了良好的效果。ZHAO et al[30]提出了一种基于患者全脸的面部肤色特征表征方法，并使用皮肤检测、面部归一化以及嘴巴、鼻孔和眉毛的水平位置对5个面部区域(前额、左脸颊、右脸颊、鼻子、下巴)进行分割。XU et al[31]提出了一种基于肤色高斯混合模型(GMM)和支持向量机的人脸颜色分类方法。具体来说，该方法基于GMM迭代确认属于皮肤区域的肤色像素。在优化过程中，利用二维GMM提取特征来描述主色和次要色。YANG et al[32]将肤色模型和改进的AdaBoost集成到复杂背景下的高分辨率图像中，进行人脸检测，该方法能够在较快的速度下达到较高的检测率，降低了误检率和漏检率。HU et al[33]提出了一种基于肤色混合模型的唇形分割方法。在Lab颜色空间中，以人脸上(无唇)部分的像素颜色作为训练数据，为每个人脸图像建立相应的肤色高斯混合模型。然后基于GMM迭代去除不属于下半部分唇形区域的肤色像素，得到初始唇形；进一步在初始唇区和非唇区分别建立GMM提取出最优的唇形。

此外，随着中医目诊与西方虹膜诊断的不断发展与结合，基于眼睛图像特征的诊断技术逐渐得到更多认可，虹膜分割技术受到了研究团体[34]的广泛关注。现有的虹膜分割技术从道格曼的积分-微分算子、主动轮廓模型[35]和聚类算法到利用梯度(边缘)信息[36-37]、Hough变换的变体[38-39]和其他。最近，研究人员开始研究基于深度学习的虹膜分割方法，如ROT et al[40]提出了一种基于SegNet架构的深度多类眼睛分割模型。该方法不仅分割虹膜，而且从图像中使用一个单独的分割模型分割其他五个眼睛部分。

2.1.2舌象分割与检测

舌体分割与检测是图像分割技术在中医中应用最为广泛的领域。舌体分割方法主要分为三大类。第一个分割子类别是基于颜色特征的舌分割。LI et al[41]采用了一种基于颜色分解和阈值(CDT)的方法对舌头进行分割。不同于以往涉及一系列特征的研究，该方法只需要少量的特征，如颜色分布和区域大小信息，具有更好的鲁棒性。第二个分割子类别是基于Snake模型(也称为主动轮廓)及其变体的舌分割。PANG et al[42]开发了一种可变形轮廓方法，即BEDC，用于自动提取舌头边缘，应用于舌诊系统。GUO et al[43]提出了一种自动提取舌体轮廓的方法，该方法的创新点是首先通过简单的初始边界过程提取舌体的初始边界。虽然以上方法均能得到满意的分割结果。然而，它们也存在一些严重的缺点，主要表现在三个方面：1) 对光照变化和杂乱背景比较敏感；2) 由于舌头和嘴唇颜色相似，无法准确分割，特别是基于Snake的方法；3) 通常需要预处理，如舌体检测或要求在分割开始前指定初始区域。第三个舌分割子类别是基于深度神经网络，最新的采用ResNet变体[44]和DeepLabV3变体[45]的舌体切分方法优于一些传统的舌切分方法。LI et al[46]提出了一种基于U-net网络的跨域社体分割方法，取得了目前社体分割的最优性能。

2.1.3手掌分割与掌纹识别

手诊是中医望诊中一个很关键的步骤，中医有“手相”的讲究，手掌的特征是独特的，包含很多的信息，手掌纹线色泽肥厚等，在预测家族性遗传病(如癌症、高血压、糖尿病、冠心病等)，都有突出的表现[47]。因此，香港中文大学的张大鹏团队首次在国际上首次提出了“掌纹识别”[48]的研究方向后，更多的学者在这方面展开研究。

针对复杂背景下的手掌图像分割问题，不同学者从不同角度进行了研究。2008年开始，TIAN et al[49]利用Otsu算法在RGB颜色空间的三个通道上的应用，分割复杂背景下的手掌图像前景，但是由于RGB通道受光照影响较大，分割效果并不理想。2011年，ROTINWA et al[50]提出了一种基于人工神经网络和CbCrY颜色空间的分割算法，有效地将手掌从复杂背景中分割出来，但是没有将其用于移动端的掌纹识别技术的应用当中。张情等[51]在自适应高斯肤色模型的基础上，提出了一种结合区域生长的手掌前景分割方法，该方法可有效分割出复杂背景中出现的类肤色区域的影响，并且克服了移动终端掌纹图像处理受到的多方面干扰。

对于掌纹识别，SANYAL et al[52]研究了一种掌纹认证系统，利用交叉小波变换进行特征提取，利用不同种群的细菌觅食优化算法选择特征组合，再采用神经网络作为分类器，掌纹识别准确率达到97.85%.GENOVESE et al[53]利用深度学习和卷积神经网络提取掌纹和内手指纹理，利用单手采集来实现掌纹和内手指纹理特征融合，结果表明，融合能够提高识别精度，而不需要多次生物特征获取。虽然这方面的研究不断在发展与进步，但是将其与中医之间建立连接的相关研究还较少，后续的研究可以大量的数据统计为驱动，通过病症和手掌特征之间的对应关系，结合中医医生的经验，最终找到看病治疗的途径。

将现代图像处理和计算机视觉技术应用于中医图像分割的进一步研究正在进行中，尤其是针对面诊和舌诊，临床上迫切需求智能诊断技术加以辅助。表1详细描述了图像处理在中医图像识别中的应用现状，研究对象主要包括面部、舌相以及手掌，研究任务包括面色分割、虹膜分割、嘴分割、舌体分割、手掌分割及掌纹识别等。研究方法主要包括高斯混合模型、肤色模型、可变轮廓模型、支持向量机以及深度神经网络(CNN，ResNet，U-net)等。评价指标主要采用准确率、精确度、MIoU值、PA值等。应用领域以中医望诊和生物特征识别为主。虽然基于深度学习的中医图像分割方法克服了面部、舌体、手掌等形态、光照、颜色多种因素的分割挑战，能够实现开放环境静态人脸等的精准快速分割，但是这些方法只考虑了单独的面部器官，导致诊断结果不准确和有偏倚。在后续的研究中，应该更侧重于基于中医整体观原理的混合结构，以同时检测和分割多个面部成分。

表1 图像处理在中医望诊图像分割中的应用Table 1 Application of image processing in segmentation of observation images of TCM

2.2 中医智能疾病诊疗与预测

面对大量复杂的中医图像信息和持续增长的中医诊疗需求，常规基于中医师经验的望诊暴露出的工作负荷大、客观化程度低、标准不统一、效率低等诸多缺点愈加明显。而图像处理技术在处理大数据和复杂非确定性数据、深入挖掘数据潜在信息等方面有着超越人类的优势。运用计算机视觉技术解读中医图像，帮助医生定位病灶，辅助诊断，辅助治疗，可以有效弥补其中的缺口，减轻医生负荷，提高诊疗效率。

在智能疾病诊断方面，中医望诊为目前疾病诊断提供了一种高效的、无创的方法。因此，研究者们在基于中医图像的智能诊断方面做了很多工作。前期的许多著作中都着重研究了基于人体表特征(包括脸，舌，眼睛，手掌等)的疾病诊断[54-56]，证实了无创方法的优越性和合理性。KIM et al[57]提出了一种利用面部图像周围的颜色分布的心脏病诊断系统。同样，另一项基于人脸图像的工作[58]在肝炎患者中进行了检测，平均准确率达到73.6%.随着深度学习算法成为基于中医图像的疾病诊断和预测的一个很有前景的工具，MA et al[6]提出了一种通过自然舌象自动识别舌体构造的系统框架，设计了深度卷积神经网络用于舌苔检测、舌苔标定和舌体构造识别。在该系统框架下，提出了一种新的复杂性感知(complex perception，CP)分类方法，用于中医体质识别。2019年，发表在《自然·医学》的一篇文章中表示[59]，人工智能在接受上万张真实患者面部图像训练后，能够以高准确率识别罕见的遗传综合征。中国医学科学院阜外医院郑哲教授联合全国9家医院与清华大学自动化系季向阳教授团队，开发并验证了一种基于人脸照片的深度学习算法，用于评价面部特征与冠状动脉疾病(CAD)风险的关系。结果表明，基于脸部照片的深度学习算法可以帮助中国人群的冠心病检测[60]。这项技术有望应用于门诊冠心病的风险评估，以及社区冠心病患者的筛查，值得进一步研究开发为临床可用的辅助工具。ZHANG et al[7]提出了一种渐进可训练的双堆栈神经网络(DsNet)，通过分析候选人的面部图像，同时区分慢性肾病、糖尿病患者和健康人。第一堆叠子网络有效地提取了人脸图像的高级代表性特征；第二个堆叠子网络可以进一步分析从第一个堆叠子网络中提取的高级特征，从而同时对健康个体的两种疾病进行分类，精确度可达97.8%.但大多只针对单一部位图片进行诊断，后续的研究应侧重于不同部位图像数据的联合表示，并利用它们之间的相关性，提高整体分类性能。

在自动化治疗方面，部分研究者开始研究挖掘病人望诊信息和中医处方之间的关系，以期实现自动化的中医处方生成与推荐。LIAO et al[61]设计了一种基于三粒度人脸的多尺度卷积神经网络，从面部器官、局部区域和整个人脸中挖掘患者的人脸信息，使用深度学习方法来挖掘面部信息与中药方剂之间的关系，并根据患者的面部图像构建卷积神经网络来生成中药方剂。HU et al[62]设计了一种用于构建处方的深度神经网络框架。它包括单/双卷积通道和完全连接层用于舌象特征编码，提出辅助治疗主题损失机制，对中医的治疗进行建模，减轻稀疏输出标签对结果多样性的干扰。实验使用真实的舌象和相应的处方，结果可以生成接近真实样本的处方。WEN et al[63]首先构建一个较大的舌象数据库，每个图像对应一个处方；然后利用自动编码器对舌象进行特征提取，在此基础上提出推荐神经网络来推荐处方中的药草；最后，提出了一种新的处方生成方法，从推荐的草药中选择最佳的草药形成最终的处方。

然而，由于中医望诊自身的复杂性和计算机图像处理相关技术未完全成熟，尚有一些问题待进一步探讨和解决，目前中医图像智能诊疗面临诸多的困难和挑战，如对人脸、舌、手的原始图像限制诸多，在现实生活中只有在特定的情况下才会得到实验的样本图片，没有特定的图像采集设备，可获得的数据光线、背景等无法得到统一，导致普通模型的泛化性弱；其次，面部照片中很容易提取出一些敏感的健康记录数据，这种传播使得这里讨论的技术对个人数据保护构成了重大威胁，直接涉及个人隐私，易触发伦理纠纷、肖像权纠纷等问题。未来的临床应用研究应更加注意隐私保护以及其他社会影响，以确保该工具单纯用于医疗目的。表2详细描述了图像处理技术在中医疾病诊疗中的应用，研究对象包括舌诊、面诊，任务类型包括中医体质分类、疾病诊断、处方生成等，研究方法包括CNN、DCNN、双栈式自编码网络以及多层感知器等。

3 图像处理技术在中药材鉴别中的应用

中草药作为中医的一部分，不仅在治疗疾病方面有卓越的表现，而且在中医理论体系的指导下还可以调理身体，因此逐渐成为人们生活的一部分。然而，一方面中药材种类繁多、数据量稀少，且很多药材形状、名称、颜色等极为相似，由于缺乏专业的设备和知识，非专业人员难以准确识别中药材，因此对中药材识别工具寄予厚望。另一方面，一部分商人受利益的驱使，制造和销售假冒伪劣产品，中药材掺假、掺杂、以假乱真、以次充好等现象屡见不鲜，直接危害到人民群众临床用药的安全性和有效性。利用图像处理方法，可以通过中药材图片识别药材种类、鉴别药材真伪、评估药材质量等，具有可操作性、可重复性和价廉的优点。

3.1 中药材识别

中药图像识别面临两个问题：1) 一些中草药属于不同的物种，根据全局形状特征容易被分类，如图2所示。例如，砂仁和甘草在整体形状上有很大的不同，因此可以很容易地根据形状特征进行分类。2) 还有一些形状相似的中草药属于同一种，需要更细粒度的特征来进行识别。

表2 图像处理在中医疾病诊疗中的应用Table 2 Application of image processing in TCM disease diagnosis and treatment

对于不同种类草药识别，KAN et al[64]针对人工分类方法在识别药用植物时存在的局限性，提出了一种基于形状特征和纹理特征的药用植物叶片图像自动分类方法，为药用植物分类体系的研究和发展提供了一个有价值的理论框架。SUN et al[65]提出了基于卷积神经网络(CNN)的中药图像识别和检索方法。对于识别问题，作者利用softmax损失对识别网络进行优化；对于检索问题，再微调识别网络通过添加一个三元损失搜索最相似的医学图像。ZHANG et al[66]设计一种以深度卷积神经网络为基础的分类系统，应用于植物物种识别中，在植物物种数据集上取得最先进的性能。SUN et al[67]采用VGG16网络对选取的50种复杂背景下的中药材饮片进行分类识别，最终分类识别效果较为理想。中草药数目庞大，同一类型草药同一状态下不同视角图像，以及其每个成长阶段的形状颜色等均有变化；其次，很多中草药极为相似，如何进行进一步的区分与辨别，给基于图像的中草药准确识别中带来巨大挑战。

对于同一种类相似中药材识别，不同于常规的图像识别或细粒度图像识别，前者关注全局语义信息，如轮廓和形状，而后者需要更详细的局部信息。如图2中的巴豆和苍耳，它们在细节上只有少许差异。因此，中药识别可转化为一个多粒度的任务。一般情况下，仅使用单尺度特征很难兼顾以上两种情况，因为常规的CNN无法自适应检测尺度，需要考虑多尺度特征，并自适应地强调对不同药材有效的相应尺度。如XU et al[68]从建立一个新的中草药标准数据集开始，提出了一种新的用于中药识别的注意力金字塔网络(attention pyramid network，APN)，能够对不同特征尺度的中草药图像进行自适应建模，并将其应用于中药识别中。

图2 不同种类草药Fig.2 Different kinds of herb

3.2 中药材鉴定

中药材品质的保证是中药质量标准的关键环节，但中药材以次充好、以假乱真、滥用农肥的现象屡见不鲜，中药质量控制一直是中药现代化急需解决的关键问题。

目前，图像模式识别技术已经在中药材鉴定中得到了广泛应用，该技术主要是利用被测中药材图像的密度、几何形状、色彩特征、密度等因子参数,实现对正规中药材不同等级以及炮制品的对比，同时揭示出中药材本身的数值分类，通过海量的数据内容归类出相应的规律、特征，并构建出图像识别鉴定标准，为相近药材鉴定、炮制品鉴定提供可靠数据参考。如王丹等[69]利用Image-proplus和图像处理技术，对来自宁夏、青海和新疆三个产区共90份枸杞子样品的形状性质等各项指标进行综合评价，结果显示，三个产区枸杞子药材在形状、重量、面积和颜色等外观性状方面均有一定差别，为中药材的规格等级划分提供新的思路和参考。张喜红等[70]以西洋参为例，在百度人工智能开放平台提供的EasyDL定制化图像识别服务的基础上，设计了一种基于图像识别技术的中药材品鉴助手系统，实现了中药材的等级分析。实验测试结果显示，在白纸背景下拍照分析的识别正确率高达95%，能满足实际使用的要求。

在实际应用中，除了基于图像的鉴别方法之外，还需依据“望、闻、尝、摸、水、火”等的经验鉴别法，以及分子鉴别法、化学鉴别法、形态鉴别法、生物效应鉴别法等方法，后续的研究可以对多模态鉴别数据和图像信息进行结合，通过纹理、颜色、气味等感官特征分析，将一些非图像信息加入考虑范围内，提高鉴别的准确性。表3详细描述了图像处理在中药材鉴别中的应用，研究对象包括植物叶片、中药饮片等，研究方法包括SVM、CNN、DCNN、VGG16以及APN等。

表3 图像处理在中药材鉴别中的应用Table 3 Application of image processing in the identification of Chinese medicinal materials

4 数字化经络模型三维重建与可视化技术

经络是运行气血、联系脏腑和体表及全身各部的通道，是人体功能的调控系统。经络学也是人体针灸和按摩的基础，是中医学的重要组成部分。人体内经络穴位数目庞大，错综复杂，随着计算机技术、多媒体技术与三维虚拟技术的发展，研究者通过构建可视化三维模型，直观、准确、动态地展示人体经络穴位，观察腧穴相关的空间解剖结构及毗邻结构，显示针灸关键点，模拟不同中医疗法循经传感过程，提高教学及临床可靠性与安全性。

4.1 基于图像的穴位定位

准确定位人体穴位是经络模型重建与可视化的基础。早期的研究虽然未能明确指明应用于中医腧穴的识别与定位，但是与之相似的人体关键点检测算法与模型已有很多研究。

人体关键点识别一般包含手部关键点识别，人体骨骼关键点识别以及面部关键点识别。对于手部关键点的识别，TOMPSON et al[71]提出了一种基于模型的方法，最终可以实现实时跟踪手的全部关节点，并且可以达到25 f/s，但该方法有一定局限性，对复杂手势的关键点识别率低。卡耐基梅隆大学实验室公布了开源项目Openpose，为手部关键点识别提供新思路。在此基础上，CVPR 2019大会上谷歌发布了一种新的手部感知方法，该方法通过机器学习，从单帧图像中推断出一只手的21个3D关键点，并且能够实时获取关键点数据，从而提供了高保真的手掌关键点检测以及手部和手指跟踪[72]。

对于人脸关键点的识别，2013年，Face++在DCNN模型上进行改进，提出从粗到精的人脸关键点检测算法[73]，该算法并行的采用两个级联的CNN进行关键点检测，实现了68个人脸关键点的高精度定位。2016年，ZHANG et al[74]提出一种多任务级联卷积神经网络(multi-task cascaded convolutional networks，MTCNN)用以同时处理面部检测和面部关键点定位问题。作者认为人脸检测和人脸关键点检测两个任务之间往往存在着潜在的联系，然而大多数方法都未将两个任务有效地结合起来，本文为了充分利用两任务之间潜在的联系，提出一种多任务级联的人脸检测框架，将人脸检测和人脸关键点检测同时进行。

人体骨骼关键点检测是诸多计算机视觉任务的基础，广泛应用于动作分类、行为识别以及无人驾驶等领域。传统的人体骨骼关键点检测算法基本上都是在几何先验的基础上基于模版匹配的思路来进行。Pictorial Structure[75]是其中一个较为经典的算法思路，主要包含两个部分，单元模版(Unary Templates)和模版关系(Pairwise Springs)，对于模版关系，提出了著名的弹簧形变模型，即对部件模型与整体模型的相对空间位置关系进行建模，利用了物体的一些空间先验知识，既合理约束了整体模型和部件模型的空间相对位置，又保持了一定的灵活性。Convolutional Pose Machines[76]首次提出将深度学习应用于人体关键点检测及姿态分析，同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个阶段，其中第一个阶段会产生初步的关键点的检测效果，接下来的几个阶段均以前一个阶段的预测输出和从原图提取的特征作为输入，进一步提高关键点的检测效果。CHEN et al[77]提出了一种基于级联金字塔网络(cascaded pyramid network，CPN)结构的人体关键点检测框架。整体框架分为两个阶段：GlobalNet和RefineNet.其中GlobalNet主要负责检测容易检测和较难检测的关键点，通过进一步更高层的语义信息来解决较难检测的关键点问题；RefineNet主要解决更难或者不可见关键点的检测，这里对关键点进行难易程度进行界定主要体现在关键点的训练损失上。人体关键点检测定位至今仍然是计算机视觉领域较为活跃的一个研究方向，并且算法已经达到较为完美的效果。这为基于关键点识别的中医腧穴定位奠定了坚实的理论基础。

在以上关键点模型的基础上，JIANG et al[78]设计了一种用于医院和针灸培训和治疗的针灸辅助系统。该系统首先利用穴位在基底面上的相对位置获取笛卡尔坐标系中的穴位坐标。然后，将虚拟穴位构建为球体，地图生成器构建基于图形的三维脸部穴位地图。最后，增强现实(Augmented Reality, AR)系统将现实世界中的人脸与虚拟针灸地图结合起来，通过谷歌眼镜的投影屏幕向用户显示增强视图。CHANG et al[79]实现了一种基于“寸”的定位系统，将地标之间的相对距离由像素转换为寸，假设发际线与眉毛之间的距离为3寸。可以根据其与某个地标点的相对距离(以寸为单位)来确定穴位的位置。王聪等[80]提出了采用深度学习方法进行关键点定位，再根据骨度分寸法定位出穴位位置，并计算穴位点与特征点之间的转换矩阵，最后对穴位进行深度估计，为针灸机器人的运动控制提供目标穴位的三维位置信息。LAN et al[81]提出了一种利用关键点和三维变形模型(3DMM)进行穴位定位的新方法。该系统定位误差约为2.4 mm，估计精度比之前穴位定位方法高出170%。在Android手机上实现了一个原型系统。在症状较轻的情况下(如头痛、睡眠障碍等)，患者借助该系统，患者可以快速找到相应的穴位进行推拿。

4.2 经络腧穴可视化

人体经络腧穴三维可视化系统中经络循行路线及腧穴的选择与定位标准主要源于世界卫生组织西太平洋地区事务处颁布的《世界卫生组织标准针灸经穴定位》及《腧穴名称与定位》(GB 12346-2006)；全国中医药行业高等教育“十二五”规划教材《针灸学》系列及中医药学高级丛书《针灸学》；世界卫生组织标准针灸穴位挂图；《中国针灸穴位通鉴》等。

目前，已有部分学者对三维经络和腧穴结构等进行了相关研究，如基于3DMax技术和人体解剖切片图像数据建立穴位和经络三维可视化模型[82-83]。庄天戈等[84]以中医理念为指导，以VHP数据及VOXEL-MAN三维体视化模型为基础，建立了腧穴定位及针刺方向的可描述模型，该模型包括利用三维可视化方法建立的空间模型，以及组织成为层次型文本知识体系的解释模型，实现了基于中医理念的显示腧穴三维形态的可视人模型电子解剖图谱。ZHU et al[85]利用三维虚拟技术构建人体经络、穴位可视化三维模型，整合现有相关标准和临床知识，实现跨平台的三维可视化系统。HONG et al[9]提出了一种三维经穴识别与投影系统。以中医经络理论为基础，融合了3D机器视觉和投影技术，实现了人体的三维重建、腧穴的识别与标注、经穴在人体表面的同步投影。

针对经络腧穴重建与可视化的国内外研究比较少，且均为国内学者，在国际上并未得到广泛的认可。其次，尚未有系统的研究方法及理论，也未能依据中医经络理论进行动态的循经传导模拟与重建。

表4 图像处理在中医经络腧穴重建中的应用Table 4 Application of image processing in reconstruction of meridians and acupoints in TCM

5 问题及展望

综上所述可以看出，计算机图像处理技术在中医望诊、中草药鉴别以及经络腧穴可视化等方面都有杰出表现，为在中医信息化与现代化应用提供了重要的理论基础和技术支撑，对全病种都具有很强的应用前景。然而，智能中医图像高速发展的背后依旧存在许多问题。

1) 缺少统一的、开放的、高质量标注的数据集。目前基于深度学习的算法在图像处理领域应用越来越成熟，效果往往优于传统的图像处理技术，但深度学习算法大多是有监督的学习，即需要大量已精确标记的训练数据，但是标记中医医学数据依赖中医师的专业知识，耗时耗力，而公开数据集的训练数据往往数量少、质量差，单一机构的小样本数据训练出来的模型存在过拟合或者鲁棒性和推广性差的问题，难以临床转化和商业使用。

2) 大部分是端到端的输入输出形式，决策过程透明度较差，利用深度学习方法得到的模型存在“黑匣子”问题，理论支撑薄弱，可解释性较差。

3) 中医主要的思想是“天人合一”，诊断过程中融合“望闻问切”多模态数据以及不同患者体质、生活环境等多种因素，但是目前不同诊法设备分类标准不统一的中医计算机图像处理仍停留在单一模态，单一目标部位，无法全面建模传统中医的诊疗模式。

因此，如何解决上述问题将成为当前的研究热点。首先，针对数据集不完善的问题，一方面，期刊可以加大数据集论文的支持力度，扩大训练集的样本量；另一方面，可以通过生成对抗网络(generative adversarial nets，GAN)等数据增强方式，以多种算法组合为构架，并运用降维方法缩小训练所需要的样本量，在一定程度上解决样本量和医生标注效率低的问题。其次，针对直接使用端到端的神经网络得出的结果使网络的可解释性较差，可通过可视化、参数分析以对比实验去解释，如不同卷积层特征激活图、各通道的贡献及训练中梯度可视化等等，后期研究可仅在特征提取阶段应用卷积神经网络模型，再使用理论基础更强的算法作为后端处理。最后，针对中医图像处理数据模态单一，无法全面建模中医辩证模式问题，后续研究可考虑结合自然语言处理、语音识别等方法，从多源数据融合角度，将四诊信息全面有机结合，实现基于多模态信息融合的智能中医诊疗。基于图像处理方法的智能中医诊疗与更多无创、高效的多模态客观化信息采集技术(如脉象采集传感技术)的结合，将在精准医疗的发展中发挥重要作用。

6 结束语

计算机图像处理技术将作为新一代中医诊疗技术发展，推动中医药的智能化发展与经验传承的重要工具，目前图像处理技术在中医的应用更偏重于面诊和舌诊中，涉及的主要技术有图像边缘提取、目标检测与识别、区域分割、颜色矫正、特征提取、图像去噪、三维重建等，而中医智能化进展需要的远不止这些。大量标准统一，标注完善的图像数据的获取、多中心的研究验证、决策过程和诊断依据的可视化及第三方评价体系的建立尤为关键。此外，智能中医药图像处理技术的发展不仅需要大数据技术和各种传感成像技术的深度融合、计算机人才与中医药人才的融合，还需要以中医学问题和临床结果为导向，解决在诊断前、诊断中和治疗后实现ROI区域精准分割、智能辩证施治、中草药的标准化等方面的研究及应用问题。