姜天童,赵宇平,赵玉凤,王少丽,罗 楠,罗 屹,刘 震△
(1.中国中医科学院广安门医院,北京 100053;2.中国中医科学院,北京 100700;3.中国中医科学院中医药数据中心,北京 100700)
机器视觉技术是近年新兴的一门涉及人工智能、神经生物学、计算机科学、图像处理、模式识别等诸多领域的交叉学科。机器视觉主要用计算机来模拟人的视觉功能,从客观事物的图像中提取信息,进行处理并加以理解,最终用于实际检测、分类和控制[1]。机器视觉技术最大的特点是速度快、信息量大、功能多,其并不仅仅是人眼的简单延伸,更重要的是具有人脑的一部分功能。中医的视觉诊断包括中医望诊中的多项内容,如面诊、舌诊、目诊、手诊及观异常体态、动态等,其诊断往往依赖于中医师的肉眼观察和经验判断,导致辨证结果存在主观性、模糊性的问题,如何提高中医诊断的准确性、客观性和可重复性是中医现代化研究的症结所在[2-4]。现代医学发展将宏观、中观、微观相结合,在传统中医理论的基础上融合人工智能(artificial intelligence,AI)技术深入挖掘“辨证论治”的底层原理,如图1所示。在医疗设备领域,AI可以在传统产业的逻辑里生发新的维度,为落实“健康中国”战略,打通中医药科技成果转化最后一公里提供重要路线[5-8]。近年机器视觉技术赋能智慧医疗使中医智能设备迅速发展,本文将围绕近年来该领域研究成果,根据面、舌、目、唇、耳、手及肌肤体态等视觉信息采集内容,分类探讨中医智能设备的关键技术、临床应用价值及未来展望[9-11]。
图1 机器视觉应用于中医智能设备技术流程图
传统面诊理论多以面部分区中面色的变化与脏腑肢节病变的对应关系诊断疾病,并且呈现为面部分区逐渐精细化的发展趋势[12]。如《灵枢·五阅五使》所云“肺病者,喘息鼻张。肝病者,眦青。脾病者,唇黄。心病者,舌卷短,颧赤。肾病者,颧与颜黑”,这是面色识别及面部分割技术研究的重要理论基础[13-14]。面诊智能设备的关键技术主要涉及图像的采集和图像处理模型的构建[15-16]。目前面部视觉图像采集以“颜色空间”技术的选择为主,其用途是在特定标准下用可接受的方式对色彩加以说明,位于系统中的每种颜色都以单个点表示,用于对彩色模型坐标系统和子空间的阐述。适用于面诊设备的颜色空间技术包括RGB、CMY、HSV、HSI等[17]。徐艺峰等[18]运用Smart TCM-Ⅰ型中医生命信息分析系统采集面色信息,使用了采集参数包括色调(Hue,H)、饱和度(Saturation,S)和明度(Value,V)的HSV颜色空间技术研究中医证型与面色客观化信息之间的联系。关茜等[19]使用上海中医药大学自主研发的便携式面象采集系统进行采样,使用Lab颜色空间技术研究肝脏、肾脏疾病患者面部不同分区颜色参数变化。Li等[20]设计了一款计算机辅助分类模型用于精准描述面部光泽信息,采用4种颜色空间技术对面部光泽信息进行特征提取,为基于人脸图像的面部光泽诊断提供了一种自动、定量的方法。图像处理方面,关联规则模型和Logistic回归模型常与颜色空间数据协同使用[21]。杨帅等[22]应用便携式中医体质识别仪Hi-face-22采样,使用Apriori算法建立关联规则模型处理不同体质人群的面部信息差异。Qi等[23]应用天津中医药大学自主研发的TCM-IDI智能面诊仪采样,运用Logistic回归模型构建综合征诊断模型,研究中医的定量综合征鉴别方法。
临床应用方面,面诊智能设备已应用于多种中医内科常见疾病的中医证型面部特征客观化研究及疾病治疗前后面部特征改变情况对比等方面[24-25]。DKF-Ⅱ中医面诊检测仪可用于检测受试者各项面诊参数(颜色、色度、光泽度),周小芳等[26]应用该面诊仪研究发现,慢性肾衰虚兼湿浊证患者相较于对照组患者的面色均以黄色多见,并存在更高比例的黑色和青色;杨帅等[27]应用该面诊仪发现,慢性萎缩性胃炎脾虚气滞证患者面部色度较健康人降低,且面部无光泽指数显著升高。云中医智能镜可采集受试者面诊图像参数(面色参数、光泽指数),徐莹等[28]应用该仪器发现脾阳虚和肾阳虚人群分别以面黄和面白为主,且均缺乏光泽的概率较健康人更高。YM-Ⅲ系列面象仪具备测量受试者额、鼻、颊、颏部位的颜色空间数值及人中长度的功能,任琦等[29]使用该面象仪发现冠心病痰瘀互结证患者多处位置面色及人中长度与健康组均存在统计学差异,且冠心病痰瘀互结证患者治疗10天后较前比较,左、右颊面色值均有显著下降,人中长度则较前明显增长。
舌诊在中医临床诊断中的重要地位和中医古籍中记载舌诊的丰富理论内容,是近年来机器视觉技术在舌诊智能化设备使用中蓬勃发展的重要基础[30]。《三因极一病证方论》记载“心之本脉,系于舌根;脾之络脉,系于舌傍;肝脉,循阴器,络于舌本。凡此三经,或为风寒湿所中,使人舌卷缩而不能言,或忧怒思恐所郁,则舌肿满而不得息,心热则破裂生疮,肝壅则出血如涌,脾闭则白胎如雪”,即细致地描述了脏腑疾病影响舌象的病因病机及舌苔的特点。机器视觉技术在舌诊智能设备中的开发重点围绕舌体目标区域分割、舌图像特征自动提取和辨证分类机器学习建模3个方面,均与人工智能算法的构建密切相关,其关键技术包括以深度残差网络(residual network,ResNet)、YOLO算法为代表的图像特征提取技术,以增强全卷积网络、UNet分割模型、高斯混合模型为代表的图像分割技术和以深度卷积神经网络(convolutional neural network,CNN)、Fisher线性判别模型为代表的舌象识别分类技术[31-34]。Huang等[35]提出了具有编解码器结构的增强全卷积网络的自动舌部图像分割方法,采用ResNet作为编码器获得密集的特征图,然后利用特征金字塔网络作为解码器,融合多尺度特征图收集足够的位置信息,从而恢复舌体的清晰轮廓。Yan等[36]提出基于图像嵌入和卷积神经网络的舌象纹理分类方法,应用高斯混合模型将舌苔和舌体进行分离,确保舌体图像纹理和颜色变化的连续性,并利用基于ResNet101残差网络插入硬柔舌的图像分类模型进行训练和测试,实现舌体柔韧度的客观化提取。Wang等[37]提出使用CNN识别齿痕的方法,用ResNet34体系结构提取特征并进行分类,该模型的总体准确率超过90%,且可推广到不同光线条件下的舌象采集设备。沈睿等[38]设计了一款由采集单元和诊断单元构成的智能舌脉诊断手环,利用YOLOv3算法识别定位,并用Fisher线性判别模型进行舌象判别。
舌诊智能设备历经多年的研发过程,已应用于中医疾病证型诊断、疗效评价,以及结合实验室指标分析证候特征等多方面研究[39]。上海中医药大学研制的TFDA-1型数字舌面诊仪已获批医疗器械注册,该仪器可采集受试者4个颜色空间数据和纹理指标及perAll、perPart 2个舌苔指数,应用于包括疾病辨证分型和治疗前后舌象客观化特征差异比较等诸多方面。通过利用该仪器,郭志玲等[40]发现子宫肌瘤患者与健康人群的舌象图像差异及气滞血瘀证、痰湿瘀结证、湿热瘀阻证、肾虚血瘀证肌瘤患者的舌象图像特征;石玉琳等[41]发现非小细胞肺癌患者阴阳两虚证舌象整体偏红或绛红,且舌象纹理更细腻,阴虚证及气滞血瘀证舌苔更偏黄、舌质亮度较高,痰湿凝结证和气滞血瘀证较阴阳两虚证舌象更偏晦暗、舌苔偏白腻;李骁群等[42]发现阈下抑郁证患者舌色在针刺治疗后明显更红润、明亮,舌苔由厚变薄;周明瀚等[43]发现原发性高血压阴虚阳亢证患者较其他证型舌质颜色偏红绛,光泽度降低,舌质纹理粗糙,舌苔颜色偏黄。此外,舌诊智能设备还可应用于中西医结合疾病分型和实验室指标高危因素研究。陈锐等[44]基于“岐黄AI工作站”舌象数据分析平台解读、判别受试者舌象图,发现COVID-19患者的舌象特点与西医分型之间存在相关性。谢晟洁等[45]使用DKF-Ⅱ型中医舌面诊数字化检测仪采集受试者舌质和舌苔参数,发现糖尿病患者舌诊参数主要受实验室检查指标胆固醇、糖化血红蛋白、甘油三酯影响。
古代经典著作中目诊的内涵涉及脏腑病、六经病、时邪疫病等眼部征象,为现代化目诊技术提供了丰富的研究思路[46]。如《灵枢·大惑论》所言“五脏六腑之精气,皆上注于目而为之精”,《灵枢·论疾诊尺篇》云“诊目痛,赤脉从上下者太阳病,从下上者阳明病,从外走内者少阳病”,反映了目诊与脏腑经络的密切联系;孙思邈眼科专著《银海精微》中记载的“天行赤眼者,谓天地流行毒气,能传染于人”是时邪疫病的眼部特征。现代机器视觉技术应用于目诊智能设备中,图像配准技术是当前目诊客观化研究的核心技术,其是将不同时间、不同成像设备或不同条件下(天候、照度、摄像位置和角度等)获取的2幅或多幅图像进行匹配、叠加的过程,已被广泛应用于计算机视觉、图像处理等领域[47-48]。利用图像配准技术与眼科检测仪器相结合,Sui等[49]提出一种弱监督的多光谱成像(multispectral imaging,MSI)图像配准网络SI-R-NET算法,其可利用血管分割标签来提供空间对应关系,从而省去眼科医生在分析MSI图像时需要覆盖2幅图像来分析特定特征的步骤;Hernandez-Matas等[50]采用眼睛建模和姿态估计的视网膜图像配准模型估算眼睛的形状和方向的相对姿态,可帮助医生对眼睛的三维表述进行标准化测量,排除由于二维图像空间上的投影而引起的扭曲造成的误差;De Fauw等[51]使用深度分割网络模型应用于临床异质的三维光学相干断层扫描,然后使用深度分类网络算法分析组织分割图,以提供诊断和转诊建议。
中医目诊智能设备研发尚处在萌芽阶段,结合了中医诊断理论的目诊仪和眼部先进检测仪器使中医目诊客观化研究扩大了疾病诊断的深度和广度[52]。博奥生物公司研发的MyEyeD-10目诊仪是目前为数不多投入临床应用的目诊智能设备,其参照“望目辨证”理论采集并统计分析受试者的目络特征。和芳娟等[53]发现高胆固醇血症患者目络形态特征“斑”“血脉”特征分值显著高于健康人,且其目络血脉颜色“黯红色”特征分值显著高于健康人;吴梦婷等[54]发现Wilson病肝型患者与健康人相比“丘”和“血脉”积分更高,且随着肝脏损害程度的加重,其目络特征积分也随之增加。此外,中医目诊智能化研究主要是与眼部检测仪器深度结合,如杨成昊等[55]使用日本拓普康免散瞳眼底照相机(TRC-NM6S)采集受试者的眼底图像,利用改进的U-Net网络对眼底图片进行预处理及血管分割,发现高血压病肝火亢盛证、痰湿壅盛证、阴阳两虚证、阴虚阳亢证患者视网膜病变分级的差异;程修平[56]使用智能微循环检测仪采集受试者的白睛络脉大体分布情况和局部微循环图像,发现中风病气虚血瘀证患者白睛络脉清晰度、微血管数、细静脉管径、细动脉管径、粗细不均、走形异常、微血管瘤、缺血区、血色积分均较健康受试者增高。
除临床常用的面诊、舌诊、目诊以外,机器视觉技术还应用于其他多种中医望诊客观化内容的研究,国内外研究者应用人工智能技术和先进检测设备对人体唇部、手部、耳部、步态特征进行了多维度的视觉数字化研究。唇诊和耳诊视觉智能化研究关键技术集中于图像空间分割、特征识别,色彩区分技术[57-59]。Li等[60]设计了基于唇部图像的计算机辅助分类方法,提取84个特征的唇色空间成分、纹理和力矩特征,通过SVM-RFE(具有递归特征消除的支持向量机)、mRMR(最小冗余最大相关性)和IG(信息增益)技术构建唇部图像特征分类模型。冯跃等[61]提出多视图空间注意力与特征融合分割模型,模块通过对耳部图像特征进行不同尺寸划分,实现目标区域有效信息提取,可辅助解决五脏反射区在耳部图像中为小目标区域且边缘模糊、难以分割等问题。手诊智能设备目前围绕指纹及皮下血管成像开发,Zheng等[62]利用光声效应开发了可以在高空间分辨率下揭示指纹和潜在血管结构的指纹传感系统,其通过15 MHz线性换能器阵列、超声系统和532 nm脉冲激光扫描手指尖上的线性阵列,从而获得皮下血管结构的三维图像。步态特征标准化研究的难点在于收集行为特征信息并将其量化,Xia等[63]提供了基于深度学习的双模态模型的帕金森病(Parkinson's disease,PD)步态和正常行走的二元分类,其中左右步态分别由一个CNN建模,还提供了PD步态的量化并将其与病情发展程度联系起来。
以上机器视觉技术研究尚未完成专业仪器的研发成品,该领域的临床研究以中医理论结合图像采集设备及人工智能算法处理分析为主,并且往往具有较强的专科特色。江梅等[64]使用彩色数字摄像机采集小儿手诊指纹图像,通过Sobel滤波器对图像进行线性滤波后发现肺炎患儿指纹图像呈现紫色居多且以风关以上为主,健康小儿指纹图像颜色以淡红为主且多不显示风关;潘丹萍等[65]使用上海长江科技发展有限公司设计的望诊设备采集受试者颈项部穴位风池、面部穴位气池的图像,采用肤色探测结合自适应阈值分割算法、活动轮廓模型进行风池和气池区域的分割,发现抽动障碍痰热动风证、脾虚肝亢证患儿RGB颜色空间指标与健康小儿存在统计学差异;马超等[66]使用北京工业大学开发的由站立支撑架、扫描器、处理计算机组成的人体脊柱形态评价系统收集受试者下腰曲线弹性固定转折点的三维成角,发现该指标可反映旋盆翘臀和旋腰挺胸型的特征,对于定量描述腰型变化诊断腰椎间盘突出症腰型分类具有很大临床价值。
机器视觉是人工智能与光学成像系统的高度融合,伴随计算机技术日臻成熟,目前机器视觉已应用于多款中医智能设备,见表1。其智能化流程包括图像获取、图像预处理、图像分割、特征提取/选择和分类识别,即图像采集、图像特征提取和图像处理分类,通过观测受试者面、舌、目部和人体其他部位图像进行疾病诊断或体质辨识[67]。
表1 临床常用中医智能设备概况
视觉技术图像采集方面,为了降低外部环境光造成诊断不准确问题,通常限定拍摄设备和环境光照,通过控制望诊用光源的各项属性及固定光源获取望诊图像[31]。采集图像光源主要选择较自然光相对稳定的人工灯泡、色温固定的氙灯代替太阳光源,或在环境中使用积分球装置反射光线以获得高稳定性光源[68]。图像特征提取方面,通常首先进行有效的图像预处理并获取感兴趣部位的分割识别,再针对特定部位设计人工智能算法进行自动特征提取,最后基于中医辨证理论完成疾病证型或中医体质分类诊断[69]。图像处理分类方面,模型的构建主要包括分割和分类模型。近年来大多数模型构建采用设计深度神经网络算法的方式完成,常用的分割模型有UNet分割模型、高斯混合模型等;常用的分类模型有ResNet残差网络、Fisher线性判别模型、随机森林模型等,当训练集数据不充分时,多采用无监督方法或迁移学习以在小型数据集上得到较好的图像识别效果[70]。
另一方面,依靠视觉技术的中医智能设备研究仍在发展中,目前面临着几个重要的限制与不足:(1)视觉图像原始数据收集难度大。机器学习的基础是原始数据集,而视觉技术所需的图像数据相较文字数据获取更加困难,需要耗费巨大人力物力。同时与其他中医客观化研究遇到的问题相同,现有的中医临床诊疗系统中数据标准不统一,不同系统数据合并难度大,非结构化的数据模式给资料提取造成较大困难。(2)中医-电气工程交叉人才短缺。机器视觉是一项综合技术,包括图像处理、机械工程技术、电光源照明、光学成像、传感器模拟与数字视频技术、计算机软硬件技术等,计算机软件和设备器械硬件开发及数据集“打标签”等工作需要来自中医临床、基础方法学、计算机专业和电气自动化工程学等多位交叉学科专家共同完成,需要研发团队极强的统筹能力,且目前尚缺乏交叉学科专家具体遴选标准,使各团队间图像标注结果差异较大,导致中医智能设备研发成果可推广性不佳。(3)视觉设备研发功能相对单一。现阶段基于机器视觉技术的深度学习算法模型基本是仅针对一两个人体部位的独立任务,而现实临床诊断需要结合多个中医望诊甚至四诊合参的子任务同时进行,通过综合判断得出全面而可靠的中医诊断结果,且视觉采集内容丰度有待进一步提高。目前面诊智能设备大多采用“颜色空间”技术获取面部颜色分区、光泽特征作为中医辨证分类依据,而面部表情、肌肤纹理等信息的特征提取及临床应用不足;舌诊智能设备的临床研究大多集中在针对舌的某一方面或几个方面提取特征,如根据舌色、舌苔、舌形或舌下静脉进行体质分析和疾病诊断,而如何综合舌象的完整信息判断疾病的性质、病势的深浅、气血的盛衰、津液的盈亏及脏腑的虚实是对目前研究相对完善的舌诊客观化研究的更高要求;图像配准技术是目前针对目诊智能设备的核心技术应用,如何根据中医五轮与五脏的对应关系进行眼部区域更为细致的细粒度分割,并结合中医理论探求细微区域特征所反映的脏腑病变情况是视觉技术在目诊智能设备研发的可行方向,且针对目诊的专业智能设备研发仍具有潜力。(4)现有基于高精图像采集的中医智能设备普遍体形庞大,多适用于医院诊室、基层诊所等医疗场所,而使用便捷、体积小巧的可穿戴设备功能相对较基础,难以满足老年病、重症缓解期等居家慢病管理的需求,可兼具多种医疗保健功能且可长时间续航的小型仪器研发技术欠缺也是目前研究的瓶颈。
ChatGPT让全球再一次看到AI为世界带来的生态重组,基于机器视觉技术的中医望诊智能设备的研发将中医理论与现代先进技术有机结合,远期有望将中医证素量化,实现中医证候的精准识别,并用于临床干预研究的疗效评价,真正意义上达到中医现代化的目标。此外,通过开展基于中医体征信息采集与智能处理技术的中医数字化设备的开发与研究,能够使中医师从繁重的信息采集和智能决策中解放出来,催生中医药产业新业态,支撑中医药产业高质量发展,使人们可以随时随地能够享受到高素质的中医药服务,成为具有独特国际竞争力的高新产业领域。