机器学习驱动中医诊断智能化的发展现状、问题及解决路径❋

2024-03-26 13:50佘楷杰袁艿君马庆宇岳广欣陈家旭
中国中医基础医学杂志 2024年3期
关键词:客观化证候智能

佘楷杰,袁艿君,马庆宇 ,岳广欣,陈家旭,4△

(1.暨南大学中医学院方证研究中心,广州 510632;2.广州市中医方证重点实验室,广州 510632;3.中国中医科学院中医基础理论研究所,北京 100700;4.北京中医药大学中医学院,北京 100029)

中医诊断是指医者通过四诊合参(望闻问切)收集患者的症状和体征,并经综合推理以完成辨证施治的过程,其优势在于个体化诊疗,方便快捷,但四诊信息采集与辨证论治极度依赖医者的经验、流派及学术思想,较强的主观性影响了诊断治疗过程的规范性和客观性。多学科交叉的人工智能(artificial intelligence,AI)具有整体、开放动态、重视经验和预测推理的思维模式的特点,这与强调天人相应、整体观念、形气神一体及功能联系的中医学思维不谋而合[1]。通过数据收集、整理、特征提取以及模型构建的过程,AI技术可以对患者的症状和体征进行综合分析,这种分析涵盖时间与空间、静态与动态等多个角度,进一步证明AI与中医诊断结合的必要性[2]。

与此同时,政府及相关机构对AI在医疗领域的基础和临床研究提供了有力支持,相应的发展战略、规划及重大科技专项也陆续进入实施、结项和成果转化的阶段,《“十四五”中医药科技创新专项规划》为中医诊疗关键技术与装备确立了“AI+中医诊疗+健康服务”的发展方向。因此,本文就AI,特别是机器学习(machine learning,ML)在四诊信息采集、多模态信息融合、智能辨病辨证和决策支持等方面的研究情况进行分析。基于AI与中医诊断间契合程度,分析目前研究中的不足并做进一步的技术梳理,以期实现AI为中医诊断的智能化赋能。

1 机器学习算法迭代是辅助中医诊断智能化的关键

ML具有自主学习能力,并具备根据数据基数的增加而自动优化的优势[3]。ML借助合适的算法对已知训练集进行学习,分析潜在规律(如分布特征、类别属性等),以对新数据集进行分析和预测[4]。

目前,ML的各类算法经过长期更新迭代,主要基于特征学习方式、模型形式、适用数据范围的不同分为传统ML和深度学习(deep learning,DL)算法。传统机器学习指基于手工设计特征工程的经典机器学习算法,如支持向量机、多层感知器网络、随机森林、决策树、k近邻、贝叶斯算法、聚类分析、集成学习等,其依赖于人工设计数据特征,对数据表示的要求高。随着大数据的广泛应用,以及传统机器学习在大数据规模计算和非结构化数据(图像、音频)处理上的技术疲软,DL飞速发展并广泛应用。DL是机器学习的方法之一,见图1,通过多层非线性运算提取数据的内在规律和层次特征,揭示未知数据的类别属性,主要算法包括卷积神经网络(convolutional neural networks, CNN)、循环神经网络(recurrent neural network,RNN)等。DL是ML的重要发展和延伸,通过特征自动学习和模型深化,在图像、音频等非结构化数据的识别和分析上较传统ML优势明显,且无需人为干预[5],ML和DL区别见图2。当前,互联网、云平台及大数据等联合构建的样本数据库对于DL精进算法、改良模型、提高识别精度最终实现中医智能化辅助诊疗至关重要[6]。

图1 人工智能、机器学习、深度学习的关系示意图

图2 传统机器学习和深度学习的区别示意图:以舌诊图像为例

2 机器学习在四诊信息单一数据源中的应用

2.1 望诊与图像信息

中医望诊所获得的患者图像信息可以最直观地反映患者的外部症状,故素有“望而知之谓之神”之说。其中,望诊主要包括望舌和望面两部分。舌诊是中医诊断的重要组成部分,通过望舌质(神色形态)和舌苔(质色)可以揭示疾病的病位和病性[7],如《医门棒喝》所言“观舌本可验其阴阳虚实,审舌垢即知其邪之寒热浅深也”。然而受限于医者经验和流派等主观因素,传统舌诊有不可避免的模糊性和不确定性。因此,将AI技术用于舌象处理和模式识别,构建舌诊信息的智能识别分析系统确有必要。

传统ML对舌象分析主要使用SVM、k近邻、神经网络、贝叶斯算法等[8-9]。目前,传统ML在智能舌诊的运用包括如下步骤:(1)采用标准的采集系统获取高分辨率的舌图像。(2)对舌图像进行预处理,包括校正颜色、调整对比度等。(3)对舌象定位和分割,通过人工设计特征并对数据进行标注。(4)采用分类器对舌的颜色、形态和纹理进行分类,包括RF和SVM分析舌质和舌苔颜色[10],SVM分辨齿痕舌及裂纹舌[11]。同时,智能化舌诊信息与临床疾病和证候之间的关联研究有助于提高AI舌诊对临床的指导价值。Zhang等[12]基于标准舌图特征参数,借助SVM算法建立糖尿病的诊断模型。丁然等[13]建立了慢性乙型肝炎的舌诊客观量化信息数据库,发现证候与舌象客观化指标之间的相关性。由于ML算法分析舌象依赖于提取的特征,在重视关键舌象特征提取的基础上又要避免网络参数繁多引起的过拟合现象。虽然ML在舌诊图像的客观化、规范化及定量化等方面做出了贡献,但仍存在一定局限性,如人为设计的特征提取器鲁棒性有限,迁移学习和泛化能力差,同时不同机构、不同地域之间的数据低共享性也增加了算法的过拟合风险,因此ML算法尚未实现人类感知精度[14]。

随着DL理论的发展,CNN作为一种包含卷积计算且具有深层结构的前馈神经网络,具有良好的表征学习能力,无需人工设计特征提取,在图像识别和分类任务上优势明显,其鲁棒性和迁移学习能力优于传统的ML算法。因此望诊智能化是DL在中医辅助诊疗领域的一个重要突破点。目前CNN识别舌诊的流程如下(图3):(1)与传统ML方法相同,标准化采集舌图像,舌图像预处理,舌体分割。(2)设计、优化模型结构,并基于已标注的舌象数据测试集进行网络参数训练。(3)基于DL算法进行舌象分类,包括舌质舌苔等提取特征和分析。(4)结合中医舌诊知识库完成证候的推断。Zhou[15]在CNN网络的基础上提取舌图像的特征,这种方法在舌诊图像的体质分类识别上比传统ML准确率增加9%。

图3 舌诊智能化辅助诊断流程图

除了舌诊外,面诊也是《黄帝内经》首倡的中医诊断内容。面部望诊包括对整体的神色观察及头面的局部形态观察,如《素问·阴阳应象大论篇》言“善诊者,察色按脉,先别阴阳”,通过面诊识别病位、辨别病机,这符合见微知著、司外揣内的中医诊断基本原理,而《素问·刺热论篇》和《灵枢·五色》均阐述了面部望诊的分候脏腑体系,可见望诊在疾病诊断和筛查方面意义重大。在面部望诊的智能化分析上,包括望诊仪采集图像、图像校准及分割,随后通过图像分析提取面部特定标记点,采用ML算法进行面部特征分类,与数据库进行对比得出诊断结果。如Zhao和Liu等以面部颜色和光泽为特征,提取面部图像的特征后进行降维处理,并借助SVM进行数据分类和加权融合,这提高了智能面诊识别和分类的精度[16-17]。此外,通过红外成像区分面部脏腑分区的热度差异,以此反映人体各脏腑的功能和气血盛衰状态[18]。SVM、贝叶斯、AdaBoost等算法也用于研究眼睛、口唇的颜色、形态等[19]。但目前面部望诊的研究内容、信息采集等仍缺乏标准,相关技术和算法临床适应性差,未来需着眼于色诊以外的神、形研究,并引进新技术,可以先从挖掘辨病、辨证的特异性指标为切入点,提升算法和技术的适用性。

总之,得益于传统ML算法的铺垫和DL的发展,计算机视觉对图像信息的处理和识别能力迎来高速发展。传统ML算法在小样本数据训练、避免过拟合风险等方面具有优势,但在大规模数据的处理上存在计算复杂度高,超参数难以调节等局限,同时对图像和音频等非结构化数据的处理依赖于人工标注的特征提取,无疑在增加成本的同时加大了人为误差。DL具有更高的识别精度及大规模数据处理能力,并有更优的鲁棒性和可迁移性,但DL极度依赖于训练数据的数量、质量及计算资源。因此,选择何种算法进行图像的AI诊断还需要结合具体的情境来决定。

2.2 切诊与脉象信息

脉诊是狭义的切诊。传统脉诊标准源于《脉经》《濒湖脉学》和《诊家正眼》,指医者对寸口脉象四要素“位、数、形、势”进行诊查,以了解脏腑虚实、气血充盈、正邪交争的情况,如《灵枢·脉度》曰“其流溢之气,内溉脏腑,外濡腠理”。在临床实践中,医生学识、临床经验及切脉主观性等因素影响脉诊结果,不利于学派交流、理论传承及重复研究,脉诊也有“心中了了,指下难明”的困境,因此脉诊的客观化、信息化及智能化研究是必然趋势。目前,脉诊客观化研究主要包括脉象采集传感器技术标准研究、脉象特征提取和脉象波形图分析处理[20]。通过压力传感器、光电传感器等将脉象的搏动转换为具体的脉冲图形,并结合目前的主流算法如动力学分析、时域分析、频域分析进行脉象分析[21],再基于CNN网络[22]、BP神经网络及希尔波特-黄变换分析等算法进行脉搏波识别与分类[23],最后与中医临床诊疗知识图谱进行深度融合。Hu等[24]研究老年人不同血压分级的脉搏波周期特征,通过脉冲数据预处理、周期分割后提取脉冲波特征,用于脉诊的心血管疾病风险评估。Luo等[25]利用ML算法对健康者和高血压患者的脉搏波进行分类预测,基于脉搏诊断仪(PDA-1)观察脉搏波的频域和时域变化来评估高血压风险。但在脉象信号分析中,时域、频域分析难以研究脉象的非线性信息,且传统ML算法需要人为标记特征。颜建军等[21]提出一种基于无阈值递归图和CNN的脉象分析与识别方法,通过VGG-16的CNN自动提取非线性特征,随后构建脉象分类模型,准确率达98.14%。

在脉诊客观化研究中,脉诊仪是关键所在,虽然传感器技术和分析算法不断更新迭代,但目前仍有一定问题:(1)多探头、数组式传感器技术尚未完全成熟[26]。(2)目前采集的脉象信息难以完全反映脉象四要素,不能准确体现中医脉诊的临床思维,因此目前仅适用于辅助医生诊断而不能独立辨病辨证[25]。(3)目前脉诊的AI辅助诊断主要局限于脉图信号分析算法,如传统ML算法的SVM、k-NN、DT、BP神经网络等[14]。总之,目前脉诊仪多用于科研和治未病用途,临床使用度有限,究其原因是这些设备没有超出医生的感知和诊断能力,受传感器采集信号的灵敏度和稳定性影响,其准确性、重复性等均有所限制[27]。

2.3 闻诊与语音、气味信息

中医闻诊涉及听声音、嗅气味。正如《素问·阴阳应象大论篇》言“审清浊而知部分,视喘息听声音而知所苦”,《难经》也有“闻而知之谓之圣”等,表明闻诊在识病、辨证、判断预后中的重要地位。但无论是声诊还是嗅诊,目前仍停留在医者主观判断及定性层面,难以重复验证,且缺乏定量的诊断标准[28]。高也陶等[29]的二十五音分析仪开启对中医声诊客观化、标准化的研究,目前用于AI辅助听诊的ML算法主要包括SVM、K-NN、决策树、独立成分分析及神经网络等。目前,声诊客观化方法由三步构成:(1)在安静、回声抑制的场地收集患者稳定的元音数据,或是通过五脏相音理论跟读对应“角徴宫商羽”的汉字,探索语音对应的特征[29],或是结合非语音指标如咳嗽、呼吸、啼哭、呻吟等研究非语音声音的特征参数[30]。(2)音频数据处理,包括信号的降噪、杂波过滤、变换及提取特征,如近似熵、样本熵及小波包变换等提取参数特征。(3)参数特征作为输入数据以供ML算法训练。如陈春风等[31]通过342例肺系疾病的语音信号采集和特征分析,结合SVM、小波包变换和香农熵值对肺系病证进行分类。作者还通过小波变换结合近似熵,配合SVM算法以识别虚、实证型语音信号[32]。近来通过DL识别音频虽仍处于起步阶段,但已表现出较高的识别精度,如CNN数据增强技术识别虚、实证的精度超过95%[33],原因是CNN在分析声学信号时域的局部波形基础上也具备全局的感受野,与临床医生听诊过程的本质类似。

嗅诊本质是气味分子与受体作用产生物理震动或化学刺激的过程,但常温下医生嗅觉仅能识别有明显挥发的化学分子。电子鼻技术通过气味传感器阵列收集并识别单一或复杂气体,通过与气味图谱对比或者结合ML算法以预测气味属性[34-35]。宋镇贵[36]通过电子鼻收集气味信息,基于小波分析提取口腔气味的病理特征。刘英东[37]在此基础上结合电子鼻、信号处理及模式识别等技术,优化人工神经网络识别算法并构建病理气味的数据分析模型。目前嗅诊客观化研究临床报道较少,主要局限于口臭的分析,在脏腑病位识别与病性诊断方面还具有较大研究空间,是中医闻诊客观化研究方向之一。

总之,开展闻诊定性、定量的客观化研究是四诊合参现代化的途径,目前仍面临以下问题:(1)按照中医理论和诊断方法归类,西医的叩诊、听诊也应当归属于闻诊的体系中[38]。(2)目前声诊客观化研究对象主要局限于肺系病证,但根据五脏相音理论,声诊客观化应当具备识别五脏病位及辨别病性的能力,如依据肠鸣音识别脾胃系疾病、根据听诊信息识别心肺系统疾病,在声诊信息的证型量化上也可依据太息识别肝郁程度、呼吸深浅识别肾不纳气程度等[30]。(3)嗅诊能定性定量分析气味成分但却无法评价口臭、粪臭的程度,不同个体的气味成分标准差过大,因此大样本临床调查确有必要。(4)小样本研究报道涉及的指标特异性不强,在特征提取及ML算法识别分类上不具备代表性。因此,后续应当进一步规范声音采集和分析的标准,探索哪种声样适合分析哪些病证,再研究哪些元音或字句能与脏腑特征、中医证型对应。

2.4 问诊与文本信息

通过问诊收集患者的病情资料,自古便是历代名医重视的四诊环节之一,“问而知之谓之工”,张景岳更是将问诊视为“诊病之要领,临证之首务”。然而在实际的临床问诊过程中,患者的症状、体征、证候等信息互相夹杂,数据维度高,并受患者主观感知,医者的知识储备、流派及经验等因素影响,导致问诊受主观性的影响最大。因此,完善问诊的客观化、标准化研究以减少主观因素对问诊信息收集及诊断造成的干扰,提升问诊的有效性、可靠性及科学性至关重要。

目前,问诊客观化研究主要针对问诊量表和问诊模型两部分。由于表述症状的词语较多,若结合症状的诱因及加重因素则形成的复合症状词语数目更为繁多[39]。因此,需要通过问诊量表来规范症状表述、量化分级为进一步研究症状与证候之间的关系提供基础。如刘国萍等[40]以心系疾病为研究对象,研制心系病证问诊量表,囊括8个条目及66个症状变量,为心系病证的问诊客观化提供了方法学范例。赵灵燕[41]通过条目筛选、赋分及确定证候要素的诊断阈值,建立包含9个要素的2型糖尿病中医证候诊断量表。中医量表研究虽有增多趋势并愈加规范,但由于辨证的复杂性导致量表评测维度和条目繁杂,特征之间的交互作用使得结果复杂而难以解释[42]。同时部分量表的条目选择不当、标准不统一、术语不规范等局限性也影响了量表的适用性。因此通过ML算法建立模型以改进量化诊断成为一种新的方法。黄仲羽[43]基于多维计算机自适应测试技术,以跳题的方式对功能性胃肠病的证候测评量表进行个体化调整,提高证候量表的测评效率,改善了模型的自主学习能力。刘国萍等[44]基于模糊数学、条件随机场等方法,将证候诊断的核心症状、体征及微观辨证指标进行组合,并借助多标记学习算法和DL网络建立主证辨证模式,对慢性胃炎的证候诊断与传统中医辨证结果基本一致。可以发现,目前问诊客观化研究主要集中于症状与证候之间的关系,即较为低层次的数据挖掘与分析,但对传统中医问诊高层次文本语义、认知智能等的研究尚未深入。

自然语言处理(natural language processing,NLP)可从非结构化数据中提取专业术语、疾病间的时序关系和事件等,在DL、语音工具的辅助下共同组成AI问诊系统的核心,如2018年首届世界中联中医药大数据发展论坛上发布的医患AI对话系统,系统基于云计算、大数据等构建中医药知识库,可完成问诊信息采集、症状推理和辅助诊断[45]。问答系统(question answering system,QA)是自然语言处理实现智能问诊的一项传统任务,其基于DL提取文本信息的语义特征,并利用决策树等模型识别答案[46]。其中,利用DL算法构建语言模型提取文本特征后多在通用数据集上进行测试,如Dong[47]提出的多列CNN能从响应路径、上下文及答案类型等三方面学习问题与答案之间的分布表示。但在中医诊断领域,由于缺乏大型带注释的临床数据集,以及NLP仍未能较好地解决文本信息中的专业术语、多种疾病间的时序关系、多领域的知识推理、非结构化数据识别,以及中医古籍的多义、歧义、通假等复杂语法识别等难点,目前还没有一个系统能较好回答自然语言问题并给出辨证治疗答案。此外,带注释的数据集还涉及患者就诊信息的隐私。由于这些挑战,目前中医智能问诊的研究还处于探索阶段。因此,后续围绕智能化问诊及中医文本信息识别的问题,应当建立标准化问诊信息采集流程,基于临床应用场景建立带注释的数据集,如Pampari等利用i2b2数据库中针对NLP任务的临床数据的现有注释,采用含注意力层的端对端模型,生成了100万个问题形式及40万个问题-答案对的大型数据集[48]。其次,建议发展和完善中医术语的规范化和标准化以辅助语境分析、消除语义分歧,为特征提取及智能决策做铺垫。最后,选择合适的特征选择和降维方法也有助于提高智能问诊模型的效果,如Wrapper和混合式特征选择方法相互补充,或者结合最新的建模方法及特定文本数据改进现有的特征选择方法也可能成为新的研究方向[49]。

3 多源多模态信息处理

中医四诊客观化研究不仅包括四诊信息采集的客观性和准确性,还与四诊合参和辨证论治的过程密切相关,正如《医门法律》强调“望闻问切,医之不可缺一” ,以及《四诊心法要诀》所云“望以目察,闻以耳占,问以言审,切以指参……识病根源……可以万全”。在中医四诊客观化研究的初期,由于信息分析和融合技术处于起步阶段,且不同诊法仪器标准、采集信息来源等存在巨大差异,因此四诊客观化研究呈“各自为战”的特点,不能发挥“四诊合参”的优势[20]。近年来,四诊信息客观采集与分析系统的成熟为四诊合参的融合研究奠定了基础。其中,多源多模态信息融合用于对图像、音视频及文本等不同模态数据进行认知、综合和判断,挖掘多模态数据的内在联系,该算法通常满足一致性和互补性原则[50],是AI辅助四诊合参的关键技术。牛欣及王忆勤团队长期研究四诊信息的融合处理技术,研发的四诊合参诊疗仪用于临床研究[26,51]。温川飙教授团队开发的通用装备采集四诊数据,并基于大数据流式计算等方法实现动态数据处理,以开发辨证论治辅助诊断系统[52]。王俊文等[27]认为可以通过领域本体的方法,将系统、复杂的四诊过程拆解成可测量的变量,并整理出互相独立的诊断概念体系,在此基础上寻找概念间的关联,以此建立起领域本体为核心的信息采集、处理、分析和应用,以此作为多模态信息融合的基础。目前,基于与模型有无关联,多源多模态融合方法可分为两种,其中与模型相关的方法需要建立规范的数据采集流程,使得舌、面、脉、味等数据同构化,并以统一的ML算法进行训练、分类识别,但目前尚无同构数据的采集标准[2]。与模型无关的方法则对不同采集标准下的数据进行特征提取,再用ML算法对特征进行加权融合、计算及分类,该方法鲁棒性及可操作性更强[53-54]。赵文等[20]研究发现基于子空间学习、协同训练、多核学习等算法能够提升四诊合参的智能化程度,基于模式识别技术也可较好地构建四诊信息融合及四诊合参辅助诊疗系统。总之,信息处理技术的成熟有助于挖掘中医诊疗的内在规律,ML、DL等算法可从多角度研究四诊信息的融合分析、四诊信息与辨证辨病间的潜在联系。

目前研发的四诊合参智能化系统虽然基于大规模临床数据建立,但并不具备临床医生的中医思维,缺乏独立演算能力。随着AI技术的发展,结合语音识别、自然语言处理及ML算法实现人机对话,并借助5G网络、云计算、大数据标注平台等构建异构、异标准、跨平台的AI辅助四诊合参技术是智能辨病辨证的发展基础,构建四诊信息多源采集、整合和分析的一体机是实现智能辨病辨证的路径之一[55]。

4 智能辨病与辨证

中医辨证是中医学的基本理论与核心思想,是在中医理论指导下,根据四诊信息明确病变本质的思维过程,由辨证而明确病因、病位、病性及病势等病机本质,辨证即为诊断的要务[1]。而辨病分中医学和现代医学两类疾病,是通过综合分析四诊信息,缜密推理并判断疾病病种、确定疾病病因、了解病程特点和发病规律的思维过程[56]。但“病”和“证”是维度和分类不同的两种概念,在时空上存在非线性、多维、复杂、模糊的交叉网络关系[57]。“证”是疾病总过程某一阶段病理本质概括,从“证”与“病”的角度进行关联即是目前辨病辨证相结合的诊治过程,表明“病”与“证”是紧密相连的,正如“线”与“珠”的关系[58]。但目前“病”与“证”分类方法众多,数据繁杂。AI技术的分类方法对于非线性、复杂模糊的中医数据有很好的适应性,但目前仍缺少较为公认的AI与辨病辨证结合的分类方法[59]。因此,探索AI与中医辨病辨证结合的突破口,提升临床中医“病”“证”的识别精确度依然是中医智能诊断研究的核心。目前,智能辅助诊断的技术和算法步骤如下:(1)首先,基于中医四诊仪器收集准确、稳定可靠的脉诊、闻诊、望诊数据,积累规范的临床大样本四诊数据库,利用ML算法分别对四诊信息的特征进行加权融合与分类。(2)基于现代医学检测技术和方法,检测微观指标数据如临床检测、影像学检测和分子生物信息,采用基于现代医学信息的智能化诊断决策系统研究微观指标与“病”“证”的精确诊断关系[60]。(3)针对“病”“证”分类目标,综合选用合适的ML算法,以设计、优化、完善更适合智能辨病辨证的智能分类自主学习算法[61]。丁琪等[62]基于DL在处理非线性、复杂多层数据方面的优势,将四诊信息作为输入层,证型、治法为隐藏层,方剂、药物为输出层,通过DL的反向传播反馈以调整缺失值,建立了“症-病-证-药”的关联学习系统。Zhang等[63]借助NLP中的双向长短期记忆网络及随机森林的RNN,从非结构化的电子文本记录中提取症状、体征,再基于CNN的学习算法预测187种常见疾病及其证型,准确率达80%以上。依据《伤寒论》《金匮要略》经方理论的六经辨证唯一性、治法严谨性和处方加减规范性,以“首辨六经归属,次辨病机方证,预测病传规律”的临证思维确立“经方AI辨证及疾病传变预测”的研究思路[64],基于ML算法确定六经分类,BP神经网络学习辨证处方,还可根据贝叶斯网络及蒙特卡洛树搜索算法,从原始信息中推演新的疾病进展规律,因此“ML六经分类-神经网络学习辨证处方-疾病规律预测”的路径可为智能化辨证辨病提供参考[64]。综上,ML算法具备处理复杂、异类四诊信息数据的能力,并能进一步研究数据的内在规律及关联模式,从而预测病证的转变规律,这种智能化思维模式符合传统中医的“治未病”理念。

5 智能决策(专家系统和数据挖掘)

专家系统由AI衍生而成,是以中医专家诊疗的知识经验为基础,综合知识获取和语言分析技术,通过数据采集、挖掘和逻辑推理以模拟医学专家识病、辨证和处方的思维过程,进而实现精准诊断和个体化诊疗方案等临床辅助智能决策。其中,关幼波教授于1978年率先开发“关幼波肝病诊断程序”[65],随后朱文锋教授团队于1979年研发《中医数字辨证机》,并在1985年升级为《中医辨证论治电脑系统》[66],这些系统都是基于中医理论开发并为后续中医领域专家系统的研发奠定了基础。目前,专家系统的诊疗模式多为“四诊信息采集-经验提取-临床应用验证-机制机理研究-理论指导临床”,通过研究名老中医诊病特征,数据结构化转化后汇总形成名老中医的诊疗信息数据库,结合数据挖掘方法如聚类分析、关联规则等实现名老中医经验整理及诊疗系统构建[67]。但早期的专家系统诊疗程序仅简单模拟某一疾病领域的某一专家诊疗思维,当面对不同疾病领域、不同流派学说时基本不能运用。而目前专家系统在四诊信息客观化采集的基础上拓宽了辨证的思路与方向,如杨亚利[68]以属性偏序结构图算法为核心,构建“证候-证素-证名-病名”的中医数量化诊断模型,并以此设计中医内科常见病的专家系统,通过对四诊信息采集和证候集的推理以确定中医病名和证型诊断。Zhang等[69]基于集成学习算法构建名老中医临证经验模型,在分析国际疾病分类(ICD-10)标注的临床数据基础上实现精准诊断和穴位推荐。总之,专家系统的应用领域应当包括病证辅助诊断、中医健康状态辨识和健康管理等,立足于丰厚的中医文献和临床诊疗数据,基于数据挖掘算法抽取与病名诊断、证候分类有关的知识模型或分类规则。

中医丰富的古籍资料、医案和名老中医经验是中医各家流派思想和临床经验的载体;现代研究积累的单体、中药、复方的药理机制研究也构建了庞大的标准现代中药药理数据库,收集这些数据和资料并提取特征是实现中医诊断现代化的重要路径。为实现该路径,借助数据挖掘技术对中医古籍、文献和名老中医经验进行整理,从纷繁复杂的医案和名老中医经验中挖掘药物处方及配伍规律,采用ML算法对这些规范化数据进行中医病证诊断,这是中医临床病证诊疗决策支持系统的构建思路[67]。目前研究常用的数据挖掘技术主要是聚类分析、关联规则、决策树、无尺度网络粗糙集理论等[70],在揭示复杂症状体征信息与证型、治则治法、方药间的潜在关系方面具有优势。在“症-证-方”的规律研究中,汤尔群等[71]采用基于数据挖掘的中医处方智能分析系统对《伤寒论》112首经方君、臣、佐、使的用药规律和气、味、归经规律进行量化排序,总结辨证处方规律,探讨了经方“证”与“主症”的关系。粗糙集适用于推理不确定、不完整的知识体系,与部分疾病的证候诊断原理相似。如秦中广最早将粗糙集用于类风湿疾病证候的诊断[72],晏峻峰等[73]也将粗糙集和证素辨证进行结合并运用于推理规则和症状辨证素量表制定。刘保延和周雪忠教授团队则采用关联规则、聚类分析及案例推理等方法 进行临床诊疗智能决策研究,针对糖尿病、中风及冠心病实现名老中医临床经验的多维分析[74-77]。何菊等[78]运用复杂网络模型挖掘名老中医治疗肺癌的用药规律,以节点关联度和属性相似度为基础构建加权网络以挖掘核心用药,结果显示该加权复杂网络能准确挖掘属性相似的高频与低频药物社团,为肺癌临床用药规律提供智能化依据。厦门大学周昌乐教授团队等利用粗糙集、软计算理论构建八纲辨证和脏腑辨证的模型系统以探索中医辨证逻辑化的发展途径[79-80]。数据挖掘也是体现ML应用的重要分支,张从正和朱丹溪分别作为“攻下派”和“滋阴派”代表医家,两者用药明显不同,王瑞祥以朴素贝叶斯和SVM算法进行模式识别,分析两位医家的方剂数据集,在区分方剂特性上效果较优,可作为比较不同流派医家思想和用药特点的智能化范式,从各家流派个性用药中发现共性规律[81]。总之,以“症-证-方-药”为规律的中医数据挖掘方法为智能辨病辨证、中医临床智能诊疗决策系统提供了算法支持。

无论是专家系统还是数据挖掘,都是建立在数据的采集、提取和分析上,而不同医院、不同中医学术流派、不同时代的中医古籍与医案等数据千差万别,严重影响中医客观化、规范化进程中数据的稳定性、纯洁性及可重复性,暂未能实现局部统一的数据化。因此需要借助大数据技术促成中医药古籍、医案的电子化,将典籍和医案资料转化为规范化数据。同时,临床医疗需要构建更为统一和规范的信息采集与数据管理机制,借助信息化手段,先从区域医疗资源整合入手,逐步探索、解决全国医疗资源整合的难点问题,再转化为计算机语言可识别的结构化数据。对于数据信息的质量控制则应当构建开放、共享的区域医疗大数据平台,对中医临床病历、健康信息、生物样本等进行统一管理与整合。

6 存在问题及解决路径

6.1 缺乏有效可靠的四诊信息采集和数据集作为算法和模型先验数据

目前,四诊研究已在客观化及定量表达(如脉象四要素量化表达、舌面诊的颜色量化、问诊症状的量表)、特征信息提取及分析、仪器研发应用等方面取得可观进展,舌诊仪、脉诊仪、色诊仪、闻诊仪等逐渐成为新兴的中医诊断技术,特别是ISO/TC249首次出版“舌诊”和“脉诊”两部中医诊断学术语标准,为解决四诊信息标准化采集、建立大型带标注的先验数据集扫除障碍。但目前仍存在一定局限性,如脉诊缺乏成熟的多探头、数组式传感器技术,难以完全体现脉象四要素的量化指征;闻诊缺乏相关的标准,在仪器研发上稍落后,目前多以组件存在于四诊仪中,并且在元音、字句等语音特征和咳嗽、嗳气、啼哭、肠鸣等非语音特征的采集上仍未形成规范;面部望诊缺乏采集和分析的标准,而舌诊目前尚处于标准化起步阶段,两者均缺少色诊以外的神、形研究。问诊的量表采集也存在条目选择、标准建立和术语不规范的局限性,缺少症状量化的分级标准,同时不同的评测维度和特征交互也影响了采集的可解释性。

因此,针对四诊信息采集问题,目前仍需要研制能够反映脉象四要素量化的多通道、多探头复合传感器;完善声诊的采集标准,基于中医嗅诊理论研发电子鼻气味采集系统,探索“声样-病证”与“气味-病证”的分析契合度;进一步完善中医症状体征术语规范,建立具有中医诊断特色的问诊信息采集量表和症状量化分级标准。总之,继续开展四诊名词术语标准、四诊仪器采集、操作规范等系列标准研究,建立新的四诊采集平台,构建大型标注数据集,为构建智能诊断的算法模型提供可靠的先验数据是基础性的工作与难题。

6.2 多算法共建疾病智能诊断模型的研究范式尚未形成

中医智能化辨证主要基于四诊设备采集的症状体征信息与证候间的关联研究,但由于关联的非单一线性关系,采集的四诊客观化数据与证候间的关联便涉及复杂性、相对模糊性与多维性。因此,更需要通过综合多种AI技术和算法,形成一个稳定可行、多算法融合的“单类疾病-多种证候”智能诊断模型范式研究。

类似于冠心病心绞痛证候应证组合规律的研究[82],可通过引入疾病的证候要素作为症与证之间的智能化媒介,再运用多种算法构建模型来智能化辨证并按证候要素的权重以形成主次证候的复合诊断。例如,可以先基于聚类算法将疾病的临床主要症状聚类并确定证候要素及主要证候的组合特征。基于聚类分析存在的单分配问题,单纯以聚类算法的证候智能诊断无法符合中医理论指导下“证候-症状”的多对应特点。因此,随后采用贝叶斯网络对疾病临床医案的证型与症状的关联性进行分析,在智能辨证算法中间过程使用以提高辨证识别率。再通过判别分析与Logistic回归分析完成证候的鉴别诊断。在上述智能辨证过程中还可以通过证候要素的权重组合完成主次证候的复合诊断。比如可以采用因子分析降维方法和二分类Logistic回归分析研究证候量化和疾病不同分期的证候诊断,由于因子分析无法符合不同证候要素权重和组合特征下的个体差异,后续可以采用主成分分析来生成信息权重数和系统效应权数,消除变量间的共线性特征,实现证候要素不同重要程度信息的权重分析。通过上述多种算法结合可以建立更加符合中医理论指导下的“四诊症状体征信息群-证候要素-证候”的智能诊断模式。

6.3 缺乏智能诊疗模型的疗效评价研究范式

目前,多数已发表的中医智能辅助诊疗系统均显示较好的目标任务识别与分类性能。但由于缺少对智能预测和决策的综合解释,无法得知结论的内在逻辑与可靠性,目前仍采用与领域专家推理过程和结论对比、离散式的准确率、回归率和ROC曲线下面积等对系统进行评价[83],而忽视了智能诊疗系统的临床疗效评价。因此需要结合中医和AI技术本身的特点来进行中医智能辅助诊疗模型的疗效智能化评价研究,此关键技术目前仍受技术基础能力限制。

智能化疗效评价同样分为个体和群体化疗效评价。群体化疗效应当借助循证医学最佳证据的临床决策和AI技术结合来评价疗效、安全性,并通过自主学习算法优化中医临床诊疗方案。个体化疗效评价可基于四诊客观化设备采集诊前、诊后的症状体征资料,依据中医药核心结局指标、目标成就、证候要素等变化,选用合适的ML算法构建分类器,先从重大疾病/慢病/优势病种的中医疗效智能化评价入手,为其他疾病智能辅助诊疗模型的个体化疗效智能评估提供思路。如贝叶斯网络能描述不定性问题间的因果联系,可以明确每一种干预措施与核心临床结局指标间的因果关系,以实现智能化中医疗效评价[84]。总之,深入理解AI和中医药学科的特点,从两者的思维方式来明确关联是智能化疗效评价的基础。

7 结语

随着AI与大数据等信息技术运用于中医智能化并产生新的辅助诊疗模式,本研究探讨了AI技术特别是传统ML和DL在中医四诊、多源多模态信息处理、智能辨病辨证等智能诊断中的运用,可为智能决策支持系统的辅助治疗提供支撑。但仍需重视AI为中医诊断赋能过程中的基础与技术性问题,如四诊采集标准和大型带标注的数据集等基础工作和难题;多算法集成的智能辨病辨证模型、针对智能决策诊疗支持的智能化疗效评价等技术难题尚处于起步阶段,还应当采取一切先进的技术与合适的方法来探索和开发。总之,解决中医智能诊断中的技术难题,构建中医智能诊断模型和相应的智能化疗效评价模型是助力中医药客观化进程、创造新时代AI式中医特色医疗体系的必经途径。

猜你喜欢
客观化证候智能
肥胖中医证候动物模型研究进展
中医舌象特征客观化研究领域科学知识图谱与可视化分析
中医舌诊客观化技术发展分析及应用探讨
智能前沿
智能前沿
智能前沿
智能前沿
民事司法视野下的“期待可能性”内涵探讨
昆明地区儿童OSAHS中医证候聚类分析
运动心理学研究走向:主观客观化