陈泽慧 邢恩龙 魏玥 王瑞瑞 杨晋翔
慢性萎缩性胃炎(chronic atrophic gastritis,CAG)是以固有腺体减少并常伴肠上皮化生、异型增生为病理特点的常见消化系统疾病,属于胃癌发展阶段的癌前疾病。CAG临床症状多无特异性,亦可无明显症状,有症状者多表现为上腹部不适、饱胀、疼痛、食欲不振、反酸、嗳气等非特异性消化道症状[1],现代医学的药物治疗多以针对性改善不同临床症状为主,对于无症状而言的患者则在治疗上存在一定局限性。通过对大量临床与基础研究的不断挖掘,越来越多的证据表明中医药在慢性萎缩性胃炎治疗方面具有良好疗效,能够减轻胃黏膜炎症反应,增强抗损伤及修复能力,甚至逆转肠化以及异型增生[2]。辨证论治体现了中医诊疗的主要特色,通过对临床症状、舌脉等四诊信息提取后总结出的证候学类型,可反映出疾病的中医病机特点。CAG作为脾胃系统疑难疾病之一,对其中医病机的把握有助于在无症状情况下亦可指导临床遣方用药,因此本研究基于临床采集CAG患者四诊信息,运用数据挖掘技术分析本病核心症状群,构建四诊信息间复杂关联网络,阐释症状—证候要素—病机之间的关键规律,从而为CAG临床病机理论提供依据,兹介绍如下。
2017年9月至2019年10月于北京中医药大学第三附属医院门诊、北京中医药大学东方医院消化内镜中心就诊的慢性萎缩性胃炎患者。本研究共纳入合格病例201例,其中男性81例,女性120例,性别比1∶1.48。年龄最小者31岁,年龄最大者84岁,平均年龄(60.78±10.90)岁。
参照2012年中华医学会消化病学分会于上海召开的全国慢性胃炎诊治共识会议中提出的共识意见[3],慢性萎缩性胃炎诊断有内镜诊断和病理诊断,确诊应以病理诊断为依据。
纳入标准:(1)符合慢性萎缩性胃炎诊断标准,病历资料及诊断报告详实;(2)年龄18岁以上患者;(3)患者知情同意,自愿加入本项研究。
排除标准:(1)合并消化道溃疡、胃肠道手术史、上消化道肿瘤、腹部手术等器质性病变者;(2)合并心、脑、肝、肾等严重系统疾病;(3)有精神系统疾病及精神病病史;(4)妊娠及哺乳期妇女。
剔除标准:(1)不符合纳入标准而被误纳入的病例;(2)组织病理学报告资料不全者,予以剔除;(3)受试者未按研究要求回答或填写临床观察表,导致无效问卷者,予以剔除。
基于前期临床观察研究及相关文献,参照《中药新药临床研究指导原则(2002年版——试行)》[4]、《中医临床常见症状术语规范》[5]、《慢性萎缩性胃炎中医诊疗共识意见》[6]综合制定慢性萎缩性胃炎患者临床观察表,其具体内容包括:一般资料(姓名、年龄、性别)、病历信息(症状、体征、病程、既往史与家族史、中医舌脉象)、辅助检查(病理及胃镜结果)、西医诊断、中医诊断。
采用临床流行病学横断面研究方法,符合慢性萎缩性胃炎诊断标准的患者在取得知情同意后现场采集病史及四诊信息资料并予回收临床观察表后纳入数据统计。其中视为回收合格的临床观察表标准如下:(1)临床观察表中所纳入符合本人情况的项目必须填写;(2)慢性萎缩性胃炎疾病资料完备、四诊信息资料填写无缺失;(3)所有患者的胃镜及病理检查报告应取得知情同意后拍照存档,或根据患者意愿详细记录报告信息来代替拍照存档。团队组在启动临床研究前均完成临床试验标准操作规程(SOP)培训,明确临床研究方案及人员分工,由至少两名以上副高级专家进行全程监督指导,严格按照纳入、排除标准对病例进行筛选,选择完全符合标准的病人入组,针对每一位患者临床调查至少由两名专业研究生同时进行信息采集,信息采集后依据剔除标准完善临床数据质量把控,以确保资料收集过程的真实可靠性,减少测量性偏倚。
将所得全部临床资料录入Microsoft Excel 2013建立数据库,重复检查排除录入错误。应用SPSS 23.0软件进行频数统计,采用卡方检验分析不同证素间差异性,其中P<0.05为存在差异,P<0.01为存在显著差异。应用SPSS Modeler 18.0软件进行关联规则Apriori算法绘制四诊信息核心组合网络图。应用Lantern5.0对慢性萎缩性胃炎数据库中症状数据进行隐结构分析,构建隐结构模型,并据此提取证候要素因子、归纳证候要素。
将慢性萎缩性胃炎患者全部四诊信息进行频数频率统计,结果显示建立的慢性萎缩性胃炎患者数据库中共包括四诊信息条目100个,其中出现频率为10%以上的条目共59个,具体条目例举见表1。
表1 慢性萎缩性胃炎患者四诊信息频次统计分布(N=201)
参照表1统计结果,应用关联规则Apriori算法对上述59个变量间关联度进行分析测量,筛选建立符合慢性萎缩性胃炎证候学研究要求的四诊信息关联规则模型。在 Apriori算法中,支持度与置信度是判断关联规则有效性的重要指标,其中支持度表示同时包含前项X与后项Y的事务,反映了关联规则的频度;置信度是在给定前项X的前提下,后项Y的条件概率,反映了关联规则的强度。本研究在最小支持度20%,最小置信度80%设置下,获得四诊信息关联规则90条,据此将阈值限设置在140~200之间绘制出四诊信息数据隐藏的关联规则网络图。结果将置信度>85%的部分四诊信息组合关联规则列出见表2,关联规则网络图见图1。
表2 四诊信息关联规则节选表(支持度20%,置信度80%)
图1 四诊信息关联规则网络图-1
为进一步明确慢性萎缩性胃炎的核心四诊信息,使在支持度20%,置信度80%筛选条件下网络图更为精简,将网络图中显示连线频数值的阈值条提高,在高阈值下限时关联程度低的四诊信息不会再显示在网络图中,属性与属性之间连接线的粗细表示连接强度,线条越粗则代表两者之间关联性越强。结果显示,阈值限提高至150~165之间绘制出四诊信息关联规则网络图中,最终有12个四诊信息纳入图像;由两者之间连线粗细来判断关联强度得到胃刺痛与夜间痛甚关联最强,夜间痛甚与口臭、渴喜热饮之间关联、渴喜热饮与夜间痛甚、四肢发凉、咽部异物感之间关联较大,通过关联规则算法得到的慢性萎缩性胃炎的核心四诊信息为:胃刺痛、夜间痛甚、四肢发凉、心悸、口臭、口中粘腻、心烦易怒、纳差、烦躁发热、渴喜热饮、气短、咽部异物感。高阈值下限(150)的四诊信息关联规则网络图见图2。
图2 四诊信息关联规则网络图-2
参照表1统计结果,最终选取出现频率≥20%的44条四诊信息作为显变量进行爬山法LTM-EAST分析构建慢性萎缩性胃炎的隐结构模型,共计得到9个隐变量, 以Y0、Y1、Y2……Y9表示,见图3。其中隐变量分类个数用隐变量后括号内数字显示,2个取值表示是/否2个隐类,变量间连线提示两者之间存在相关性,连线粗细代表隐变量间的互信息大小,连线越粗则两者间联系越密切。为诠释隐变量 Y 含义,Lantern会选取若干个与隐变量 Y相关度最高的显变量,并基于这些显变量来进行诠释。累积信息覆盖度决定了所得到的诠释结果覆盖了多少隐变量 Y所含的信息,累积信息覆盖度越高,选取的显变量就越多,诠释结果所覆盖的Y的信息也就越多。在累计信息覆盖度为95%时,Y0由脉弦、舌淡、脉缓、齿痕、口干舌燥、口苦、痛有定处共7个显变量来诠释,隐变量Y0把数据分为2个隐类,即类Y0=S0和Y0=S1。隐类S0占人群总数24%,隐类S1占人群总数 76%。每个显变量有两个状态,症状不出现s0,症状出现s1,即所在每行的s1列为具有该症状出现的概率。图3中的数据可以这样理解:隐类S0这类人群中具有脉弦、舌淡、脉缓、齿痕、口干舌燥、口苦、痛有定处症状的概率依次为0、0.64、0.54、0.5、0.13、0.05、0.11;隐类S1这类人群中具有上述症状的概率依次为0.82、0.14、0.14、0.11、0.51、0.31、0.39。隐类S1=Y0类中,脉弦、口干舌燥、口苦、痛有定处的频率较高,反映热的证候要素,隐类S0=Y0类中,舌淡、脉缓、齿痕的频率较高,反映气虚的证候要素。然而两者中S1=Y0类症状(脉弦、口干舌燥、口苦、痛有定处)在隐结构模型图与Y0连线较粗更为密切,因此判断Y0的证候要素为S1=热。Y0~Y9隐变量模型诠释表见表3,通过隐结构模型构建共挖掘慢性萎缩性胃炎主要证候要素包括气虚(Y3)、湿(Y2、Y4、Y5)、血瘀(Y6)、热(Y0、Y1)、气滞(Y8、Y9)、阳虚(Y3)共六种;由隐结构模型图观察隐变量之间连线程度得到多种证候要素之间,热(Y0)与湿(Y5)、血瘀(Y6)、气滞(Y9)较为密切。
表3 慢性萎缩性胃炎证候要素隐变量模型诠释表
图3 慢性萎缩性胃炎四诊信息隐结构模型图
中医临床四诊信息数据具有鲜明的多维度、非线性、多关系性、模糊性等特征,因此基于多重非线性模型的数据挖掘方法更加适用于中医证候学相关数据的解析[7]。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,通过Apriori算法可以得到高频四诊信息的组合,组合与组合间高度关联过程所产生的集合反映了慢性萎缩性胃炎的核心四诊信息群,从核心四诊信息中挖掘出的证候要素更易趋近于疾病关键病机。隐结构分析是对多种显变量特征进行汇总聚类后获得相应隐变量的过程,其特点是隐变量与显变量都取离散值,不必局限于变量间必须具有相关性,每个隐变量的诠释是根据显变量概率同现或概率互斥体现的。本研究中的显变量即四诊信息,隐变量即证候要素,证候要素(隐变量)是通过与之强关联的四诊信息(显变量)出现概率判断出来的,用数学统计描述后的证候要素具有定量性,实现了变量与变量间多重对应关系的多层次、多维度结果[8]。
本研究在特定支持度与置信度设置下,应用关联规则Apriori算法进行分析测量,结果获得四诊信息关联规则90条,为进一步明确慢性萎缩性胃炎的核心四诊信息,将网络图阈值限提高后最终有12个四诊信息纳入图像,建立的四诊信息群包括:胃刺痛、夜间痛甚、四肢发凉、心悸、口臭、口中粘腻、心烦易怒、纳差、烦躁发热、渴喜热饮、气短、咽部异物感。核心四诊信息群的建立不同于简单的频数统计,而是将关联性较强的症状、体征组成多维、多层次空间网络,网络内的每条信息都与其他信息保持广泛密切的关联,因此四诊信息的核心组合并不完全等同于症状频数出现高低,本研究中可看到四诊信息出现频率在前10位的苔白、胃胀痛、脉弦、舌暗、苔薄等并未出现在核心四诊信息中,其原因在于频次高低不是决定信息间关联强度的必要条件,高频次四诊信息反映了普遍性存在规律,复杂关联网络中的四诊信息是反映关联性核心病机的高度概括。本研究结果中的核心四诊信息可涵盖以下证候要素:血瘀(胃刺痛、夜间痛甚)、热(口臭、烦躁发热、心烦易怒)、湿(口中粘腻、纳差)、气滞(气短、咽部异物感、心烦易怒)、阳虚(四肢发凉、渴喜热饮、气短)、气虚(纳差、气短),据此可以提出,针对慢性萎缩性胃炎基本证候要素气虚、血瘀、热、气滞、湿、阳虚,益气、活血、清热、理气、化湿、温阳是本病的主要治法,但临床用药必应辨证论治,若阴虚显著则以滋阴立法。
此外,基于隐结构分析提取慢性萎缩性胃炎证候要素,结果共得到9个隐变量,最终合并归纳为气虚、湿、血瘀、热、气滞、阳虚共6种。隐结构分析是在设置累计信息覆盖度为95%时计算机自动生成与隐变量最为相关的显变量组合,属于多维非线性客观描述。值得注意的是,隐结构分析所揭示的证候要素与核心四诊信息涵盖的证候要素组成基本吻合,并未明确显示阴虚证候要素特点,其原因可能与本研究样本量过少、计算分析时过度筛选低频症状造成结果存在一定偏倚有关。然而有研究表明在发展为慢性萎缩性胃炎的过程中,阴虚是至为关键的病理环节之一[9-10]。阴虚本证多因热病之后,或杂病日久伤耗阴液所致,可与气虚、血虚、阳虚、热邪等证候同时存在,或互为因果[11],可能基于数据挖掘在证候要素提取中并未凸显出其典型特点。不可否认的是,CAG的发生与各种原因所致阴精耗损密切相关,经言“阳化气,阴成形”,阴精为物质形成的基础;阴精匮乏,腺体失养,体态不充,最终导致胃黏膜萎缩的形成。因此本研究认为,阴虚也是慢性萎缩性胃炎证候因素的组成部分,扶正补虚要考虑益胃滋阴之法,特别是症见消瘦乏力、口干舌燥、舌红裂纹、脉数等类似气虚与热并见之象,实为阴虚表现时可运用如西洋参、沙参、石斛、人参叶等甘凉之品滋阴、清热、益气,实现补而不滞,泻而不虚的效果。
综上所述,本研究运用隐结构模型、关联规则算法等数据挖掘方法对CAG患者核心症状进行分析,得到包括气虚、湿、血瘀等在内的CAG证候要素六种,其所体现出的本虚标实、寒热错杂的病机特点与目前共识所述是一致的[1]。然而某单一或较少的数据挖掘方法可能会因样本量过少、变量间缺乏相关性、过度筛选低频率症状、庞大计算量等问题造成研究结果失准[12],这也是无监督数据挖掘所带来的局限性。在本研究中,阴虚证候要素的不凸显也可能与上述因素相关。因此,为了使研究结果尽可能地全面、客观、准确,需要以后研究考虑多数据挖掘方法联合应用,以达多角度、多元化、择优借鉴的方式探讨CAG相关规律,使得数据挖掘在中医理论、实践研究中发挥更大的客观性与科学性。