徐雯洁 王天芳 刘卫红 吴秀艳 张会娜 张广中 张连文 姜春燕 陈维文刘瓦利 瞿 幸 王 萍* 李 萍*
(1.北京市中医研究所流调室,北京 100010;2.北京中医药大学中医诊断系,北京 100029;3.首都医科大学附属北京中医医院皮肤科,北京 100010;4.香港科技大学计算机系,香港;5.中国中医科学院广安门医院皮肤科,北京 100053;6.北京中医药大学东直门医院皮肤科,北京 100700)
分析隐结构模型的数据结果时,需要涉及2种变量,一种是可直接观察到的变量即显变量(如中医症状);另一种是不能直接观察到的需要通过综合分析得到的变量即隐变量(如中医证候、证候要素、病机等)。隐变量与隐变量之间以及隐变量与显变量之间就构成了一个隐结构[2]。在隐结构模型中涉及多个隐变量,根据每个隐变量可以对数据样本进行不同的划分,每个划分对应的不同类,就称之为隐类。隐结构模型诠释就是要基于应用领域专业知识,把握这些划分以及各个隐类的含义。
本研究采用隐结构法的数据分析方法,对寻常型银屑病的患者症状信息数据进行分析,获得寻常型银屑病的隐结构模型,结合中医专业知识进行隐变量和隐类分析后,提取寻常型银屑病的常见证候要素,并经过专家论证,初步建立证候要素和症状的对应关系,尝试为建立病证结合的寻常型银屑病辨证标准提供理论依据,同时为临床辨证论治提供帮助。
本次分析所用的症状数据共计变量108个,均来自于2005年11月~2008年11月北京3家三级甲等中医院(首都医科大学附属北京中医医院、广安门医院、东直门医院)的门诊或住院的2 920例寻常型银屑病患者的症状信息。
1)临床四诊信息采集:本研究参照《中药新药临床研究指导原则》[3]对符合寻常型银屑病诊断标准的患者用统一的临床信息采集表进行中医症状信息的采集,采集信息时并不进行中医证候判断。该临床信息采集表是根据前期文献研究结果及专家论证的意见进行编制,涉及银屑病的皮损症状、全身症状、舌、脉信息等,采集信息时由临床医生在相应的症状信息选项后划勾。
2)数据库的建立及数据预处理:利用Epidata3.1建立寻常型银屑病临床信息数据库,将中医症状信息进行双人独立背靠背录入。根据目前的计算机运算能力,选择出现频率较高的108个症状(即108个显变量)进行隐结构法的数据分析;由于样本量相对较小,所有症状数据均采用二值变量(用0或1表示无该症状或有该症状)。
3)数据的隐结构分析:利用孔明灯隐结构分析软件(香港科技大学研制)对基于临床调查的寻常型银屑病的症状数据进行多维聚类分析,建立隐结构模型,同时获取了显变量和隐变量的两两互信息曲线、累计互信息曲线及类概率直方图、表[1]。
4)对获得的隐结构模型进行诠释:隐结构模型构建后,结合中医专业知识对模型中的隐类及隐变量逐一进行诠释,进一步探讨这些内容在中医证候研究中的意义,归纳、提取寻常型银屑病的常见证候要素,并通过专家论证,总结证候要素对应的症状[4-5]。
我们根据5% ~90%原则来诠释隐变量。首先,我们要在众多显变量中选择最能反映隐变量特征的几个显变量,一般根据两两互信息曲线和累计互信息曲线来选择,选出的显变量对隐变量的互信息要尽可能的高,一般大于5%以上(表示2者之间关系密切),同时,选择的显变量要尽可能的少,这样显变量表达的含义才比较集中,才能在某一侧面反映隐变量的性质。但累计互信息尽可能保持在90%以上。其次,根据类概率分布图表来描述每个隐类的特征从而分析每个隐类的含义。最后,根据每个隐类的含义来把握隐变量的含义。
1.2 调查方法 采用问卷调查法。在取得3所医院护理部同意和支持,并符合知情同意原则的情况下,由调查者统一发放调查表,并进行调查内容及填写方法的指导;由护士长帮助回收。本次调查发放问卷250份,回收问卷246份,回收率98.4%,有效问卷228份,问卷有效率92.7%。
下面以寻常型银屑病隐结构模型的隐变量Y1为例,示范隐变量和隐类诠释的方法和步骤。
①考察隐变量的信息曲线:隐变量Y1有2个取值,所以代表一个将寻常型银屑病患者分为两类的划分。把Y1的2个状态分别记为s0和s1,而把Y1划分中的2个隐类分别记为Y1=s0与Y1=s1。Y1的信息曲线如图1所示,在图中可见,前7个变量:即:数脉情况(rapid pulse也即 X1)、咽红肿情况(pharyngeal swelling也即X2)、舌有齿痕情况(teeth-printed tongue也即X3)、舌体胖情况(puffy tongue也即X4)、舌下络脉青紫或迂曲情况(bluish and purplish sublingual vessels也即X5)、面色黧黑情况(black complexion也即X6)、束状发情况(bunch shaped hair也即X7)是与Y1关系密切的显变量,它们对Y1的信息覆盖度达到87%。这表示,数脉情况等7个显变量反映出了隐类Y1=s0与隐类Y1=s1之间的几乎全部区别。因此,可以说Y1代表的是一个基于数脉情况等7个显变量对寻常型银屑病患者所做的划分。
显变量和隐变量之间的关系紧密程度,可以用互信息来表示。图中的两两互信息,代表的就是显变量(如数脉情况rapid pulse)与隐变量(Y1)的关系紧密程度,数值越高表示关系越紧密。将其用曲线连接起来就形成了两两互信息曲线,图中用红线表示。显变量表达了多少隐变量的特征可以用累计互信息来表示,它显示了累计的显变量表达的隐变量特征的百分比,将其用曲线连接起来就形成了累计互信息曲线,图中用蓝线表示。
图1 寻常型银屑病模型中隐变量Y1的信息曲线Fig.1 Information curve of latent variable Y1 in the model of psoriasis vulgaris
②考察隐类的类条件概率分布:隐结构模型中隐变量所代表的划分是概率软划分,一个事物可能有一定概率属于某个类,同时也可以有一定概率属于另外的类。我们根据类条件概率分布表来分析每个隐类的特征,从而掌握该隐类的含义。
隐变量Y1的2个隐类Y1=s0和Y1=s1的类条件概率分布见表1。
表1 隐变量Y1的两个隐类Y1=s0和Y1=s1的类条件概率分布表Tab.1 Existing probability distribution of latent class Y1=s0and Y1=s1belong to latent variable Y1
表中“P(X=1︱Y1=s0)”表示的是在隐类Y1=s0中,某显变量X取值为“1”(即症状出现)的概率;而“P(X=1︱Y1=s1)”是在隐类Y1=s1中,某显变量X取值为“1”(即症状出现)的概率。通过两两比较,发现所有7个症状(X1~X7)在Y1=s0中出现的概率均较高,而在Y1=s1中,这7个症状出现的概率比较低,这是2个隐类的主要区别。
③结合中医理论进行初步诠释:隐类Y1=s0中,数脉、咽红肿、齿痕、舌体胖、舌下络脉青紫或迂曲、面色黧黑、束状发这7个症状出现的概率较高,我们初步认为导致这7个症状出现的机制最有可能是热、湿和血瘀;而Y1=s1中,上述7个症状的出现概率均比较低,我们考虑与热、湿和血瘀的关系不大。
综上,我们认为Y1是基于数脉情况、咽红肿情况、齿痕情况等7个显变量把病例样本划分为了2个类,这个划分是热、湿和血瘀的一个侧面在症状上的反映。划分中的Y1=s0这个类表现出热、湿和血瘀的概率较高,而另一个类Y1=s1则很少表现出热、湿和血瘀的症状。从Y1所反映的病机层面看,病位在血分(可以理解为构成证候的病位类证候要素),直接相关的病性为热、湿和血瘀(可以理解为构成证候的病性类证候要素)。
通过对2 920例寻常型银屑病患者的108个症状变量(显变量)数据库进行隐结构模型的构建,共得到43个隐变量(Y0、Y1、Y2……Y42)。每个隐变量都对应着不同的状态,这种不同的状态就是隐类,例如,隐变量Y0对应着两个状态s0和s1,Y0就有两个隐类Y0=s0和Y0=s1。因此,我们共得到了111个隐类,其中有2个隐类的隐变量是23个,有3个隐类的隐变量是15个,有4个隐类的隐变量是5个。结合类概率直方图、表分析,如果隐变量下属的隐类的出现概率同高同低,即表现的趋势一致,就只分析其中的一个隐类;如果隐变量下属的隐类表现趋势不一致,就分析每个隐类的含义来把握隐变量,这种情况往往是根据隐变量对患者进行分类,如皮损表现(红斑、鳞屑)的分类、舌色的分类等等。
我们应用上文所述诠释隐变量和隐类的方法,对111个隐类和43个隐变量进行了逐一诠释,并结合专业知识,初步得到对寻常型银屑病证候/证候要素判断有阳性意义的隐类54个。对有阳性意义的隐类,我们进行了中医证候/证候要素的初步命名。
对有阳性辨证意义的隐类进行中医证候/证候要素的命名,也就是找到了中医症状和证候/证候要素的对应关系。在这54个有阳性辨证意义的隐类中,经过诠释后发现,有不同的隐类反映的是相同证候/证候要素的不同方面,如隐类Y0=s1中,唇色暗(显变量dim lips)、舌下络脉青紫或迂曲(显变量bluish and purplish sublingual vessels)对应的隐变量(相当于证候要素)是血瘀;而隐类Y6=s0中,舌质紫暗(显变量purple and dark tongue)对应的隐变量(相当于证候要素)也是血瘀。将这些隐类进行合并,并经过皮科专家的论证,可以提取寻常型银屑病的中医证候和证候要素及对应的症状,共有9项,详见表2。
表2 经隐结构法诠释的寻常型银屑病证候、证候要素及对应症状表Tab.2 Syndromes、syndrome-elements and corresponding symptoms of psoriasis vulgaris by latent structure
证候要素是构成证候的最小单元,包括病位类证候要素和病性类证候要素2大类。一般来说,临床上应用较多的证候多由2种或2种以上的证候要素组合而成,所以,证候要素较证候来讲不仅数量少,较容易规范和掌握,更能简明扼要的反映疾病在病位、病性方面的特征,是中医证候规范化研究的一条途径。
银屑病是一种慢性炎性、非感染性红斑鳞屑性皮肤病,其主要症状是鳞屑和红斑等局部皮肤的损害[6]。中医认为斑的主要形成原理为热迫血溢或血失统摄,血不循常道溢于皮下而成;鳞屑是肌肤失于润泽而致,或因血虚或因津亏或因瘀血。红斑和鳞屑这2个主要症状的形成机制决定了寻常型银屑病的表现主要是血的异常。从本病的病机来看,银屑病的形成多由于血分热毒炽盛,生风生燥,肌肤失养所致。多由平素嗜食辛辣刺激动风之品,七情内伤或服药不当,加之肌肤当风,外受六淫之邪侵袭,以致血热毒邪结聚于人体,搏于皮肤,郁久化热,热入营血,导致营卫气血运行失常,气滞血瘀,久而形成血虚,生风生燥,肌肤失养而发病。因此,常见皮损为红斑、鳞屑,刮除鳞屑有点状出血[7]。临床上治疗时也主要是以辨识血病的证候为主。本次的研究结果也进一步说明了这一点,形成的隐变量中涉及脏腑相关病位类证候要素的内容较少(主要有肝、肾、脾),而多数是与血分有关的病性类证候要素,如血热、血瘀、血虚、血燥等,因此,基于血病的基本证候(或证候要素)的辨识在该病的辨证中占有很重要的位置。
同时,由本研究的结果我们也可以看到,通过隐结构分析的方法确定证候/证候要素与症状的对应关系,在本研究中,(血)热、(血)瘀、(血)燥对应的症状包括皮损症状、全身症状及舌、脉等,比较全面;而(阳气)虚、阴虚、肝火、肾虚、脾虚等对应的症状并未涉及皮损症状,说明银屑病的辨证还应以血分辨证为主,而其他辨证方法(如阴阳辨证、脏腑辨证等)是有益的补充。通过证候要素之间的结合,可以比较全面地反映银屑病证候的全貌。
隐结构法分析的是无监督、前瞻性数据,即数据的分析只有客观收集的症状信息,没有任何人的主观经验的加入和证候的判断。我们所提取的寻常型银屑病证候要素的结果是根据银屑病症状的内在联系自动聚集在一起的,相对于有监督的数据分析(事先进行证候的判断)来讲,隐结构法有较好的客观性。前瞻性的数据采集比回顾性的资料分析信息全面、资料完整,更好的体现了疾病的特点。
隐结构法的结果诠释,目前没有形成固定的原则和方法,本研究中采用的是5% ~90%原则,从具体的分析结果可以看到,采用这种方法进行诠释,在大部分的隐类和隐变量的诠释中,显变量的选择体现了该隐类的大部分特征(即累计互信息达到了80%以上),并突出了重点,集中反映了隐类以及隐变量某一方面的信息,是诠释方法的一种有益尝试。
当然,在目前的研究状态下,隐结构法还有很多局限。如在建立的寻常型银屑病隐结构模型中,皮损症状、中医舌、脉信息、全身症状这3方面的症状并没有很好的融合到一个隐变量下,而是有隐变量单独描述皮损症状,有隐变量单独描述舌、脉信息,有隐变量单独描述全身症状,考虑后期能否用加边或者特别选定症状重建模型来进行进一步的分析。此外,数据的诠释即证候/证候要素及其对应症状的分析需结合中医皮科专业知识,由专家论证来决定,存在一定的主观性。因此,下一步研究可深入探索数据诠释的原则和方法,如何建立判别式等来减少主观性,进一步诠释寻常型银屑病的证候要素及其内涵。
[1]王天芳,张连文,赵燕,等.隐结构模型及其在中医证候研究中的应用[J].北京中医药大学学报,2009,32(8):519-526.
[2]张连文,郭海鹏.贝叶斯网引论[M].北京:科学出版社,2006:227.
[3]郑筱萸.中药新药临床研究指导原则[M].北京:中国医药科技出版社,2002.
[4]杜彩凤,王天芳,辛意,等.基于隐结构法的更年期综合征常见证候要素的研究[J].北京中医药大学学报,2010,33(12):856-860.
[5]徐雯洁,王天芳,王智瑜,等.基于隐结构法的慢性阻塞性肺疾病稳定期常见证候要素的研究[J].北京中医药大学学报,2011,34(2):82-86.
[6]张晓杰,耿立东,赵纯修.寻常型银屑病病因病机探讨[J].山东中医杂志,2001,20(10):586-587.
[7]刘学伟.试论血与银屑病病因病机的相关性[J].中医研究,2010,23(4):10-12.