王海燕 鲁思博 孟军
摘要:目的 建立基于人工神经网络编码数据挖掘技术的中医妇科病辨识数据分析方法。方法 检索中国期刊全文数据库(CNKI)、万方期刊数据库、维普中文期刊数据库,收集1980~2019年公开发表的关于妇科疾病多囊卵巢综合症(PCOS)的中医治疗与诊断方面文献,获取妇科辨证分型数据集,采用ANN模型对数据集进行量化分析。结果 通过模拟数据集ANN分析,建立了三层网络结构ANN模型,其中输入层包含15个输入神经元、隐含层包含4个神经元、输出层包含6个神经元,获得了多囊卵巢综合症中医妇科证素与证候之间的内在逻辑关系。重复训练及测试结果显示,中医证型的预测匹配率为100.00%。对15个输入协变量进行了参数重要性分析显示,精神状况>周期>身体上部>皮肤>舌象>经色>面色>大便8个症状的指标规范重要性大于50%。结论 基于人工神经网络技术建立了一种妇科疾病中医诊疗的证素-证型关系的神经网络方法,也为挖掘民族医学信息数据进行定性辨识、动态及多维数据的处理与分析提供一种有效途径。
关键词:人工神经网络;妇科疾病辨识;数据挖掘;中医证型
中图分类号:R71 文献标识码:A DOI:10.3969/j.issn.1006-1959.2020.11.001
文章编号:1006-1959(2020)11-0001-04
Abstract:Objective To establish a data analysis method for TCM gynecological disease identification based on artificial neural network coding data mining technology.Methods Retrieval of Chinese Journal Full-text Database (CNKI), Wanfang Journal Database, Weipu Chinese Journal Database, collection of publicly published literatures on TCM treatment and diagnosis of gynecological diseases polycystic ovary syndrome (PCOS) from 1980 to 2019, and access to gynecological syndromes Classification data set, ANN model is used to quantify the data set.Results Through ANN analysis of the simulation data set, a three-layer network structure ANN model was established, in which the input layer contains 15 input neurons, the hidden layer contains 4 neurons, and the output layer contains 6 neurons, and polycystic ovary syndrome is obtained The internal logical relationship between gynecological syndromes and syndromes in traditional Chinese medicine. Repeated training and test results show that the prediction matching rate of TCM syndromes is 100.00%. A parameter importance analysis of 15 input covariates shows that mental condition> period> upper body> skin> tongue> menstrual color> face color> stools are more than 50% of the index of 8 symptoms.Conclusion Based on artificial neural network technology, a neural network method of syndrome-syndrome relationship of traditional Chinese medicine diagnosis and treatment of gynecological diseases is established.
Key words:Artificial neural networks;Gynecological disease identification;Data mining;TCM syndromes
20世紀后期,人工智能(AI)技术蓬勃发展,数据挖掘技术也随之不断进步,其中人工神经网络(artificial neural networks,ANN)是人工智能领域兴起的研究热点。ANN的概念最初由W.S. McCulloch和W.Pitts等人于1943年提出[1],其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性[2]。目前,大多数研究主要关注点为利用ANN进行卵巢早衰预测模型、舌脉象客观化[3]、临床异常病案的甄别[4]、老年痴呆诊断[5]、数据挖掘方法[6]等中医证候分析,但关于基于人工神经网络技术辨识妇科疾病证素-证型逻辑关系的报道较少。基于此,本研究通过以妇科疾病多囊卵巢综合症(PCOS)为例,应用数据挖掘技术整理研究病案,通过ANN方法探究中医妇科病症与证型间的内在联系,以期建立妇科疾病证素-证型推理模型,并为后期智能诊断进行方法学探索。
1数据挖掘与建模分析方法
1.1医案数据来源 ANN模型数据库来源于中国期刊全文数据库(CNKI)、万方期刊数据库、维普中文期刊数据库。检索关键词:“中医”“POCS”“多囊卵巢综合症”“多囊卵巢综合征”。检索式:“中医”AND(“多囊卵巢综合症”or“多囊卵巢综合征”or“POCS”),检索时间为1980~2019年公开发表的中医治疗与诊断PCOS方面的文献研究。纳入标准:①中医治疗POCS的临床医案,并且列明诊断;②年龄18~40岁;③列明疾病症状[7,8];排除标准:①文献医案记录不符合中医、西医诊断标准;②文献中未列示症状或列示症状不足;③重复出现的医案;④综述类文献。收集有效文献391篇,获有效医案112篇,归纳入围文献中常见症状17项,对每种症状对应属性予以数字编码,归纳主要证型6种,见表1。
1.2 ANN建模 采用SPSS 22.0系统进行ANN建模,对中医证型数据库进行挖掘分析,并采用中文字符定义各分析指标。
1.2.1分析指标 症状:经量、周期、经色、面色、舌象、脉象、精神状况、小便、大便、皮肤、形体、胃肠、道、头面部、上部症状、下部症状、多毛、黑棘皮症共17项,作为输入层初始系统协变量。证型:阳虚肝郁证、肝郁血虚证、痰湿证、脾阴两虚证、肾虚证、血癖证共6项,作为系统输出变量。
1.2.2妇科病症候数据库 应用SPSS 22.0软件构建数据表,将有效医案112症候编码输入数据表,建立SPSS数据集文件见图1。
1.3 ANN分析 运行SPSS 22.0软件,选择“分析”项下“神经网络”菜单,选取“多层感知器”BP模型进行分析,网络信息设置内容见表2。
2模型分析测试结果
基于SPSS群体数据集文件,按照多层感知器(MLP)BP模型进行设置,并通过模拟数据集ANN分析,建立了三层网络结构ANN模型,其中输入层包含15个输入神经元、隐含层包含4个神经元、输出层包含6个神经元,见图2;重复训练及测试结果显示,中医证型的预测匹配率为100.00%,见表3。对15个输入协变量进行了参数重要性分析,结果显示精神状况>周期>身体上部>皮肤>舌象>经色>面色>大便8个症状的指标规范重要性大于50%,见表4。
3讨论
建立基于人工神经网络编码数据挖掘技术的中医妇科疾病辨识数据模型分析方法,挖掘妇科辨证诊断过程中的有用信息,以获得中医妇科疾病诊治证素之间、证素与证候之间的内在逻辑关系,使未来对医学信息数据挖掘进行定性度量、动态及多维数据的处理与分析效率成为现实,从而促进民族医药信息数据挖掘更加智能化、知识化[9]。
现代医学疾病命名与中医的病症命名存在密切关联,本研究基于人工神经网络编码数据挖掘技术分析PCOS的疾病证素与证型的逻辑关系,结果显示疾病的辩证分型主要为阳虚肝郁证、痰湿证、肝郁血虚证、脾阴两虚证、血癖证、肾虚证类6类主要证候。PCOS与中医“崩漏”“月经后期”“闭经”“不孕”等病症有关,涉及肝、脾、肾三脏,兼有痰湿、瘀血等病症,主要因气血运行于三脏功能失调直接关联,长期积聚形成痰湿、瘀血,因果循环再以这些病理产物为因,又进一步壅塞于肌肤、胞宫而致病症。中医重视对情志因素的辨证分析,近年来有大量研究探索情志因素与多种疾病的相关性,在妇科疾病的诊疗中也同样关注情志因素的重要影响[7]。《内经》中首次提出的以情胜情原则“悲胜怒、喜胜忧……”;《河间六书》描述:“妇人天癸既行,当以厥阴经论之”;《傅青主医学全书》中描述:以养肝平肝、解郁调经立法,诊治女性月经不调,婚久不孕,均表明PCOS的相关中医病症应从“情”辨证论治,将调肝理气之法贯彻治疗始终。本研究结果显示,PCOS症状重要性分別是精神状况>周期>身体上部>皮肤>舌象>经色>面色>大便,其指标规范重要性均大于50%,在所有症状重要性指标中“精神因素”居于首位,客观角度验证了传统中医论述的可靠性。
目前关于分析各种中医病症与证型的关系多采用聚类分析、因子分析、决策树分析、Logistic回归分析等统计学方法。蒋文星等[8]采用决策树C5.0算法分析PCOS“症-证”的模型准确性达到98%。本研究采用ANN分析训练集与测试集的结论一致,准确性均达到100.00%,说明ANN分析方法具有有效性,但由于研究所采用的数据集不包括临床病案数据,因此本研究方法的分析精度与同类研究比较仅有参考价值。此外,本研究未涉及中医诊断证型与治疗方剂的内在逻辑关系模型,有待在后续研究中进一步探讨。
综上所述,检索挖掘已发表PCOS的中医诊疗数据,建立了三层网络结构ANN模型,确定了证素-证型数据的内在逻辑关系,为中医诊断的智能化提供了一种有效思路。
参考文献:
[1]袁金秋,刘雅莉,杨克虎.基于人工神经网络的数据挖掘技术在临床中应用进展[J].图书与情报,2010(3):95-98.
[2]雷文平.试论人工神经络及其在机械工程领域中的应用[J].中国机械,2015(24):217-218.
[3]邹慧琴,李硕,陶欧,等.RBF神经网络在中医药领域中的应用及其在SPSS 17.0软件中的实现[J].中华中医药学刊,2015,33(2):336-338.
[4]Hassanzadeh H,Nguyen A,Karimi S,et al.Transferability of artificial neural networks for clinical document classification across hospitals:A case study on abnormality detection from radiology reports[J].J Biomed Inform,2018(85):68-79.
[5]Egerer E,Siemonsen S,Erbguth F.Acute diseases of the brain and heart:A reciprocal culprit-victim relationship[J].Med Klin Intensivmed Notfmed,2018,113(6):456-463.
[6] 许玉龙,盛梦园,王哲,等.几种数据挖掘方法用于中医证候分析的对比研究[J].中国中医药信息杂志,2019,26(12):97-102.
[7]王玉蓉,曹云霞.精神、心理因素与多囊卵巢综合征[J].中国妇幼健康研究,2004,15(5):303-305.
[8]蒋文星.数据挖掘在妇科PCOS中医证候及用药规律中的研究初探[D].广州中医药大学,2016.
[9]黄文金,姚明龙,叶云金,等.关联规则在《中医妇科学》证素诊断中的应用[J].湖南中医杂志,2015(8):148-149.
收稿日期:2020-04-10;修回日期:2020-04-22
编辑/杜帆