利用文本挖掘探索干燥综合征证药特点*

2013-11-21 08:01张志华郭洪涛冯福海李松伟
中医研究 2013年7期
关键词:网络图频数证型

张志华,郭洪涛,郑 光,冯福海,李松伟

(1.郑州市中医院 河南 郑州450007; 2 河南中医学院第一附属医院风湿科,河南 郑州450000; 3.兰州大学信息学院,甘肃 兰州730000)

干燥综合征(Sjogren's syndrome,SS)是一种侵犯外分泌腺体,尤其以唾液腺和泪腺为主的慢性自身免疫性疾病,主要病理变化为外分泌腺淋巴细胞浸润。本病可同时累及其他器官造成多种多样的临床表现[1],属中医学“燥证”“痹证”范畴[2]。本研究通过收集1978—2012 年中国生物医学数据库收录的文献,利用课题组逐渐成熟的文本挖掘技术[3]进行挖掘计算,探索干燥综合征证、药相应规律。

1 数据的收集与处理

1.1 数据收集

方法概述如下:在中国生物医学文献数据库(Chinese BioMedical Literature Database,CBM,http://sinomed.cintcm.ac.cn/index.jsp)中以“缺省[智能]:”状态下检索“干燥综合征”,共得到文献3 296篇(检索日期:2013 年3 月3 日),依次下载所有文献并保存。

1.2 文本数据处理

将收集来的数据按照下载的先后顺序,整合到一个平面文件(后缀txt)里面,以ANSI 编码格式保存;然后采用专有的文本提取工具(软件著作权,软著登字第0261882 号,登记号2010SR073409)对下载的非结构化txt 文本数据进行信息提取,保存成格式化的、便于大型关系型数据库(Microsoft SQL Server,以下简称SQL)处理的格式,再导入SQL 中进行下一步的挖掘分析。假设每一篇文献的贡献度是相同的,一篇文献中重复出现的关键词只需要计算1 次,据此构建算法进行数据清洗工作[3]。清洗完毕后的数据既可以提取挖掘对象的一维频数,也可以得到挖掘对象的二维关系,进行可视化呈现。抽出不同频次的关键词对,用Cytoscape 2.8 软件进行可视化处理,形成可视化的网络图,然后结合专业知识进行解析。一旦发现不合理的结果,即回溯原文献数据集。如果是噪音,仍按算法进行噪音清洗,直至噪音降到满意为止。最后的结果可视化成图,结合专业知识进行解析。

2 干燥综合征文本挖掘结果的评析

2.1 证型文本挖掘结果

在干燥综合征文献数据集中共提取到中医证型57 项,为了便于显示,选取前20 项,按证型在数据集中出现的频数高低列出,见表1。

表1 文本挖掘干燥综合征相关中医证型

以上结果表明:干燥综合征文献频次最高的证型为气阴两虚证,综合显示该病多见虚证、热证,少见实证、寒证;虚证多见气阴、肝肾、津液等方面的虚损。

为了找到干燥综合征数据集中主治证型之间的相互关系,运用基于敏感关键词频数统计的数据分层算法计算每篇文献中两两出现的相关证型得到的结果,使用cytoscape 软件构建证型两两之间网络图:图中圆圈内为证型名称,连线代表证型两两之间的联系。证型的连线愈多,圆圈就越大,代表该证型与干燥综合征的关联程度越高,越处于核心的位置。见图1。

图1 干燥综合征相关证型网络图

文本挖掘共提取到130 项证型组合,图1 为证候挖掘结果参与构建的网络图。由图可知:气阴两虚与其他证型的连线最多,为核心证型;而肝肾阴虚、阴虚津亏、阴虚血瘀等为干燥综合征常见证型。综上所述,干燥综合征的证型中气阴两虚证最常见,阴虚、气虚、津亏、血瘀、燥毒等是本病的基本致病因素。

2.2 中药文本挖掘结果

在干燥综合征文献数据集中共提取到相关中药名称123 个,为了方便展示,选取前20 个,按中药在数据集中出现的频数高低列出见表2。

表2 文本挖掘干燥综合征相关中药

由表1 可知,治疗干燥综合征的中药中,生地黄出现的频数最多,而生地黄性味甘寒,能清热、生津、润燥,也与干燥综合征多“虚、热”发病相应,应为其治疗的主药。麦冬、白芍频次也较高,均能滋阴润燥,应为核心药物。回溯原文献,发现雷公藤均与雷公藤多苷有关,因此应列为噪音剔除。其他均为治疗干燥综合征的常用中药。

文本挖掘共提取到中药组合289 项,为方便成图,选择频次大于等于2 的70 项中药组合构建中药网络图(图2)如下:

图2 干燥综合征相关中药网络图(PS≥2)

图2 可知,麦冬频次最高,应作为主药。麦冬性甘、微苦、凉,能滋阴生津、润肺止咳、清心除烦。沙参、天花粉、生地黄等次之,这些中药应为治疗干燥综合征的核心药物。其他玄参、知母、石斛等为常用中药。综上所述,干燥综合征的中药治疗以滋阴润燥为主,活瘀解毒为辅。药物以生地黄、麦冬、沙参、白芍、甘草、当归等为核心药物。

3 讨 论

文本挖掘技术是以统计数理分析、计算语言学为理论基础,服务于医药、生物、文献研究等学科的新兴的交叉学科[4]。运用于中医药领域,文本挖掘能从海量的中医药文献中发现知识以促进中医临床研究和中药复方研发等。根据中医理论或专业知识,计算机挖掘中医药文献库与生物医学信息库的非关联知识,为中西医结合研究提供新的思路和途径,并且结果更加客观,可重复性强[5]。

文本挖掘能够从具有大量信息的文本材料中抽取知识[4]。近年来,随着各种信息传媒和通量的不断加大,中医药规律研究呈现多元化的趋势[6]。应用于中医药领域,计算机能够文本挖掘中医药文献库与生物医学信息库的非关联知识,为中医药的现代研究提供新的思路和途径[7]。文本挖掘计算的结果,结合原文献回溯,人工阅读分析降噪等方法,使得结果更加客观;最终的结果,借助cytoscape 软件作图,使得结果更加直观,可视性强[8]。

本研究针对从CBM 收集到相关干燥综合征的3 296 篇文献,采用课题组逐渐成熟的文本挖掘技术[3],结合回溯原文献,人工阅读降噪,对干燥综合征从证型、中药规律方面进行挖掘,挖掘的结果既看到它们在文献中的频数,又可以发现它们各自在关联网络中的分布规律。从挖掘的结果来看,干燥综合征的证型中气阴两虚证最常见,阴虚、气虚、津亏、血瘀、燥毒等是本病的基本致病因素。干燥综合征的中药治疗以滋阴润燥为主,活瘀解毒为辅。药物以生地黄、麦冬、沙参、白芍、甘草等为核心药物。

中医处方是在辨证论治基础上,根据治法,以不同药物配伍形成的具有复杂功能的载体,是中医治疗疾病的重要手段。现有文献报告总结了临床工作者治疗干燥综合征的主要经验用药。通过文本挖掘干燥综合征现有文献数据,能够便捷总结干燥综合征证、药特点,为中医临床提供有益的探索与参考;同时,通过挖掘分析,也为疾病的中药配伍提供了一种新的探索方法。

[1]蒋明,朱立平,林孝义.风湿病学[M].北京:科学出版社,1995:1115.

[2]路志正,焦树德.实用中医风湿病学[M].北京:人民卫生出版社,1996:490.

[3]Guang Zheng,Hongtao Guo,Aiping Lu,et al.Discrete derivative:a data slicing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].BioData Min,2011,23(4):18.

[4]薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报:自然科学版,2005,19(4):59-63.

[5]Li S,Zhang ZQ,Wang YY,et al.Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrine-immune network[J].IET Syst Biol,2007,1(1):51-60.

[6]谭勇,郭洪涛,郑光,等.利用文本挖掘技术探索中医药治疗疾病的用药规律[J].世界科学技术——中医药现代化,2010,12(5):823-827.

[7]何小娟,李健,陈杲,等.基于病证结合的中药网络药理学研究与新药研发策略[J].中国中医基础医学杂志,2011,17(11):1271-1273.

[8]蔡峰,郭洪涛,张志华,等.基于文本挖掘技术的中成药及西药治疗年龄相关性黄斑变性用药规律研究[J].北京中医药,2011,30(9):643-645.

猜你喜欢
网络图频数证型
糖尿病前期中医证型及证素特点分析
基于因子分析及聚类分析的241例感染后咳嗽中医证素证型研究
基于自适应矩估计的BP神经网络对中医痛经证型分类的研究
网络图计算机算法显示与控制算法理论研究
网络图在汽修业中应用
频数与频率:“统计学”的两个重要指标
中考频数分布直方图题型展示
学习制作频数分布直方图三部曲
频数和频率
叙事文的写作方法