利用文献挖掘技术从MEDLINE构建冠心病气虚血瘀证与气滞血瘀证的NEI分子网络初步研究*

2015-11-11 07:52刘婧玮陈建新
中国中医急症 2015年5期
关键词:气滞证型气虚

刘婧玮 翟 兴 陈 坤 高 阔 刘 甲 王 伟 陈建新

(北京中医药大学,北京 100029)

利用文献挖掘技术从MEDLINE构建冠心病气虚血瘀证与气滞血瘀证的NEI分子网络初步研究*

刘婧玮 翟 兴 陈 坤 高 阔 刘 甲 王 伟 陈建新△

(北京中医药大学,北京 100029)

目的 通过文献挖掘的方法对冠心病气虚血瘀证与气滞血瘀证进行内在生物学区分。方法 在MEDLINE数据库中找到与冠心病有关的文献,提取摘要池,通过其对摘要池进行匹配,使用共现的文本挖掘技术挖掘出冠心病气虚血瘀证和气滞血瘀证的分子生物学网络,确定与冠心病气虚血瘀证和气滞血瘀证相关的候选分子指标。最后,应用特征选择的数据挖掘方法遴选出“指标个数少,准确性高”的证候生物学特征诊断模式。结果 对利用文献挖掘方法挖掘出的基因数据进行对比、分析,显示气虚血瘀相关集群与内分泌、信号传导、造血细胞系、炎症反应等相关;气滞血瘀相关集群与糖蛋白、含有二硫键的蛋白、G蛋白偶联受体信号传导系统、儿茶酚胺类递质活性调控相关,从而与交感神经调节相关。中医证型的内在生物学特征可以在NEI水平上进行有效的辨识。结论 文献挖掘法作为一种新的发现证候生物学指标的方法具有一定的可行性,建议将其进一步扩大到其他证型的研究中,验证该方法的普适性和可靠性。

文献挖掘 NEI 气虚血瘀证 气滞血瘀证

辨病与辨证相结合是中医特色的治疗原则。随着现代医学的发展,中医的辨治模式越来越多地表现为辨西医的疾病与辨中医的证候相结合,这也是现代意义的“病证结合”。目前病证结合证候的生物学基础研究主要有3个思路。一是“金指标”的研究思路,即通过对照研究,发现与证候密切相关的各个层次上的单个生物学指标。这些指标为证候的客观化诊断和疗效评价提供依据。如研究发现CD8+T淋巴细胞与甲型H1N1风热犯卫证和热毒袭肺证密切相关[1]。这个研究思路一直是证候生物学基础研究的主流,积累了大量的文献。第2个思路是以文献挖掘的方法学为核心,使用症状表征为桥梁建立中医证候与西医文献中涉及到的生物学指标的关联。文献挖掘技术的理念即若一个与证候诊断相关的症状表征与一个生物学指标在一篇MEDLINE收录文章的摘要中共现,就是一种关联,若这种关联不断被重复到一定程度,认为是两者之间强相关[2-3]。如李梢教授[2]通过文本挖掘的技术建立寒热证的神经内分泌免疫网络,并通过动物实验验证了此生物学网络。在当前医学模式由还原论向系统论转变的大背景下,此模式从系统生物学的角度探讨了证候的生物学网络,取得了较好的结果。第3则是国家重点基础规划项目(973项目)《证候的规范化及其与疾病、方剂的基础研究》提出的“特征模式”的研究思路[4-5]。

近几年来,由于生物学数据和关于生物学基础的医学文献数量急剧增长,通过人工阅读整理文献已经难以及时、高效地挖掘和整合其中的有效信息,文献挖掘(literaturemining)方法是解决这类问题的一种有效途径[6]。因此,通过文献挖掘寻找规律和新的认知成了生物学基础和医学研究的一个新热点[7]。文献挖掘对海量文献中的数据进行整合、分析,通过此种方法获得更具有代表性、可信度更高的结果[8],这些从文献中挖掘出来的实验假设和实验建议可供生物学家验证并得到新的科学发现,从而提高人们对生物医学现象的认识[9]。在中医学领域,越来越多的学者应用这一方法对中医药的发展前景和研究方法进行探索与认知。比如使用网络数据库结合统计分析的方法检索近10年关于冠心病辨证的现代文献,挖掘冠心病证素证型的关系,结果发现冠心病以血瘀为其主要组成证素,其证型以单证素为主[10]。还有学者基于文献挖掘技术探讨生姜与黄芩临床配伍应用规律,找到其临床应用特点,将这一技术应用于中药治疗的应用特点上[11]。由此可见,强有力的文献挖掘技术在中医药现代化的进程中扮演着越来越重要的角色。

冠心病目前依然是我国人群首要死因,是严重危害人类健康的常见病、多发病,包括心绞痛、急性心肌梗死、心律失常及心功能不全等临床亚型。心绞痛是冠心病最主要的亚型,其中医证型研究报道也最多,多以住院冠心病心绞痛患者为研究对象。可见冠心病气虚血瘀证和气滞血瘀证是其核心病机之一,两个证候相互对照,本文的主要目的是希望借助这一疾病的主要证型,利用文献挖掘技术找到与这两个证型相关的生物学指标群,再通过对临床相应数据的挖掘得到不同的生物学指标群并验证,从而得到冠心病气虚血瘀证与气滞血瘀证的内在生物学区分。

1 方 法

1.1 文献获取

首先在MEDLINE数据库中检索与冠心病有关的文献,提取摘要池,关键词确定为:冠心病(Coronary heart disease/Coronary artery disease);冠心病心绞痛(Coronary heart disease and angina/Coronary artery diseasewith angina pectoris);不稳定型心绞痛(Unstable angina pectoris/Unstableangina);稳定型心绞痛(Stable Angina/Stable angina pectoris);心肌梗塞(Myocardial infarction);心肌梗死(Myocardial infarction);冠心病心肌缺血 (Myocardial ischemia);无症状性心肌缺血(Silentmyocardial ischemia);缺血性心肌病(Ischemic cardiomyopathy)。由于气虚血瘀证和气滞血瘀证都有血瘀,而血瘀证的典型症状是胸痛,包含在冠心病的关键词中,故只使用气虚证和气滞证的相关症状作为关键词进行冠心病文献的二次分类,只要1篇冠心病的文献摘要出现气虚证或者气滞证的1个症状,就认为其与气虚血瘀证或气滞血瘀证相关。最后确定进行文献挖掘的关键词如表1所示。

表1 NEI、气虚、气滞相关关键词

以上述关键词在Pubmed上搜索文献数据,其中共获得与NEI相关的气虚文章332篇,与NEI相关的气滞文章2247篇。

1.2 基于条件随机场的方法提取气虚、气滞相关基因

1.2.1 关键词选取训练集来源 JNLPBA 2004,Bio CreAtIvE 2004和BioCreAtIvE 2006数据集做为训练样本。

1.2.2 特征选取 1)单词本身,即把语料中的单词作为一种识别特征。2)单词的词干,对语料中的单词进行标准化,复数、现在分词、过去式、过去分词改为单词原型。3)词性特征(名词、动词、形容词等等),使用GENIA Tagger工具获取单词的词性标注。4)组块特征(确定一个词组的词性,名词性词组、形容词性词组),使用GENIA Tagger进行组块特征标记。5)词典特征,使用entrez基因数据库和uniprot蛋白质数据库对单词进行标记。6)词形特征:具有相同词形的词很可能具有相同的属性。为了描述这种相似性,笔者把所有的词进行规范化处理。把每个词中出现的大写字母用“X”表示小写字母用“x”表示,数字用“d”表示,其他字符用“_”表示。如单词“IL-3”,“IL-4”和“IL-5”经过规范化以后都变成“XX_d”。7)前后缀特征,分别取长度为3,4和5的前后缀作为特征。8)正字法特征:对单词类型进行标注,如:字母与数字组合,符号,大小写等(ALLCAPS全部大写,CAPSMIX大小写混合,INITCAP首字母大写)。9)上下文特征:选取的上下文窗口大小为5,即前两个词、当前词和后两个词。

对训练集数据和需处理的文献按照上述特征进行处理,并采用CRF++软件进行建模,挖掘出需要的蛋白和基因,然后对挖掘出的蛋白和基因,在Entrez数据库进行匹配,并人工检查。应用DAVID Bioinformatics Resources6.7软件[12]对所得基因进行分层聚类、基因类型测试和Kyoto Encyclopedia of Genes and Genomes(KEGG)通路分析。基因聚类测试是一种探索性的工具,用以探索检测基因表达数据内部的关联性,为进一步考虑进行假设性的筛选。KEGG通路分析可以帮助寻找所提供基因所参与的生物过程。

2 结 果

从Entrez数据库中找到120个与气虚、气滞相关的基因,其中气滞证相关基因74个,气虚证相关基因8个,与气虚证、气滞证共同相关的基因38个,如图1。

图1 部分气虚证、气滞证基因

将得到的结果做出一个基因网络图,气虚证的相关基因、气滞证的相关基因以及对二者共同起作用的基因之间的关系可以通过这个方法初步看出。

3 讨 论

本研究以从冠心病心绞痛的两个主要中医证型即气虚血瘀证与气滞血瘀证为例,利用文献挖掘方法进行证候表征术语NEI基因的文献挖掘研究,以期对气虚血瘀证和气滞血瘀证进行内在的生物学区分,便于更好的理解中医冠心病的分型,并且进一步实现中医的现代化与国际化的目的。

在找到的120个相关基因中,与气滞相关的基因共有74个,其中和临床最密切的基因是一氧化氮结合酶(NOS);与气虚相关的基因共有8个,和临床最相关的是免疫球蛋白A(IgA);共同表达的基因是38个,其中与临床联系最紧密的是睾酮(testosterone)、去甲肾上腺素(NE)、肾上腺素(NA)促甲状腺激素(TSH)、雌二醇 (estradiol)、3碘甲状腺素 (FT3)、4碘甲状腺素(FT4)。通过利用基因分析的方法,笔者发现气虚血瘀证相关集群与内分泌、信号传导、造血细胞系、炎症反应等相关。气滞血瘀证相关集群与糖蛋白、含有二硫键的蛋白、G蛋白偶联受体信号传导系统、儿茶酚胺类递质活性调控相关,进而与交感神经调节相关。从而证明了本方案可以对中医证型的内在生物学特征可以进行有效的辨识。而文献挖掘作为一种省时省力,又简单易行的挖掘证候生物学指标的方法,也正在被越来越多的研究人员所采纳。下一步笔者计划继续改良挖掘算法并扩大到其他证型的研究中,进一步验证该方法的普适性和可靠性。

图2 气虚证、气滞证基因网络图

[1]黄羽,曾星.甲型H1N1流感患者T淋巴细胞亚群与中医辨证分型相关性的回顾性研究[J].中西医结合学报,2011,9(2):143-147.

[2]Shao L,Xuegong Zh.Understanding Zheng in traditional Chinese medicine in the context of neuro-endocrine-immune network[J].IET System Biology,2007,1(1):51-60.

[3]Xuezhong Zh,Baoyan L,Zhaohui W,et al.Integrative mining of traditional Chinese medicine literature and MEDLINE for functional gene networks[J].Artificial Intelligence in Medicine,2007,41(2):87-104.

[4]赵慧辉.不稳定心绞痛血瘀证的蛋白组学研究[D].北京:北京中医药大学,2008.

[5]陈建新,赵慧辉,王伟.中医证候生物学基础研究思路初探—基于特征选择的数据挖掘方法[J].中西医结合学报,2010,8(8):747-749。

[6]Hakenberg J,Nenadic G,Rebholz Schuhmann D,et al.Literature mining solutions for life science research[J].Adv Bioinfor-matics,2013:320-436.

[7]Tari L,Anwar S,Liang S,etal.Discovering drug-drug interactions:a text-mining and reasoning approach based onproperties of drug metabolism[J].Bioinformatics,2010,26(18):547-553.

[8]Rodriguez-Esteban R.Biomedical text mining and its applications[J].PLoScomputationalbiology,2009,5(12):1000597.

[9]王浩畅,赵铁军.生物医学文本挖掘技术的研究与进展[J].中文信息学报,2008,22(3):89-98.

[10]田松,何茜.基于现代文献的冠心病中医证候特征数据挖掘[J].中国中医药信息杂志,2013,20(3):29-30.

[11]吴嘉瑞,张宇晶.基于文献挖掘的相恶药对生姜与黄芩临床应用特点研究[J].中国中医药信息杂志,2014,20(7):15-17.

[12]Huang DW,Sherman BT,Lempicki RA.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources[J].Nature protocols,2008,4(1):44-57.

Research of NEI Molecular Network of Qi Deficiency Blood Stasis Syndrome and Qi-blood Stagnation Syndrome in Unstable Angina Pectoris from MEDLINE by Literature Mining Technology

LIU Jingwei,ZHAI Xing,CHEN Kun,et al.Beijing University of Chinese Medicine,Beijing 100029,China

Objective:To biology distinguish the Qi deficiency blood stasis syndrome and Qi-blood stagnation syndrome in unstable angina pectoris by literature mining technology.Methods:Firstly,the literature about unstable angina pectoriswere searched from MEDLINE.Secondly,the molecular indicators were determined from the molecular network,which were through the literature mining in the Qi deficiency blood stasis syndrome and Qiblood stagnation syndrome.Lastly,the diagnosis pattern of syndrome biological characteristics was determined by the feature selection of literature mining.Results:From the gene indices,there were some indicators related to the Qi deficiency blood stasis syndrome such as endocrine,signal transduction and inflammatory response.Meanwhile,there were some correlation cluster about Qi-blood stagnation syndrome including the glycoprotein,the G protein coupling receptor signal transduction system and catecholamines transmitter activity regulation.The biological characteristics of TCM syndrome can be identified in the NEI.Conclusion:It is proved universality and reliability that literature mining method as a new method for finding syndrome abnormal biological indexes were feasible and further expanded the research to other syndromes.

Literature mining;NEI;Qi deficiency blood stasis syndrome;Qi-blood stagnation syndrome

R541.4

A

1004-745X(2015)05-0760-04

10.3969/j.issn.1004-745X.2015.05.003

2014-12-25)

国家自然科学基金(81173463);新世纪优秀人才计划(NCET-12-084);北京市科技新星计划(xx2013032);北京市青年英才计划项目(YETP0821)

△通信作者(电子邮箱:cjx@bucm.edu.cn)

猜你喜欢
气滞证型气虚
自拟脾胃安方治疗脾虚气滞型餐后窘迫综合征的临床观察
加味乌药汤合失笑散加减治疗气滞血瘀型原发性痛经的临床疗效观察
中医辨证治疗脾胃气虚型胃痛的临床疗效探讨
基于因子分析及聚类分析的241例感染后咳嗽中医证素证型研究
基于自适应矩估计的BP神经网络对中医痛经证型分类的研究
A Meta-analysis of Dachaihu Decoction combined with western medicine in the treatment of acute pancreatitis with the TCM syndrome of liver qi depression and liver-gallbladder dampness-heat
七制香附丸加味治疗卵巢囊肿气滞血瘀证的临床疗效观察
辨证针刺治疗不同证型干眼的疗效观察
气虚痰湿型晚期肺癌治验
中西医结合治疗气虚血瘀型冠心病慢性心衰46例