基于文本挖掘技术的高血压用药规律研究*

2017-02-22 09:02李艳红沈瑞琪欧敬民
网络安全与数据管理 2017年3期
关键词:词频频数用药

李艳红,沈瑞琪,欧敬民

(1.上海财经大学 信息管理与工程学院,上海 200433;2.上海交通大学医学院附属新华医院 普外科,上海 200092)

基于文本挖掘技术的高血压用药规律研究*

李艳红1,沈瑞琪1,欧敬民2

(1.上海财经大学 信息管理与工程学院,上海 200433;2.上海交通大学医学院附属新华医院 普外科,上海 200092)

大数据时代的来临日益凸显数据挖掘技术的价值。文本挖掘作为数据挖掘的研究分支,对非结构化数据的知识发现有重要意义。高血压患病人群广,发病率高,治疗药物种类繁杂,寻找其中的用药规律,是临床医学的一个重要方向。基于文本挖掘技术,从在线医疗网站获取医患互动论坛数据,进行文本预处理,基于TF-IDF算法发现高血压常用中西药、非药物治疗、并发症用药特点等,结合关联规则算法挖掘“症-药”关系,有益于高血压的临床判断及用药研究。另外,验证了在线医疗网站医患互动数据用于疾病研究的可用性和效果。

高血压;文本挖掘;用药规律;TF-IDF;关联规则

0 引言

文本挖掘能抽取分散在文本数据中未被发现的、有价值的、能被用户理解的知识,从而更好地组织信息,是数据挖掘的一个研究分支。大数据时代的数据量庞大,类型繁多,价值密度低。利用传统的信息检索技术处理如此大量琐碎的文本数据显然力不从心,文本挖掘渐渐受到重视。大量医学信息以非结构化文本的形式充斥互联网,如医疗新闻、生物医学文献、在线医疗网站上的医患互动论坛等,应用文本挖掘知识以及技术从中发现隐含潜在的规律,已成为医学研究的一个重要方向。

高血压是目前最常见的疾病,据统计,全国高血压患者接近2.7亿,15岁及以上高血压发病率达四分之一,并有逐渐增多的趋势。治疗使用的中西药种类繁多,而且不断有研发出的新药用于临床。寻找高血压的用药规律,是临床医学的一个重要任务。

本文基于文本挖掘技术,抓取国内知名在线医疗网站上关于高血压的医患问答文本,获取高血压的相关知识,所得结论供医生和病人参考,有益于高血压临床判断及用药研究。

1 文献综述

文本挖掘在生物信息和生物制药领域的应用取得成功,为其在中医药领域的应用建立了案例。参考文献[1]指出文本挖掘技术对中医药文献分析是一种很有前景的方法。目前,文本挖掘技术也确实在我国的中医药领域被广泛运用,越来越多的学者基于中医药文献使用文本挖掘技术研究某疾病用药规律,仅针对高血压疾病,文献[2-3]基于中国生物医学文献数据库中检索的高血压诊疗相关文献,进行必要的数据清洗后,参考文献[2]对每一篇文献共同出现的关键词对构建关键词对程序算法,合并相同的关键词对,根据出现的频数找出常用的中西药;参考文献[3]采用基于敏感关键词频数统计的数据分层算法,挖掘高血压中医症状、证候以及用药规律。目前国内尚未见到网络数据用于医学研究,在国外,有相应的工作发布,如参考文献[4]认为网络和社会媒体数据是重要的疾病监测资源,基于其上的文本挖掘研究不仅能预测流感趋势,还能通过社交网络的异常进行生物事件的探测;参考文献[5]试图建立一个机器学习方法,从社交媒体中高度非正式的描述性文本中提取药物不良反应信息;参考文献[6]发现网络和社会化媒体的谩骂相关信息可用于监控滥用处方药;参考文献[7]调查了是否在线医疗社区的社交支持交换有利于患者的心理健康,如忧郁症;参考文献[8]针对twitter用户使用朴素和日常的语言来描述他们的疾病,经常报告综合症状,而不是一个疑似或确诊等特点,发现twitter有潜力成为一个内容丰富和低成本的数据源,可用于症状监测。

用药规律研究方面,包括参考文献[1]在内的已有文献都只挖掘出常用中药及西药的用药规律,鲜有研究“症-药”关联。另外,数据源都是直接从生物医学文献数据库检索的文献。虽然文献的数据更具权威性,但已被人为处理过。根据国外的研究成果,已知网络数据在医学某方面应用的有效性,直接从网上抓取的数据更具客观性、先进性以及临床价值。所以,本文在研究方法和数据源选择方面进行新的尝试。

2 研究设计

本文的研究工作路径设计如下:数据爬取→文本预处理(分词和过滤)→抽取关键词→文本向量化→知识获取。

数据获取是研究的第一步,使用Python设计两层网络爬虫,使用Scrapy架构,采用Spider作为爬虫设计的基类来获取网络数据源。中文文本预处理最基础的一个工作就是分词。非结构化的文本数据会掺杂大量对结果没有影响的无意义的单词,处理文本时需要过滤掉。在哈工大扩展停用词表的基础上手工添加了若干如“疾病”、“医生”这些对研究没有帮助的高频词,导入到结巴分词中,完成文本预处理。由于文本包含的信息和词条繁杂,直接进行文本向量化维数过大,因此需要先进行特征提取降维。使用词频-反词频(Term Frequency-Inverse Document Frequency, TF-IDF)方法更客观地权衡某词语的重要程度,实现关键词的自动抽取。文本向量化是把文本数据从非结构化转到结构化的重要一步,使用Python机器学习包scikit-learn完成文本向量化的过程。最后,基于词频统计信息和关联规则的经典算法Apriori完成高血压用药相关知识获取。

3 实证分析过程

3.1 获取数据

爬取到2013~2016年寻医问药在线医疗网站上高血压相关医患互动文本数据57 000条。

3.2 文本预处理

导入自定义词典,自定义词典为高血压相关的医学专有名词以及药名。导入哈工大停用词典。进行分词。

3.3 获取关键字

首先使用基于词频统计的方法抓取关键词,得出病人提问部分主要集中在患者对血压(“高压”、“低压”)、病史(如“心脏病”、“糖尿病”、“冠心病”等),以及症状(“头晕”、“头疼”)的描述。医生回答部分主要为药名。设置参数输出指定词性的关键词,抓取名词关键词作为特征提取能更高效地挖掘用药规律。选用同时兼顾词频和词重要性的TF-IDF方法自动抽取关键词。

3.4 文本向量化

将TF-IDF结果转换成对应稀疏矩阵。每行对应一个文件,共有57 000行,列由关键词表组成。然后进行高血压用药相关知识获取。

4 高血压用药知识获取

4.1 基于词频获取高血压常用中西药及非药物治疗

由于中药种类繁多,量效关系复杂,用药配比规定严格,在线医疗网站上医生答复以西药为主,故所得中药成分相关数据频数普遍较小。选取部分频数相对比较高的,可见治疗高血压常用中药以丹参、山楂、牛黄、决明子、菊花、天麻、葛根为主,多有祛风解毒、清肝补肾之药效,如图1所示。文献[2][3]得出治疗高血压病最常用的中药是天麻、钩藤、丹参、地黄,最常用的中成药是丹参注射液和珍菊降压片。本研究未细致区分中药和中成药,导致丹参兼具中药成分和注射液的双重身份,故频数最多,所以本文结论与文献[2][3]类似。

治疗高血压的常用西药频数统计如图2。可见钙通道拮抗剂类药物使用较多,继续对其进行分析。根据图3可知,硝苯地平频数最多,是钙通道拮抗剂中使用最广的药物。

表1为ACEI类各药物的目前使用频数表,显示ACEI类药物中卡托普利及依那普利应用最广泛,占ACEI药物的60%和35%。

图3 钙通道拮抗剂类药物频数图

ARB类各药物的使用频数如表2,可见替米沙坦、缬沙坦使用较多,分别占比34%和30%。

利尿剂使用氢氯噻嗪、吲达帕胺两种最多,氨苯蝶啶和螺内酯也起利尿作用,但频数较低,如图4。

表1 ACEI类各药物的使用频数表

表2 ARB类各药物的使用频数表

图4 利尿剂类药物使用频数图

图5 文献[2]高血压病常用西药使用文献频数图

如图5所示为文献[2]对高血压病常用西药使用情况的研究结果。本文研究对目前高血压西药的用药情况结论与文献[2]类似,排名前三的药物是一样的。本文在高血压西药大的分类框架下做了更细致的分析,提供了更详细的信息。硝苯地平是临床常用的降压药,也是一种不可多得的急救药,特别是舌下含化,疗效迅速。根据资料和专家求证发现硝苯地平能否作为长期降压药,理论和实践中存在分歧。从本文研究数据中看,它的使用位居榜首,从图5可见它的使用基本持平卡托普利。图5结论基于中国生物医学文献数据库数据,更反映临床研究。本文研究基于互联网医患互动论坛数据,涉及面更广,反映广大患者的实际使用。二者近似相同,证实了本文研究一定程度的可信性。同时也提出了疑问,目前硝苯地平如此多的使用,是否存在误用问题,有待于引发思考,进一步求证。

由图6可见,除了药物治疗以外,改变生活习惯,食疗和锻炼也是治疗高血压的常用疗法。高血压患者要注意:低脂低盐,保持情绪稳定,戒烟忌酒,饮食清淡,注意睡眠,多吃蔬菜,补充维生素,多参加体育锻炼,多喝水等。

图6 高血压其他治疗方法

4.2 基于关联规则获取“症-药”关系

基于词频统计获得的高血压症状信息如图7,可见高血压常见症状为头晕、头痛、恶心呕吐、水肿等。头晕、头痛为最主要的两大症状,此结论与文献[3]一致。根据图7,可把高血压症状主要分为3类:影响患者脑部血管引起患者头痛、头晕、耳鸣;影响患者心血管机能造成患者心悸、心绞痛;造成患者四肢乏力、麻木、水肿。

图7 高血压症状频数统计图

本文数据源并非权威的文献,患者症状描述或医生答复并不详尽,数据集的稀疏度决定最小支持度不能太高。同时再次对数据进行清洗去噪,把矩阵中不包含关键词和只包含一个关键词的评论删除以增加数据的密集度。经过多次尝试,降低最小支持度至5%,计算出满足置信度50%的强规则有:

规则1:头痛→头晕,最小置信度为53.1%;

规则2:头痛→钙通道拮抗剂,最小置信度为53.3%;

规则3:水肿→利尿剂,最小置信度为67.2%。

由规则1可知,出现头痛症状的高血压患者通常伴有头晕,这两种症状都与脑部血管有关。规则2和规则3都是“症-药”的强规则。规则2说明如高血压患者出现头疼,医生通常都会使用钙通道拮抗剂类的药。规则3的置信度接近70%,“症-药”关系比较强,可推断高血压患者若出现水肿的症状,医生通常会开利尿剂配合降压药使用。挖掘出的“症-药”规则较少,可能是由于没有经过面诊的文本数据质量不高,还因为高血压病理复杂,并发疾病多,用药需要结合患者年龄、病史、并发疾病以及进一步的仪器检查方能确定,因此单一的“症-药”关联较弱。

4.3 基于词频获得高血压并发症用药特点

高血压病人常伴有糖尿病、动脉硬化、冠心病、脑梗塞、血栓、中风或肾脏病等,如图8。这几种疾病或者病因是相通的,疾病的危害互相影响。根据并发症的不同,症状与治疗方法也有所不同。探究高血压并发症用药特点,以高血压合并“冠心病”、“糖尿病”、“肾病”为例进行研究。筛出包含如上某个并发症的数据,比较筛选前后关键词频率变化较大的项,可知:高血压合并冠心病的患者出现“心悸”、“胸闷气短”、“心绞痛”症状更频繁。与之对比,单单高血压的患者出现以上3种症状的频率则低得多,并发“脑梗塞”、“动脉硬化”的频率也只有并发冠心病患者的1/2。用药方面,并发冠心病的高血压患者使用钙通道拮抗剂的频率为48.3%,接近筛选前的两倍多,可见并发冠心病的高血压患者更倾向于使用钙通道拮抗剂作为首选降压药。由整体数据可知,高血压并发糖尿病关键字词频总体上比高血压低,说明症状与高血压基本相同。四肢的症状如“四肢乏力”、“水肿”、“麻木”频率稍微比单纯高血压患者高一点,说明高血压并发糖尿病后容易出现这些症状,可多吃利尿的食物。肥胖的患者更容易出现高血压并发糖尿病,高血压并发糖尿病患者也更容易出现昏厥,所以高血压患者要多运动减肥,防止低糖。对于高血压合并肾脏病,“低盐”、“低脂肪”词频高达70%以上,说明高血压肾病患者要尤其注重低盐、低脂肪的饮食,同时保持情绪稳定。在用药方面,钙通道拮抗剂是高血压肾病患者的首选。多喝水、多补充维生素这些对于单纯高血压需要提倡的非药物治疗方法,对于高血压肾病患者不强调,意图减轻肾脏负担。

图8 高血压相关疾病频数图

5 结论

本文基于文本挖掘正规流程,基于在线医疗网站医患互动论坛数据,使用TF-IDF算法和关联规则算法,发现高血压常用中西药、非药物治疗、并发症用药特点、“症-药”

关系等知识,并与当前文献交互验证,发现待思考求证的问题,验证了互联网数据用于疾病研究的可用性和效果。

本文的不足之处及后继工作是:受当前自然语言处理发展的影响,分词处理还有提升空间;由于病理复杂,单一的“症-药”关联规则分析可能无法应用于实际临床中,需要进一步对“多症状-多药”进行联合挖掘。

随着医疗管理的移动化和智能化,数据会更多更好,各种源头的数据联合使用,文本挖掘技术在医疗领域的应用会展现出蓬勃的生命力。

[1] 杨进,罗漫,张启蕊.文本挖掘在中医药文献分析中的应用[J].广东药学院学报,2010,26(2):216-220.

[2] 王丽颖,郑光,郭洪涛,等.基于文本挖掘技术的高血压病中成药与西药用药规律分析[J].中华中医药杂志,2013,28(1):60-63.

[3] 贺丹,姜淼,郑光,等.利用文本挖掘技术探索高血压病症状、证候以及用药规律[J].中国实验方剂学杂志, 2014,20(19):214-216.

[4] CORLEY C D,COOK D J, MIKLER A R, et al. Text and structural data mining of influenza mentions in Web and social media[J]. International Journal of Environmental Research & Public Health, 2010, 7(2):596-615.

[5] NIKFARJAM A, SARKER A, O’CONNOR K, et al. Pharmacovigilance from social media: mining adverse drug reaction mentions using sequence labeling with word embedding cluster features[J]. Journal of the American Medical Informatics Association, 2015,22(3):671-681.

[6] SARKER A, O’CONNOR K,GINN R, et al. Social media mining for toxicovigilance: automatic monitoring of prescription medication abuse from twitter[J]. Drug Safety, 2016,39(3):231-240.

[7] YAN L, TAN Y. Feeling blue? go online: an empirical study of social support among patients[J]. Information Systems Research, 2014,25(4): 690-709.

[8] GESUALDO F,STILO G,AGRICOLA E,et al. Influenza-like illness surveillance on twitter through automated learning of naive language[J]. PLoS One, 2013, 8(12): 182.

Medication rules research on hypertension based on text mining

Li Yanhong1, Shen Ruiqi1,Ou Jingmin2

(1. School of Information Management and Engineering, Shanghai University of Finance and Economics,Shanghai 200433,China; 2. Department of General Surgery, Xinhua Hospital Affiliated to Medical Colledge of Shanghai Jiaotong University,Shanghai 200092,China)

The era of big data is coming which increasingly emphasizes the value of data mining technology. As a research branch of data mining, text mining is so important to the discovery of data-unstructured knowledge.Hypertension with the character of high incidence is one of the main diseases which damage human health. Many different kinds of drugs exist and the discovery of medication rules is one of the most important research directions. Based on text mining technology, this paper obtained data from doctor-patient interactive forum on online medical websites and preprocessed the text. Then, found common used Chinese and western medicine, non drug therapy,characteristics of drug use for complication and so on by using TF-IDF method, mined the relationship between symptoms and drugs with association rules algorithm. All the studies will be beneficial to the clinical judgment of hypertension and drug research. In addition, the paper verifies the availability and effectiveness of data from doctor-patient interactive forum used in the medical research.

hypertension; text mining; medication rule; TF-IDF(term frequency-inverse document frequency); association rule

国家自然科学基金资助项目(71401096,81572673)

TP399

A

10.19358/j.issn.1674- 7720.2017.03.030

李艳红,沈瑞琪,欧敬民.基于文本挖掘技术的高血压用药规律研究[J].微型机与应用,2017,36(3):103-106.

2016-10-02)

李艳红(1974-),女,博士,副教授,主要研究方向:文本挖掘、医疗大数据分析。

沈瑞琪(1993-),女,硕士研究生,主要研究方向:数据挖掘。

欧敬民(1972-),通信作者,男,博士,教授,主要研究方向:血管外科疾病的微创治疗。E-mail:jingminou@163.com。

猜你喜欢
词频频数用药
精准用药——打造您自己的用药“身份证”
高血压用药小知识
治病·致病·致命——用药需慎重
用药不如用乐——三择音乐养生法
中考频数分布直方图题型展示
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
学习制作频数分布直方图三部曲
频数和频率
词频,一部隐秘的历史
盗汗病治疗药物性味归经频数分析