基于文本挖掘技术发现鼻炎治疗规律

2017-03-22 01:22,,
中华医学图书情报杂志 2017年10期
关键词:特征词词频分词

,,

[作者单位]1.上海财经大学信息管理与工程学院,上海 200433;2.上海交通大学医学院附属新华医院中医科,上海 200092

大气污染问题日益突出,对人类健康尤其是对呼吸系统的威胁越来越严重。鼻炎作为主要的呼吸道疾病之一,其全球发病率约为10%~25%;我国高发地区已达37.9%[1],且呈逐年上升趋势。鼻炎发病率高、病程长、容易反复发作且难治愈,引起的鼻塞、头痛、记忆力衰退、食欲不振、失眠、易疲倦等给患者工作、学习和生活都带来了巨大影响。

随着信息技术的高速发展,网络数据资源呈爆炸式增长。网络中存在大量的文本数据,传统的信息检索技术不能满足用户需求。文本挖掘作为数据挖掘的一个分支,从非结构化或者半结构化的文本中检索信息,并将提取的知识呈现给用户。近年来,文本挖掘技术在医疗健康领域的运用逐渐成为研究热点。

本文基于在线医疗网站的医患互动信息和中国知网的文献信息,采用文本挖掘技术,发现鼻炎及其并发症的常用中西药、非药物治疗规律。

1 文献综述

文本挖掘技术能抽取分散在文本数据中未被发现的、有价值的、能被用户理解的知识,随着自然语言处理技术的进步,近年发展迅速。国外基于文本挖掘技术的医学疾病研究应用广泛,但由于汉字分词、数据来源的限制,现阶段国内并没有普遍的研究与应用。

1.1 文本挖掘在医学研究中的应用

随着医疗信息文献数据库的建立和完善,目前很多国内学者青睐基于文献数据利用文本挖掘技术研究某种中药成分(如玉屏风散[2]、青风藤[3]等)的用药规律,研究某种病(如慢性肾脏疾病[4]、乙型肝炎[5]等)的中医治疗用药规律,以及对中药的病证方药相应规律[6]等的研究。由于中医药自身注重药材、药方的特点,学者基于文本挖掘技术对中医药的研究较多,西医方面的文章较少。在数据来源上,多来自中国生物医学文献数据库(CBM),来自网络的数据源则较少使用,也未与临床数据相结合。在国外,有许多基于网络和社会媒体数据相关的研究,如进行疾病监测和生物事件的探测[7],提取药物不良反应信息[8],探索自我披露健康信息支持公共健康监测和医疗保健[9],监控滥用处方药[10]等。

1.2 当前文本挖掘研究鼻炎的方式

国内相关文献中并无实质的基于文本挖掘的鼻炎治疗研究,目前研究主要采用三种方式。第一种是以文本数据作为数据来源做数据挖掘,把文本数据转成数值数据来处理。苏奎国等[11]以《中医方剂大辞典精选本》作为方剂基本信息来源采集文本,结合《中华医典》《方剂学》做文本筛选,挖出治疗变应性鼻炎的方剂信息;韩东岳等[12]在PubMed、Embase、中国生物医学文献数据库、中国知网数据库、万方数据库和维普全文期刊数据库中检索采集关键词为鼻炎、过敏性、变应性、穴位敷贴的文献,通过阅读文献的题目、关键词和摘要筛选文献,结合《经络腧穴学》和《中药学》做数据清理后把数据录入Excel做词频统计,运用SPSS软件进行分层聚类挖掘出穴位贴敷治疗鼻炎的选、配穴规律和用药规律。第二种是采用文献计量学的方法进行研究。如刘妮波等[13]对《中国学术期刊网络出版总库》中关于鼻炎相关的医学科技论文进行分析,分别从载文量、高频作者、研究机构和关键词等方面进行深度挖掘;王鹏等[14]检索CNKI 2006—2010年间的针灸治疗鼻炎研究的全部文献,采用文献计量学方法进行统计分析。第三是基于现成文本分析软件进行分析。如宋立家等[15]收集CNKI中运用中医药方剂治疗变应性鼻炎的文献,筛选并建立方剂数据库,运用中医传承辅助平台软件挖掘其中的用药规律。

2 方法与数据

2.1 方法

主要使用文本挖掘方法,分为文本采集、文本预处理、文本分析、知识获取和相关性分析5个过程。

文本采集:从中国知网导出相关文献,从在线医疗网站上抓取医患互动论坛的问答帖。

文本预处理:将文本转化成文本挖掘工具可以处理的形式,去掉不需要的部分,主要包括文本分词和文本清洗。文本分词的准确性和质量好坏对后继工作有很大影响,分词仅针对中文,需要导入专业研究相关的词典以提高分词质量;文本清洗是把分词后的文本去除对研究无意义的停用词,如标点符号、连词、助词、语气词等,避免干扰后续文本挖掘,另外也要考虑同义词和近义词的合并。

文本分析:用词频统计、特征提取等方法,找出一些特征以便分析使用。

知识获取:结合专业知识对整理分析后的文本进行解释,获取有用的知识。

相关性分析:从一个同类或不同类的文档集合中寻找某些关键词之间的相关性,根据某两个或多个词同时出现的频率找出相关系数。相关系数主要通过词频统计来计算,例如包含氯雷他定的文本数有100个,同时包含粉尘螨的文本有50个,二者相关系数为0.5=50/100。本文用相关性分析方法分析鼻炎常见并发症的思路步骤是:筛选出含有鼻炎的某个常见并发症的文本,在这些文本中查找症状或药物名词进行合并和抓取原词;统计词频和计算相关系数。

同时,使用文献研究法梳理文本挖掘在医学中的研究现状,综述当前文本挖掘研究鼻炎的方式,并对比验证本文的一些研究结论。

2.2 数据

2.2.1 文本数据采集

综上所述,在初中英语教学中,做好教学目标设计尤为重要,教师应该从明确教学目标设计依据、加强自身目标设计意识、掌握正确的目标设计方法与策略等方面有效设计好课堂教学目标,有效保证课堂教学质量,提升学生综合素质与能力。

文本来源于中国知网CNKI、好大夫在线网(http://www.haodf.com)和寻医问药网(http://www.xywy.com)。中国知网的内容以数据库形式进行有序管理,有明确的来源、出处,内容可信度很高,可以作为学术研究、科学决策的依据;好大夫在线网和寻医问药网是我国当前医疗信息较为完备,用户较多的医患互动平台。

选用八爪鱼采集器获取医患互动文本。分别在好大夫在线网站和寻医问药网鼻炎专题“患者咨询”下提取文本,每条文本内容包括发帖时间、性别、年龄、标题、病人描述、医生回答;在中国知网中以主题词“鼻炎”为搜索条件搜索到1950年2月至2016年2月间的相关文献,导出题名、关键词、摘要;最终医患互动平台采集到文本37 809条,中国知网采集到文本19 318条,共计57 127条文本数据(已去重)。

将相关文献的文本数据拆分为title,keyword,summary 3个数据集,合并两个医患互动论坛数据,然后拆分病人咨询文本数据和医生诊断文本数据,得到patient_desc和doctor_diag数据集。

2.2.2 文本数据处理

新词典的安装及特殊新词的手动添加是两项很重要的工作。下载搜狗细胞词库,使用深蓝词库转换工具2.0版本,将.scel的搜狗细胞词库格式转换成.txt格式。文本处理中特征词的定义将决定最后分词质量的好坏。由于事先没有一个相对完整的特征词,这里主要对采集文本进行观察,在网络上搜集相关信息,然后针对药品、非药物治疗手段定义特征词(例如药品的特征词如喷雾、喷剂、颗粒、冲剂、他定、西替、咪唑、滴鼻液、鼻炎水、胶囊、片等,非药物的特征词有激素、针灸、清洗、治法、清洁、清除、充血剂、盐水、洗鼻、冷水、慢跑、锻炼等),并把这些特征词加入到自定义词典中。

Keyword数据集中的文本是由一个个词语组成,不需要分词,直接对keyword数据集做文本清洗;title、summary、patient_desc和doctor_diag中的文本均为句子,需要分别进行分词处理。将之前提取的keyword关键词也加入到词典中,然后基于词典使用Rwordseg包进行分词处理和文本清洗。

3 结果

3.1 词频统计

词频统计分别见表1-表3,图1-图3。从表1-表3,图1-图3可见根据频次由多到少治疗鼻炎相关的西药依次是氯雷他定、粉尘螨、布地奈德、西替利嗪、辅舒良等,根据频次多少治疗鼻炎用的中药依次是玉屏风散或颗粒、苍耳子等。 在鼻炎的非药物治疗手段的关键词中,“针灸”的词频最高,然后依次是糖皮质激素、生理盐水、脱敏疗法、激素、免疫疗法、减充血剂、针刺、按摩等,中西医结合疗法词频也较高。鼻炎并发症发病较高的依次是鼻窦炎、气管炎、咽炎、中耳炎、肺炎等。

表1 鼻炎的治疗药物及词频

表2 鼻炎的非药物治疗方法及词频

表3 鼻炎的并发症及其词频

图1 鼻炎的药物治疗方法词云

图2 鼻炎的非药物治疗方法词云

图3 鼻炎的并发症词云

3.2 相关分析

基于词频统计的分析,以采集到的原始文本(病人描述+医生描述)为单位,选择鼻炎最常见三种并发症(鼻窦炎、气管炎、咽炎)为对象,分析某个并发症的症状和治疗用药特点。各并发症状及相关用药见表4-表9。症状表示的是鼻炎并发某种并发症的症状。如表4中,鼻粘膜问题是鼻炎并发鼻窦炎的表现症状,目前基于我们的数据样本看,与其他症状相比,鼻炎并发鼻窦炎的相关度高,是表现得比较多的症状;与鼻炎并发鼻窦炎相关的用药,苍耳子的使用没有通窍鼻炎片多,并发症的相关程度排在第二。

表4 鼻炎并发鼻窦炎相关症状

表5 鼻炎并发鼻窦炎相关用药

表6 鼻炎并发气管炎相关症状

表7 鼻炎并发气管炎相关用药

表8 鼻炎并发咽炎相关症状

表9 鼻炎并发咽炎相关用药

4 讨论

4.1 鼻炎及其并发症的中西药物和非药物疗法

研究发现,中药苍耳子被普遍应用于鼻炎的治疗,对缓解鼻塞、鼻炎、抑制变态反应具有一定的疗效,但苍耳子具有一定毒性,超过剂量或长期使用可致神经系统及肝肾损害,需要在医生指导下谨慎、小剂量使用。

中药方剂玉屏风由黄芪、白术、防风组成,具有益气固表抗过敏的功效,大量临床研究证实“玉屏风颗粒”或“玉屏风散”治疗鼻炎疗效确切,是治疗鼻炎的重要中成药之一。

中医外治疗法被广泛应用于鼻炎临床。如针灸通过辨证取穴,可应用于过敏性鼻炎的急性期和缓解期,有良好疗效[16];穴位敷贴通过中药药物或者远红外磁热材料,刺激相应穴位,疗效好、无针刺痛苦,是代替传统针灸的外治方法,经临床证明疗效显著;钟娟等[17]确认了针刺、艾灸、推拿、拔罐、刺血疗法、穴位埋线、耳穴压丸等鼻炎的非药物治疗的有效性。但我们的数据里,拔罐、刺血、埋线等疗法的频次较低或未出现,尚待进一步探究。

糖皮质激素主要用于急性感染、自身免疫性和过敏性疾病,可以明显缓解哮喘、鼻炎的气道炎症。

利用生理盐水冲洗鼻腔可以获得较好疗效,赵秀华[18]和刘杰等[19]等认为生理盐水冲洗对小儿鼻炎更加有效。

随着医学的进步,免疫疗法和脱敏疗法逐渐成为研究的热点,通过调节免疫进而间接治疗鼻炎,从词频上来看,这个治疗思路更容易被患者接受。

鼻炎的并发症较多,依次为鼻窦炎、气管炎、咽炎、中耳炎、肺炎等,前三个并发症均有咳嗽、流涕、鼻出血等症状,除共有症状外,经词频统计,鼻炎并发鼻窦炎还有嗅觉减退、呼吸困难等症状。鼻炎并发咽炎可伴有下鼻甲肥大、扁桃体肥大等。通过区分鼻炎并发症,可指导临床精准用药。

文本挖掘发现治疗鼻炎并发鼻窦炎药物有:鼻炎片、苍耳子、糖皮质激素、布地奈德等。由于鼻炎与鼻窦炎常常相伴发生,同为鼻腔内黏膜炎症,仅仅是发病部位不同,因此鼻炎并发鼻窦炎的相关药品与鼻炎的药品一致。

鼻炎并发气管炎的治疗药物为磺胺类药物、糖皮质激素、鹅不食草等,鼻炎并发咽炎药物有咽喉喷剂、地氯雷他定、抗组胺药等。

4.2 本研究的创新性

目前中医药人研究治疗鼻炎的用药规律时基本上都是基于文献数据库。虽然文献数据更具有权威性,但已被人为处理过。

国外的研究成果证明,网络数据在医学某方面应用的有效性,直接从网上抓取的数据更新及时,具有客观性、先进性以及临床价值。因此,本文在研究方法和数据源选择方面进行了新的尝试,验证网络数据源的可用性和运用文本挖掘技术的可行性。

4.3 本研究的局限性

本文存在以下4个方面的局限性。

4.3.1 医生的回答权威性不足

文本数据源中2/3来自医患互动论坛的医患问答。尽管回答问题的医生都是在全国各地医院持证问诊的医生,但是无法与患者面对面诊断,对疾病或患者信息了解得不够全面,可能导致医生的回答权威性不足。

4.3.2 文本挖掘分词的准确性和有效性有待提高

研究课题涉及了大量医学方面的专业知识。由于经验不足,在文本挖掘的分词过程中对专业字典的构造不够理想,会影响分词的准确性和有效性,使得个别干扰词汇出现。

4.3.3 特征词的定义存在主观性

文本处理中特征词的定义基于观察和分析,具有主观性,定义好坏会影响分词的质量,进而影响研究结果。以后要研究更为科学合理的特征词提取方法,减少主观随意性,避免遗漏。

4.3.4 文本数据量有限

文本数据量不够大,不能够完全覆盖庞大的鼻炎患者群体,词频统计未必能精准地反映出相关信息,得到结论可能会有偏差。

5 结语

治疗,特别是中医治疗,多强调单个临床试验的疗效情况。挖掘技术能从大量散在的临床试验中,把握共性的规律,为今后指导临床用药或标准化临床治疗提供参考。本文尝试基于网络数据和文献数据用文本挖掘方法来研究鼻炎问题,只是对新数据源、新方法的初步探索,希望抛砖引玉,引发更多的思考和研究。

猜你喜欢
特征词词频分词
基于类信息的TF-IDF权重分析与改进①
基于词频比的改进Jaccard系数文本相似度计算
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
基于改进TFIDF算法的邮件分类技术
OPEN:一个基于评论的商品特征抽取及情感分析框架
产品评论文本中特征词提取及其关联模型构建与应用
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
词频,一部隐秘的历史