医学文献检索关键词多维分析系统的设计与实现

2017-02-28 07:49曾展鹏
中国中医药图书情报 2017年1期
关键词:中医药

曾展鹏

摘要:针对临床医学文献关键词包含有证型、病症、治疗等特点,设计出医学文献关键词多维分析系统。该系统以医学文献检索关键词分析为核心,包含文献信息管理、词频分析、多维统计分析等功能模块,能有效解决检索文献的批量导入、数据规范化、根据关键词属性进行多维度统计分析等问题。并以银屑病的中医药治疗为例,介绍该系统的使用及多维统计分析应用。该系统实现了在计算机辅助下进行快捷、方便、准确的关键词多维分析,为其他医学领域数据分析系统的设计和实现提供参考。

关键词:中医药;文献检索;分析系统

中图分类号:G254.9 文献标识码:A 文章编号:2095-5707(2017)01-0016-04

Abstract: A multidimensional analysis system for the key words of medical literature was designed according to the characters of clinical literature, including syndrome, disease and treatment. The system is based on the analysis on medical literature retrieval key words, including document information management, word frequency analysis, multidimensional statistical analysis and other functional modules, which can effectively solve the problem of batch retrieval of imported documents, data standardization, multi-dimensional statistical analysis according to the keyword attribute. Setting the treatment of psoriasis as an example, the use of the system and multi-dimensional statistical analysis application is introduced. The system provides a quick, convenient and accurate multidimensional analysis of the keywords, which can be used as a reference for the design and implementation of other medical data analysis systems.

Key words: traditional Chinese medicine; literature retrieval; analytic system

随着计算机互联网技术的快速发展,在大数据时代背景下,传统的医学信息检索模式已经不能适应快速变化的需求[1]。《2015研究前沿报告》也明确提出了“科学研究的世界呈现出蔓延生长,不断演化的景象。科研管理者和政策制定者需要掌握科研的进展和动态,以有限的资源来支持和推进科学进步”。“定义一个被称作研究前沿的专业领域的办法,源自于科学研究之间存在的某种特定的共性。这种共性可能来自于实验数据,也可能来自于研究方法,或者概念和假设,并反映在科学家在论文中引用其他科学家的工作这个学术行为之中”[2]。所以对文献信息的提取和关联分析至关重要,它能揭示学科的发展,为科研人员指引研究方向。2015年,广东省中医院委托我校图书馆提供有关“银屑病研究前沿与热点”的情报分析[3]。该项目需要收集大量的期刊文献,并在此基础上,逐一分析银屑病症状-证型、症状-治疗、证型-治疗之间的关系以及药物配伍的关系。如果采用比较传统的情报分析方法,整个过程将耗费较长时间。为此,我们开发了适用于临床医学文献自动分析的情报分析系统。该系统实现了在计算机辅助下进行快捷、方便、准确的关键词多维分析,并提取相关知识。

1 系统设计

1.1 数据库设计

本系统开发选取了适合大量本地运算的C/S应用模式,開发语言为面向对象的编程语言VISUAL BASIC,采用SqlServer2005数据库作为数据的组织和存储对象。主要信息存放在文献记录表(WXJL)、关键词表(GJCB)、同义词表(TYCB)和词类属性表(CLSX)。其中WXJL保存导入的文献记录;GJCB保存从WXJL提取的关键词信息;TYCB保存关键词的同义词,比如:高血压、高血压病、血压高、原发性高血压、一级高血压、早期高血压等均用高血压病表示;CLSX用于类比关键词属性并对其逐一归类,比如:血热型属于证型,克银方属于治疗。

1.2 功能设计

根据用户目前的需求,系统主要有4个功能模块。⑴关键词参数设置:主要用于设定关键词的TYCB和CLSX。⑵文献信息管理:主要是对学术论文基础数据的管理,它们是数据分析的基础,主要实现对论文题目、关键词和年份信息的录入、编辑、删除等功能。⑶词频分析:计算不同关键词在所有选定论文中出现的频数,对关键词按频数排序并确定高频关键词。在此基础上,生成词频统计表和统计图,便于研究者分析该领域的研究重点和热点。⑷多维分析:多维分析是本系统的核心功能,主要完成同义词合并、生成多维词组矩阵、矩阵词多维分析、数据转存等功能。系统的具体功能结构如图1所示。

1.3 统计分析原理

本系统的核心功能是对关键词作多维统计分析,其原理是根据各种数据分类的度量关系,找出同类性质的统计项之间的联系,是对数据进行维度化分析后的度量聚集统计。其中维度化是根据数据的特性进行分类,并建立多维矩阵。具体实现方法为:⑴从相关文献数据库中提取关键词或主题词,通过词频分析获取代表某一学科研究主题或研究方向的高频词;⑵对高频词根据特性进行分类,形成各分类集合,分类集合之间相互组合形成多维矩阵;⑶围绕该多维矩阵进行分析,统计这些词组在同一篇文章中同时出现的次数。

多维分析的主要思路:在数据集中,若大量记录在具有特征属性A的同时,也频繁出现了特征属性B,则称特征属性A和B构成频繁模式[4],表示A和B之间的关联性,而这些模式可以用关联规则来观察和分析。

2 系统的程序开发关键技术分析与实现

为了更好地体现关键词多维分析系统的实际应用效果,本文以“银屑病研究前沿与热点”为案例,展示系统的使用及原理。文献来源数据库为:中国知网(CNKI)、中国生物医学文献数据库(CBM),时间段为2010-2015年。案例以检索结果为分析对象,列举多维分析系统在词频统计以及同义词合并的应用,并从“证型-治疗”2个维度进行统计。其中CNKI的检索词包括:银屑病、牛皮癣、中医药、中成药、中药、中草药、方剂,检索途径为“主题”;CBM检索策略为:"银屑病"[全字段:智能]OR"牛皮癣"[全字段:智能]OR"银屑病"[扩展:不加权]AND中医药OR中成药OR中药OR中草药OR方剂。

2.1 多数据源导入

根据检索词,本案例在CBM共获得1389条记录,如图2所示;在CNKI共获得1566条记录,如图3所示。对获得数据进行分解,使文献转化为计算机能够处理的结构化数据单元。然后通过对比查重、字段映射合并,使之规范、准确和有序。原始数据查重合并后共获取记录1863条。该数据表是数据分析的基本条件,处理后的结果如图4所示。

2.2 关键词规范化

文献数据结构化处理后可进一步提取关键词信息,并对其规范化处理。关键词原始数据的不规范,主要表现为多词一义,也即是同义词现象。操作中,首先通过文献记录提取所有非重复关键词,形成数据列表。然后对比同义词库逐一进行归并。本案例共计提取关键词3987条,通过临床专家结合医案认真讨论和分析,筛选出银屑病证型、治疗相关的同义词142条,合并后形成标准关键词30条。如图5所示。

2.3 关键词属性归类

在关键词库数据集的基础上,利用频次分析,把频次较高的关键词组成高频词库。通过下拉框从症状、证型和治疗等方面选取相应的特征属性。对新增的特征属性,点击添加按钮增加并保存该分类词库。案例中30条标准关键词按证型和治疗2个特征属性,得到12条证型记录,18条治疗记录。如图6所示。

2.4 多维统计分析

通过12条证型记录和18条治疗记录2个维度,交互组成12×18的二维矩阵,如图7所示。统计分析后,得到共同出现频率最高的2个关键词为“血热型”与“凉血方”,共计出现48次。其次为“血热型”与“消银方”共计出现37次。

统计结果符合临床诊断和用药规律,同样统计方法适用于“症状-证型”“症状-治疗”等其他维度分析。此外,通过查阅我校附院名中医治疗银屑病的医案发现,银屑病目前尚无固定分型,但血瘀、血热、血虚等证型是银屑病最为常见的证型,其中,血热型是广东地区患病频率最高的证型。以生地黄、元参、杭芍、茅根、牛蒡子、知母、荆芥、防风、升麻、甘草等为主的“凉血方”是治疗本地区血热型银屑病最常用、最有效的中医处方。所以,银屑病的纯中医治疗也与本系统的统计结果相吻合,从某种程度上来说增加了本系统的可信度。

对医学关键词进行多维度分析,可以帮助我们了解医学领域的研究热点,并推断其未来研究的发展方向。对获得的统计结果还可导出转存为Excel、文本文件等格式,以便于利用SPSS等其他统计分析软件做进一步分析处理。

3 小结

随着医学大数据的不断发展,用户对医学情报服务的要求也越来越高,关键词多维自动检索系统的设计为图书馆情报服务的开展提供了更多、更便捷的服务支持。该系统已在图书馆参考咨询部门应用于相关的文献统计分析。实践应用表明,使用该系统后,统计分析效率明显提高,符合用户检索统计要求。同时,通过用户对该系統的体验和建议,将不断对该系统进行完善及优化,提供更人性化、更精确、更快捷的文献检索统计服务。

本系统在功能和使用上还存在一些不足,需要不断改进和完善。⑴系统中合并同义词功能是依靠人工判断方式进行的,可考虑增加系统自动提示的辅助建议功能,以更快速度完成合并同义词工作。⑵如何实现从词频统计自动获取高频关键词并归类属性,以减少人工录入信息的工作量。⑶关键词分析扩展成从全文自动获取相关的关键词,结合病案或医案实现自动分析功能[5],从而可以更加全面地考察医学的发展变化。

参考文献

[1] 涂新莉,刘波,林伟伟.大数据研究综述[J],计算机应用研究,2014, 31(6):1612-1616,1623.

[2] 今日报告网.汤森路透&中国科学院:2015前沿研究[R/OL].[2016-08-28].http://www.imxdata.com/archives/12707.

[3] 卢传坚,曾召,谢秀丽,等.1979-2010年寻常型银屑病文献证候分布情况分析[J].中医杂志,2012,53(11):959-961.

[4] Han J, Kamber M.数据挖掘:概念与技术[M].2版.范明,孟小峰,译.北京:机械工业出版社.2007:146-155.

[5] 袁锋.基于数据挖掘的中医医案分析系统的设计与实现[D].济南:山东师范大学,2006.

(收稿日期:2016-10-28)

(修回日期:2016-11-04;编辑:魏民)

猜你喜欢
中医药
中医药在社区糖尿病防治中的应用方法初探
传承创新书写宁波中医药发展新篇章
以《中医药法》颁布实施为契机 推进云南中医药事业深入发展
中医药走遍全球再迎变革
首部中医药综合性法律
《中华人民共和国中医药法》诞生
首部中医药综合性法律出台
我们的中医药
国家中医药管理局:屠呦呦获奖向世界证明中医药价值
中医药国际化提速