彭 琰 严 莉
(云南省医学信息研究所 昆明 650031)
基于Gephi的云南民族医药研究可视化分析
彭 琰 严 莉
(云南省医学信息研究所 昆明 650031)
采用文献计量法、社会网络可视化分析工具Gephi对云南民族医药研究情况从发文年代、期刊分布、作者分布、合著网络、研究机构分布、关键词共现网络等方面进行分析,指出傣医、傣药为该领域研究的热点。
云南;民族医药;Gephi;可视化
我国民族众多,在数千年的文明发展中,各民族医药也随之发展,民族医药学是我国传统医药学的重要组成部分。作为我国少数民族大省,云南省人口在5 000以上并有固定分布范围的少数民族有26个,其中独有的少数民族多达15个。丰富多样的民族文化和独一无二的自然环境,造就了云南独特的民族医药资源,云南在民族医药的研究、开发和应用方面积累丰厚、硕果累累[1]。
信息可视化技术以计算机科学、地图学、认知科学、信息传播科学与信息系统为基础,直观、形象地表现、解释、传递信息并揭示其规律[2]。在大数据时代,信息可视化技术能够帮助更为有效地挖掘和理解大型数据集,被广泛应用于生物医学、工程技术、信息通讯、工商管理和社会科学等各个领域。Gephi是一款免费、交互式的复杂网络分析软件, 支持Windows、Mac OSX以及Linux等环境,主要用于探索性数据分析、链接分析、社交网络分析和生物网络分析等[3]。Gephi操作简单,支持中文操作,只需要定义节点(Node,即关系网中各个孤立的个体)和边(Edge,关系网中个体两两之间的关系),然后通过软件提供的算法即可生成复杂网络可视化图谱。本文采用文献计量法、社会网络分析和可视化方法,借助可视化分析工具 Gephi对云南民族医药研究的现状进行分析,以期描绘云南民族医药研究的知识图谱,直观地展现云南民族医药研究的核心团队、主要机构和热点问题。
2.1 数据采集与预处理
数据来源于中国生物医学文献数据库(CBM),检索时间为2014年5月14日 ,检索策略为:民族医药学/全部副主题词AND “云南”[国省市名],共检索到题录530条。时间跨度为1979-2013年。下载包括标题、作者、关键词、作者单位、出处等字段的题录,通过Word 转换为表格,剔除综述、述评以及重复记录,共得到有效记录463条,将表格导入Excel。
2.2 数据分析
首先,采用Excel进行文献发表年代、期刊、作者、第一作者单位和关键词词频分析,构建作者合作交叉列联表、共词交叉列联表[4]。其次,构建合著网络和关键词共现网络。将交叉列联表保存成CSV格式,导入Gephi0.8.2版。令每一个节点(Node)表示一个作者或关键词,如果A与B存在合著或共现,则A点和B点之间生成一条边(Edge),由于合著和关键词共现均不存在指向性,因此所构建的网络类型为无向网络(Undirected Network),边的权重(Weight)等于合著的次数或关键词共现的次数,合著或共现次数越多两个节点间的边权重越大。最后,通过Gephi软件布局(Layout)、统计(Statistics)、排序(Ranking)、再次布局、显示标签、社团发现(Community-detection)、分割(Partition)、过滤(Filter)等步骤对作者合著、关键词共现进行可视化,输出可视化图谱并对图谱进行解读。
3.1 发表年度和期刊分布情况
云南省关于民族医药研究的发文量在1989-2008年间总体呈上升趋势,尤其是2006年后发文量急剧上升,在2008年达到高峰,该年发文量达到67篇,而2009年至今发文量有所下滑,见图1,其中2013年发文量为24篇,可能与数据库尚未更新完2013年所有数据有关。
图1 云南省民族医药研究年度发文量
463篇文章共分布在45种不同的期刊上,其中刊载文章量排在前4位的期刊分别为《中国民族医药杂志》(49.24%)、《中国民族民间医药杂志》(19.44%)、《云南中医学院学报》(10.15%)和《云南中医中药杂志》(8.21%)。这4种期刊除《中国民族医药杂志》的编辑部在内蒙古外,其他3种期刊编辑部均在云南本地。
3.2 作者分布情况和合著网络
由于纳入统计的文献中合著文献有350篇,合著作者数量最多的1篇达16人,有5位及以上作者的文章仅有57篇,所以选取4位及以下作者合著的文献进行统计分析。结果显示,发表文章数量最多的10位作者主要来自西双版纳傣医医院和云南中医学院,按照发表文章数量依次为西双版纳傣医医院的傣医专家林艳芳(8.42%)、云南中医学院的杨梅(7.99%)、云南中医学院的陈普(7.56%)、云南中医学院的郑进(7.34%)、云南中医学院的胥筱云(6.91%)、西双版纳傣医医院的玉腊波(4.75%)、云南中医学院的张超(4.32%)、西双版纳傣医医院的刀会仙(3.89%)、中国医学科学院药用植物研究所云南所的彭朝忠(3.89%)、云南中医学院的周红黎(3.24%)、西双版纳傣医医院的玉波罕(2.59%)、西双版纳傣医医院的赵应红(2.59%)。
采用Gephi Force Atlas[5]算法构建作者合著网络,导入节点(Nodes)412个,边(Edges)780条。经Gephi 统计分析显示,每个节点的平均度(边的个数)为3.786,平均路径长度(指一个网络中任意两个节点之间最短距离的平均值)为3.999。经社团发现(Modularity)分割后网络被分为63个社团,通过过滤(Filter),选取包括98.08%的节点和边的14个社团,生成作者合著网络图,见图2。可见云南民族医药研究最活跃的团队有以下5个:林艳芳团队(林艳芳、玉腊波、刀会仙、赵应红),郑进团队(郑进、陈普、张超、周红黎),杨梅团队(杨梅、胥筱云,王寅),包·照日格图团队、彭朝忠团队。这5个团队中,杨梅团队和郑进团队合著关系紧密,且与林艳芳团队也有合著,包·照日格图团队和彭朝忠团队与其他3个团队合著较少,且两个团队之间没有合著,包·照日格图团队仅和郑进团队有合著,彭朝忠团队仅和林艳芳团队有合著。这种团队间合著关系的紧密程度与作者研究方向有关,包·照日格图团队发表文献主要涉及蒙医学的研究,其他4个团队主要研究傣医学。
图2 作者合著网络
3.3 研究机构分布情况
发表文章数量最多的10个第1作者所在单位依次为云南中医学院(35.85%)、西双版纳傣族自治州傣医医院(24.41%)、云南省中医中药研究院(6.70%)、中国医学科学院药用植物研究所云南分所(4.75%)、迪庆藏族自治州藏医医院(2.16%)、普洱市民族传统医药研究所(1.94%)、楚雄彝族自治州中医医院(1.73%)、西双版纳职业技术学院(1.51%)、云南省食品药品检验所(1.30%)、中国科学院昆明植物研究所(1.08%)。进一步将第1作者单位按照云南省行政区划进行统计,利用Excel 制作气泡地图,结果显示除昆明外,研究机构主要分布在少数民族聚集地区如西双版纳、楚雄、普洱、迪庆、大理、丽江、红河、德宏等地,见图3。
图3 第1作者机构所在地分布气泡地图
3.4 关键词共现网络
纳入统计的463篇文献共有关键词3 006个,通过Excel建立共词交叉列联表,经同义词清洗后导入Gephi中,共导入节点 592个、边1 248条。 采用Force Atlas算法构建关键词共现网络,通过Gephi 统计分析显示,每个节点的平均度为4.037,平均路径长度为3.217。因为节点有重叠且图像较分散,影响视觉效果,故采用Force Atlas 2算法和Fruchterman Reingold算法再次布局,以防止节点重叠发生并将图像收缩。经社团发现(Modularity)分割后网络被分为35个社团,其中5个社团的节点数超过50个,生成关键词共现网络,见图4。由图可见,云南省民族民间医药研究涉及傣族、彝族、藏族、佤族、哈尼族、壮族、纳西族、白族、蒙古族等少数民族医学、药学、医药学教育以及医药文化传承方面,其中傣医-中医-比较研究、傣医-四塔五蕴、傣医-护理、傣医-文化、傣医-治疗-胆汁病(哦案)、傣医-治疗-拢梅兰申(骨关节病)、傣药-发展、傣医-康朗香、傣医-西医、傣医-康朗腊、彝医-慢性咽炎-咽舒宝滴丸、藏医-中医-比较研究、藏医-尿症、藏药-开发、藏药-达里、云南-民族医药-发掘整理等方面为云南省民族民间医药研究的热点问题。
图4 云南民族医药研究关键词共现网络
4.1 云南民族医药研究可视化分析的难点
可视化分析的难点在于数据整理,尤其是关键词的整理较为复杂[6]。首先,民族医药研究文献中存在少数民族语言的音译词汇,如“拢匹勒”和“拢匹冷”均为月子病,但音译成了不同的词汇,需要对照原文进行统一;其次,由于缺少细致到每一民族医药的主题词,文献提供的关键词存在大量同义词,例如“傣医”、“傣医药”、“傣医学”、“傣医药学”等,面对这种情况,同样需要根据原文内容进行调整。
4.2 Gephi分析中文文献的优势
当前,可视化分析技术已经被广泛应用于生物医学文献的分析中,国内学者利用各种可视化分析工具构建了各种主题的知识图谱,其中最为常见的分析工具包括CiteSpace[7],HistCite[8],BICOMB[9],Bibexcel[10],Pajek[11],UCINET[12]等。这些分析工具除BICOMB外,均为国外软件,支持的数据源以Web of Science 为主。因此采用国外软件分析中文文献时必须进行数据格式转换。而Gephi能够直接导入Excel生成的CSV文件并且支持中文输入和输出,可以省去将中国生物医学文献数据库(CBM)导出数据转化成CiteSpace和Bibexcel等软件匹配格式的步骤,能够较为便捷地分析中文来源的文献。
4.3 Gephi静态展示的缺点
本次纳入分析的节点数均在400个以上,在Gephi输出静态分析图像时,如果选择固定的标签字体大小,则标签密度太大,可读性较差,而选择标签字体与节点大小匹配时,节点越小则标签越小,虽然能够较为直观地展示研究核心团队和研究热点,展现作者合著和关键词共现全貌的效果又不理想,还需要进一步优化。
借助可视化分析工具 Gephi对1989-2013年间云南省内关于民族医药研究的文献进行了可视化分析,通过作者合著网络发现林艳芳团队、郑进团队、杨梅团队、包·照日格图团队、彭朝忠团队是云南省民族医药研究的核心团队,云南省中医学院、西双版纳傣族自治州傣医医院和云南省中医中药研究院是该方面研究的主要机构,而傣医、傣药方面的研究为云南省民族医药研究的最热点。
1 刘本玺,董广平,杨本雷,等.泛亚国际民族医药交流与合作——桥头堡战略下面向东南亚南亚的云南民族医药[J].云南中医学院学报 ,2013,(4):34-37.
2 王敏,张燕舞,张玢,等.信息可视化在医学文献分析中的初步应用理论研究[J].医学信息学杂志,2010,31(2):40-44,49.
3 https://gephi.org/[EB/OL].[2014-05-30].
4 储节旺,郭春侠.EXCEL实现共词分析的方法——以国内图书情报领域知识管理研究为例[J].情报杂志,2011,30(3):45-49.
5 关迎晖,向勇,陈康. 基于Gephi的可视分析方法研究与应用[J]. 电信科学,2013, (S1): 112-119.
6 肖志彬,程鸿,赵蓉英,等.蒙医文献信息可视化分析[J].医学信息学杂志,2012,33(10):48-50,62.
7 吴琼. 健康素养研究的知识图谱——基于CiteSpace的计量分析[J]. 医学信息学杂志,2012,33(6):7-13.
8 闫雷,关晶,崔雷. 基于HistCite的抗疟药研究相关文献引文编年图和主要路径[J]. 医学信息学杂志,2012,33(9):51-54.
9 张浩,成施充,崔雷. 我国情报学硕士学位论文研究热点分析[J]. 医学信息学杂志,2012,33(2):44-47.
10 周晓分,黄国彬,白雅楠. 科学计量可视化软件的对比与数据预处理研究[J]. 图书情报工作,2013,(23):64-72.
11 陈硕,宫雪,毛智,等.锁定钢板相关研究文献计量指标及可视化分析[J].医学信息学杂志,2013,34(19):55-59.
12 魏瑞斌. 国内知识图谱研究的可视化分析[J]. 图书情报工作,2011,(8):126-130.
Visualization Analysis of Yunnan Nationality Medicine Research Based on Gephi
PENGYan,YANLi,
MedicalInformationInstituteofYunnanProvince,Kunming650031,China
Using bibliometric analysis method and Gephi, which is a social network visualization analysis tool, the paper carries out analysis on Yunnan nationality medicine research status from the aspects of publishing year, journal distribution, author distribution, co-author network, research institution distribution, keywords co-occurrence network, etc. Dai medicine and Dai drugs are the hottest aspects in this area.
Yunnan province; Nationality medicine; Gephi; Visualization
2014-09-08
彭琰,助理研究员,发表论文10余篇。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.02.015