中医电子病历研究领域科学知识图谱分析

2017-12-27 06:30荣光谢晴宇孟庆刚
中国中医药信息杂志 2017年1期
关键词:知识图谱聚类

荣光,谢晴宇,孟庆刚

1.北京中医药大学,北京 100029;2.中国中医科学院中医临床基础医学研究所,北京 100700

中医电子病历研究领域科学知识图谱分析

荣光1,谢晴宇2,孟庆刚1

1.北京中医药大学,北京 100029;2.中国中医科学院中医临床基础医学研究所,北京 100700

目的 探讨中医结构化电子病历国内研究的新兴趋势和创新性。方法 计算机检索中国知识资源总库(CNKI)2000年1月-2015年12月中医电子病历研究领域相关文献,对该领域研究者、研究机构、关键词等进行文献计量分析,采用可视化软件CiteSpace构建共现网络。结果 发文量前3位的研究者为刘保延(13篇)、张润顺(8篇)、谢琪(7篇)和周雪忠(7篇);合作紧密的研究机构有中国中医科学院、湖北中医药大学信息工程学院、河南中医学院第一附属医院等;关键词主要聚类有中医诊断(#0)、中国中医药信息(#1)、人工智能(#2)、病历管理(#3)、医技科室(#4)等;主要关键词有电子病历、中医医院、数据挖掘、远程医疗、人工智能等。结论 目前,中医电子病历领域的研究者、研究机构间合作不够紧密,未形成研究热点,创新性不显著,原因可能与我国中医药信息化建设的整体水平密切相关。

电子病历;关键词聚类;研究者合作;研究机构合作;知识图谱

2015年12月,乌镇互联网医院正式运营,连接全国范围内的医院、医生、患者、药品和医保体系,建立起一个新型的智慧健康医疗服务平台,是“互联网+医疗”模式的突破性探索。该示范模式预示着,将不同医疗机构产生和积累的医疗数据共享,远程访问,是互联网医疗领域发展的重要需求。其中,中医电子病历数据作为患者医疗数据的重要载体,是医疗数字化的重要组成部分,也是医疗机构间开展临床诊疗、科研所必须的临床信息资源。中医电子病历研究历时15年之久,领域论文数量逐年递增,绘制科学知识图谱,能从文献计量学角度诠释该领域研究现状,为今后互联网医疗数据的集成提供依据。

科学知识图谱是以知识域(knowledge domain)为对象,显示科学知识的发展进程和结构关系的图像[1],具有“图”和“谱”的双重特性:既是可视化知识图形,又是序列化的知识谱系。显示了知识单元或知识群之间网络、结构、互动、交叉、演化或衍生等诸多隐含的复杂关系,而这些复杂的知识关系正孕育着新的知识。CiteSpace是应用Java语言开发的一款信息可视化软件,基于共引分析理论和寻径网络算法等,对特定领域文献(聚合)进行计算,以探寻出学科领域演化的关键路径和知识节点,并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前言的探测[2]。这种多元、分时、动态的文献分析可视化技术所绘制的知识图谱,能够将一个知识领域的来龙去脉的演进历程集中体现在一幅网络图谱上。鉴于科学知识图谱方法学研究的优势,本研究运用CiteSpace软件绘制中医电子病历科学知识图谱,探讨该领域的研究者、研究机构合作情况、研究热点及创新性。

1 资料与方法

1.1 数据来源

计算机检索中国知识资源总库(CNKI)2000年1月-2015年12月中医电子病历研究领域相关文献。检索式:SU=‘中医电子病历’。检索日期:2016年3月23日。阅读文献题目和摘要,对检索结果进行初筛,排除明显不相关者。

1.2 纳入与排除标准

纳入标准:中医药领域电子病历的期刊论文。排除标准:①未将中医药作为主要探讨对象者;②未将电子病历做为主要探讨对象者;③研究设计存在缺陷,结果不可信者;④学位论文、会议论文等非标准文献格式者。采用双人交叉阅读文献全文的方式进行纳入排除。意见不一致时讨论解决,不能达成一致者由第3名研究者决定。

1.3 数据转换

采用CiteSpace数据转换功能,对所下载数据进行格式转换,以供分析。转换的字段包括关键词、作者、发表年份等。

1.4 图谱生成与评价指标

科学知识图谱包括:作者合作网络、机构合作网络和关键词网络。度量指标包括:节点频次、节点中心度、节点突变性、sigma值、模块度、轮廓值、3种代表性类标签提取算法(tf*idf、LLR、MI)。其中“节点频次”“节点中心度”得到的结果各是一组有权重次序的关键词,用以梳理领域发展脉络,综合2种测度方法结果进行分析;“节点突变性”得到的结果是一组有权重次序的关键词,用以发现领域热点,参考前人研究[3-5],本文设定节点突变性>10为有意义涌现;“sigma值”用以评估领域创新性,sigma值高的节点落在某一类的数量越多,代表这一类具有创新性;“模块度”“轮廓值”得到的结果分别是0~1和-1~1的数值,用以评价聚类效果,前者越接近1说明聚类效果越好,后者越接近1说明对聚类结论越有把握。当模块度>0.3、轮廓值>0.6时,认为聚类效果较好且有把握[6];“类标签提取算法”得到的结果是各聚类的代表性标签,用以分析类别特征。3种算法的前提假设不同,会提供3组不同的类标签,结合3组结果分析效果较好。3位作者按照各图谱及度量指标的指向与约束,对中医电子病历领域文献进行评估、探讨,最后做出总结意见。

2 结果与分析

2.1 检索结果

初检获文献248篇,人工阅读标题和摘要信息,排除明显不相关文献92篇,双人交叉排除42篇,最终纳入114篇。

2.2 研究者、研究机构合作情况

构建的研究者合作网络由219个节点、443条连线组成,轮廓值=0.769 1,模块度=0.595 5,模块结构显著,聚类结果可信,见图1。聚类图共包含研究者219名,研究者间合作不够紧密,合作规模局限于同一单位内部。其中,发文量前3位的研究者为刘保延(13篇)、张润顺(8篇)、谢琪(7篇)和周雪忠(7篇)。

构建的研究机构合作网络由95个节点、32条连线组成,轮廓值=0.887 2,模块度=0.301 5,模块结构显著,聚类结果可信,见图2。其中,发文量由高到低的研究机构依次为中国中医科学院(9篇)、中国中医科学院中医临床基础医学研究所(5篇)、中国中医科学院广安门医院(5篇)、中国中医科学院中医药信息研究所(4篇)、湖北中医药大学信息工程学院(4篇)、河南中医学院第一附属医院(3篇)、江西中医学院附属医院(3篇)、山东中医药大学(3篇)。另外,图2也体现出不同研究机构之间的合作紧密度与发文量成正比。

2.3 关键词节点聚类、图谱与相关指标

图1 中医电子病历研究者合作局部网络

图2 中医电子病历研究机构合作局部网络

图3 中医电子病历研究关键词聚类网络

聚类后,得到13类(#0~#12),见图3。整体聚类效果好,可信度较高(模块度=0.625 2>0.3;平均轮廓值=0.621 3>0.6)。各类中,轮廓值>0.6者5个。详见表1。中文科技期刊数据库(重庆维普)及中国学术期刊数据库(万方数据)收录的中医电子病历相关文献,并使用同一方法纳入文献,结果发现CNKI未涵盖的文献仅为1篇,因此认为相对于144条总纳入文献量,其对结论的影响较小。

3.2 创新性评估

突发性检测结果显示,关键词共现网络没有节点具有突发性,提示该领域关键词没有出现统计学意义的频次波动,即中医电子病历领域目前还未出现研究活跃的学术分支。sigma值结合了中介中心性和突发性指标来定义,是衡量创新性的重要指标。中医电子病历关键词共现网络中sigma值均为1,提示该领域创新性不显著。

总体分析,中医电子病历应用领域,学者和机构间的合作不够紧密,关注点集中在专家经验的挖掘,但尚未形成研究热点、创新性不显著,其原因与我国医疗信息化整体水平密切相关。目前,中国医疗信息化发展属于第二阶段初期,部分医院处于领先优势,电子病历记录正在累积,可直接应用于数据挖掘的样本量尚未达到大数据规模,期刊论文探讨的主题集中在系统架构和部署实施,因此,“信息系统”“信息化”“数字医院”等描述宏观建设的词汇才成为该领域探讨的高频词。与此同时,国际上医疗信息化发展迅速,电子病历人口覆盖率高,国际期刊论文探讨的主题主要为电子病历与基因组学数据联合应用,前沿热点研究领域有糖尿病发病风险预测、不良反应安全性信号的识别及流感爆发的预测等。值得注意的是,目前中医电子病历人口覆盖率较低,对其再利用得出的结论存在选择性偏倚,单一中心采集的表型数据可能出现分类错误问题,多中心数据联合应用能减少偏倚,提高准确度。

[1] 陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253.

[2] CHEN C. CiteSpace Ⅱ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006,57(3):359-377.

[3] 宋艳辉,杨思洛.国际视野下的图书馆学、情报学与档案学研究进展——基于CiteSpace的信息可视化分析[J].图书馆论坛,2014,6(3):1-13.

[4] FANG Y. Visualizing the structure and the evolving of digital medicine:a scientometrics review[J]. Scientometrics,2015, 105(1):5-21.

[5] 赵蓉英,王敏.国际视野下中医研究的可视化分析[J].医学信息学杂志,2011,32(2):36-41.

[6] CHEN C M, CHEN Y, HOROWITZ M. Towards an explanatory and computational theory of scientific discovery[J]. Journal of Informetrics,2009,3(3):191-209.

[7] 张润顺,王映辉,姚乃礼,等.名老中医电子病历中病史动态结构化数据录入规范[J].中国中医药信息杂志,2007,14(3):100-101.

[8] 刘保延,尹爱宁,张润顺,等.中医规范术语在结构化电子病历中应用体系的研究[J].中国数字医学,2012,7(8):41-44.

[9] 中医数字医疗网.我国超半数中医医院已建立电子病历[J].医学信息学杂志,2014,35(11):94.

[10] 梁志伟,蔡立民,阮永队,等.运用可扩展标记语言弹性结构电子病历的中医科研数据分析统计方法探索研究[J].世界科学技术-中医药现代化,2010,12(1):28-32.

[11] 周雪忠,刘保延,王映辉,等.复方药物配伍的复杂网络方法研究[J].中国中医药信息杂志,2008,15(11):98-100.

[12] 叶建红.试论中医病历电子化的作用和意义[J].时珍国医国药, 2001,12(11):1007.

[13] 沈崇德.基于电子病历的数字化临床路径管理[J].中国卫生信息管理,2012,9(3):18-20.

[14] 孙明月,高蕊.魏子孝治疗甲状腺疾病医案挖掘分析[J].中国中医药信息杂志,2012,19(2):25-27.

[15] 丁卫平,顾春华,石振国,等.基于形式概念分析的不完备电子病历系统粗糙集挖掘研究[J].计算机科学,2009,36(10):230-233.

[16] FORAKER R E, KITE B, KELLEY M. EHR-based visualization tool:Adoption rates, satisfaction, and patient outcomes[J]. EGEMS (Wash DC),2015,3(2):1159.

Electronic Medical Record in TCM Field—An Analysis Based on Scientific Knowledge Visualization

RONG Guang1, XIE Qing-yu2, MENG Qing-gang1(1. Beijing University of Chinese Medicine,

Beijing 100029, China; 2. Institute of Basic Research in Clinical Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)

Objective To assess China’s newly evolved hot spots and novelty of structural electronic medical record in TCM field. Methods Articles about electronic medical record in TCM field were retrieved from CNKI from January 2000 to December 2015, focusing on researchers, research institutes, and key words for bibliometric analysis. Then visualization software CiteSpace was used to establish co-occurrence network. Results The top 3 productive authors were LIU Bao-yan (13 articles), ZHANG Run-shun (8 articles), XIE Qi (7 articles), and ZHOU Xue-zhong (7 articles). Institutes highly cooperated with others included China Academy of Chinese Medical Sciences, Information Engineering College of Hubei University of Chinese Medicine and The First Affiliated Hospital of Henan University of Chinese Medicine. The major clusters were TCM diagnosis (#0), China’s TCM information (#1), artificial intelligence (#2), medical record management (#3), and medical laboratory department (#4). The representative keywords involved electronic medical record, TCM hospital, data mining, telemedicine, and artificial intelligence. Conclusion In the field of TCM electronic medical record, cooperation is not sufficiently facilitated among researchers and institutes. Research hot spots are not formed and novelty is not obvious, which is probably because of the overall status quo for China’s TCM information construction.

TCM electronic medical record; keyword cluster; co-author; co-institute; knowledge graph

10.3969/j.issn.1005-5304.2017.01.024

R2-05

A

1005-5304(2017)01-0099-06

2016-03-02)

2016-04-24;编辑:向宇雁)

国家科技支撑计划(2013BAI02B10);国家自然科学基金面上项目(81473800、81273876)

孟庆刚,E-mail:mqgangzy@126.com

猜你喜欢
知识图谱聚类
基于DBSACN聚类算法的XML文档聚类
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
条纹颜色分离与聚类
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法