中医电子病历研究领域科学知识图谱分析

2017-01-24 09:13荣光谢晴宇孟庆刚
中国中医药信息杂志 2017年1期
关键词:知识图谱聚类

荣光 谢晴宇 孟庆刚

摘要:目的 探讨中医结构化电子病历国内研究的新兴趋势和创新性。方法 计算机检索中国知识资源总库(CNKI)2000年1月-2015年12月中医电子病历研究领域相关文献,对该领域研究者、研究机构、关键词等进行文献计量分析,采用可视化软件CiteSpace构建共现网络。结果 发文量前3位的研究者为刘保延(13篇)、张润顺(8篇)、谢琪(7篇)和周雪忠(7篇);合作紧密的研究机构有中国中医科学院、湖北中医药大学信息工程学院、河南中医学院第一附属医院等;关键词主要聚类有中医诊断(#0)、中国中医药信息(#1)、人工智能(#2)、病历管理(#3)、医技科室(#4)等;主要关键词有电子病历、中医医院、数据挖掘、远程医疗、人工智能等。结论 目前,中医电子病历领域的研究者、研究机构间合作不够紧密,未形成研究热点,创新性不显著,原因可能与我国中医药信息化建设的整体水平密切相关。

关键词:电子病历;关键词聚类;研究者合作;研究机构合作;知识图谱

DOI:10.3969/j.issn.1005-5304.2017.01.024

中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2017)01-0099-06

Electronic Medical Record in TCM Field—An Analysis Based on Scientific Knowledge Visualization RONG Guang1, XIE Qing-yu2, MENG Qing-gang1 (1. Beijing University of Chinese Medicine, Beijing 100029, China; 2. Institute of Basic Research in Clinical Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)

Abstract: Objective To assess Chinas newly evolved hot spots and novelty of structural electronic medical record in TCM field. Methods Articles about electronic medical record in TCM field were retrieved from CNKI from January 2000 to December 2015, focusing on researchers, research institutes, and key words for bibliometric analysis. Then visualization software CiteSpace was used to establish co-occurrence network. Results The top 3 productive authors were LIU Bao-yan (13 articles), ZHANG Run-shun (8 articles), XIE Qi (7 articles), and ZHOU Xue-zhong (7 articles). Institutes highly cooperated with others included China Academy of Chinese Medical Sciences, Information Engineering College of Hubei University of Chinese Medicine and The First Affiliated Hospital of Henan University of Chinese Medicine. The major clusters were TCM diagnosis (#0), Chinas TCM information (#1), artificial intelligence (#2), medical record management (#3), and medical laboratory department (#4). The representative keywords involved electronic medical record, TCM hospital, data mining, telemedicine, and artificial intelligence. Conclusion In the field of TCM electronic medical record, cooperation is not sufficiently facilitated among researchers and institutes. Research hot spots are not formed and novelty is not obvious, which is probably because of the overall status quo for Chinas TCM information construction.

Key words: TCM electronic medical record; keyword cluster; co-author; co-institute; knowledge graph

2015年12月,乌镇互联网医院正式运营,连接全国范围内的医院、医生、患者、药品和医保体系,建立起一个新型的智慧健康医疗服务平台,是“互联网+医疗”模式的突破性探索。该示范模式预示着,

基金项目:国家科技支撑计划(2013BAI02B10);国家自然科学基金面上项目(81473800、81273876)

通讯作者:孟庆刚,E-mail:mqgangzy@126.com

将不同医疗机构产生和积累的医疗数据共享,远程访问,是互联网医疗领域发展的重要需求。其中,中医电子病历数据作为患者医疗数据的重要载体,是医疗数字化的重要组成部分,也是医疗机构间开展临床诊疗、科研所必须的临床信息资源。中医电子病历研究历时15年之久,领域论文数量逐年递增,绘制科学知识图谱,能从文献计量学角度诠释该领域研究现状,为今后互联网医疗数据的集成提供依据。

科学知识图谱是以知识域(knowledge domain)为对象,显示科学知识的发展进程和结构关系的图像[1],具有“图”和“谱”的双重特性:既是可视化知识图形,又是序列化的知识谱系。显示了知识单元或知识群之间网络、结构、互动、交叉、演化或衍生等诸多隐含的复杂关系,而这些复杂的知识关系正孕育着新的知识。CiteSpace是应用Java语言开发的一款信息可视化软件,基于共引分析理论和寻径网络算法等,对特定领域文献(聚合)进行计算,以探寻出学科领域演化的关键路径和知识节点,并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前言的探测[2]。这种多元、分时、动态的文献分析可视化技术所绘制的知识图谱,能够将一个知识领域的来龙去脉的演进历程集中体现在一幅网络图谱上。鉴于科学知识图谱方法学研究的优势,本研究运用CiteSpace软件绘制中医电子病历科学知识图谱,探讨该领域的研究者、研究机构合作情况、研究热点及创新性。

1 资料与方法

1.1 数据来源

计算机检索中国知识资源总库(CNKI)2000年1月-2015年12月中医电子病历研究领域相关文献。检索式:SU=‘中医电子病历。检索日期:2016年3月23日。阅读文献题目和摘要,对检索结果进行初筛,排除明显不相关者。

1.2 纳入与排除标准

纳入标准:中医药领域电子病历的期刊论文。排除标准:①未将中医药作为主要探讨对象者;②未将电子病历做为主要探讨对象者;③研究设计存在缺陷,结果不可信者;④学位论文、会议论文等非标准文献格式者。采用双人交叉阅读文献全文的方式进行纳入排除。意见不一致时讨论解决,不能达成一致者由第3名研究者决定。

1.3 数据转换

采用CiteSpace数据转换功能,对所下载数据进行格式转换,以供分析。转换的字段包括关键词、作者、发表年份等。

1.4 图谱生成与评价指标

科学知识图谱包括:作者合作网络、机构合作网络和关键词网络。度量指标包括:节点频次、节点中心度、节点突变性、sigma值、模块度、轮廓值、3种代表性类标签提取算法(tf*idf、LLR、MI)。其中“节点频次”“节点中心度”得到的结果各是一组有权重次序的关键词,用以梳理领域发展脉络,综合2种测度方法结果进行分析;“节点突变性”得到的结果是一组有权重次序的关键词,用以发现领域热点,参考前人研究[3-5],本文设定节点突变性>10为有意义涌现;“sigma值”用以评估领域创新性,sigma值高的节点落在某一类的数量越多,代表这一类具有创新性;“模块度”“轮廓值”得到的结果分别是0~1和-1~1的数值,用以评价聚类效果,前者越接近1说明聚类效果越好,后者越接近1说明对聚类结论越有把握。当模块度>0.3、轮廓值>0.6时,认为聚类效果较好且有把握[6];“类标签提取算法”得到的结果是各聚类的代表性标签,用以分析类别特征。3种算法的前提假设不同,会提供3组不同的类标签,结合3组结果分析效果较好。3位作者按照各图谱及度量指标的指向与约束,对中医电子病历领域文献进行评估、探讨,最后做出总结意见。

2 结果与分析

2.1 检索结果

初检获文献248篇,人工阅读标题和摘要信息,排除明显不相关文献92篇,双人交叉排除42篇,最终纳入114篇。

2.2 研究者、研究机构合作情况

构建的研究者合作网络由219个节点、443条连线组成,轮廓值=0.769 1,模块度=0.595 5,模块结构显著,聚类结果可信,见图1。聚类图共包含研究者219名,研究者间合作不够紧密,合作规模局限于同一单位内部。其中,发文量前3位的研究者为刘保延(13篇)、张润顺(8篇)、谢琪(7篇)和周雪忠(7篇)。

构建的研究机构合作网络由95个节点、32条连线组成,轮廓值=0.887 2,模块度=0.301 5,模块结构显著,聚类结果可信,见图2。其中,发文量由高到低的研究机构依次为中国中医科学院(9篇)、中国中医科学院中医临床基础医学研究所(5篇)、中国中医科学院广安门医院(5篇)、中国中医科学院中医药信息研究所(4篇)、湖北中医药大学信息工程学院(4篇)、河南中医学院第一附属医院(3篇)、江西中医学院附属医院(3篇)、山东中医药大学(3篇)。另外,图2也体现出不同研究机构之间的合作紧密度与发文量成正比。

2.3 关键词节点聚类、图谱与相关指标

聚类后,得到13类(#0~#12),见图3。整体聚类效果好,可信度较高(模块度=0.625 2>0.3;平均轮廓值=0.621 3>0.6)。各类中,轮廓值>0.6者5个。详见表1。

最大的聚类(#0)形成于2008年,包含44个关键词,代表性文献为《名老中医电子病历中病史动态结构化数据录入规范》[7]。中医电子病历除具有一般电子病历的特征外,还包括了中医四诊、辨病辨证、中医处方、中医诊断等体现中医诊疗特色内容。结构化电子病历,是基于信息和数据挖掘技术研究老中医经验的基础,其核心在于病史的结构化,国内外常用的结构化方法有固定表单录入、开放式结构化录入以及通过语义分析自动结构化。3种方法的智能程度依次增高,中医电子病历领域常用的是开放式结构录入,将《中医临床术语集》映射到术语字典,再将术语字典与病历模板器衔接,形成以术语字典为支撑的结构化模板[8]。随着语义分析自动结构化方法的不断进步,数据自动结构化程度也在不断加强。

第二大聚类(#1)类成员有27个,轮廓值=0.654 0,表明该类成员内部的同质性较低,构成该类的文献主题不够集中。最具影响力的事件是2014年首届中医药信息大会的召开,发布的统计数据显示,自国家中医药管理局将信息化建设作为中医药事业发展的重要内容以来,全国已有82%以上中医院建立了医院信息系统,53%以上建立了电子病历,近95%建立了药品管理信息系统[9]。电子病历系统的实际应用中,科研方式的质量控制功能尚在探索和逐渐完善过程中。

第三大聚类(#2)类标签为“人工智能”,代表性文献为《运用可扩展标记语言弹性结构电子病历的中医科研数据分析统计方法探索研究》[10],该研究采用决策树方法分析中药使用情况及其与证候的相关关系,同时还用统计图表显示多因素关系图。此外,有研究者从复杂网络的角度出发,对名老中医处方网络结构进行分析,发现体现其处方思维和临床特点的核心处方配伍结构[11]。

第四大聚类(#3)类标签是“病历管理”,代表性文献为《试论中医病历电子化的作用和意义》[12],从3个方面归纳了中医病历电子化的意义,即提高中医临床工作的效率、推进中医诊断的现代化和继承名家经验。该研究发表时间较早(2001年),具有时代局限性,随着信息化程度的提高,未来中医电子病历还会出现更多的应用领域和价值空间。

第五大聚类(#4)的代表性文献为《电子病历中医技科室检查数据的获取和应用》[13],关注的焦点是院内医学信息资源的共享。其中,基于电子病历系统开展临床路径的优势在于:执行过程可控,效果评估便捷,节约经济卫生成本。

2.4 节点权重测度结果与图谱

节点频次和中心度测度结果分别见图4、图5。得到节点中心度>0.1的节点10个,节点频次>5的节点10个,有突现性的节点数量为0,见表2(均为术语有效聚类者)。

词频和中介中心性最高的是“电子病历”(节点频次=68,节点中心度=1.37),属于主题类关键词;排在第二位的是“中医医院”(节点频次=11,节点中心度=0.14),体现了电子病历的应用机构;“数据挖掘”(节点频次=7,节点中心度=0.07)属于方法类关键词,包括挖掘疾病诊断和治疗规律,常用的电子病历数据挖掘方法有基于关联规则的数据挖掘,基于粗糙集的数据挖掘和可视化技术3类。针对中医电子病历领域,基于关联规则的数据挖掘方法更常见,可与聚类分析联用,挖掘专家经验[14],体现“症状-证候-治法-药物”之间的关联关系。粗糙集理论对不完备信息知识挖掘有一定的优势,有学者提出了基于形式概念分析的不完备电子病历系统粗糙挖掘算法[15],设计出中医病历方剂配伍规则挖掘专家系统,用于识别脾胃方中医方剂之间“方、药、症、因”之间的关系和方剂间的配伍规律。中医电子病历的可视化技术方面,目前国内期刊还未出现以此为专题的报道,国外电子病历研究领域有研究开发SPHERE[16],对诊断指标进行可视化,加强患者和医生之间的交流,辅助临床决策。

2012年5月,卫生部颁布的《卫生信息共享文档规范》在HL7 CDA R2基础上,对中国卫生数据元、基本数据集标准进行本地化约束,形成文档格式模板,对中医电子病历的要求是:结合HL7 CDA文档架构和国家相关中医药临床标准及规范,对中医电子病历的文档结构和语义进行标准化和CDA本地化定义,以实现异构系统之间的数据共享。同一时间内,中医电子病历信息标准体系框架的构建、评估中医电子病历的信息标准是否得到有效应用类型开始出现。定量化的体现是,表2中“联网计算机”“远程医疗”中介中心性数值较高,提示中医电子病历信息标准的推广力度在逐步加强,异构系统的数据共享是主要推动力。“人工智能”,体现了以电子病历为基础的临床决策支持系统的研究内涵,是智能化数字医院建设的重要组成部分。借助人工智能技术,对知识自动析取与管理将是未来发展方向以及研究的重点,并将呈现多样性和丰富性。此外,“信息系统”“数字化医院”等关键词都是反映医院信息系统建设类词汇。

3 讨论

3.1 研究局限性

由于CiteSpace软件在中文科学文献数据的采集方面仅支持CNKI数据库文献记录的下载和格式转换,这也是本研究的局限性所在。为了探索这一局限带来的影响,本课题组在前期研究中预检索了CNKI、中文科技期刊数据库(重庆维普)及中国学术期刊数据库(万方数据)收录的中医电子病历相关文献,并使用同一方法纳入文献,结果发现CNKI未涵盖的文献仅为1篇,因此认为相对于144条总纳入文献量,其对结论的影响较小。

3.2 创新性评估

突发性检测结果显示,关键词共现网络没有节点具有突发性,提示该领域关键词没有出现统计学意义的频次波动,即中医电子病历领域目前还未出现研究活跃的学术分支。sigma值结合了中介中心性和突发性指标来定义,是衡量创新性的重要指标。中医电子病历关键词共现网络中sigma值均为1,提示该领域创新性不显著。

总体分析,中医电子病历应用领域,学者和机构间的合作不够紧密,关注点集中在专家经验的挖掘,但尚未形成研究热点、创新性不显著,其原因与我国医疗信息化整体水平密切相关。目前,中国医疗信息化发展属于第二阶段初期,部分医院处于领先优势,电子病历记录正在累积,可直接应用于数据挖掘的样本量尚未达到大数据规模,期刊论文探讨的主题集中在系统架构和部署实施,因此,“信息系统”“信息化”“数字医院”等描述宏观建设的词汇才成为该领域探讨的高频词。与此同时,国际上医疗信息化发展迅速,电子病历人口覆盖率高,国际期刊论文探讨的主题主要为电子病历与基因组学数据联合应用,前沿热点研究领域有糖尿病发病风险预测、不良反应安全性信号的识别及流感爆发的预测等。值得注意的是,目前中医电子病历人口覆盖率较低,对其再利用得出的结论存在选择性偏倚,单一中心采集的表型数据可能出现分类错误问题,多中心数据联合应用能减少偏倚,提高准确度。

参考文献:

[1] 陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253.

[2] CHEN C. CiteSpace Ⅱ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006,57(3):359-377.

[3] 宋艳辉,杨思洛.国际视野下的图书馆学、情报学与档案学研究进展——基于CiteSpace的信息可视化分析[J].图书馆论坛,2014,6(3):1-13.

[4] FANG Y. Visualizing the structure and the evolving of digital medicine:a scientometrics review[J]. Scientometrics,2015, 105(1):5-21.

[5] 赵蓉英,王敏.国际视野下中医研究的可视化分析[J].医学信息学杂志,2011,32(2):36-41.

[6] CHEN C M, CHEN Y, HOROWITZ M. Towards an explanatory and computational theory of scientific discovery[J]. Journal of Informetrics,2009,3(3):191-209.

[7] 张润顺,王映辉,姚乃礼,等.名老中医电子病历中病史动态结构化数据录入规范[J].中国中医药信息杂志,2007,14(3):100-101.

[8] 刘保延,尹爱宁,张润顺,等.中医规范术语在结构化电子病历中应用体系的研究[J].中国数字医学,2012,7(8):41-44.

[9] 中医数字医疗网.我国超半数中医医院已建立电子病历[J].医学信息学杂志,2014,35(11):94.

[10] 梁志伟,蔡立民,阮永队,等.运用可扩展标记语言弹性结构电子病历的中医科研数据分析统计方法探索研究[J].世界科学技术-中医药现代化,2010,12(1):28-32.

[11] 周雪忠,刘保延,王映辉,等.复方药物配伍的复杂网络方法研究[J].中国中医药信息杂志,2008,15(11):98-100.

[12] 叶建红.试论中医病历电子化的作用和意义[J].时珍国医国药, 2001,12(11):1007.

[13] 沈崇德.基于电子病历的数字化临床路径管理[J].中国卫生信息管理,2012,9(3):18-20.

[14] 孙明月,高蕊.魏子孝治疗甲状腺疾病医案挖掘分析[J].中国中医药信息杂志,2012,19(2):25-27.

[15] 丁卫平,顾春华,石振国,等.基于形式概念分析的不完备电子病历系统粗糙集挖掘研究[J].计算机科学,2009,36(10):230-233.

[16] FORAKER R E, KITE B, KELLEY M. EHR-based visualization tool:Adoption rates, satisfaction, and patient outcomes[J]. EGEMS (Wash DC),2015,3(2):1159.

(收稿日期:2016-03-02)

(修回日期:2016-04-24;编辑:向宇雁)

猜你喜欢
知识图谱聚类
基于DBSACN聚类算法的XML文档聚类
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
条纹颜色分离与聚类
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法