基于CiteSpace探讨人工智能在中医药领域的研究热点及趋势*

2021-11-23 03:55张君冬
中医药导报 2021年1期
关键词:图谱英文聚类

张君冬,杨 硕

(中国中医科学院中医药信息研究所,北京 100700)

中医药学包含着中华民族几千年的健康养生理念及其实践经验,是中华文化的瑰宝,随着2019年全国中医药大会的召开,中医药发展迎来了大好时机。人工智能是使计算机来模拟人的某些思维过程和智能行为,多学科交叉融合的新兴学科。近年来,关于人工智能在中医药方面的文献逐渐增多,如何将人工智能技术与中医药相结合成为了国内外诸多学者研究的话题。CiteSpace软件是由陈超美研发的一款主要用于计量和分析科学文献数据的可视化软件,通过绘制可视化图谱的形式直观而又生动的帮助用户把握某一科学领域的前沿方向及热点问题[1],目前已广泛使用在国内外各个学科领域。因此,本研究运用CiteSpace软件对人工智能在中医药学领域的相关文献进行分析,供研究者了解当前的研究热点及前沿方向,为今后的研究提供参考及借鉴。

1 资料与方法

1.1 数据收集及转化本研究以中国知网(CNKI)和Web of Science(WoS)为数据来源,参照人工智能在中医药领域已发表文献[2-4]制定检索词,检索途径为主题,时间范围2005年1月至2019年12月。中文数据库以“(中医or中药or中医药)and(人工智能or深度学习or机器学习or语义网络or神经网络or知识库)”为检索词,英文数据库以“(traditional Chinese medicine)and(artificial intelligence or deep Learning ormachine learning or semantic network orneural network or knowledge base)”为检索词。排除咨询、会议、报纸、年鉴类型的文献,重复文献,文章内容及作者信息不全,以及与研究主题无关的文献,共纳入中文文献691篇,英文文献168篇。

中文文献以CNKI中Refworks的格式导出,英文文献以Web of Science中“其他”格式导出,导出的文件命名为CiteSpace软件可以识别的download_***.txt格式,导入的数据信息应该包括题名、机构、作者、摘要、关键词等信息,之后在CiteSpace界面进行数据转换,得到CiteSpace可以运行的txt格式文本文件。

1.2 软件设置将转换后的数据导入CiteSpace5.6.R1版本,时间跨度为2005—2019年,每1年为1个时间切片,Links中Strength设置为Cosine,Scope设置为Within Slices,其余设置均为默认设置,分别选取作者、机构、关键词生成各自的可视化分析图谱并适当调整阈值使其清晰直观。生成的图谱中节点连线的粗细程度与共现程度成正比,节点的大小与出现的频数成正比,节点的圆圈层代表年轮,颜色从冷色调蓝色向暖色调红色变化,表示时间由远及近[5]。一般认为,聚类模块值(Modularity Q)>0.3聚类是显著的,聚类平均轮廓值(Mean Silhouette)>0.5聚类是合理的,聚类平均轮廓值(S)>0.7聚类是令人信服的[6]。

2 结 果

2.1 文献分布将所纳入的中英文文献根据年度发文量绘制折线统计图,如图1所示。中文文献2005—2008年增长迅速,2009—2014年年度发文量一直在35~50范围内波动,英文文献发文量2015年之前处于低谷期,2015—2019年中英文文献数量均开始逐年递增,2018—2019年中英文文献数量较上一年相比大幅度增加,预计2020年文献数量依旧呈增长趋势。

图1 2005—2019年中英文文献发文量统计图

2.2 作者共现分析作者共现分析可从宏观上把握该学科领域核心作者发文数量及团队合作情况(见图2~3、表1)。中文文献方面,发文量较多的作者是于彤、李敬华、朱玲、于琦、田建辉、孙燕等,但各类高产学者的中心性较差,基本低于0.1,表明该研究领域学者缺乏较强的影响力,主要形成了两大核心研究团队,团队1:于彤、李敬华、朱玲、于琦、杨硕、高宏杰等,研究领域主要集中于中医临床辅助决策支持系统、本体、中医养生服务平台、嵌入式临床智能决策支持系统与中医临床知识服务平台;团队2:田建辉、杨美清、阮春阳、张彦春、于观贞等,研究领域主要集中在中医处方系统构建、人工智能在中医药领域方面的思考及论述方面。与中文相比,英文文献发文量均普遍较少,发文量最多的是WU Z H,其所在团队为人工智能在中医药领域研究的英文核心团队,研究领域主要围绕寻找最佳中药配方、先导化合物、随机森林等方面。作者突现仅显示4位中文作者,分别为于彤、李敬华、朱玲、杨硕,且突现时间段均集中在2013—2017年,这与学者所属同一团队存在一定关系,突现强度最高的是于彤(4.855 4),突现强度越大,表明该作者在这段时期内的发文量变化越大,由于软件存在一定局限性,无法对文章具体内容进行分析,结合人工阅读及信息整合可以发现,2013—2017年于彤所在团队共发表论文6篇[7-12],内容创新程度高,一定程度上反映了该时期的研究热点。

表1 中英文作者发文量(前6位)

图2 中文作者共现图谱

图3 英文作者共现图谱

2.3 机构合作分析中文文献、英文文献发文量排名前3位机构均为中国中医科学院、北京中医药大学、上海中医药大学。从地区分布情况来看,东西部地区分布不均衡,科研单位主要集中在北京、上海等地区,科研机构内部联系密切,机构之间的合作较少,主要集中在各个地区的中医药大学和中医药科研单位。(见图4~5)

图4 中文合作机构共现图谱

图5 英文合作机构共现图谱

2.4 关键词分析

2.4.1 中文关键词 本研究分别将“中医”“中国传统医学”“中医学”“中医诊断”“中医诊疗”“人工智能”“人工智能技术”“中医复方”“中医方剂”等同义词进行合并后,选择节点类型“Keyword”,时间范围为2005—2019年,其他参数默认不变,运行后得到由110个节点和107条边组成的网络密度为0.017 8的中文关键词共现图谱。(见图6)

图6 中文关键词共现图谱

中文关键词中出现频数最大的是“人工智能”(111),其次是中医药(102)、数据挖掘(29)、中医诊断(24)、专家系统(18)、机器学习(17)、语义网络(14),结合中文文献中出现的主要突现关键词可以发现,2014—2016年的“语义网络”突现值最高,为该段时期人工智能在中医药领域的研究热点。(见图7、表2)

表2 高频关键词(前10位)

图7 中文文献主要突现关键词

在关键词共现网络的基础上,进行聚类分析(见图8),聚类模块值(Q)=0.684 3>0.3,聚类平均轮廓值(S)=0.756 4>0.7,表明该聚类结果是准确且令人信服的。聚类的大小与聚类编号成反比,主要划分为七大类,分别为中医按摩机器人(#0)、专家系统(#1)、健康监测(#2)、语义网络(#3)、人工智能(#4)、adams(#5)、深度学习(#6)。第一类别(#0)主要包含中医药事业、按摩手法、建模仿真、中医经典、关联规则、专家控制系统等关键词;第二类别(#1)主要包含图像处理与模式识别、遗传算法、图形图像、移动互联网、远程诊疗系统、全息诊断、激光诊断等关键词;第三类别(#2)主要包含设计要素、辅助诊疗、中医人工智能模型、智能系统、诊疗工具、症状特征等关键词;第四类别(#3)主要包含中医药学语言系统、技术规范、中医临床术语集、术语系统、顶层本体、架构研究、知识图谱等关键词;第五类别(#4)主要包含中医健康管理、系统科学、健康状态、互联网+技术、中医辅助诊疗系统等关键词;第六类别(#5)主要包含中医推拿、新型混合机器人、机器人手臂、动力学建模、遗传算法、控制模型等关键词;第七类别(#6)主要包含治疗方案、强化学习、注意力机制、关系抽取、iso-r辨证模型、语义分析、语义分类等关键词。

图8 中文关键词聚类分析图(Q=0.684 3,S=0.756 4)

时间线视图可以弥补关键词共现图谱和聚类图谱无法呈现人工智能在中医药领域各个聚类发展的时间跨度和研究进度的缺点[13],语义网络、机器学习、人工神经网络、支持向量机、知识工程首次出现在2006—2008年,横跨中医药各个智能领域,且关键词中心性均大于0.1,是各个领域连接的枢纽,可以预测今后将是人工智能在中医药领域的研究热点。(见图9)

图9 中文关键词聚类时间线视图

2.4.2 英文关键词 将“traditional Chinese medicine”“Chinese medicine”“traditional medicine”等同义词进行合并生成由48个节点74条边组成的网络密度为0.068 3的英文关键词共现图谱(见图10、表2)。关键词出现频数最高的是traditional Chinese medicine(60),其次是deep learning(9)、classification(7)、diagnosis(7)、prediction(6)、identification(6)等,结合英文文献中出现的主要突现关键词(见图11),可以发现,2005—2011年的“traditional Chinese medicine”突现强度最高,为该时期人工智能在中医药领域的研究热点。

图10 英文关键词共现图谱

图11 英文文献主要突现关键词

对英文关键词进行聚类后发现Q值=0.231,无法自动生成稳定的聚类群,因此笔者结合关键词及梳理归纳2005—2019年人工智能在中医药领域已发表的英文文献内容,认为可以归纳为两类。第一类:围绕利用各类算法进行中医智能诊断预测疾病进程;第二类:围绕神经网络、机器学习进行各类中药智能识别及分类。

结合关键词时区图可清楚观测该学科领域前沿关键词的出现时间及其关系。2005—2011年,人工智能在中医药领域的发展处于低谷期,关键词较少,主要围绕identification(识别)等研究。2012—2019年,人工智能在中医药领域新兴关键词层出不穷,classification(分类)、diagnosis(诊断)首次出现于2012年和2014年,持续到2019年;deep learning(深度学习)、machine learning(机器学习)、prediction(预测)首次出现于2018年,其中心性和频数短短两年已名列前茅且中心性均大于0.1,预测此类关键词仍是2020年人工智能在中医药领域的研究热点。与前一阶段相比,此阶段更注重人工智能方法的研究,在中医药领域的研究内容也更加具体。(见图12)

图12 英文关键词时区图

2.5 共被引分析文献共被引分析可以通过分析中心性及被引频次找出某一特定领域内的具有重要程度及影响力的文章,由于CiteSpace无法对知网中文献进行文献共被引分析,因此本研究仅对英文文献进行文献共被引分析。被引频次及中心性排名前3位的分别是FENG Y等于2006年发表的"Knowledge discovery in traditional Chinese medicine:State of the art and perspectives"[14]、YAO L等于2015年发表的"Discovering treatment pattern in traditional Chinese medicine clinical cases by exploiting supervised topic model and domain knowledge"[15]及JIANG M等于2012年发表的"Syndrome differentiation in modern research of traditional Chinese medicine"[16]。(见图13、表3)

图13 英文文献共被引图谱

表3 排名前5的高被引文献

3 讨 论

本研究使用CiteSpace 5.6.R1对2005—2019年人工智能在中医药领域发表的相关文献进行统计分析,共纳入中文文献691篇,英文文献168篇,2015年之后中英文文献数量开始逐年递增,2018—2019年增长迅速。笔者认为出现这一情况,一方面是由于中医药越来越受到国内外认可,新兴研究学者增多,另一方面是由于人工智能技术在中医药领域研究日益成熟。

作者合作方面,中、英文文献团队数量均较少,节点连线颜色暖色调偏多,提示科研作者以近年来新兴团队为主,影响力普遍偏低,团队内部学者之间联系密切,团队之间联系较为分散。

机构合作方面,中国中医科学院、北京中医药大学、上海中医药大学中英文文献发文量均排名前3。3所院校均设置了中医信息方面的专业,如中国中医科学院的中医信息学专业、北京中医药大学的信息管理与信息系统专业、上海中医药大学的计算机专业,由此可见,3所院校普遍重视中医信息人才的培养。机构合作模式较单一,主要表现在机构单位内部与二级院所、附属医院合作,不同机构间合作较少,各研究团队及研究机构应当打破研究壁垒,加强与数学、计算机等研究领域资深专家合作,实现多学科融合发展。科研力量地区分布不均衡,主要集中在北京、上海等东部经济发达地区,应加大西部地区科研资金力量投入,加大西部人才引进,缩小东西部科研力量差距。此外,机构和作者的发文量紧密联系,如中国中医科学院于彤、李敬华团队所在成员发文量普遍较高。

关键词方面,人工智能在中医药领域的研究方法主要是数据挖掘、机器学习、深度学习、神经网络及遗传算法,应用领域主要是中医智能诊断及预测各类疾病进程、中药智能识别分类、中医健康养生,研究成果主要是中医养身保健的智能化设备、中医人工智能系统、中医知识库、中医药学语言系统等。关键词聚类方面,共聚为七大类,研究发现该软件自动提取归纳的聚类名称来源于图谱中现有的关键词,部分关键词无法概括每一类别的所有信息,因此笔者在归纳总结的基础上,认为#0、#5围绕通过建模、仿真、控制建设各类中医养身保健的智能化设备,#1、#2、#4围绕通过图像处理与模式识别、遗传算法等技术构建各类中医人工智能系统实现远程诊疗、健康管理的目的,#3、#6围绕通过语义网络、本体、知识图谱等方法实现各类中医知识库、中医药学语言系统的构建,提高各类知识库的查全率和查准率。

从英文文献的影响力和被引用频次来看,被引频次及中心性最高的文章是FENG Y等于2006年发表在Artificial Intelligence in Medicine上的Knowledge discovery in traditional Chinese medicine:State of the art and perspectives,该文章提出人工智能在中医药领域4个应用方面分别为中药方剂研究、中草药研究、中医证候研究和中医临床诊断研究,此后诸多学者围绕这4个方面研究的具体过程进行不懈探索,然而由于国内人工智能技术尚未达到完全成熟阶段及同时具备中医药及人工智能专业知识的复合型人才更是稀缺,整体来看,高被引及高中心性论文较少,随着国家对人工智能技术及中医药人才的重视程度越来越高,人工智能在中医药领域发表文献质量和数量在未来仍然有很大的提升空间。

本研究结果与赵宇平等[17]、罗悦等[18]、杨蕴等[19]研究对比发现,研究热点尚未涉及中医诊疗指南构建、新药研发、疾病归经,出现如此差异的原因主要在于该软件是通过统计文章作者、机构、关键词信息的形式从宏观的角度把握人工智能在中医药领域的热点及前沿,无法对每篇文章具体内容进行详细分析,这与传统综述的写作形式存在较大差别。此外,每篇文章的关键词数量有限且部分文章未设有关键词,以及关键词能否反映文章全部内容仍有待进一步研究。

猜你喜欢
图谱英文聚类
绘一张成长图谱
基于DBSACN聚类算法的XML文档聚类
补肾强身片UPLC指纹图谱
基于高斯混合聚类的阵列干涉SAR三维成像
英文摘要
英文摘要
英文摘要
英文摘要
主动对接你思维的知识图谱
一种层次初始的聚类个数自适应的聚类方法研究