基于双聚类法的医学大数据研究热点分析*

2017-06-05 14:20
中国卫生统计 2017年2期
关键词:主题词发文聚类

范 婷 徐 鹏 娄 岩

基于双聚类法的医学大数据研究热点分析*

范 婷1徐 鹏2娄 岩1

大数据技术越来越多地应用于生物和医疗方向的研究,可为健康医疗领域提供技术支持,促进医疗信息化建设,有利于提高医疗质量[1]。并且大数据时代的到来,开辟了全新的健康及医疗模式,其中个性化就医、预防保健、慢性病护理和智能穿戴设备等等的行之有效地健康管理新模式深入人们的日常生活。而丰富的数据积累能够更有效的提供科学数据支持,从而进一步研究人类全新健康医疗模式[2]。

材料与方法

1.资料来源

本研究采用的样本来自国际权威的医学文献数据Pubmed,检索策略为:“Big data”[Tiab]AND MEDLINE AND(“2011/01/01”[PDat]:“2015/12/31”[PDat])。共检索到867条文献记录,将这些文献用XML格式下载。

2.研究方法

运用书目共现分析系统(bibliographic item co-occurrence matrix builder, BICOMB)[3],获得该主题的发文量、发表年份、期刊分布以及高频主题词,进一步统计每个主要主题词和副主题词出现的频次。考虑到本文收集的文献均与大数据相关,去除“Big Data as Topic”“Male”等没有特殊意义的主题词。统计累计频次的变化,截取出现频次大于10次,累积频次达到22%的主题词。由于这些主题词是出现频率最高的词,可以认为代表了当前该领域研究的热点。

双聚类这一概念是由Hartigan于1972年提出的直接聚类算法(simultaneous clustering,同时聚类),对矩阵中的实例和变量同时进行聚类,聚类的结果与数据矩阵直接相关。有效地改善了传统聚类算法在单一维度上的聚类,实现了主题词-文献标题两个方向的同时聚类,通过文献题目聚类,更容易突出具有代表性的文献标题,从而获得该领域前沿文献。为进一步反映这些主题词之间的关系,统计其出现的频次,形成主题词-来源文献矩阵并导入G-CLUTO1.0软件进行双向聚类,通过对构建的高频主题词-来源文献矩阵进行分析,生成高频主题词的共词聚类山峰图和可视化双聚类词篇矩阵热图,该聚类图可以反映高频主题词以及来源文献之间的亲疏关系,进而获得该领域研究的热点[4-5]。

结 果

1.发文量分布

检索得出2011-2015年医学大数据相关文献867篇,其变化趋势见图1 ,从发表文章数量上看,2011年开始发文量在逐渐增加,2014年开始迎来大数据研究的高峰期,发文量逐年增加,每年达到300篇以上。

图1 2011-2015年医学大数据相关论文发文量变化趋势图

2.期刊分布

对2011-2015年刊载医学大数据这一主题文献的期刊分布情况进行统计分析,排名前10种期刊的载文量累计超过了178篇,占总文献量的19.84%,见表1。

表1 文献期刊分布

对2011-2015年刊载医学大数据这一主题文献的发表国家进行统计分析,相关文献发文量超过10篇的国家有6个,其载文量达到852篇,占总文献量的95.40%,见表2。

表2 发文量世界分布情况

3.高频主题词及共词聚类结果

本研究截取出现频次高于10次的32个高频主题词的中文译名按照中国医学科学院医学信息研究所出版的《医学主题词表( MeSH)》中译本进行翻译,如表3 所示。

4.聚类结果分析

经多次双聚类实验,发现将数量设定为10时的聚类结果,簇内平均相似度较高,簇间平均相似度较小。从聚类山峰图的整体布局来看,聚类的效果较为理想。

表3 高频词汇表

图2是医学大数据领域发表文献的双向聚类结果,左侧聚类树代表高频词汇聚类结果,32个高频主要主题词/副主题词列在图的右侧显示。顶端聚类树代表包含高频词汇的文章标题聚类,每一个方格的颜色深度表示所在列对应的论文中,该行所对应的高频主题次出现频次。颜色越深,出现的频次越高。空白区域代表该主题词的出现频次为0。

通过对高频主题词汇以及各类中具有代表性文献的解读,得出该领域现阶段3大热点研究方向。

医学大数据在社会行为学方面展开的研究,包括18,29,22,13号主题词。例如,MoatHS等在线收集海量真实数据,通过宾利模型研究,提出大数据可为预测风险评估、集体决策支持提供意见[6]。Grossglauser M等通过三个没有人工干预的实验,提出了大数据驱动的医疗保健的重要特定的方面:自主决策,并设计模型来解决预测过程中自主决策带来的不确定性[7]。Palomino M等人收集社交媒体Twitter上超过175000信息发布,将情绪分析应用于测量积极、中性或负面情绪,从而映射广泛传播对用户心理健康的巨大影响[8]。

信息化环境下医学大数据在生物医学及基因组学方面的探索,包括20,17,16,7,32,16号主题词。Decock A等将大数据应用于NB的比较基因组学研究,通过CpG岛的甲基化测序得出找到全基因组中就发生甲基化的区域,并证实NB相关基因存在甲基化水平的改变[9]。Canela XO等针对470000个个体的590004个SNPs(单核苷酸的多态性)位点,通过混合线性模型预测相关表型,实验表明DISSECT软件在大样本量的条件下,用于基因型分析,预测精准率可高出理论最大值的80%[10]。Paten B等认为基因组测序成本的逐渐下降使得基因大数据的快速累积,同时基因测序技术与大数据分析技术的快速发展使得精准医疗概念下的精准预防、精准诊断以及真正的个体化治疗模式逐渐成为当前研究焦点[11]。

图2 医学大数据相关论文树状双聚类图

针对医学大数据统计分析、挖掘与应用,包括9,2,8,15,12,26,23,21,25号主题词。例如,Margolies LR等通过对乳腺癌影像大数据的采集和分析,得出医学大数据有助于乳腺癌遗传学筛查和优化筛选算法[12]。在英国血液医学领域,Pendry K等通过电子健康记录和临床新病例的大数据集,设计了一套医学大数据管理信息系统,结合患者的血液管理关键指标和库存,拟定用血量和手术顺序,提高效率和减少资源浪费[13]。Ramos MA等将数据挖掘算法引入患者听力诊断,设计预测模型并结合听力测试,对植入双侧人工耳蜗的患者听力进行评估[14]。

讨 论

根据2011-2015年国际医学大数据相关文献的发文量随时间的变化趋势看,大数据在医学领域的相关研究热度在逐步上升。该领域的发文量在2010-2012年处于较低的水平,但经过了2013年的发展后,于2014达到每年300篇以上。该主题研究热度在近年的迅速增强,可能与大数据与医学结合的广泛应用有关。因此应该重视这方面的研究,才能让大数据在卫生领域得到长足的发展。

2011-2015年期间多种期刊发表了867篇医学大数据相关领域的文章,排名前10 种期刊的载文量占总文献量的19.84%,说明该主题文献主要发表在本领域核心期刊上,呈现一定的聚集性,而统计学和医学信息学专业期刊,以及社会行为学期刊刊载数量最多。

本研究基于双聚类法讨论了国际上2011-2015年大数据在医学领域的研究热点和趋势。得到当前医学大数据研究的热点主要集中在:医学大数据在社会行为方面展开的研究,信息化环境下将医学大数据应用于生物医学领域和基因组学的探索,医学大数据统计分析、挖掘与应用。

[1]高汉松,肖凌,许德玮,等.基于云计算的医疗大数据挖掘平台.中国数字医学,2013,5:7-12.

[2]Peters SG,Buntrock JD.Big data and the electronic health record.The Journal of ambulatory care management,2014,37(3):206-210.

[3]崔雷,刘伟,闫雷,等.文献数据库中书目信息共现挖掘系统的开发.现代图书情报技术,2008,(8):70-75.

[4]方丽.利用双聚类算法探测综合医学与内科学知识基础及研究前沿.中华医学图书情报杂志,2016,(9):28-33.

[5]崔雷,方丽,王林.国内医学信息学院系科研热点分析及其与国际研究热点的比较.医学信息学杂志,2013,(3):2-10.

[6]Moat HS,Preis T,Olivola CY,et al.Using big data to predict collective behavior in the real world.Behavioral & Brain Sciences,2014,37(1):92-93.

[7]Grossglauser M,Saner H.Data-driven healthcare:from patterns to actions..European journal of preventive cardiology,2014,21(2):14-17.

[8]Palomino M,Taylor T,Göker A,et al.The Online Dissemination of Nature-Health Concepts:Lessons from Sentiment Analysis of Social Media Relating to “Nature-Deficit Disorder”.International Journal of Environmental Research & Public Health,2012,13(1):142.

[9]Decock A,Ongenaert M,Van CW,et al.DNA methylation profiling of primary neuroblastoma tumors using methyl-CpG-binding domain sequencing.SCIENTIFIC DATA ,2012,2(3):4.

[10]Canela XO,Law A,Gray A,et al.A new tool called DISSECT for analysing large genomic data sets using a Big Data approach.Nature communications,2015,(6):10162.

[11]Paten B,Diekhans M,Druker BJ,et al.The NIH BD2K center for big data in translational genomics.Journal of the American Medical Informatics Association,2015,22(6):1143-1147.

[12]Margolies LR,Pandey G,Horowitz ER,Mendelson DS.Breast Imaging in the Era of Big Data:Structured Reporting and Data Mining.American journal of roentgenology,2015, 206(2):259-264.

[13]Pendry K.The use ofbig data in transfusion medicine.Transfusion medicine(Oxford,England),2015,25(3):129-137.

[14]Ramos MA,Perez ZT, Perez Dl,et al.Use of data mining to predict significant factors and benefits of bilateral cochlear implantation.European archives of oto-rhino-laryngology,2015,272(11):3157-3162.

(责任编辑:郭海强)

2014年辽宁省教育厅科学研究一般项目 (项目编号:L2014291)

1.中国医科大学公共基础学院(110122)

2.解放军463医院呼吸内科

猜你喜欢
主题词发文聚类
关键词的提取与确定
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
基于K-means聚类的车-地无线通信场强研究
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
取消公文主题词的真正原因是什么?