邓君 孙绍丹 常严予 宋先智 邓宝成
关键词:冠状病毒;主题建模;网络分析:历时性分析
2020年,突如其来的新冠病毒(COVID-19)席卷全球,对全球经济和社会发展带来了巨大挑战。COVID-19暴发也引起了学术界对冠状病毒的研究热潮。科学家作为抗击病毒的一线者,积极投身于科研中,发表了大量冠状病毒研究论文。这些研究成果并非一蹴而就,是一个历时性的知识继承过程。COVID-19作为冠状病毒的一种,备受全世界科研人员瞩目,探讨冠状病毒科学论文主题规律对推动COVID-19科研进步具有重要的意义和价值。从美国的白宫科技政策办公室(Office of Science andTechnology Policy,简称OSTP)推动创建的CORD-19数据集看,学术界大概从20世纪50年代开始进行冠状病毒研究,并以多样化视角积极探索病毒基本原理及预测模型应用等相关主题。新冠疫情下.推动冠状病毒科学研究发展成为重要的命题,在此命题下亟待精准把握冠状病毒研究的动态趋势及关注焦点,探索应对冠状病毒的科研发展之路,为该领域科研人员做出创新性成果提供参考思路。
鉴于此,本文以OSTP推动创建的CORD-19数据集为例,根据3个典型冠状病毒(2003年非典型肺炎(SARS)、2012年中东呼吸综合征(MERS)、2019年新型冠状病毒(COVID-19))暴发时间将其划分为4个时间段(1955-2002、2003-2011、2012-2018、2019-2020),运用LDA主题建模和网络分析方法,从语义层面解读每个阶段冠状病毒的主题内容规律、主题文档分布规律、主题作者网络规律,从历时性视角检视1955-2020年冠状病毒整体的主题演变态势.总结归纳冠状病毒科学论文的主题规律,把握冠状病毒的总体研究方向和聚焦点,推动该领域的科研进步及创新。
1相关研究
新冠疫情下,不同学科专家从不同视角探讨新冠疫情应对之策。其中图情领域学者主要从信息情报、科学计量学视角分析疫情防控路径,一是探讨疫情信息的治理问题,如《图书情报知识》和《信息资源管理学报》两刊联合策划推出了专稿“突发公共卫生事件中的科学应对与思考:图情专家谈新冠疫情”,从社会风险感知与公共危机预警、应急舆情分析与应急信息综合治理、疫情虚假信息甄别、疫情数据应用与治理、对抗疫情的科技信息共享与支持、疫情相关科研成果发表与传播角度出发,围绕“疫情信息”展开,凸显图情学科在疫情防控中的优势。二是探讨情报理論在疫情防控中的应用,如苏新宁等从情报体系视角阐明情报在疫情防控中的作用机制,分析了3个应急阶段情报流对疫情防控的精准刻画及疫情全局演变规律的揭示。曹振祥等阐述了新冠肺炎疫情防控中应急情报服务模式。三是分析图书馆在疫情防控下的应对策略.提出新冠疫情下图书馆如何为用户提供服务策略,转变传统的服务模式。四是从科学生产和计量学角度探讨疫情相关文献的科研合作及开放原则,如Belli S等借助VOSviewer工具分析了Web of Science上的18875篇冠状病毒文献.分析在这一主题上的国际科学合作机构情况,并讨论了冠状病毒文献开放获取的比例和类型。ZhangL等通过对过去20年间关于5种病毒的32000篇文献进行计量分析,发现学术界对突发公共卫生事件反应迅速,发表的论文数量迅速增加。HomolakJ等选择PubMed数据库3631篇文献和Scopus数据库1528篇文献,探讨科研成果的开放问题,呼吁科学家采取开放透明方式加强文献的共享和交流。Torres-Salinas D探讨了Dimensions、Web ofScience Core Collection、Scopus、PubMed和8个存储库中关于COVID-19的出版物刊登文献数量,结果发现Dimensions出版物总数为9 435份(69%为同行评议和2677份预印本),远远高于Scopus(1568份)和WoS(718份),且有关COVID-19的3/4的出版物是开放获取的。
综上,图情界学者从本学科视角对COVID-19进行了相关研究,主要以情报理论助力疫情防控、图书馆等实体机构应对策略、传统计量学视角分析文献特征等研究为主。其中,计量学研究主要集中于文献的元数据特征,如核心作者识别、机构合作情况探讨、文献开放获取比例等,尚未深入到文献内容语义层面。因此,本文在此基础上引入主题、时间、网络元素,通过主题建模和网络分析方法,以OSTP推动创建的CORD-19数据集为例,挖掘冠状病毒相关文献的阶段性主题内容特征,探索文献主题分布规律以及解构核心作者的主题态势,从语义层面解读冠状病毒的主题规律,以期推动冠状病毒研究的进步。
2研究方法及设计
2.1研究方法
2.1.1 LDA主题建模
隐含狄利克雷分布LDA(Latent Dirichlet Allo.cation)是由Blei D M等于2003年提出的一种特殊的主题模型,也称为三层贝叶斯概率模型,包含词、主题和文档3层结构,现已成为最流行的主题建模方法。图1展示了LDA主题建模的基本原理。
2.1.2网络分析
网络是由节点和边构成的关系图,通过平均度值、中心性、网络规模、连通性、聚类系数、平均路径长度和网络密度等指标衡量网络结构特征。本文借助网络分析方法解读冠状病毒科研成果中作者之间的网络关系结构特性,并通过Gephi揭示作者与研究主题之间的网络关系特征.试图明晰不同时间段内冠状病毒不同研究主题下有代表性的作者群体,为该领域学者提供冠状病毒研究基础态势分析,助力科研工作者了解冠状病毒领域的突出性研究成果,进而催生冠状病毒研究新的生长点。
2.2研究设计
冠状病毒科学论文主题演变规律的历时性分析设计如图2所示,共分为5步:
1)数据来源:OSTP推动构建的COVID-19研究数据集。
2)数据清洗:采用Pandas和Gensim包对数据进行停用词及词形还原处理。
3)创建字典及语料库:利用Gensim包中doc2bow词袋模型构建词典。
4)冠状病毒科学论文主题建模:运用LDA主题建模分别对4个时间段内主题内容和主题文档分布规律进行分析。
5)冠状病毒科学论文主题作者网络分析:应用Gephi分析4个时间段内主题作者网络关系。
3冠状病毒科学论文主题建模
3.1数据来源
本文以OSTP发布的CORD-19数据集为数据源。该数据集由艾伦人工智能研究所、陈·扎克伯格倡议、乔治敦大学安全与新兴技术中心、微软研究院、美国国立卫生研究院国家医学图书馆与美国白宫办公室合作创建,包括PubMed的PMC开放获取语料库、世卫组织(WHO)维护的语料库、bioRxiv和medRxiv预印本文库中47000余篇学术论文.涉及COVID-19、SARS-CoV-2和相关的冠状病毒研究。在CORD-19发布后,Kaggle紧随其后发起CORD-19数据集文本挖掘竞赛,提出十大难题.召唤AI研究人员开发文本数据挖掘工具助力医学界。同时,也有很多科研成果在用CORD-19数据集进行研究。根据图3冠状病毒论文发表态势,结合3种典型的冠状病毒(SARS一2002.12,MERS-2012.9,COVID-19-2019.12)暴发时间,将研究数据划分为4个阶段,即1955-2002、2003-2011、2012-2018、2019-2020,分別分析4个阶段冠状病毒的研究主题。表1是各个时间段冠状病毒发文量。
3.2数据预处理
使用Pandas包去空值,保留字段[‘title,‘ab.stract,‘authors,‘journal,‘publish_year],正则表达式处理pulish_year列,只保留年份信息,按时间排序处理,如表2所示。
3.3创建字典和语料库
首先,利用Gensim预处理函数将所有词汇处理成小写,并创建Bigrams模型;其次,采用N1TK中stop words模块去停用词,Spacy库进行词形还原,只取名词、形容词、动词和副词;接着用cor.pora.Dictionary函数创建字典;最后,用词袋模型doc2bow创建语料库,如图4所示。
3.4模型训练
本文的实验环境是Python3.6,使用工具是Gensim包models.1damodel.LdaModel。由于LDA主题建模是典型的无监督模型,主题个数是重要的参数输入。为避免模型欠拟合或过拟合,通过训练多个模型,交叉验证选取最优主题个数。采用主题一致性Coherence Score和困惑度Perplexity双重评价指标,如图5、图6所示,并综合两个指标选取主题数较少、一致性分数较高和困惑度较低的主题数。
由图5、图6可知.1955-2002年Num Topics=10时,模型Coherence Score分数最高,Perplexity较低,因此选择10作为模型训练的主题数;2003-2011年Num Topics=18时.模型Coherence Score分数最高,Perplexity较低.选择18作为模型训练的主题数:2012-2018年Num Topics=15~20时,模型Coherence Score分数最高,Perplexity较低,在比较15和20类别的主题聚类图后选择20作为模型训练的主题数,相对较优。2019-2020年NumTopics=12时,模型Coherence Score分数最高,Per-plexity较低,在比较12和20类别的主题聚类图后选择12作为模型训练的主题数,相对较优。
4冠状病毒科学论文主题规律分析
4.1冠状病毒主题内容规律
通过LDA主题建模生成各主题类别主题词,主题词代表了该主题下冠状病毒研究的聚焦点,通过分析各主题类别的主题词总结归纳该阶段冠状病毒研究热点。表3~6中。表示和传染病医学领域研究者咨询后保留的主题词,能代表该领域的研究触点。部分字母的缩写形式经过医学专业者判定,给予了恰当的解释。Topic表示主题类别,Topic-words表示主题词.每个Topic下保留概率排在前10位的主题词。
4.1.1 1955-2002年主题内容分析
主题建模后该时间段内选择10个主题。根据表3,该阶段研究主要集中于冠状病毒核糖核酸、基因序列、蛋白质、人类病毒感染一细胞、抗体疫苗、菌株分离、鼠肝炎冠状病毒、猪传染性胃肠炎病毒、鸡传染性支气管炎病毒、牛病毒性腹泻病毒、病人呼吸道系统感染等。从这些主题词可以看出,研究者主要关注冠状病毒基本机理研究、冠状病毒动物模型研究、病毒抗体及疫苗研发、病毒菌株、临床试验及流感等。表现载体主要是呼吸道系统和消化道系统,且该阶段属于冠状病毒发现及确认初期,主要存在于动物疾病中.如鼠肝炎冠状病毒。
4.1.2 2003-2011年主题内容分析
主题建模后该时间段内选择18个主题。根据表4,该阶段有代表性的主题词有:SARS、抗体疫苗、药物治疗、蛋白质、细胞、蛋白酶活化性、病原体、宿主、研究论证、病人感染、DNA、变异、流行病、急性呼吸道系统感染、控制传染病暴发、小世界网络模型、病毒感染、核糖核酸、基因序列、菌株分离、样本实验等。从这些主题词可以看出,学者研究焦点在SARS、病毒基本机理、抗体疫苗、病原体宿主、病毒变异、大量研究论证、数学统计模型、人类病毒感染等。较1955-2002年,该阶段出现了之前尚未研究的触点,如药物治疗、网络模型、病原体宿主、基因变异、大量论证等,这是由于SARS暴发,出现典型的人际传播现象,冲击了卫生保健系统。此阶段强化了对冠状病毒微观结构、DNA研究,且对病原体、宿主、变异、药物治疗研究成为热门主题,同时小世界模型给病毒传播网络研究提供了学术动力。
4.1.3 2012-2018年主题内容分析
主题建模后该时间段内选择20个主题。根据表5,该阶段的主题词有血液、治疗、病毒传播监测、蛋白活性、宿主、病毒试验、细胞、免疫、病毒感染、病原体、病毒基因、抗病毒干扰素、RNA基因、蝙蝠、病毒宿主、数据论证、严重急性呼吸道疾病、治疗策略、流行性感冒、病毒菌株分离、抗体、疫苗、病毒暴发危险、网络模型预测等。据此分析,研究者将研究触点聚焦于病毒基本机理、抗体疫苗、病毒宿主、干扰素研究、大量研究论证、病毒引发的衍生灾害预防、网络传播模型预测等。这一阶段除继承上述两阶段的研究内容外,较为突出的是对SARS蝙蝠宿主的重大发现.抗病毒干扰素研究及暴发于中东的MERS冠状病毒。
4.1.4 2019-2020年主题内容分析
主题建模后,该阶段选取12个主题。根据表6,该阶段的主题词有COVID、城市、网络、信息、医疗、秩序、趋势、服务、意大利、死亡、阳性、阴性、措施、传播、模型预测等,这些主题词也同样有别于前3个时间段,COVID病毒引发全世界关注,意大利成为关注焦点。新冠病毒相较于SARS和MERS,具有更强的传染性,人际传播周期短,因此,对于病毒的检测和切断传染途径的方法成为重中之重。这时期除了对冠状病毒医学原理方面的研究,更关注通过模型预测病毒传播速率,控制病毒传播,完善卫生健康服务体系,改善医疗卫生服务系统,侧重从防控视角研究冠状病毒带来的衍生危害。
4.2冠狀病毒主题文档分布规律
本文随机选取4篇文档,绘制其文档一主题分布图,如图7所示。可以看出,所选文档的某1个或2个主题概率相比其他主题概率高出许多.即文档均存在焦点主题,说明训练出来的主题模型可以很好地表示文档主题,具有代表性。
同时,本文根据文档一主题分布计算了不同时间段内同一主题文档概率的平均值,以及各主题类别的文档规模,并绘制折线图,如图8所示,横轴显示主题类别,纵轴显示主题强度概率值(左侧)和主题规模概率值(右侧),圆形折线表示主题强度,方形折线表示主题规模。可以看出,1955-2002年.主题0和主题9强度最大,前者是有关RNA核糖核酸和基因序列研究,后者是有关病人呼吸道系统感染研究;主题5文档规模最大,即研究者着重于人类病毒感染及细胞相关研究。2003-2011年,主题强度总体差别不大,主题3、6、7、9、17相对较高,即对冠状病毒蛋白质、人类病毒感染、流行病及病毒样本检测等研究更为突出;主题6文档规模最大.说明该阶段主要以冠状病毒研究论证的文献为主。2012-2018年,主题3、6强度最高,即对蛋白、宿主、细胞、免疫研究较为突出;主题3文档规模最大,说明该阶段冠状病毒蛋白研究文献相对较多。2019-2020年,主题1作为规模最大、强度最高的类别,说明学者对COV.ID流行病暴发所引发的一系列衍生问题研究众多,关注焦点主要以疫情防控举措为主。
总体来看,主题强度和主题规模分布几乎呈正比关系,即主题强度越大,主题规模也相对较大。另外.从1955-2020年对冠状病毒的研究主题规模和强度曲线可以看出.冠状病毒研究初期较为关注病毒机理及作用机制研究,2003年SARS暴发后,对人类病毒感染及检测研究更为关注.2012年MERS暴发后,学者对病毒宿主和免疫学研究更为突出,而2019年COVID-19暴发后,学者们的关注焦点是从药物治疗、医疗保健系统、卫生社区、心理疏导等各方面防控疫情。
4.3冠状病毒主题作者网络规律
通过选取1955-2020年发文量较高的第一作者数据,分阶段对主题与作者进行关联分析,解构冠状病毒领域论文产量较高的作者所研究的主题,进而归纳该领域的关注焦点及动态趋势。
4.3.1
1955-2002年核心主题一作者规律
该阶段选取发文量10篇以上(含10篇)的第一作者,所发论文主题类别如表7所示。可以看出.10篇以上发文量的作者有6位,每个作者关注的冠状病毒主题有所差异。其中美国疾病控制中心病毒性和立克次氏体疾病部呼吸道和肠道病毒科Hierholzer JC研究主题类别最多。魁北克大学医学中心Dea S发文量最多。南加州大学医学院霍华德·休斯医学研究所和微生物学系Makino S研究主题类别最为集中。
通过Gephi绘制作者、主题网络图,如图9所示,节点表示作者和主题,边表示作者和主题关系,节点大小表示作者关注主题类别多样化程度.节点越大说明作者关注冠状病毒主题类别越多样化,反之亦然。边粗细表示作者所发论文归属主题类别的多少,边越粗,表明作者越聚焦于该主题研究。
图9中,Hierholzer J C节点最大,说明该作者关注冠状病毒主题类别较多,集中于主题2、3、4、5、7、8、9,其中主题5边最粗,即对人类病毒机理及细胞研究较多,如分析了NCI-H292人肺粘液表皮样细胞对呼吸道病毒和其他人类病毒的敏感性;探讨了两种最常用的病毒分离方法,即组织培养和胚胎卵子、病毒抗原研究及人类冠状病毒229E的纯化和生物物理性质等。同时也对鼠肝炎病毒对幼鼠致死性肠炎的影响做了相关研究。Makino S边最粗,其研究集中于主题0,即RNA核糖核酸、基因序列等,主要聚焦于小鼠肝炎冠状病毒的RNA结构及重组研究。DeaS发文量最多,研究主题为2、5、6、8、9,对主题2和6研究较为充分.即蛋白和传染性胃肠炎病毒研究。作者详尽分析了冠状病毒蛋白合成、加工、鉴定、定位研究,又深入探讨了牛腹泻冠状病毒和猪腹泻冠状病毒机理。主题5探讨了动物冠状病毒细胞结构.主题8探讨了动物冠状病毒的毒株分离问题。Taguchi F主要研究主题是0、5、4、2,即小鼠冠状病毒的基因结构、细胞、基因等。Charley B主题类别5边最粗,即对冠状病毒细胞特征研究较多。StohlmanSA也是主题5边最粗,即主要研究冠状病毒细胞结构特征。
4.3.2 2003-2011年核心主题一作者规律
该阶段选取发文量高于10篇的第一作者.共8位作者,如表8所示。可以看出,意大利巴里大学兽医学院公共卫生系Decaro N发文量最多.共26篇。香港大学新发传染病国家重点实验室研究院Woo P C Y研究主题类别最多。Lau J T F、Nish.iura H、Cunha B A研究主题较为集中。香港大学微生物学系Du L Y关注主题类别相对分散。
绘制8位作者主题网络图,如图10所示,节点和边表示内容与图9一致。由图10可知,WooPCY节点最大,其关注主题类别最多,且对应主题6的边最粗.说明作者聚焦于冠状病毒研究论证等内容,具体如冠状病毒基因组学和生物信息学分析。另外对SARS、样本检测、细胞、RNA基因序列也有所研究。Decaro N对应主题6、17边最粗,表明该作者集中于研究论证和样本实验,主要是对犬细小病毒病理、牛冠状病毒等进行论证及样本分析。Nishiura H对应主题11边最粗,即更关注如何控制、评估、预测流行病暴发。同理,Cunha B A对主题7研究最多,主要对社区获得性肺炎临床诊断等有较多研究。Du L Y对应主题6边最粗,主要研究SARS疫苗、抗体、细胞、蛋白等。Lau J T F聚焦于主题7和9.主要研究SARS流行病传播感染情况及其对香港市民就医行为的社会影响,以调查研究为主。Lau S K P聚焦于主题6和17,分析蝙蝠基因及作为SARS冠状病毒宿主的研究论证。RenX F研究主题较为分散,主题6相对较多,主要以传染性胃肠炎冠状病毒作用机制及RNA研究为主。
4.3.3 2012-2018年核心主题一作者规律
该阶段发文10篇以上的作者最多,有10位,如表9所示。沙特阿拉伯达兰医疗中心A1-Tawfiq JA发文量最多,北里大学兽医医学院兽医传染病实验室Tulchinsky T H.俄亥俄州立大学兽医预防医学系Theodore H、Jung K和北卡罗来纳大学流行病学系Menachery V D研究主题较为集中,香港大学微生物学系Lau S K P和北里大学兽医学院兽医传染病实验室Takano T关注主题类别相对较多。
绘制图11,可以看出,Lau S K P主要关注主题15和16,即MERS病毒和SARS病毒基因及宿主研究。Takano T节点大小仅次于Lau S KP,即关注主题类别相对较多,其中主题3和12边较粗,聚焦于猫冠状病毒蛋白、抗体、胆固醇研究。A1-Tawfiq J A对应主题7、13、18边最粗,主要研究MERS流行病学和控制疾病暴发措施_。Tulchinsky T H聚焦于主题2,关注公共卫生健康系统的规划和管理以控制和检测病毒传播扩散。Menachery V D集中于主题3研究,即蛋白和宿主,主要以MERS蛋白、干扰素及宿主研究为核心。Jung K以主题15和6为主,详细研究了猪流行性腹泻冠状病毒的病因学、流行病学、发病机制、免疫预防及细胞分子。Decaro N主要以犬细小病毒的流行病学和诊断方面研究为主。Memish zA以主题15、18为主分析了MERS病毒基因及感染人群。Burrell C J以主题3、7为主对病毒学的历史和影响、流行病学、发病机制及冠状病毒有较多研究,且侧重于概念追溯及原理结构。Cann A J专注于分子病毒学原理、病毒基因组结构和核苷酸序列及遗传机制研究。
4.3.4 2019-2020年核心主题一作者规律
该阶段虽然时间间隔短,但COVID-19疫情引发大量关注,科研人员对其研究短时间内激增。据本文数据源,截至2020年3月13日,此阶段已有12000篇左右文献。选取发文9篇以上的有影响力的核心作者,如表10所示,并绘制核心作者主题网络图,如图12所示。可以看出,作者普遍对主题1(COVID流行病暴发及衍生问题)关注度最高,主题较为集中。其中Nature发文最多(主要以实时动态消息为主),说明对COVID-19时刻关注.且发布多条关于疫情数据信息及最新研究动态,如冠状病毒首次在非洲发现感染;截至2020年2月10日中国新冠死亡人数(900多人)超过SARS:研究人员应对COVID一19疫情的4种方式等。Knopf A关注COVID-19衍生的心理健康问题、药物治疗对策。Canadv V A聚焦于解決无家可归者的资助问题、病患心理健康、敦促政府加大防护设备资金投入等研究。Michael L P对COVID-19药物治疗及抗体测试等方面进行了大量研究。MacKenzie D分析了COVID-19给卫生医疗系统带来的压力及如何控制新冠疫情大规模暴发。Vaughan A呼吁采取严格措施阻止新冠疫情扩散,分析了疫情引发的次生灾害如工厂关闭、企业停产等。
5结论
本文对1955-2020年冠状病毒科学论文主题演变规律进行论述,综合运用主题建模和网络分析方法,从语义层面揭示4个阶段内冠状病毒的主题内容规律、主题文档分布规律、主题作者网络规律。本文主要研究价值和贡献如下:
1)借由LDA主题建模技术挖掘冠状病毒研究领域中的关键主题和热门主题.以此揭示冠状病毒学术界研究聚焦点,解构主题内容和文档分布规律.系统地梳理1955-2020年冠状病毒相关研究文献,对冠状病毒领域知识创新服务起到重要的辅助决策支持作用。
2)融合网络和主题两个维度,解析冠状病毒领域高产学者研究主题内容之间的网络关系,拓宽传统的以引文方式研究领域作者网络关系路径。通过构建主题一作者关系模型,多角度挖掘高产学者核心主题研究内容.了解冠状病毒领域有代表性专家的研究主题动态和方向,为未来探索冠状病毒研究提供思路和启发。
3)嵌入时间要素.以历时性分析视角切入冠状病毒研究主题内容。按3种典型冠状病毒暴发时间划分阶段,解构不同历史时期冠状病毒研究的差异点和着力点,分析冠状病毒主题演变特征。从研究结果可以看出,冠状病毒基因、RNA、病原体和宿主等基础原理研究一直是重中之重。随时间推移,研究逐步由浅入深,研究层次逐渐多元化。同时,医学技术进步、数理统计模型、复杂网络模型、信息服务系统、疫情防控服务体系构建、国际合作等要素是推动冠状病毒研究进步的重要动力。尤其是COVID-19下,主题聚焦点转向病毒检测及防控方面,从完善卫生健康服务体系、改善医疗卫生服务系统、切断病毒传播路径等层面避免冠状病毒带来的衍生危害。
4)发挥图情学科优势,为冠状病毒研究贡献绵薄之力。新冠疫情下,冠状病毒作为当前学术界持续关注的焦点,备受瞩目。本文从图情学科视角对冠状病毒文献进行组织和整合,系统地梳理了1955-2020年冠状病毒研究文献.以此了解冠状病毒历史研究发展路径.推动该领域研究实现新的突破。
本文也有局限之处,数据源选取的是OSTP发布的CORD-19数据集,该数据集实时更新。本文选取的是2020年3月13日版本,因此,未来将会扩充2020年的数据集,针对COVID-19数据集做进一步详尽分析。