基于LDA主题模型的文献特征项多重共现可视化方法

2022-06-14 01:08:19翟君伟瞿英郭菲刘滨

河北科技大学学报 2022年2期

翟君伟　瞿英　郭菲　刘滨

摘要：文獻计量学是运用数学和统计学方法对文献知识单元进行定量分析、揭示文献内部知识内容的一门科学。共现网络分析是文献计量研究中分析文献特征项数据关系的一种可视化方法，根据被分析特征项的数量分为单重共现网络分析和多重共现网络分析。与单重共现网络分析相比，多重共现网络分析增加了特征项的维度，对文献知识的呈现更加深入。但是，由于被分析特征项维度的增加，导致共现网络中的节点数量增多，节点间连线重合度和交叉频率过大，降低了文献计量可视化的效果。因此，目前文献计量共现网络分析主要以单重共现为主，多重共现网络分析可视化效果尚有待提升。

为解决多重共现网络中节点过多、连线密度过大、不利于发现数据价值以及可视化效果较低等问题，引入LDA主题模型，采用空间划分的方法，将特征项全域可视化的问题转化为子空间可视化问题。首先，使用SATI文献题录信息分析软件抽取文献关键词，进行TF-IDF计算，以计算结果作为实验数据;其次，使用Python构建主题模型，对目标文献集合进行主题聚类分析;最后，使用Ucinet软件对不同主题子空间文献进行多重共现分析，并将子空间分析结果叠加和重构，完成多重共现可视化系统的结构化表达。结果表明：与原多重共现可视化方法相比，在内容呈现等价的前提下，基于LDA主题模型的多重共现可视化改进方法由于缩小了多重共现网络分析系统的规模，即子空间文献数量与特征词数目，因而降低了共现网络中的节点数量和节点间连线密度，使得多重共现可视化系统的结构更为清晰，增加了数据的可读性，突出了数据价值，有效提升了多重共现可视化效果。因此，多重共现可视化改进方法在一定程度上可以推进文献构成元素在多重组合知识挖掘方面的深入研究，提高不同领域文献计量的实证研究质量。

关键词：管理计量学;LDA主题模型;多重共现分析;Ucinet;可视化

中图分类号：G353.1 文献标识码：A

Abstract：Bibliometrics is a science to quantitatively analyze literature knowledge units by using mathematical and statistical methods and reveal the internal knowledge content of literature.Co-occurrence network analysis is a visual method to analyze the data relationship of document characteristic items in bibliometric research.According to the number of analyzed characteristic items，it can be divided into single co-occurrence network analysis and multiple co-occurrence network analysis.Compared with single co-occurrence network analysis，multi co-occurrence network analysis increases the dimension of feature items and presents literature knowledge more deeply.However，due to the increase of the dimension of the analyzed feature items，the number of nodes in the co-occurrence network increases，and the connection coincidence degree and crossover frequency between nodes are too large，which reduces the visualization effect of literature measurement.Therefore，at present，the bibliometric co-occurrence network analysis mainly focuses on single co-occurrence，and the visualization effect of multiple co-occurrence network analysis needs to be improved.In order to solve the problems of too many nodes，too large connection density，disadvantage of discovering the value of data and low visualization effect in multi co-occurrence network，LDA topic model was introduced and the method of spatial division was adopted to transform the global visualization problem of feature items into subspace visualization problem.Firstly，the key words were extracted by using sati document title information analysis software，and the TF-IDF calculation was carried out.The calculation results were taken as the experimental data.Secondly，Python is used to construct a topic model for topic cluster analysis of the target literature set.Finally，Ucinet software was used to analyze the multiple co-occurrence of subspace documents with different topics，and the subspace analysis results are superimposed and reconstructed，so as to complete the structural expression of the multiple co-occurrence visualization system.The results show that compared with the original multi co-occurrence visualization method，the improved multi co-occurrence visualization method based on LDA topic model reduces the number of nodes in the co-occurrence network and the connection density between nodes due to the reduction of the scale of the multi co-occurrence network analysis system，that is，the number of documents and feature words in the subspace.It makes the structure of the multi co-occurrence visualization system clearer，increases the readability of the data，highlights the data value，and effectively improves the multi co-occurrence visualization effect.To a certain extent，this study can promote the in-depth research on knowledge mining of multiple combinations of literature constituent elements，and then improve the quality of empirical research on literature metrology in different fields.

Keywords：management metrology;LDA topic model;multiple co-occurrence analysis;Ucinet;visualization

文献计量学是指运用数学和统计学的方法，定量分析一切知识载体的交叉科学[1]，其分析对象包括文献量（各种出版物，尤以期刊论文和引文居多）、作者数（个人、集体或者团体）、词汇数（各种文献标识，其中以叙词居多）。近年来，文献计量方法逐渐受到学者们的广泛关注，发文量不断增多。登录中国知网，对主题为“文献计量可视化”的文献进行检索，共得到692篇核心期刊文献，其中563篇文献使用共现网络分析方法对文献特征项关联关系进行了计量分析。可见，共现网络分析是文献计量学中的常用方法。

根据被分析特征项数量，共现网络分析可分为单重共现（同一特征项共现）和多重共现（不同特征项共现）[2]。尽管共现网络分析研究得到学术界的普遍认同，但是多重共现网络分析仍然是共现网络分析领域中年轻的子集。对中国知网收录文献进行主题为“多重共现分析”、“多重共现”、“共现分析”的文献检索，共筛选得到56篇对文献特征项进行多重共现网络分析的文献，其中有48篇文献研究了2种文献特征项共现，8篇文献研究了3种文献特征项共现。在这些研究中，从共现网络分析形式来看，主要包括“作者-机构”[3-4]、“国家（地区）-机构”[5-6]、“作者-关键词”[7]、“中图分类号-关键词”[8]、“关键词-年份”[9]、“机构-年份”[10]、“内容-方法”[11]等双重共现分析，以及“作者-主题-引文”[12]、“作者-关键词-引文”[13]、“作者-关鍵词-期刊”[14]、“作者-内容-方法”[15]、“作者-关键词-机构”[16]、“机构-期刊-关键词”[17]等三重共现分析。从可视化方法来看，主要借助CiteSpace[3-7]，Ucinet[8-15]及交叉图[17]等可视化工具进行特征项的全要素展现。

从现有研究来看，与单重共现相比，关于多重共现的研究量较少，特别是关于三重以上的共现网络分析更是少之又少。从可视化的视角来看，随着被分析特征项维度的增加，共现网络中的节点数量过多，线条成几何级数增加，交叉量较大，从而影响了关键特征项统计特征的检出与分析，导致数据可读性较弱，可视化效果过低。目前，多重共现可视化主要依赖于分析软件内置的可视化模块，这些工具的可视化分析对象一般是研究文献的全域，因此样本量大，可视化空间规模巨大。此外，这些模块可视化呈现方式相对固定，支持用户交互的能力较弱，很难针对可视化内容进行调整。目前，对文献共现网络分析可视化效果改进研究的重视程度仍不够。本文针对共现网络分析可视化效果较差的问题，提出在不减少可视化内容的前提下，选择文本主题聚类方式（LDA主题模型）进行空间划分，建立可视化子空间，分别对各子领域的文献进行多重共现分析，减少单次分析特征词的数量，通过共现矩阵的降维处理，提高可视化效果，进而实现研究领域整体文献的多重共现分析。

1 共现分析原理

文献是具有历史意义或研究价值的图书、期刊、典章等。共现网络分析是统计文献主题词两两之间在同一篇文献中出现的频次，使用网络图对共现关系进行表示[18]。

2 多重共现可视化改进方法

通过对单重共现和双重共现的过程对比分析可知，多重共现增加了特征项维度，可以呈现不同类型特征项之间的关系，但是特征项的增加会导致共现网络中的节点过多，节点间连线密度增加，并且线间交叉增多，降低了共现可视化效果。因此，可使用LDA主题模型对多重共现进行改进，提高多重共现的可视化效果。

2.1 可视化效果改进思路

由共现网络图产生过程可知，特征词的共现矩阵决定了共现网络图的复杂性。如果能够缩减特征词的共现矩阵规模，就可以减少节点数量，而随着节点的减少，节点间的连线也会有一定程度的减少。特征词数量决定特征词的共现矩阵大小。特征词析出主要取决于文献，因此一个基本想法就是采取划分方法对文献进行预处理，形成多个研究单元，分别对每个研究单元进行多重共现分析，再将各子空间的共现网络图进行叠加，实现整体文献的多重共现分析。子空间叠加是将各子空间的多重共现网络分析结果进行汇总，实现对整体研究文献的多重共现分析。将各子空间共现网络图中的相同节点进行合并，保证汇总结果中被分析特征项所对应的特征词数量与将整体文献进行多重共现网络分析中被分析特征项所对应的特征词数量相同。将节点间连线保持不变，相同节点合并过程中不破坏节点间的共现关系，保证各子空间中共现关系的汇总结果与将整体文献进行多重共现网络分析中共现关系一致，从而不丢失信息量。文献主题是文献的重要特征之一，本文通过主题聚类方式进行文献划分，即采用LDA主题模型对目标文献进行聚类，实现特征词降维处理。实施过程如图3所示。

2.2 LDA主题聚类

2.2.1 LDA模型

主题模型可以对文本信息进行分析，提取文本信息的有效特征，发现和检测文本主题。LDA是一种概率生成模型，包括文档、主题和词语3层结构[20]，可以对大规模文档集合进行建模[21]。该模型认为，每篇文档都是由若干不同主题的词语不断累积生成的。

在文档生成之前首先需要明确已知的主题数量（K）和每个主题所包含的单词，其次需要确定所要生成的文档集合中的文档数量（N），及每篇文档中所包含的词语数量（M）。文档集合生成过程如下：1）根据文档将要表达的内容以一定概率选择某一主题;2）从选择主题中以一定概率选择某一词语，放在文档所在位置;3）将上述2个步骤重复循环M次，生成目标文档;4）将上述生成过程不断重复循环N次，生成N篇文档集合。生成过程如图4所示[22]。

文档生成过程中，由于每篇文档所要呈现的内容和主题不同，因此各个主题及其内部单词在每篇文档中被选择的概率是不一致的，LDA主题模型可以通过使用贝叶斯模型来表示这种不确定。模型将α和β作为确定主题分布和词语分布的超参数，生成文档-主题和主题-词分布的先验概率[23]，然后根据先验概率生成每篇文档中单词概率，其中α和β需要人为确定。

图4生成过程分为4部分：1）基于狄利克雷分布和超参数α计算出文档的主题多项分布θ;2）基于狄利克雷分布和超参数β计算出主题所对应的词多项分布ψ;3）从文档-主题多项分布中提取文档单词的主题分布Z，基于主题分布和词的多项分布，采样生成最终的词W，重复M次上述计算过程，生成长度为M的目标文档;4）将上述过程重复循环N次，最终获得N篇文档。

2.2.2 困惑度

困惑度（Perplexity）是由BLEI等提出的一种反映模型泛化能力的指标[24]。困惑度可以对概率语言模型的优劣程度进行判断，度量预测结果与样本的契合程度，困惑度越小对新文本的预测作用越高[25]。在LDA主题模型中通过计算不同主题数K所对应的困惑度，可以确定LDA模型最优的主题数，当困惑度图像曲线下降趋势不再明显或者拐点处对应的K值可以作为LDA模型最优主题数，困惑度如式（2）所示：

2.2.3 主题聚类分析

LDA主题聚类是文档生成过程的逆运用，即根据一篇完整文档找出其所对应的文档-主题（θ）、主题-词分布（ψ），然后根据文档-主题分布将文档集合划分为不同的主题，从而实现文档集合的聚类[26]。LDA主题聚类过程如下。1）文档预处理。对需要聚类分析的文档集合进行预处理，主要包括分词、去除停用词和文本向量化等，使用TF-IDF函数对文本信息进行向量化处理，计算出每篇文档中单词的概率，作为实验语料库;2）计算聚类主题数候选集。LDA主题聚类前需要指定文档划分的主题数量，主题数过多，会导致聚类类别过于细分，类别间相似度较高;主题数过小，会导致聚类类别内部存在嵌套关系，大类别中包含小类别。为了得到最为合适的主题数，本文采用困惑度计算主题数量，获得主题数量候选集。3）明确最优主题数。将困惑度计算得到的主题数量候选集和实验语料库输入LDA模型中，将聚类结果可视化展示，通过困惑度计算结果和聚类结果可视化分析，确定最优的主题数量，保证不同类别间的交叉性和相似性较低。4）文档主题聚类。再次将最优主题数量和实验语料库输入构建的LDA模型，计算出各个主题在文档中的概率分布，将概率最大的主题作为文档所属主题，实现文档主题聚类。

2.3 多重共现可视化的实现

关键词是从文献中提取出的代表文献主旨内容和关键内容的词汇，其作为文献的代表词语，反映了文献研究的重点领域[27]。本文以目标文献关键词作为实验语料库进行LDA主题聚类分析，将目标文献集进行主题聚类，然后对不同类别中的文献进行多重共现分析，实现领域整体文献的多重共现分析。通过LDA主题模型将目标文献划分为不同类别，可以减少单次分析的文献数量和共现网络中的节点数量，提高共现网络可视化效果。

基于主题聚类改进的多重共现网络分析过程如下：1）基于研究主题确定目标文献集合;2）提取目标文献关键词，建立文献-关键词数据表;3）将关键词作为实验语料库，使用困惑度算法计算LDA主题数候选集;4）将关键词语料库和主题数候选集作为参数输入LDA模型中，将聚类结果进行可视化，保证聚类间具有较好的独立性，从而确定最优主题数;5）将最优主题数和关键词实验语料库再次输入LDA模型，计算每篇文献的文档-主题分布，选择概率最大的主题作为文献所属主题;6）分别对不同主题类别内的文献进行汇总，建立各主题的文献特征词隶属矩阵;7）基于文献特征词隶属矩阵，建立特征词间共现矩阵;8）使用多重共现网络方法对特征词共现矩阵进行处理，建立多重共现网络图。可视化改进流程如图5所示。

3 实证分析

3.1 数据来源与预处理

为了提高文献数据的可靠性，以中国知网为数据源，对主题为“高校应急管理”的文献进行检索，共得到574篇文献，通过人工二次阅读方式，删除述评、新闻报告、报纸等非学术文献，得到565篇有效文献。将565篇有效文献信息以SATI可以处理的Endnote格式导出。文献关键词是对文献研究内容的概括，代表文献的研究主題。因此，本次分析将关键词作为LDA主题聚类语料库，SATI作为文献题录信息分析软件，完成对文献关键词、作者、发表期刊、年份等信息字段的抽取、词频统计、共现矩阵生成[28]。由于文献关键词比较简短并且充分代表了文献内容，因而不再进行分词处理，使用SATI对关键词进行字段抽取，形成如表1所示的实验语料库。

3.2 困惑度计算

首先，对文献关键词进行提取，形成实验语料库;其次，基于Python中Gensim库，使用计数方式对实验语料库进行向量化，并依据式（2）计算出各个主题数所对应的困惑度值;最后，将主题数和困惑度值作为横纵坐标，绘制成二维坐标图，假设主题数区间为[1，10]，步长为1。计算结果如图6所示。困惑度越小，说明模型预测精准度越高，困惑度最低或拐点处对应的K值为最佳主题数。

通过对图6进行分析可知，随着主题数的增加，困惑度不断降低，当主题数为4和8时，困惑度的计算结果出现拐点，表明在2个主题数局部范围内模型的聚类效果较好。因此，将4和8作为最优主题数的候选集。

3.3 LDA主题聚类

借助Python软件中Gensim库进行LDA建模，对“高校应急管理”研究文献进行主题聚类，将文献关键词实验语料库和主题数候选集作为参数输入LDA模型，并将聚类结果进行可视化，结果如图7所示。

图7中每个圆圈代表一个主题，圆圈大小表示主题的聚合程度，圆圈越小表示主题的聚合效果越好，圆圈间重合度表示主题间的相似性。对比图7 a）和图7 b）可知，主题数为8时，主题圆圈半径小于主题数为4时的圆圈半径，表明主题数为8时，LDA模型预测能力的精确度高于主题数为4时，但是主题数为8时，主题1、主题2、主题3、主题5相互重合，表明这些主题之间具有相似内容。通过分析图6和图7可知，随着主题数的增加，LDA模型的预测精度和主题间的相似性不断增加。本研究通过LDA主题模型预测文献所属主题，根据所属主题将文献进行聚类，将数据源分成多个类别，保证聚类间差距较大、聚类内部差距较小。结合困惑度和聚类结果可视化分析，将LDA主题模型的主题数预设为4。将文献关键词实验语料库与主题数4作为参数输入LDA模型中，对“高校应急管理”文献进行主题聚类，结果如表2所示。

3.4 多重共现对比分析

核心作者作为高发文量和高影响力的作者群体，其所关注的研究方向代表着研究领域中主要的研究内容。基于普赖斯公式，研究领域核心作者发文量为N=0.749×Nmax，Nmax为高发文作者的发文量[29]。因此，高校应急管理核心作者发文量为0.749×4=1.498，将发文在2篇以上的作者作为核心作者。基于Ucinet社会网络分析工具，分别对各个主题类别中的文献以及高校应急管理整体研究文献进行核心作者和关键词双重共现分析，并删除“高校”“高等院校”“应急管理”“高校应急管理”等基础性词汇，结果如图8、图9所示。

图8的各个子图和图9分别对“高校应急管理”领域进行作者-关键词双重共现分析，其中分别使用不同形状和颜色节点表示作者与关键词，黄色节点代表研究学者，红色节点代表关键词，节点大小表示节点出现的频次，节点间连线表示节点间具有共现关系。图8的各个子图基于LDA主题模型，将研究文献划分为4个不同的研究主题，分别对各个主题内的文献进行作者关键词双重共现分析。图9是将整体领域文献作为分析对象，进行双重共现分析。在图8和图9中，黄色节点均为“高校应急管理”研究领域的核心作者。通过困惑度计算结果和聚类结果可视化可知，将高校应急管理领域文献细分为4个主题，可以保证主题间差距较大。图8的各个子图中，黄色节点表示领域核心作者在各个主题文献中出现的情况，节点间连线分别表示核心作者间的合作关系、核心作者的研究内容。通过对图8各个子图的叠加，可以实现对文献全域的共现分析。将图8各个子图中相同节点进行合并，可以保证图8各个子图中作者、关键词节点的总数量与图9中的作者、关键词节点的数量相同。在相同节点合并过程中保持节点间连线不变，可以使图8中各个子图展示的作者与关键词间的全部关系与图9展示的作者与关键词间的关系相同。因此，图8各个子图的全部信息与图9所展示的内容信息相同，不会丢失知识内容。

多重共现网络分析增加了被分析特征项的维度，可以对研究领域的文献知识进行深入挖掘。但是节点数量的增多会导致共现网络中节点间连线的交叉性增加，降低可视化分析的效果。通过图8和图9对比分析可知，主题模型在不减少所呈现知识内容的前提下，可以将特征项全域划分为不同的子空间，减少单次分析的文献数量和共现网络中的节点数量，以及节点间连线的交叉度，清晰地展示出作者与研究热点之间的关系。

文献计量可视化分析软件的发展，为文献计量分析提供了技术支持。数据可视化分析通过使用感知度高的可视化元素对复杂庞大的数据集进行处理，有效表达数据所包含的信息[30]。通过图8和图9可视化效果对比分析可知，改进方法将研究文献划分为不同的研究主题，分别对不同主题内的文献进行多重共现分析，可以减少单次分析中文献数量和共现网络中的节点数量，简化共现网络，提升可视化分析效果。

4 结论

1）共现网络分析方法可以对数据间的关系进行分析，并以网络方式进行展示，广泛应用于文献计量学中。相较于单重共现，多重共现增加了被分析特征项的维度，但是会导致共现网络图中的节点过多，连线交叉度过大，可视化效果过低。

2）本文提出的基于LDA主题模型的文献特征项多重共现可视化方法，采用空间划分-融合思路，对文献特征项进行多重共现分析，将整体领域文献划分为不同子领域，分别对各子领域文献进行多重共现分析，达到领域文献全域分析的目的。通过对比分析结果可知，对文献空间进行划分可以有效减少单次分析文献的数量和共现网络中的节点数量，实现共现网络的降维处理，降低分析的复杂度，子空间的可视化呈现更加清晰，提升了可读性，最终提高了多重共现网络分析的可视化效果。

本研究仅选取关键词作为实验语料库对研究文献进行主题聚类分析，而文献关键词作为文献内容的概括，在选取过程中具有一定的主观性，仅以关键词作为分析对象会对聚类结果的精确度产生一定的影响。后续研究会将文献摘要、标题、正文等信息作为实驗语料库内容，进一步提高文献的聚类效果。

参考文献/References：

[1] 刘佳英，蒋宏斌，张翔，等.中外渔业领域研究现状和热点比较分析[J].中国水产，2021（3）：62-66.

LIU Jiaying，JIANG Hongbin，ZHANG Xiang，et al.Comparative analysis of the current situation and hot spots in the field of fishery research in China and foreign countries[J].China Fisheries，2021（3）：62-66.

[2] 周娜，李秀霞，高丹.基于LDA主题模型的“作者—内容—方法”多重共现分析——以图书情报学为例[J].情报理论与实践，2019，42（6）：144-148.

ZHOU Na，LI Xiuxia，GAO Dan.Author-subject-method multiple co-occurrence analysis based on LDA topic model：Taking the library information science as an example[J].Information Studies：Theory & Application，2019，42（6）：144-148.

[3] 陈浩天，李玲睿.近十年来中国农村养老服务的研究趋向与价值前瞻——基于Cite Space知识图谱的可视化分析[J].西北人口，2021，42（5）：80-90.

CHEN Haotian，LI Lingrui.Research trend and value prospect of China′s rural elderly care service in recent ten years：visualization analysis of knowledge map based on CiteSpace[J].Northwest Population Journal，2021，42（5）：80-90.

[4] 刘翠萍，李奕华.基于CiteSpace科学知识图谱的国内外宣翻译研究[J].哈尔滨学院学报，2021，42（7）：110-114.

LIU Cuiping，LI Yihua.A scientific CiteSpace analysis of the research on international publicity translation study in China[J].Journal of Harbin University，2021，42（7）：110-114.

[5] 陈晓娜，袁敏.中医针灸研究的知识图谱、聚类分析和拓展空间——基于WOS文献的可视化分析[J].中医药管理杂志，2020，28（20）：9-14.

CHEN Xiaona，YUAN Min.Knowledge map，cluster analysis and expansion space of traditional Chinese acupuncture-visual analysis based on WOS documents[J].Journal of Traditional Chinese Medicine Management，2020，28（20）：9-14.

[6] 石晶晶，石树青，胡元会，等.心血管疾病能量代谢研究的可视化分析[J].中国循证心血管医学杂志，2020，12（4）：428-432.

SHI Jingjing，SHI Shuqing，HU Yuanhui，et al.Visual analysis on energy metabolism of cardiovascular diseases[J].Chinese Journal of Evidence-Bases Cardiovascular Medicine，2020，12（4）：428-432.

[7] 王晴.我国MOOCs研究的网络结构与主题聚类——基于CiteSpaceⅢ的知识图谱分析[J].中国远程教育，2015（5）：18-23.

WANG Qing.Network structure and topic clustering of MOOCs research in China：a knowledge mapping analysis based on CiteSpaceⅢ[J].Distance Education in China，2015（5）：18-23.

[8] 温芳芳.基于共现分析的中图分类号与关键词对应关系研究[J].情报科学，2017，35（11）：121-125.

WEN Fangfang.Study on the correspondence relationship between Chinese library classification codes and keywords based on co-occurrence analysis[J].Information Science，2017，35（11）：121-125.

[9] 王宇燦，李一飞，袁勤俭.国际大数据研究热点及前沿演化可视化分析[J].工程研究-跨学科视野中的工程，2014，6（3）：282-293.

WANG Yucan，LI Yifei，YUAN Qinjian.Visualization analysis on the hotspots and frontier evolution of international big data research[J].Journal of Engineering Studies，2014，6（3）：282-293.

[10]康冬冬.2000—2014年我国教育管理研究的可视化分析[D].兰州：西北师范大学，2017.

KANG Dongdong.Visual Analysis of Educational Management Research in China during 2000—2014[D].Lanzhou：Northwest Normal University，2017.

[11]马秀峰，郭顺利，宋凯.基于LDA主题模型的“内容-方法”共现分析研究——以情报学领域为例[J].情报科学，2018，36（4）：69-74.

MA Xiufeng，GUO Shunli，SONG Kai.Suject-method co-occurrence analysis based on LDA topic model-taking the information science field as an example[J].Information Science，2018，36（4）：69-74.

[12]刘爱琴，吴瑞瑞.基于引证关系的作者与主题多重共现网络构建[J].数字图书馆论坛，2019（10）：23-29.

LIU Aiqin，WU Ruirui.Construction of multiple co-occurrence network of author and subject based on citation relationship[J].Digital Library Forum，2019（10）：23-29.

[13]刘爱琴，吴瑞瑞.基于引证关系的“作者群体—关键字—引文”多重网络构建[J].新世纪图书馆，2020（5）：54-58.

LIU Aiqin，WU Ruirui.Multiple network construction of "auther group-keyword-citation" based on citation relationship[J].New Century Library，2020（5）：54-58.

[14]魏绪秋，李长玲，刘非凡.3-模数据网络构建及其可视化探讨[J].情报理论与实践，2014，37（8）：74-78.

WEI Xuqiu，LI Changling，LIU Feifan.Probe into the construction and visualization of 3-mode data network[J].Information Studies：Theory & Application，2014，37（8）：74-78.

[15]周娜.基于潜在主题挖掘的知识共现研究——以图书情报学学科领域为例[D].曲阜：曲阜师范大学，2019.

[16]姜思萃，徐侠.关于“五运六气”相关研究文献的知识图谱分析[J].光明中医，2020，35（3）：317-321.

JIANG Sicui，XU Xia.Knowledge map analysis of related documents of "five evolutive phases and six climatic factors"[J].Guangming Journal of Chinese Medicine，2020，35（3）：317-321.

[17]庞弘燊.基于科技文献多重共现的数据模型理论与知识发现应用范例研究[J].图书情报工作，2019，63（9）：61-72.

PANG Hongshen.Research on data model theory and knowledge discovery application based on multiple occurrence of scientific literature[J].Library and Information Service，2019，63（9）：61-72.

[18]陈晓东，赵丹妮.新时代中国经济学发展轨迹及研究特征[J].区域经济评论，2020（4）：146-156.

CHEN Xiaodong，ZHAO Danni.Analysis on the development track and research characteristics of Chinese economics in the new era[J].Regional Economic Review，2020（4）：146-156.

[19]王宗水，赵红，刘宇，等.社会网络研究范式的演化、发展与应用[J].情报学报，2015，34（12）：1235-1245.

WANG Zongshui，ZHAO Hong，LIU Yu，et al.Evolution，development and application of social network paradigm[J].Journal of the China Society for Scientific and Technical Information，2015，34（12）：1235-1245.

[20]BLEI D M.Probabilistic topic models[J].Communications of the ACM，2012，55（4）：77-84.

[21]熊回香，窦燕.基于LDA主题模型的标签混合推荐研究[J].图书情报工作，2018，62（3）：104-113.

XIONG Huixiang，DOU Yan.Research on tag hybrid recommendation based on LDA topic model[J].Library and Information Service，2018，62（3）：104-113.

[22]蔡永明，长青.共词网络LDA模型的中文短文本主题分析[J].情報学报，2018，37（3）：305-317.

CAI Yongming，CHANG Qing.Chinese short text topic analysis by latent dirichlet allocation model with co-word network analysis[J].Journal of the China Society for Scientific and Technical Information，2018，37（3）：305-317.

[23]唐晓波，向坤.基于LDA模型和微博热度的热点挖掘[J].图书情报工作，2014，58（5）：58-63.

TANG Xiaobo，XIANG Kun.Hotspot mining based on LDA model and microblog heat[J].Library and Information Service，2014，58（5）：58-63.

[24]王婷婷，韩满，王宇.LDA模型的优化及其主题数量选择研究——以科技文献为例[J].数据分析与知识发现，2018，2（1）：29-40.

WANG Tingting，HAN Man，WANG Yu.Optimizing LDA model with various topic numbers：Case study of scientific literature[J].Data Analysis and Knowledge Discovery，2018，2（1）：29-40.

[25]关鹏，王曰芬.科技情报分析中LDA主题模型最优主题数确定方法研究[J].现代图书情报技术，2016（9）：42-50.

GUAN Peng，WANG Yuefen.Identifying optimal topic numbers from sci-tech information with LDA model[J].New Technology of Library and Information Service，2016（9）：42-50.

[26]王梦宇.基于LDA主题模型的在线评论聚类研究[D].兰州：兰州大学，2021.

WANG Mengyu.Research on Online Reviews Clustering Based on LDA Topic Model[D].Lanzhou：Lanzhou University，2021.

[27]吴军.新媒体时代期刊关键词的应用探析[J].出版广角，2021（11）：49-51.

[28]尹怀琼，刘晓英，周良文，等.我国图书馆联盟研究的文献计量和可视化分析[J].图书馆，2018（2）：43-49.

YIN Huaiqiong，LIU Xiaoying，ZHOU Liangwen，et al.Bibliometric and visual analysis of library alliance research in China[J].Library，2018（2）：43-49.

[29]李继红，王洪江，江珊，等.综合指数和h系列指数测评期刊核心作者的比较研究[J].中国科技期刊研究，2017，28（3）：266-270.

LI Jihong，WANG Hongjiang，JIANG Shan，et al.Comparison of the evaluation of core authors by comprehensive index and h series index[J].Chinese Journal of Scientific and Technical Periodicals，2017，28（3）：266-270.

[30]陆菁，刘渊，张晓婷，等.基于用户体验的数据可视化模型研究[J].包装工程，2016，37（2）：52-56.

LU Jing，LIU Yuan，ZHANG Xiaoting，et al.Data visualization model based on the user experience[J].Packaging Engineering，2016，37（2）：52-56.