共词分析识别研究热点的内容效度研究：基于自然语言处理*

2018-05-05 02:05李承晋周文杰

图书与情报 2018年1期

李承晋高冲周文杰

（1.西北师范大学商学院甘肃兰州 730070）

1 研究背景

研究热点的识别是科学计量及相关领域长期关注的重要问题之一，共词分析则是研究者用来进行研究热点识别的基本工具之一。迄今为止，国内外研究者基于共词分析在不同领域展开了大量旨在识别研究热点识别的研究（如陈静等，陈兰兰）。检索发现，截至2017年9月26日，仅在CNKI数据库中，已收录在主题、题名或关键词中同时含有 “共词分析”与“研究热点”的文献879篇，且此类研究的数量呈逐年上升的态势（见图1）。

虽然共词分析已被广泛用于研究热点的识别，但现有研究中，很少对基于共词分析而识别的研究热点及用以识别这些研究热点的各类指标、算法在何种程度上具有有效性进行专门检验。显然，要使基于共词分析而识别的研究热点得到各领域研究者的普遍认可，须先证明共词分析在研究热点测量方面的效度。着眼于这一研究现状，本文拟应用自然语言处理的方法，对共词分析所识别研究热点的内容效度进行检验，以期回答如下两个研究问题：（1）不同的分析单元在研究热点识别方面的有效性有何异同？（2）在不同量的文献参与分析的情况下，共词分析的有效性有何异同？

2 理论背景与相关研究回顾

2.1 效度与内容效度

效度是指一项测试是否真正测量了它所要测量的东西。其中，内容效度用来检验测量的内容与测量的领域相匹配程度。换言之，内容效度主要用来衡量测量内容被测量指标涵盖的程度。

根据现有测量理论，确认内容效度的标准主要有两个：一是项目的代表性；二是方法的敏感性。检验项目代表性最直观的指标是对项目抽样效率。从统计的角度看，完全随机抽样无疑是样本对总体具有最高效率，从而能够保障样本对总体的代表性。但是，由于总体的未知性，因此进行完全随机抽样在现实的科学计量中几乎总是不可行的。为此，在科学计量中，为保障项目的代表性，只能遵循现有科学计量研究的基本规律和通行做法，以词频的高低作为样本抽样的基本衡量标准。方法的敏感性主要用来衡量所选项目在拟测量事项上的稳定性。敏感性越高，测量的方法越不稳定。由于共词分析中的测量用以确定研究热点的指标通常是各种中心度指标，因此，可以通过不同方法（项目）之间均值的比较对其敏感性做出判断。

图1 基于共词分析而进行研究热点识别的文献量

总之，基于上述内容效度检验的相关理论，本研究对共词分析内容效度检验基本思路是，选用多种统计方法对基于共词分析而识别研究热点的项目代表性和方法敏感性分别进行检验。具体而言，通过项目的代表分析，确认基于共词分析而进行的研究热点识别将待分析领域该有的热点都识别出来了；通过方法的敏感性分析，确认所识别出来的热点中排除掉了本领域的非热点或非本领域的热点的程度。

2.2 自然语言处理与研究热点识别

自然语言处理（Natural Language Processing,N LP）是一种以文本内容进行识别、分析对象的技术。由于研究热点的识别在很大程度上依赖于对科学研究文献的主题的提炼，因此，自然语言处理方法在研究热点的识别方面具有极大的应用潜力。具体而言，在科学计量领域，通过应用自然语言处理技术，在对文本进行切词、词性识别、词频统计及词与词之间关系进行挖掘的基础上，可有效实现对于研究主题、热点及前沿等科学计量问题的提炼。

如前文所述，研究热点的识别已经成为科学计量领域的研究者关注的焦点，而共词分析已经成为研究热点识别的通用工具。就分析样本的选择而言，科学计量领域普遍基于高被引文献而进行研究热点的识别。为此，本研究拟在特定学科领域选择不同层次的高被引文献，通过自然语言处理方法，提取这些文献中的高频词，制成共词矩阵，并计算所识别词语的中心度。进而通过比较不同样本与总体在所识别的热点之间的相似度与相异度，对基于共词分析识别研究热点的内容效度进行检验。

3 研究设计

3.1 主要变量及其操作性定义

检验基于共词分析而识别的研究热点的内容效度是本研究的主要目标。达成这一研究目标的基本路径在于，对共词分析用以识别研究热点的指标及样本语料进行清晰地界定。本研究仍然沿用科学计量领域的通用做法，以共词网络作为识别研究热点的基本工具，以不同词语在共词网络中的中心度作为研究热点的表征。同时，由于高被引文献对于本领域研究问题具有更好的代表性，因此，本研究以不同层次的高被引文献作为分析语料。

综上所述，本研究主要涉及两类核心变量：热点研究问题和语料的数量。这两类核心变量大体可被操作化定义如下：研究热点指共词网络中基于单项或综合中心度指标/算法而析出的高得分词语所表征的研究问题。语料的数量指基于五种不同数量层级（包括前 5%、10%、15%、20%、25%等）的高被引文献的题名、摘要、关键词和全文而构建的语料。

3.2 分析流程

本研究的分析流程为：

第一，选定CNKI有“文献分类目录”下，对入选各学科的文献进行探查，以确定一个文献数量较适合总体分析，且与其他学科之间边界清晰的领域为拟分析对象。最终发现“基础科学”子目下“生物学”的二级子目“动物学”符合分析要求，从而选定其为拟分析的领域。

第二，针对“动物学”领域，下载了1988-2017年的全部文献，形成了总体语料库。

第三，针对总体语料库，按不同的分析单元（题名、摘要、关键词和全文）进行高频词的提取，并根据高频共现情况制作了共词矩阵。具体而言，针对题名、摘要和全文，应用Python作为自然语言处理的工具，首先进行了切词，识别了词性，提取了其中的高频名词，然后会同关键词一起识别了这些词的共现情况。

第四，基于总体语料库，分别应用Pajek和Sci这两款科学计量领域常用的分析工具，针对上述共词矩阵进行了研究热点的识别。具体而言，本研究对于研究热点的识别在单项指标和综合指标两个层面上进行。就单项指标而言，本研究分别应用Pajek中常用的4项中心度指标/算法（包括点度中心度、权重中心度、紧密度中心度、中介中心度）和Sci中的4项算法（包括 authority_score_hits、Page_rank、authority_hits、eigen_centrality）计算了热点词的得分。在上述单项指标的基础上，计算了每个单项的Z-分数并求和，形成了两个软件工具下识别研究热点的综合得分。

第五，仍然以1988-2017年“动物学”领域语料为检索对象，按照这三十年间动物学领域所发表的学术论文被引次数进行排序，以500篇最高被引论文作为语料，下载了这些论文的题名、摘要、关键词和全文，形成对比语料库。

第六，依次针对对比语料库中最高被引的前5%、10%、15%、20%、25%的文献，仍然按照上述过程，建成了基于题名、摘要、关键词的全文的共词矩阵，分别计算了题名、摘要、关键词和全文在总体语料与对比语料库中前5%、10%、15%、20%、25%的高被引文献上的相关系数，对研究问题做出回答。

4 研究结果与讨论

4.1 高频词的析出

根据研究设计，本研究拟对题名、摘要、关键词和全文四个分析单元在5%、10%、15%、20%、25%的高被引文献上的研究热点分别进行识别。抽取了不同比例高被引文献时的语料篇数与这些文献中析出的词语数量（见表1）。筛选前的词语数量指针对题名、摘要和全文经过自然语言处理后，提取的总词数（关键词由于毋须分词，因此，筛选前的关键词是全部语料关键词的累计）。针对筛选前的全部名词，本研究根据齐普夫第二定律，按照周文杰的方法，以词频与词序乘积的均值与0.1无显著差异为标准，对高、低频词进行了分界，确定了筛选后的词作为待分析的高频词。基于所析出的高频词，本研究进行制作了共词矩阵，并展开了后续分析。

4.2 不同分析单元下内容效度的分析

为了对共词分析识别研究热点的内容效度做出全面检验，根据预先的研究设计，本研究应用了Pajek和Sci两个科学计量工具进行研究热点的识别。之所以同时使用两个计量工具进行分析，一方面是由于本研究关注的是测量效度问题，因此，需要比较两个工具在所识别研究热点上的一致性；另一方面，则是由于这两个工具采用的研究热点识别代表着当前科学计量领域研究热点识别的两种不同风格——Pajek所采用的研究热点识别指标更偏重于常规的网络中心度指标，而Sci的识别则更偏重于研究者所识别的算法。因此，同时使用两个工具进行计量分析，不仅有利于确定研究结论的可靠性，而且也有助于对不同风格的单项计量指标进行对比分析。

表1 不同数量语料析出的高频词

本研究对研究热点识别的内容效度进行检验的基本思路是，基于不同分析单元抽取不同数量的高被引文献进行研究热点的识别，然后与基于总体语料而识别的研究热点进行相关分析。根据内容效度的定义，相关系数越高，则内容效度也越高。

4.2.1 基于题名所识别的研究热点的内容效度

本研究首先对题名在研究热点识别中的内容效度进行了分析得出了综合指标和单项指标上内容效度的分析结果（见表2），具体分析如下：

表2 不同数量语料中基于题名所识别研究热点的内容效度

（1）就综合指标而言，无论是在Pajek还是在Sci上，top 20的高被引文献所识别的研究热点与总体语料相关系数均最高。可见，当以题名为分析单元进行研究热点的识别时，基于前20%的高被引文献所识别的研究热点的内容效度最高。当抽取的文献量进一步扩大时，热点识别的内容效度有所下降。

（2）就Pajek所使用的4个单项指标而言，点度中心度在对前5%的高被引文献进行分析时，内容效度最高，但在不同数量的高被引文献之间，内容效度略有波动但幅度不大。这表明，以点度中心度为标准识别研究热点时，高被引文献数量的选择对内容效度影响有限。权重中心度指标同样在不同数量的高被引文献之间呈现出相对稳定的内容效度，但在前20%的高被引文献上的内容效度最高。相对而言，紧密度中心度的内容效度呈现出高度的不稳定性。表现在，虽然前5%高被引文献所识别的研究热点与总体语料相比相关系数最高，但当语料数量扩大到前10%和15%时，发现其相关系数并不显著。这表明，紧密度中心度并不是一个适用于单独进行内容效度测量的理想指标。中介中心度指标内容效度相对稳定，在前5%高被引文献上的内容效度最高。由此可见，中介中心度作为单一指标在进行研究热点的识别中具有较高的应用价值。

（3）就Sci所使用的4个单项指标（算法）而言，authority_scorehits、Pagerank和eigencentrality均在前20%的高被引文献上的内容效度最高，而且在不同数量的语料上也都具有比较显著的相关系数。相对而言，authority_scorehits和Pagerank两个算法的内容效度高于eigencentrality。这表明，authority_scorehits和Pagerank适宜于作为单项指标应用于研究热点的识别。与此明显不同的是，authorityhits算法在前5%的语料上内容效度最高，但在其他数量的语料上，也都具有一定的内容效度。可见，如果以研究热点识别的效率来计，authorityhits算法具有一定的优先性。

4.2.2 基于摘要而识别的研究热点的内容效度

以摘要为分析单位，在不同数量的高被引论文加入分析的情况下，得出所识别的研究与基于总体语料而识别的研究热点之间的相关系数（见表3）。

（1）就综合指标而言，Pajek和Sci两个工具具有较高的一致性，都表现为同样的趋向：所选语料越多，所识别研究热点的内容效度越高。同时，对两个工具综合指标的检验也表明，从前5%的高被引论文开始，摘要在认识研究热点中就都具有内容效度，只是纳入分析的摘要范围越广，研究效度就越高。

（2）就Pajek的单项指标来看，4项传统中心度指标在研究热点的识别方面都具有较稳定的内容效度。相对而言，权重中心度的内容效度最高，而中介中心度的内容效度较低。从使用的文献量来看，点度中心度和权重中心度在前20%的高被引文献上的内容效度最高，而紧密度中心度和中介中心度的内容效度随着文献量增加而有递增的趋势，在本研究的抽样范围内，这两项指标在前25%的高被引文献上内容效度最高。

（3）就Sci的单项指标来看，该工具所使用的4项算法具有不同的内容效度。其中，authority_score_hits和Page_rank两种算法内容效度比较高，且在不同数量的语料上都较为稳定。Authorityhits算法在前15%以上的高被引文献中的内容效度最高，但在前5%-10%的文献上的内容效度偏低。eigencentrality算法呈现出来了与以上三种算法不同的特征。Eigencentrality算法在前5%的高被引文献上与识别的研究热点与基于总体语料而识别的研究热点之间没有显著的相关关系，据此可以认为，在文献只有5%的情况下，利用eigencentrality进行研究热点识别是没有内容效度的。随着文献量的增加，eigencentrality所识别的研究热点的内容效度明显增强，在20%的高被引文献参与识别时，其内容效度达到最高。

表3 不同数量语料中基于摘要所识别研究热点的内容效度

4.2.3 基于关键词而识别的研究热点的内容效度

通过关键词进行研究热点的识别是当前科学计量比较盛行的方法。然而，基于关键词进行研究热点的识别存在极大的内容效度风险。具体表现在如下两个方面（见表4）：

表4 不同数量语料中基于关键词所识别研究热点的内容效度

（1）整体而言，当以前15%的高被引文献为分析对象时，所识别的研究热点与基于总体语料而识别的研究问题之间的相关系数均不显著，这表明，在高被引论文语料数量少于15%的情况下，两个软件的综合得分和除Page_rank外的单项指标在研究热点识别方面基本都没有内容效度。就本研究所涉及的语料范围来看，基于关键词识别的研究热点与实际研究热点之间存在着相当大的差异，以关键词为基础进行研究热点的识别在很大程度上是有偏差的。

（2）从Pajek和Sci两个工具用来进行研究热点识别的8个单项指标（算法）来看，基于关键词进行研究热点的识别同样存在内容效度低的问题。在表4中，Pajek所使用的4项中心度指标上，多数情况下基于高被引文献而识别的研究热点与基于全文而识别的研究热点之间并不存在显著相关。只有在前25%的高被引文献纳入分析的情况下，点度中心度和权重中心度与在两类语料上的相关系数是显著的，而中介中心度在20%以上的高被引文献纳入分析时相关系数是显著的。然后，即使这些相关系数具有统计意义上的显著性，但值都比较小。由此可见，基于关键词使用Pajek的各单项指标进行研究热点的识别时，存在明显的不足。进而比较分析Sci用以识别研究热点四种算法可以看出，authority_scorehits、authorityhits和eigencentrality三种算法基本上完全没有内容效度，只有Pagerank在前20%以上的高被引文献纳入分析时，才具有了较低的内容效度。

综上所述，由本研究所获取的数据来看，通过对高被引文献的关键词进行研究热点的识别，存在着诸多效度问题。这一发现，无疑对现有科学计量领域大量基于关键词而展开的热点识别相关研究是一个警示。

4.2.4 基于全文而识别的研究热点的内容效度

文献调查发现，迄今为止科学计量领域的研究很少基于全文展开研究热点识别。本文应用自然语言处理的方法，对全文进行分词和词性识别，并据此而构建了共词矩阵进行研究热点的识别，这正是本研究的特色之一。基于全文识别而识别的研究热点具有较高的内容效度（见表5）。

表5 不同数量语料中基于全文所识别研究热点的内容效度

从综合指标来看，在前15%的高被引文献纳入分析范围时，在Pajek和Sci两个工具上所识别的研究热点内容效度都达到最高，且相关系数都在0.85以上。可见，综合来看，以全文作为语料而进行研究热点的识别具有明显的优越性。

从单项指标来看，点度中心度、authority_score_hits和Pager_rank在研究热点识别方面的效度都很高，在前15%的语料纳入分析的情况下，两类语料的相关系数已达到0.9以上。而对于其他几项指标（算法）而言，其相关系数也都具有统计意义上的显著性。由此可见，与综合指标类似，以全文为对象应用单项指标进行研究热点的识别同样具有较高的内容效度。

4.3 不同分析单元内容效度的综合比较

4.3.1 四种分析单元按内容效度高低排名

为更清晰地显示在不同指标上内容效度的高低，本研究进行对四种分析单元上的相关系数进行了对比分析（括号中是相关系数）：

从Pajek的综合指标来看，内容效度的排名：题名（0.877）最高，全文（0.8532）和摘要（0.8446）次之，关键词（0.3927）最低。

从Sci的综合指标来看，内容效度的排名：题名（0.9107）最高，全文（0.8823）和摘要（0.872）次之，关键词（0.3931）最低。

从点度中心度指标来看，内容效度的排名：全文（0.6573）最高，摘要（0.6555）和题名（0.6422），关键词（0.3321）最低。

从权重中心度指标来看，内容效度的排名：题名（0.9217）最高，全文（0.9113）和摘要（0.8881）次之，关键词（0.3313）最低。

从紧密度中心度指标来看，内容效度的排名：题名（0.6552）最高但在不同语料数量上表现不稳定，全文（0.6488）和摘要（0.6129）次之，关键词（相关系数都不显著）基本没有内容效度。

从中介中心度指标来看，内容效度的排名：全文（0.666）最高，题名（0.6314）次之，关键词（0.4983）再次之，摘要（0.3033）最低。

从authority_scorehits算法来看，内容效度的排名：题名（0.9684）最高，全文（0.9156）和摘要（0.9036）次之，关键词（相关系数都不显著）基本没有内容效度。

从Page_rank算法来看，内容效度的排名：题名（0.9335）最高，全文（0.9123）和摘要（0.892）次之，关键词（0.4183）最低。

从authorityhits算法来看，内容效度的排名：摘要（0.6466）最高，全文（0.6461）和题名（0.6332）次之，关键词（相关系数都不显著）基本没有内容效度。

从eigencentrality算法来看，内容效度的排名：摘要（0.6729）最高，全文（0.6678）和题名（0.5959）次之，关键词（相关系数都不显著）基本没有内容效度。

4.3.2四种分析单元按识别效率高低排名

本研究将前5%、10%、15%、20%、25%的高被引文献分别纳入分析。这一设计是基于两方面的考虑：一方面，总体来看，文献被引的量服从严重右偏的长尾分布。即高被引文献占总体文献量的少数但却占总被引次数的多数。因此，在全部文献中，真正具有引文分析意义的代表性文献只能是一部分而不是全部；另一方面，在基于高被引文献而识别研究热点的过程中，在效度有保障的前提下，所使用的文献量越少，则识别效率越高，这种识别的应用前景越广泛。换言之，基于高被引文献而识别研究热点所遵循的一个基本原则是，应用少量最高被引文献进行研究热点的识别，从而实现效度的最大保障和效率的最大优化。基于此，本文进而对不同分析单元在研究热点识别上的效率进行了比较分析（括号中的最高相关系数时所包括的高被引文献比例）。

从Pajek的综合指标来看，识别效率的排名：全文（top15）最高，题名（top20）和关键词（top20）次之，摘要（top25）最低。

从Sci的综合指标来看，识别效率的排名：全文（top15）最高，题名（top20）和摘要（top25）次之，关键词（top20）最低。

从点度中心度指标来看，识别效率的排名：题名（top5）最高，全文（top15）次之，摘要（top20）再次之，关键词（top25）最低。

从权重中心度指标来看，识别效率的排名：题名（top20）和摘要（top20）较高，关键词（top25）和全文（top25）较低。

从紧密度中心度指标来看，识别效率的排名：题名（top5）最高，摘要（top25）和全文（top25）次之，关键词没有检验出内容效度。

从中介中心度来看，识别效率的排名：题名（top5）最高，关键词（top20）次之，摘要（top25）和全文（top25）最低。

从authority_score_hits算法来看，识别效率的排名：全文（top15）最高，题名（top20）次之，摘要（top25）再次之，关键词没有检验出内容效度。

从Page_rank算法来看，识别效率的排名：题名（top20）和关键词（top20）较高，摘要（top25）和全文（top25）较低。

从authority_hits算法来看，识别效率的排名：题名（top5）最高，摘要（top20）次之，全文（top25）再次之，关键词没有检验出内容效度。

从eigen_centrality算法来看，识别效率的排名：全文（top15）最高，题名（top20）和摘要（top20）次之，关键词没有检验出内容效度。

5 结论

本研究对不同分析单元下基于共词分析而识别的研究热点的内容效度进行了全面检验，结论如下：

首先，关键词在研究热点识别中存在着很大的效度风险，具体表现在：从综合指标来看，基于关键词而识别的研究热点内容效度最低；从单项指标来看，部分单项指标上关键词没有检验出内容效度。

其次，从综合指标来看：基于题名而识别的研究热点内容效度最高，基于全文、摘要而识别的研究热点也具有较高的内容效度。从单项指标（算法）来看，基于题名和全文而识别的内容效度在多数指标上相对较高。

第三，从四种分析单元在研究热点识别方面的效率来看：在综合指标上，全文效率最高；在多数单项指标上题名效率最高。

本研究对于揭示认识共词分析的有效性和科学性具有一定价值。本研究的发现，有望为科学计量及相关领域的研究者在计量指标的选择、分析工具的设计和计量结果的评价等方面提供启示。

参考文献：

［1］陈静，吕修富.基于 CSSCI（2000～2011）的我国统计学学科知识图谱研究［J］.图书与情报，2014（2）:94-101.

［2］陈兰兰.基于社会网络分析和共词分析的国内关联数据研究［J］.图书与情报，2013（5）:129-132.

［3］Weir C J.Language Testing and Validation:An Evidence-based Approach［M］.New York:Palgrave Macmillan，2005:79.

［4］张洪秀.教育测量与评价方法［M］.长春：吉林大学出版社，2014:59.

［5］Nunnally J C，Bernstein I.H.Psychometric Theory（Third edition）［M］.New York:McGRAW-Hill.INC，1998:126.

［6］Pedhazur E J，Schmelkin L P.Measurement，design，and analysis:An integrated approach［M］.Psychology Press，2013.

［7］胡昌平，陈果.科技论文关键词特征及其对共词分析的影响［J］.情报学报，2014，33（1）:23-32.

［8］傅柱，王曰芬.共词分析中术语收集阶段的若干问题研究［J］.情报学报，2016，35（7）:704-713.

［9］李树青，孙颖.基于加权关键词共现时间元的个性化学术研究时序路径发现及其可视化呈现方法［J］.情报学报，2014，33（1）:55-67.

［10］Ding Y，Rousseau R，Wolfram D.Measuring Scholarly Impact［M］.Springer International Publishing Switzerland，2014:261.

［11］Small H U，Pham P.Citation Structure of an Emerging Research Area on the Verge of Application ［J］.Scientometrics，2009，79（2）:365-375.

［12］Zhou W.Exploring the Constant of Zipf’s Law:Evidence from

Abstract

s of Bibliometric related Research Articles in LISTA［J］.Geomatics and Information Science of Wuhan University，2012（37）:100-106.