词频分析方法的扩散与滥用现象分析

2018-04-13 09:26刘奕杉王玉琳李明鑫
新世纪图书馆 2018年3期
关键词:词频文献计量学

刘奕杉?王玉琳?李明鑫

摘 要 词频分析方法的应用已经从图情领域扩展到越来越多的其他学科领域,在促进各领域研究发展的同时,特定领域热点分析类文章的写作方式呈现出盲目扩散后的滥用现象。论文梳理和分析了国内外此类文章,总结了词频分析方法应用于热点分析类文章的基本状况。研究发现:此类文章存在写作模式化现象严重、方法使用不规范等问题。在此基础上,对此类文章在方法应用等问题上作出了探讨。

关键词 词频 词频热点 文献计量学

分类号 G256.1

DOI 10.16810/j.cnki.1672-514X.2018.03.020

Abstract Word frequency analysis method has been extended from the library and information area into more other subject areas, which has been promoted the research development of the field. Meanwhile, the writing style of those articles which using the word frequency analysis method on hot spot analysis in specific areas, presents the abuse phenomenon after the blind diffusion. Based on the analysis of these articles at home and abroad, this paper summarizes the basic situation of the application of word frequency analysis in hot spot analysis articles. It finds out some problems, such as the pattern phenomenon of writing presents a serious situation, the use of methods is not standardized,etc. Finally, it tries to make some discussions of methods using in this hot spots papers based on these problems.Keywords Word frequency. Hot spot of word frequency. Literature measurement.

0 引言

一定范圍的语言材料中词的使用频率被称为词频。词频的某些波动是与社会现象、情报现象的波动存在着内在联系的,通过词频可以分析和预测社会现象与情报现象[1]。围绕词频方法的研究可以分为两类:一类是对词频分析方法本身的完善与研究,如文献[2-4]分别从语义透明度、叙词选词方法以及双向词频统计等角度对词频分析方法进行了一定程度的完善;另一类是词频分析方法的应用,而此类文章数量远远高于前者。由于词频分析方法是基于客观数据,具有较高准确性;在一定程度上摆脱了定性方法的个人主观性而更具有可信性,因而被广泛应用。将搜索关键词作为词频分析对象,可以分析得到“年度热搜榜”、社会关注的焦点等,例如谷歌年度搜索排行榜(Google Trends)是谷歌搜索引擎进行的年度关键词搜索数据报告,展示一年里最热门的搜索内容,提供29个不同国家和6种不同行业的数据,让人们从数据上了解互联网的大数据时代。将大众化标签作为词频分析对象,可以得知公众对具体事物的舆情;将论文关键词、主题词等作为分析对象,可以得出学科领域内一段时间内的发展和研究进展,预测学科发展趋势。

通过数据统计分析得出某领域的研究热点是一种常见的综述类文章。热点分析类文章常见的分析方法有词频分析法、引文分析法和文献增长率分析法等。在笔者的调查中,词频分析方法的使用明显高于另两种分析方法,成为此类文章最常用的文献计量学方法。本文将这类文章统一称为“词频热点”类文章。

现今,越来越多的分析研究方法在为学者提供更多样、更全面的分析数据的同时,在一定程度上也带来了研究方法的滥用问题。本文以“词频热点”类文章作为分析对象,进行抽样统计,从内容分析的角度探讨此类文献的研究现状、应用的主要研究方法以及方法的演变规律等;并总结现阶段“词频热点”类文章存在的问题,尝试加以分析和讨论。

1 数据抽样与统计

中文文献方面,在CNKI、维普和万方数据库中,以“热点”和“词频”为检索词,检索得到的结果为901篇,经过人工去重和去掉一些不符合本研究要求的文献,最终得到635篇文章。为了分析这些文章在研究方法使用及研究领域应用等方面的详细情况,同时也为了降低工作量,在现有文章基础上继续抽样。按照年份比例选取了186篇中文文献作为最后的待分析样本。

外文文献方面,在WOS数据库和谷歌学术中,以“Hotspot analysis”搭配“Word frequency”“Co-word analysis”“Co-occurrence”“Bibliometric analysis”为检索词进行检索,仅选择期刊和会议论文类型。在此基础上再次抽样,得到了101篇文献作为研究样本。

1.1 发文量统计

根据年度发文量的不同,可以将我国“词频热点”类文章的发展分为三个阶段:初步发展阶段、快速发展阶段和稳定发展阶段。

(1) 初步发展阶段(1990-2008年)。在此阶段,使用词频分析法形成的领域综述还不是很多,年均不超过10篇。甚至有一些年份“词频热点”类文章的发文量为0。从统计数据来看,第一阶段的文献,主要集中发表在学术期刊中,到2003年才出现第一篇“词频热点”的硕士论文[5],而到2007年,开始出现第一篇会议论文[6]。

(2) 快速发展阶段(2008-2013年)。从2008年开始,“词频热点”类文章的发文量首次超过10篇,达到17篇,直到2012年,一直呈现出快速上升的趋势。在此阶段,期刊仍然是主要的发文类型,同时硕博、会议类型的论文数量有了明显的增加,特别是自2008年后每年都有硕博士论文应用词频分析方法进行热点综述,2012年以后超过10篇。

(3) 稳定发展阶段(2013年至今)。在经过了快速的发展之后,我国的“词频热点”类文章已经进入到一个稳定发展阶段。发文量增长减缓,但依然保持较高的数量,整体呈现波动性增长的趋势。

国外“词频热点”类文章也呈现出了相同的特征,亦是自2008年以后进入快速发展阶段。并在2012年以后,年发文量总数超过10篇,其中仅期刊论文发文量也超过了10篇。在2013年到达峰值。在2013年的16篇文献中,有4篇为会议论文,12篇为期刊论文,是会议论文类型发文量最多的一年。2013年以后,进入稳定发展阶段,2016年再次到达峰值,但仅有1篇会议论文,其余15篇均为期刊论文。

1.2 发文机构统计

笔者提取了186篇中文文献样本的前三位隶属机构,并予以分类统计,统计结果如图1:

当前各领域的热点分析类文章的主要研究力量集中在高校,占比88%;在高校中,则以院系为主,其次是高校图书馆与信息研究中心,最后是较小的高校下属的科研部门,如科研处、教研室等。而公共图书馆和独立的科研中心的发文比例不足10%。这种情况在外文的“词频热点”类文章中也同样存在。外文文献中84%的“词频热点”类文章来自高校,6%来自独立的研究所或大型企业下的研究中心;另外由于医学情报领域是外文“词频热点”类文章的研究重点,因此有5%的文献来自医院。

1.3 发文期刊统计

我国的“词频热点”类文章发表在核心期刊上(包括南核与北核)总数超过50%,发表在国刊上19%,省刊17%,大学学刊为10%。然而在这些发表在核心期刊的文章里,有60%的文章是传统图情领域的,其他领域的研究比重占比不足一半。核刊载文领域分布说明“词频热点”类的文章主要还是集中于传统图情领域,其次是教育、医学和科学管理等领域;而其他领域的研究应用较少。但是在外文文献中,最主要的研究领域却是医学情报,占比27%;其次是环境科学情报领域,占比17%;再次才是传统的图情领域,占比13%;生物科学和地理科学则各占8%。由此可以看出中外在“词频热点”类文章中研究方向的不同之處。

2 扩散现象分析

2.1 研究领域的扩散现象

1990年陶慧宁等[7]开启了“词频热点”类文章的序幕,发展至今,经历了漫长的时间。这类方法已经从单一学科的应用扩散到了众多学科。核心领域及领域扩散时间表如图2所示。

早期的学科多集中在医学与情报学的交叉领域,并且均采用医学主题词表中的主题词作为词频分析的统计要素。特别是1995年医学情报领域的“词频热点”文章发文量突发增长,有5篇文献都是医学情报学的研究综述。直到1998年,郑文红[8]针对《科学文摘》C辑刊进行了情报检索领域热点探析的研究,在传统图书情报领域出现了第一篇此类文献。从1998年到2000年这3年时间里,80%的文献仍以医学与情报交叉领域的主题研究为主。1999年,随着我国数据库产业的发展,中文文献中各种信息的提取,特别是关键词的提取变得十分方便,使得关键词成为了词频分析方法的重要统计要素。2004年以后,传统的图情领域成为了“词频热点”类文章最主要的研究力量和研究方向,并一直持续至今。从2005年开始,“词频热点”类文章的研究领域从医学情报、传统图情和科学管理3大领域逐步向其他领域扩散。2005年周艳等[9]对国内外油菜研究现状进行计量分析,使此类文章的研究领域扩展到了农业情报领域。到2010年则有13个领域应用词频方法进行过学科热点分析,经历了一个扩散学科范围越来越广,研究领域越来越精细的过程,由最开始的一级学科视角,逐渐转换成二级或者三级学科视角。2011年之后,这种细分的趋势更加明显,很多都是根据某一特定的研究主题进行热点分析。

相较于国内的研究,国外的“词频热点”类文章的研究领域则主要集中于医学情报,例如,Li Ling-li等[10]对1991年到2006年全球干细胞研究的热点分析。其次才是传统图情,Mane等[11]依据1982-2001二十年间在美国科学院学报上发表的文章,使用共词分析和图谱研究学科研究领域的发展。再次是管理学领域,如Bredillet等[12]以共词分析法分析了项目管理的未来发展趋势。同国内的“词频热点”类文章的研究一样,国外“词频热点”类文章的研究呈现出从一级学科向二级、三级学科过渡的趋势。

2.2 研究方法的扩散现象

随着研究的深入以及不同领域的扩散,“词频热点”类文章的研究方法也出现了变化,并且表现出类似的扩散现象。这种扩散的起点是传统的图书情报领域,终点是其他领域。现将应用了同种统计工具和同种研究方法的第一篇图情领域文章和其他领域文章的发文时间对应列出,可以知晓统计工具扩散的滞后时间(表1) 与研究方法扩散的滞后时间(表2)。

根据表2中研究方法的滞后时间,可以将上述研究方法分为两类。一类是缓慢扩散(滞后时间大于等于6年)的研究方法。图情领域但凡出现一种新的研究方法扩散到其他领域需要超过6年的时间。这类方法的代表是共现和共词聚类方法,这种类别的方法扩散时间滞后现象比较显著。另一类是快速扩散(滞后时间小于等于1) 的研究方法。一种新的研究方法扩散只需要平均1年就可完成,甚至在当年即可完成。一种新的研究方法大范围应用平均滞后时间在2008年为2年,而在2010以后扩散时间则缩短为1年以内,扩散速度明显加快。

总体上,研究方法扩散的平均时间为2.86年,而统计工具的扩散滞后平均时间为1.25年。这在一定程度上可以看出:在扩散的过程中存在统计工具先行扩散,再到研究方法的扩散规律。

3 研究方法的演进

我国“词频热点”类文章所使用的研究方法的演变过程经历了“文献外部特征统计”+“主题词词频分析”,到“外部特征”+“关键词词频分析”,再到“关键词词频分析”+“由词频发展出的其他多项衍生方法结合”,最后到“词频分析”+“多项衍生方法与知识图谱相结合”的分析研究模式。依据其使用的主要分析方法的不同,即以外部特征统计与词频分析为主和以词频衍生方法为主作为主要特征,划分为2个阶段,分别为积累阶段和繁荣阶段,如图3所示。

(该图表示从1990—2016年中研究方法的变化,以五年一个区间。其中不同样式的圆代表不同的研究方法,圆的大小代表圆圈所在的区间里使用该方法的文章数量。圆与横坐标相切的垂线对应的年份表示该方法在这个区间内第一次出现的时间。)

3.1 积累阶段(1990—2008年)

由于受到研究条件、技术、方法论的限制,我国“词频热点”类文章在前期发展阶段更倾向于对各种文献外部特征进行统计和应用词频分析方法来进行文献内容方面的分析。文献外部特征的统计,主要包括年度发文量、作者信息(核心作者、合著情况)、载文期刊的分布、语种、国别、作者所属的机构等信息,如吴超等[13]对国外信息服务研究热点的分析。但这种外部特征的计量分析方法由于其所能揭示的信息有限,加之新的文献计量方法不断出现,因此在2013年之后,外部特征统计方法有所下降,仅发文量的统计仍被多数“词频热点”类文章所使用。

1990-2000年的词频分析方法主要应用于医学与情报学交叉领域,以主题词作为统计分析要素是其显要特征。1996年,崔雷[14]在“词频热点”类文章中首次开始使用共词聚类方法,成为第一篇使用词频衍生方法的研究性综述。而随着中文文献数据库产业的发展对文献关键词提取的支持,从2002年开始,逐渐出现采用篇名关键词、摘要关键词和作者关键词进行的关键词词频分析研究,例如梁立明[16]对我国纳米科技的发展研究。而后经历了一段主题词词频和关键词词频都使用情况的时期,在这个时期还有一些文章干脆不写明到底使用的是哪一种词来进行词频分析。但从2008年开始,一般在进行中文文献的词频分析时,多采用作者关键词作为统计要素。

除文献信息的外部特征统计之外,词频分析法作为一种有效的内容分析方法,当研究领域中的研究主题变化时可起到极大的作用,甚至前期的研究文章的分析探索在很大程度上是依赖词频分析方法完成的。因而,词频分析方法在此阶段得到了很好的运用和发展;虽在此阶段的论文写作并不十分规范,有许多的研究基本信息都没有交代清楚,但并不妨碍研究者们应用词频分析方法,并从多个角度得出领域内的研究动向、发展趋势等结论。

3.2 繁荣阶段(2008年至今)

2008年是词频分析各种延伸方法爆发使用的一年。研究者们以词频分析为基础,纷纷加入了多种研究方法进行领域热点研究。姜春林等[16]将知识图谱、多维尺度等研究方法加入到热点分析的研究文章中,将词频分析方法做了进一步的延伸。赵丽红[17]加入了引文分析方法,将高被引作者和词频分析方法结合起来,分析情报学的研究热点。向节玉[18]除了使用共被引方法、词频分析、聚类、因子分析等方法外,还使用了H指数法来研究我国知识产权的问题。

多种词频分析软件,如CiteSpace、ROST系列软件、SPSS、BibExcel等的出现也使词频分析步骤变得极其简单。借助工具软件,只需导入必要的数据即可得到分析结果。这使得基于大量数据的词频分析变得人人可用。词频分析成为了研究着进行进一步深入分析的基础准备工作。

另外,研究结果的可视化呈现也是推动“词频热点”类文章使用方法不断演进的一个重要因素。研究结果的可视化呈现可以为人们带来更直观、更新颖的、更易接受的学习体验。同时,也让各种研究方法的应用以种类繁多的图示展示出来。虽然共词聚类树状图[9]在2005年便已出现在“词频热点”的研究文章中,但可视化分析成为一个新的研究热点却是在2008年之后,如姜春林等[16]在管理学热点研究中加入了多维尺度图;2009年,栾春娟等[19]用CiteSpace绘制知识图谱来说明国际科技政策的研究热点。此后的研究愈加依赖这种可视化知识图谱的结果呈现方式。

国外的词频分析方法虽然出现的时间较早,但方法使用的发展状况与国内的方法演进情况基本一致,并没有领先于国内。外文文献的热点研究方式一直处于重词频分析法与多种研究方法并重的状态之下。在多维尺度、共词聚类、知识图谱、社会网络分析、核密度分析等多种研究方法不断地融合和衍生的同时,还是有部分研究是仅以词频分析方法的深入探析来完成的。因此,相對来说,外文文献的词频分析方法在如何进行深入的分析上面做得更加规范。

4 方法滥用现象分析

虽然“词频热点”类文章的研究方法对于信息揭示得更加充分,应用领域也有了较大范围的扩散,但是我国“词频热点”类文章在方法使用的滥用现象也越发凸显,主要表现为以下三个方面。

4.1 写作模式化现象严重

目前“词频热点”类文章的写作方法基本已经形成了一个固定的模式、即以词频、共词、多维尺度和知识图谱这四大方法为主,根据研究者的实际需要增删一两种方法。“词频热点”类文章的分析重点也从词频方法逐渐转移到以词频为基础的其他衍生方法上,甚至有部分的研究对词频统计的结果根本就不加以分析,而是直接用词频的统计结果来做共词、多维尺度等分析。因此在多数的“词频热点”类文献中,词频分析仅作为进一步研究的基础工作存在,并在此阶段逐渐形成了“词频热点”类文章的写作模式,即以词频分析为基础,以共词、多维尺度两大方法为分析重点,辅以知识图谱的形式呈现出来。

特别是最近几年,“词频热点”类文章虽然看上去是对研究的主题信息揭示得更加充分了,但是不能排除有一部分的文章是为了使用方法而使用方法,文章仅仅是方法的罗列,忽视了需要研究者真正去思考和分析的环节,造成了重方法应用而轻分析的现象。

4.2 统计工具不明确

对于研究性文章而言,交代清楚研究工具是很必要的,方便后续研究者进行实验参考。但是我国的“词频热点”类文章,不写明研究工具似乎是一个共性问题。根据样本数据,我国热点问题研究的文章在发展的初期阶段有27篇文章,写明研究工具的仅有8篇,占比29.6%;而在快速发展阶段和稳定发展阶段,由于论文发表审查愈发严格、论文写作更趋规范等多方面的原因,在159篇论文中,写明研究工具的有109篇,占比68.5%。虽然交代研究基本信息的意识有了明显的提高,但是不交代研究工具的现象依旧明显。这种现象在外文文献中则显得更为严重,101篇外文文献中,40% 的文献没有明确给出统计工具。

在国内最常使用的工具为SPSS、Excel、CiteSpace。外文中最常使用的工具为Excel、SPSS和CiteSpace。我国的“热点分析”类文章多数是以共词、多维尺度等词频的衍生方法进行学科或领域的发展现状揭示,因此最常用的软件为SPSS;而外文中有43.6%的文献则更偏重外部特征信息的词频分析,因而Excel即可满足基本的数据处理需求,成为最常用的统计工具。

4.3 高频词选取随意

高频词的选取,不仅能在一定程度上确定该研究主题的发展动向,也是进行进一步深入分析和其他衍生方法分析的基础。然而在中文文献中,高频词的选取方面却并不十分规范。在前期的27篇论文里,写明高频词选取标准的有12篇,然而这12篇文章的高频词都是按照词频排序的前几位作为研究所需的高频词;仅有1篇文章的高频词,是根据齐普夫定律计算得出。随意选取高频词的现象到了发展后期得到的改善也十分有限。在快速发展阶段和稳定发展阶段,仍然有32.7%的文章没有写明高频词的选取方法。

5 结 语

目前,我国“词频热点”类文章的写作模式基本是以词频、共词、多维尺度以及知识图谱这四大方法构成。从国内外的对比中,可知国内此类文章存在严重的写作模式化现象、统计工具不明确和高频词选取随意等问题。虽然从传统的图情领域中产生的研究方法,扩散到其他领域能够促进传统图情与其他学科的发展。但是在扩散的同时,如果仅仅是追求方法的使用,而忽视了深层信息的揭示和方法本身的研究和改进,恐其适得其反。方法是手段,分析才是目的。如果一味地追求方法的使用,套用模式化的写作方式,势必造成此类文章过多、信息泛滥。

参考文献:

邓珞华.词频分析:一种新的情报分析研究方法[J].大学图书馆学报,1988,6(2):18-25.

高兵,高峰强.汉语字词识别中词频和语义透明度的交互作用[J].心理科学,2005(6):80-82.

浦墨,郑彦宁,赵筱媛,等.基于词共现关系强度和关键词词频的叙词选词方法探究[J].图书情报工作,2013(15):121-125.

张云秋,郭柯磊.基于双向词频统计的非相关文献知识发现排序方法研究[J].情报科学,2009(8): 1240-1244.

谢彩霞.我国纳米科技研究与发展状况的计量分析[D].新乡:河南师范大学, 2003.

邓波,代艳.我国草业科学研究动向分析: 中国草学会青年工作委员会学术研讨会[Z].中国草学会,海口: 2007.

陶惠宁,岑泽波.中医骨伤文献的计量学分析[J].中医正骨,1990(2):2-4.

郑文红.从《科学文摘》C辑看计算机情报检索研究的热点及部分前沿课题[J].情报科学,1998(1):50-55.

周艳,陈云坪.基于文献计量的国内外油菜研究现状对比分析[J].农业图书情报学刊,2005(9):141-144.

LI L L, DING G, FENG N, et al. Global stem cell research trend: Bibliometric analysis as a tool for mapping of trends from 1991 to 2006[J]. Scientometrics,2009,80(1):39-58.

MANE K K, B·RNER K. Mapping topics and topic bursts in PNAS[J]. Proceedings of the National Academy of Sciences, 2004, 101 Suppl 1(Suppl 1):5287-5290.

BREDILLET C. Investigating the Future of Project Management: a co-word analysis approach[C]// International Research Network for Organizing by Projects-Irnop,2006.

吳超,于晓光.国外信息服务研究热点分析[J].情报科学,2007(4):530-533.

崔雷.专题文献高频主题词的共词聚类分析[J].情报理论与实践,1996(4):50-52.

梁立明,谢彩霞.词频分析法用于我国纳米科技研究动向分析[J].科学学研究,2003(2):138-142.

姜春林,李江波,杜维滨.基于CSSCI的我国管理学研究热点可视化分析[J].图书情报工作,2008(12):55-58.

赵丽红.基于高被引论文的情报学研究现状分析[J].现代情报,2008(12):157-160.

向节玉.我国知识产权科学论文的文献计量研究[D].长沙:中南大学, 2008.

栾春娟,侯海燕,王贤文.国际科技政策研究热点与前沿的可视化分析[J].科学学研究,2009(2):240-243.

刘奕杉 东北师范大学信息科学与技术学院硕士研究生。吉林长春,130017。

王玉琳 东北师范大学信息科学与技术学院硕士研究生。吉林长春,130017。

李明鑫 东北师范大学信息科学与技术学院讲师、博士。吉林长春,130017。

(收稿日期:2017-04-26 编校:刘 明)

猜你喜欢
词频文献计量学
《现代泌尿外科杂志》2011~2013年文献计量学指标分析
《广西民族研究》创办30年来刊发文章的回顾与展望
毛泽东话语的词语特征
中文图书评价体系研究
词频,一部隐秘的历史
谈常用字词的选取及其等级划分