文献计量分析中的数据准备工作研究*

2012-02-15 09:34沈艳红江南大学图书馆江苏无锡214122

图书馆建设 2012年5期

沈艳红张娣（江南大学图书馆江苏无锡 214122）

目前，大量学者利用文献计量学的各种方法来进行学科情报分析，这些分析研究是非常有意义的。期刊刊发的文献计量分析类论文，一般都会对数据准备工作进行简单的介绍。但是笔者发现，不论是作者、编辑，还是读者，对这部分内容的重视程度都比较低，导致一部分文献计量分析在数据准备工作中出现了很大的偏差。

1 数据准备工作的具体内容

文献计量分析研究的过程主要包括6个步骤：确定文献计量分析目标、制定分析方案并设计文献计量指标、进行数据准备、分析指标数据、形成分析报告、发布分析报告。其中，文献计量分析中的数据准备工作主要包括数据采集和数据清洗两个方面。

1.1 数据采集

文献计量分析中的数据采集是指选择与文献计量分析指标配套的数据的过程。目前，文献计量分析的数据采集主要有3种方法：①直接从数据库商获处取数据库数据[1-4]，其数据来源是CSSCI（Chinese Social Sciences Citation Index，中文社会科学引文索引）的后台数据库；②在数据库商的网站上通过检索得到检索结果[5-7]，其分别利用CNKI（中国知网）、SCI（Science Citation Index，科学引文索引）、EI（The Engineering Index，工程索引）数据库，通过检索得到详细记录，然后复制检索结果网页上的相关内容；③自动下载，通过程序构造URL（Uniform Resource Locator，统一资源定位符），然后根据URL下载HTML（Hypertext Markup Language，超文本标记语言）网页文件，读取下载的网页文件且滤掉HTML的标签，根据字段名称获取数据记录，如通过上述方法下载万方学位论文数据库某高校镜像网站上的符合检索要求的学位论文全部内容[8]。其中，第1种方法需要研究人员与数据库商有很好的协商与沟通，一般情况下只有数据库所在单位的内部人员才有开展的条件；第3种方法需要具有较高的技术水平才能实现。因此，目前使用最为广泛的是第2种方法，但是这种方法对检索者的检索水平要求较高，很多计量分析类文献的数据出现问题就是因为检索人员对数据库了解不够。

1.2 数据清洗

数据清洗就是将来自不同数据源的不同格式的数据转换成统一的格式，去除错误记录和重复记录，补充遗漏记录，以提高数据质量的工作。数据清洗的原理主要是根据回溯思想，通过分析“脏数据”的产生原因和存在形式，利用现有的技术手段和方法检测“脏数据”，制订数据清洗的方法、规则和策略并加以实施，将“脏数据”转化为满足数据质量要求或应用要求的“干净数据”。

2 数据准备工作的重要性：基于实证的阐述

GIGO（Garbage In, Garbage out；垃圾进，垃圾出）理论指出，“无论系统的能力有多强，如果输入数据是错误的，输出结果必然也是错误的。”[9]推而广之，如果采用不正确、不完整、不一致、不可靠的数据，不论我们运用多么强大的分析方法，也无法确保分析结果的正确、完整、一致、可靠。数据准备工作作为文献计量分析的基础，其质量直接影响着分析结果的科学性、客观性。然而，即便是从同一个数据库中获取数据，也会因为数据采集和数据清洗时所运用方法的不同而导致所获数据差异较大。这就要求文献计量分析人员高度重视数据准备工作，选用最合适、最有效的方法和手段，从而获得最正确、完整、一致、可靠的数据。笔者以基于CNKI检索图书馆学高被引论文为例，进行如下实证的阐述。

2.1 方案1：某文所述检索方法

张诗博曾对国内2004—2008年图书馆学研究高被引论文的被引用情况进行了统计分析，筛选出了图书馆学研究的重要期刊、多产作者和多产科研机构，同时对高被引论文的产出地区和研究主题进行了统计与分析，该研究对图书馆学的研究工作非常有借鉴意义[10]。张诗博的检索方法是：选用CNKI的中国引文数据库，确定检索项为“被引题名”、检索词为“图书馆”、时间段为“2004—2008年”，得到2004—2008年国内图书馆学研究的高被引论文20篇[10]。

2.2 方案2：基于中国引文数据库的分类检索

基于CNKI的中国引文数据库检索上述课题，笔者采用分类检索方式，具体步骤如下：

第1步：确定查询范围。在中国引文数据库中点击高级检索，在检索界面的左侧查询范围中，首先清除默认查询范围，然后点击“电子技术及信息科学”；再次清除默认的查询范围（包括无线电电子学等10个专题），然后点击“图书情报与数字图书馆”（该专题包括“图书馆学、图书馆事业”和“情报学、情报工作”），勾选“图书馆学、图书馆事业”。

第2步：查询范围确定以后，在引文类型中选择“期刊类型引文”。

第3步：检索结果的排序方式选择“被引频次”。

第4步：根据自己的需要输入发布时间。例如，要获得2004年国内图书馆学研究的高被引论文，发布时间就是2004—2004；如果要获得2004—2008年图书馆学研究的高被引论文，发布时间为2004—2008。

第5步：无需在检索框中输入检索词，直接点击检索就可以获得2004—2008年该专题论文的被引情况。由于检索结果按照被引频次排序，用户可以根据自己的需要获取高被引论文。

2.3 方案3：基于中国学术期刊网络出版总库的分类检索

基于中国学术期刊网络出版总库检索上述课题，笔者采用分类检索方式，具体步骤如下：

第1步：确定查询范围。在CNKI首页点击“中国学术期刊网络出版总库”，进入该库检索界面；在检索界面左侧的“文献分类目录”中勾选“图书馆学、图书馆事业”这一专题。

第2步：在“输入检索控制条件”下的期刊年期处选择从2004年到2008年。

第3步：无需输入检索词，直接点击“检索文献”。

第4步：在“文献排序浏览”处点击“被引频次”，使所得78 935条记录按照被引频次从高到低排序，用户可以根据自己的需要获取高被引论文。

2.4 数据对比分析

对比方案1和方案3所得的检索结果发现：方案1所获得的前20篇论文，除了李国新的《图书馆权利的定位、实现与维护》一文漏检外，均散落于使用方案3获得的前40篇论文中。也就是说，方案1的查全率大约是方案3的50%，而基于如此不完备的数据所得的分析结果，其可信度值得怀疑。

对比方案2和方案3所得的检索结果发现：方案3获得的前20篇论文中，有5篇论文在方案2中并没有被检索出来，而利用方案2检索得到的前20篇高被引论文，通过方案3均可以得到，只是因为检索出了一些被方案2所漏掉的论文，部分论文的排名被往后推了，并且方案3所得文献被引频次普遍高于方案2所得文献。这可能是因为中国引文数据库的更新速度低于中国学术期刊网络出版总库的更新速度。也就是说，方案2的查全率是方案3的75%。显然，通过方案3来获得某一学科的高被引论文优于前两种方案。

根据上述实例发现，同样以CNKI为数据源，采用不同的检索方法来获得图书馆学的高被引论文，其检索结果最多可能相差50%。在文献计量方法日益受到重视并得到广泛使用的今天，我们不能只重视采用“什么样”的方法“如何”分析数据，更要重视我们分析的是“什么样的数据”。文献计量分析工作是否有意义，是建立在被分析的数据准确、可靠的基础之上的。因此，在进行文献计量分析研究时，一定要重视数据准备工作。

3 数据准备工作的几个建议

正确、完整、一致、可靠的数据是文献计量分析的前提，但是如何才能做到这一点呢？笔者在长期的文献计量分析工作中积累了一些经验，提出以下几点建议。

3.1 分析信息需求，选用合适的检索方法。

在进行检索之前，研究者首先要分析自己的信息需求，然后根据自己的需求来选择合适的检索方法。正如上述案例所示，方案1所得检索结果与信息需求之间有很大的差距，因为该方法所检索到的是题名中包含“图书馆”一词的高被引论文，而不是图书馆学领域中的高被引论文。要对图书馆学文献的被引情况进行统计，应采用分类检索，这样不论题名是否包含“图书馆”3个字，只要是图书馆学领域的学术论文都可以被检索到，查全率才能得到保障。

3.2 掌握数据库的使用方法

各数据库由不同的开发商开发，其检索功能差别很大。用户只有在了解数据库的使用方法的基础上，才能通过数据库的检索功能检索到自己所需的信息。例如，在Web of Knowledge 中区分自引与他引，靠人工逐篇判断极为费时费力，还容易出错，但是如果了解该数据库检索功能，就可以利用“检索结果分析”功能，对检索到的施引文献进行“作者分析”，然后排除本文作者，所得结果即他引数。

3.3 尽量提高查全率，及时补充遗漏数据。

当前的检索系统多是用自然语言组织的，这极大地方便了信息用户的检索。但在自然语言中，同一个概念或事物可以用很多不同的词来表述。如果希望得到高的查全率，用户在选取检索词的时候，必须从多种角度来考虑，如同义词、近义词、反义词、上下位词和检索词的易错形式等[11]。

得到检索结果后不要急于进入分析阶段，应先查看数据是否合理、是否存在漏检。例如，笔者利用CNKI的中国引文数据库，在食品工业类中检索图书的被引情况，按照被引频次从高到低排序后，统计构成总被引量80%的高被引图书，以构成食品工业类的核心书目。但笔者发现，其中没有一种图书是2005年以后出版的，这是为什么呢？考虑到中文学术性文献的引用期大致为出版后2～5年，因此，笔者以年均被引5次作为一个补充指标，获得近5年出版的图书60种，将其纳入核心图书的范畴，得到一个较完整的核心书目[5]。

3.4 删除误检数据

查全率和查准率之间存在互逆关系，估算和补充漏检数据的难度远高于删除误检数据。因此，研究者首先要保证的是查全率，贯彻“宁可误检，不可漏检”的原则，在此基础上对数据进行审核，删除不符合要求的文献。例如，丁玉东在统计1999—2008年EI收录的燕山大学论文时，使用检索式： ((yan shan univ*)WN AF)AND((qinhuangdao)WN AF))、((yanshan univ*)WN AF)，两个检索式的时间限定在1999—2008年，共得到论文3 313篇，手动删除误检论文41篇，得到符合要求的论文共3 272篇[7]。

[1]李平.我国民族学图书学术影响力报告:基于CSSCI(2000-2007年)数据[J].西南民族大学学报:人文社会科学版, 2009(7):71-80.

[2]许鑫, 王伟.我国文化学图书学术影响力报告:基于CSSCI的分析[J].东岳论丛, 2009(7):14-21.

[3]谢靖.中国文学图书学术影响力分析(国内学术著作):基于CSSCI(2000-2007)[J].东岳论丛, 2009(10):59-66.

[4]贾洁.我国“图书馆、情报与文献学”图书学术影响力报告:基于CSSCI的分析[J].中国图书馆学报, 2010(2):56-69.

[5]沈艳红, 吴信岚.基于中国引文数据库的核心书目测定研究[J].现代情报, 2011(9):136-139.

[6]沈艳红, 彭奇志, 张逸新, 等.基于Web of Science的无线传感网学术研究发展分析[J].现代情报, 2011(2):64-69.

[7]丁玉东.1999～2008年EI收录燕山大学论文统计分析[J].教学研究, 2010(3):43-46.

[8]化柏林.文献计量分析研究的分类与处理流程[J].情报科学, 2007(9):1332-1336.

[9]王永红.定量专利分析的样本选取与数据清洗[J].情报理论与实践, 2007(1):93-96.

[10]张诗博.2004-2008年国内图书馆学研究高被引论文的统计与分析[J].情报科学, 2011(3):387-390.

[11]沈艳红.信息检索中检索词的选择对查全率的影响[J].情报探索,2006(11):73-74.