基于引文内容分析的图书学术影响研究
——以《小科学，大科学》为例

2021-05-31 00:51雷天骄孙浩东王鲁燕

图书与情报 2021年2期

雷天骄孙浩东王鲁燕

（1.西北农林科技大学图书馆陕西咸阳 712100）

（2.中国农业大学图书馆北京 100083）

在跨学科研究飞速发展的今天，学科间的联系越发紧密。而图书、论文作为科学知识记录和传播的载体也是紧密联系的，研究者在开展论文创作时经常参考前人的经典著作，为自己研究的开展奠定基础，提供依据。图书的引用和被引用是科学研究中的一种普遍现象，体现了知识的继承和传播，反映了科学的不断发展，对图书学术影响的评价意义重大。

《小科学，大科学》倡导采用科学方法分析科学的发展，关注科学发展对社会各方面的影响，是科学计量学的奠基之作,具有重要地位和研究价值。本文构建了引文内容标引体系，采用引文内容分析法分析《小科学，大科学》的学术影响，以期为图书的学术影响评价提供借鉴。

1 研究述评

目前，基于引文分析的图书学术影响评价主要采用传统引文分析法，如李德竹的《咨询巨人》一书通过分析施引文献的语种、文献类型、年代、学科分布来归纳《as we may think》的影响力分布。相关研究集中在采用图书在论文中的被引频次来衡量图书的学术影响大小；苏新宁以CSSCI数据库为统计源,筛选出了各学科中被论文引用最多、学术影响最大的图书。他提出通过提取引用图书频次高的论文，分析这些论文与什么主题相关，从而发现图书主要在哪些学术领域发挥着学术影响力，为研究者开展学术研究提供指导；丁翼对CSSCI（2000-2007）中法学论文引用图书的频次进行了统计，筛选出了法学领域学术影响力最大的图书；贾洁统计了CSSCI数据库“图书馆、情报与文献学”类论文引用图书的情况，评价了该学科图书影响力的大小。还有文献基于SSCI中的引文数据对丁肇中的科研成果影响力进行了评价。一些研究对《小科学，大科学》一书的学术影响进行了简单分析。胡志刚、侯海燕等对《科学的社会功能》《小科学，大科学》在Web of Science中的被引情况进行了引文分析，探索它们产生影响的学科范围及其在Scientometrics期刊中产生的影响；Garfield同样也曾对《小科学，大科学》的被引情况进行过简单的分析。

一些学者对仅采用引用频次评价文献学术影响的方法提出了质疑，尝试采用引文内容分析法进行更科学、深入的分析。Moravcsik在引文分析时加入了引用行为指标，对物理学领域30篇论文的引文行为进行了分析，解读了它们被正面引用、负面引用的情况；Frost、Maricic进一步对引文位置和引文功能的关系进行了研究。Garfield对作者的引用行为进行了分类。Zhang等基于引文的语法和语义，提出了引文内容分析框架，以更好地挖掘研究行为的文化背景。章成志等从引用位置、引用强度、引用长度以及引用情感出发，分析了不同学科中文图书的被引行为。李卓等进一步挖掘了图书的被引动机及其与引用位置、引用长度的关系。周清清和章成志对图书影响力评价研究进行了总结和展望，认为运用内容分析法评价图书影响力可以进一步判断用户引用或阅读图书的意图、态度、需求。传统引文分析法忽视了引文的语义信息，无法观察引文动机，不能说明被引内容对施引文献的具体影响力和重要性。因此，仅通过传统引文分析法来评价图书的学术影响是不充分的，还需结合引文内容分析来深入挖掘图书的学术影响。采取引文内容分析方法来分析文献的学术影响越来越受到关注，并逐渐走向成熟，形成了基本的研究步骤和研究体系。

2 研究方法

引文内容分析的步骤包括：确定分析内容、引文信息抽取、引文类型归纳分析。第一，确定需要分析的引文内容信息，建立分析体系，通常包括引用行为和引用主题两个方面；第二，标注引文信息，标记引文在全文中的位置，并通过语境、上下文等判断施引文献的引用行为，进行记录；最后，开展引文类型归纳分析，对所标记的各项引文内容信息进行统计分析，揭示被引内容对施引文献的具体影响。

2.1 数据获取

本文选取社会科学引文索引（SSCI）作为外文期刊的来源数据库。运用被引检索功能，输入“lit*sci*big sci*”进行检索，去除无关文献，共检索到73个版本，1992条《小科学，大科学》的被引记录。检索日期为2018年1月5日。选取中文社会科学引文索引（CSSCI）作为中文文献的来源数据库。运用被引文献检索功能，选择“被引篇名（词）”选项，输入“小科学，大科学”进行检索，共检索到39个版本，64条《小科学，大科学》的被引记录；输入“little science，big science”进行检索，共检索到82个版本，140条《小科学，大科学》的被引记录。去除无关文献，共检索到197条被引记录，检索日期为2018年1月7日。

根据SSCI中引用《小科学，大科学》文献的年代分布（见图1），1963-1979年间每年引用《小科学，大科学》的文献数量波折迅速上升，一是因为文献刚发表的前几年一般是引用高峰，新的理论受到大家密切关注；二是因为1963年后，普赖斯在科学学、科学史方面的研究不断深入，促进相关研究形成热点、产生更大的影响，这也一定程度上提升了《小科学，大科学》的受关注度和影响力。1979-2008年，每年引用《小科学，大科学》的文献数量平稳变化，稳定在较高的数值，《小科学，大科学》产生了持续的学术影响。2008-2009年，每年引用《小科学，大科学》的文献数量急剧增长，之后年份的每年引用数稳定在了更高的数值。2009年引用《小科学，大科学》文献的研究主题集中在跨学科研究、科学价值的探讨、科研合作、开发获取、文献计量可视化几个方面，《小科学，大科学》包含的科学学思想与时代发展下越来越强的科研合作趋势以及强大的计算机技术相结合，焕发出了新的活力，产生了深远的学术影响。

CSSCI中每年引用《小科学，大科学》的文献数量随时间变化波折变化（见图2）。文献数量在2013年达到顶峰，2013年是普赖斯逝世30周年，一批纪念普赖斯逝世30周年的文献发表，这些文献归纳总结了普赖斯对科学学和其他学科的贡献，对中国和世界的影响。此外，2013年文献的研究主题还集中在计量分析和科研合作。

2.2 构建分析框架

由于从不同角度获取的引文内容特征不同，引文分析的需求也千差万别，因此在进行引文分析之前，需要根据实际情况制定引文分类体系，按引文分类体系对引文进行标记和总结。早在1965年，Garfield就提出了15种引文动机。Finney从引文位置和引文内容出发，设计了引文内容分析框架。Oppenheim、Renn设计了一个包含7个类别的分类体系。Chubin以肯定或否定、内涵或补充、基本或附属将引文内容划分为6个类别。研究者根据自身研究目的不同提出了不同的引文内容分析框架，但它们的普遍适应性较差。

对主要的引文内容分析框架体系进行整理，可将现有体系归纳总结为4个维度：（1）引文功能，即被引文献在施引文献中发挥的作用；（2）引文质量。被引文献在施引文献的哪一部分被引用，是核心部分，还是外围部分等；施引文献自身的质量；（3）情感倾向。施引文献对被引文献的情感倾向，是积极、消极还是中立；（4）引用动机，即被引文献为什么要引用施引文献。其中引文功能、引文质量、情感倾向是已有引文分析框架中最重要的三个维度。本文从这三个维度出发构建了引文内容分析框架体系（见表1）。

表1 引文分析框架表

图1 SSCI中引用《小科学，大科学》文献的年代分布

图2 CSSCI中引用《小科学，大科学》文献的年代分布

引文功能可以反映被引文献对于施引文献影响程度的大小，如有机引用的文献往往比机械引用的文献对施引文献的影响更大。情感倾向体现了引用者对于被引文献肯定或否定的态度。引文质量可以反映哪些内容在引用者的研究中发挥了更重要的作用。引文质量与引文功能的分布表现出了较强相关性，因此本文将这两个维度的标注结果结合分析，以提升分析结果的客观性。

本文综合对于引文内容属性标引的研究，通过直接引用/间接引用，有机引用/机械引用/都不是指标来反映引文功能，通过引文位置、被引次数指标反映引文质量，通过正面引用/负面引用/中性引用指标反映情感倾向。确定引文内容属性标引体系后，抽取引文信息，在全文中定位引文位置，对其进行标记，并通过引文上下文及全文中的其他相关信息判断施引文献的引用行为，进行记录。最后，进行引文类型归纳分析，对所标记的各项引文内容信息进行统计，整合统计结果，揭示统计结果所反映的现象，得出结论。

本文分引文所在章节和引文内容信息两部分对SSCI、CSSCI文献全文信息进行了人工标注，梳理了标注内容名称（见表2）。

2.3 数据标注

本文采用抽样的方法，在SSCI中1992条《小科学，大科学》一书的被引记录中抽取了116篇文献的全文，对其引文内容进行人工标注（标注样例见图3）。

将SSCI中引用《小科学，大科学》的文献数据导入Citespace软件中，选择时间段为1963-2018年，年份分割为1，数据类型为“Noun Phrases”，节点类型为“keyword”，生成关键词共现网络后进行聚类，并添加聚类标签，得到SSCI关键词聚类视图（见图4）。

表2 引文内容属性标引体系信息表

图3 SSCI引文标注结果样例

由图所示，SSCI数据库中引用《小科学，大科学》的文献主要聚类在以下知识子群中：情报学（information science）、科学依据（scientific basis）、盲目变化（blind variation）、计量经济学理论（cliometric metatheory）、生物医学文献（biomedical publication）、科学演化的表现（scientific evaluating performance）、机构合作（institutional collaboration）、电子学学术交流（electronic scholarly communication）、复杂创新体系（complex innovation system）、出版物模式（publication pattern）。本文所抽取的116篇文献涵盖了这十个知识子群的内容，具有一定的代表性。

本文提取了CSSCI中《小科学，大科学》可以取得全文的被引记录，共获得全文193个，对其引文内容进行人工标注（标注样例见图5）。

图4 SSCI关键词聚类图

图5 CSSCI引文标注结果样例

对这309篇文献的标注内容进行统计，在统计时对字段名称进行清洗，如将introduction和background统一归入前言、背景部分，将分析讨论的章节统一归入分析部分等，将全部章节归为前言背景、方法和数据、分析、结论和展望四个部分。

为保障标注质量，由两位标注人员分别对这309篇全文进行了独立标注，标注者通过章节名、引文的位置、上下文内容等信息判断将引文归于文章的那个部分，通过引文内容和上下文内容等信息判断引文功能，依据引文内容属性标引体系信息表进行标注。本文采用Kappa系数对人工标注结果的一致性进行了检验，得出检验结果（见表3）。

本文运用SPSS分别计算SSCI、CSSCI引文位置标注结果和SSCI、CSSCI引文引用功能标注结果的kappa值，分别得到SSCI和CSSCI引文位置分布结果（见表4、表5）、引文被引频次分布结果（见表6、表7）、引文引用功能分布结果（见表8、表9）和引文情感倾向分布结果（见表10、表11）。根据一致性参考指标（K≥0.8为十分可靠，K≥0.69为较为可靠），一致性检验结果均大于0.8，说明标注结果十分可靠。

表3 一致性检验结果

表4 SSCI引文位置分布表

表5 CSSCI引文位置分布表

表6 SSCI引文被引频次分布表

3《小科学，大科学》引文内容分析结果

3.1 引文位置分布分析

在SSCI中，《小科学，大科学》在文献的前言、背景部分被引频次最多，反映出《小科学，大科学》的内容主要作为文献的研究背景、理论基础出现，为后人的研究起铺垫作用。其次是文献的分析部分，主要作为开展计量分析的依据出现，推动了计量方法在科学研究中的应用。最后是文献的结论部分和方法与数据部分。

在CSSCI中，《小科学，大科学》在文献的分析部分被引频次最多，为文献的分析部分提供了理论依据，其次是文献的前言、背景部分，最后是文献的结论部分和方法与数据部分。

3.2 引文被引频次分布分析

表7 CSSCI引文被引频次分布表

表8 SSCI引文引用功能分布表

表9 CSSCI引文引用功能分布表

表10 SSCI引文情感倾向分布表

表11 CSSCI引文情感倾向分布表

在SSCI中，《小科学，大科学》在每篇文献中的被引频次多为1次或2次。一篇分析欧洲国家高产学者跨国研究的文献中，《小科学，大科学》被引用了5次。《小科学，大科学》中提出的知识生产系统大规模、跨国不平等的设想对该文献的研究思路产生了较大影响。被引频次为2次及以上的文献多为人才评价相关文献，大多引用了《小科学，大科学》中的“看不见的学院”。“看不见的学院”阐释了非正式的科学交流形式对科学发展的意义，可以延伸出人才成长轨迹对于文献计量的补充价值，因此在人才评价相关文献中被多次引用。《小科学，大科学》不仅推动了文献计量方法在科学研究中的运用，也对采取非文献计量手段进行科学评价提供了思想指引。

在CSSCI中，《小科学，大科学》在每篇文献中的被引频次多为1次，多作为文献的研究基础、理论依据出现，《小科学，大科学》的思想作为研究的中心线贯穿全文的文献很少。

3.3 引文功能和引文质量深度分析

在SSCI中，文献前言、背景部分直接引用《小科学，大科学》的思想主要包括科研合作、知识爆炸、科学评价、探索科学发展规律四个方面，《小科学，大科学》在这些领域提出的观点极具前瞻性。《小科学，大科学》是科学学、科学计量学的奠基之作，它的观点直击科学学、科学计量学的研究核心，因此在文献的前言、背景部分被多次引用，至今为科学学、科学计量学及相关研究提供理论指引。

少数文献在方法和数据部分直接引用了《小科学，大科学》，为研究采用的方法进行补充说明。《小科学，大科学》一书承认文献计量方法存在不足，但表示其在包含不足的同时依然可以反映出一些现象和规律，肯定了文献计量方法存在的意义。

文献分析部分直接引用《小科学，大科学》主要有两种情况，一是使用普赖斯定律等文献计量规律开展分析，二是验证普赖斯在《小科学，大科学》一书中提出的假说。《小科学，大科学》提出的理论、规律至今仍引发讨论，其所产生影响的时间和范围十分长远。

文献结论和展望部分直接引用《小科学，大科学》的思想主要包括：多作者论文数量稳定增长；文献数量的对数很多时候比文献本身更具意义；科学家的科研产出活动存在幂律分布；研究能力的分布是相当倾斜的，主要是对分析结果进行解释和说明。

对《小科学，大科学》的间接引用主要出现在前言、背景部分，大多是表明前人在相关领域已经有一定研究成果的机械引用。一些文献使用了普赖斯提出的概念，如知识产业。一些文献强调了《小科学，大科学》及普赖斯思想的重要意义，如称普赖斯是第一个发掘作者间合作网络意义的人。

SSCI中，《小科学，大科学》被引用最多的内容是科研合作。《小科学，大科学》提出通过多作者文章衡量合作，对通过文献计量衡量科研合作做出了开创性贡献。同时，有机引用占的比例更大。对于一本在1963年就已首次出版的著作，《小科学，大科学》不仅作为过往的研究积累被引述，其中的一些思想和方法经久不衰，持续发挥着对科学研究的引领和推动作用。

在CSSCI中，文献前言、背景部分直接引用《小科学，大科学》的内容主要为科研合作相关内容和书中提出的概念。《小科学，大科学》为师生合作、非正式合作等多种科研合作研究奠定了基础。同时它所提出的一些新的概念和理论，如“小科学”和“大科学”的概念，为一些研究问题的提出提供了出发点，也为相关理论研究提供了依据。

文献方法和数据部分直接引用《小科学，大科学》的思想主要包括：核心作者的判定；小规模的非正式科学交流群体比较稳定，当非正式交流群体中人数破百时，会因沟通不畅解体成小规模群体。核心作者的判定作为文献计量学的基本方法，在文献计量分析中被广泛运用。非正式科学交流群体的规模限制则为群体产出论文数等结论的科学性提供了一个验证方法。

文献分析部分直接引用《小科学，大科学》的文献大多与我国的科研现状、科技政策紧密联系，如关于我国西部科研发展的思考，产学研合作创新研究，民间科技创新发展探讨等。一些文献引用了《小科学，大科学》中关于科研经费分配的内容，一些文献分析了“无形的学院”产生的社群影响。《小科学，大科学》对科技政策制定和科研经费分配提供了借鉴，具有实践性。

文献结论和展望部分直接引用《小科学，大科学》一书的思想主要包括：论文一般在发表后1-2年内被引次数最多；技术方面的优秀研究者通常在科研合作中也表现突出。对于论文在发表后1-2年内被引次数最多的观点，多篇论文对其进行了进一步探讨，地区分布、学科种类、科研团队、学科所处发展阶段、学科热点等因素都可能导致论文被引高峰的不同，论文被引高峰的观点被热烈讨论，对引文分析法的发展产生了积极影响。

对《小科学，大科学》的间接引用主要包括：肯定这本书的开创性意义，如称其提出了现代文献计量学方法，首先提出一些计量学的指标，率先研究科研合作；作为普赖斯生平贡献的一部分被展示；展现《小科学，大科学》与其他科学社会学著作的高共被引次数，体现《小科学，大科学》在科学社会学领域的高影响力。这些间接引用大多为机械引用，主要分布在文献的前言、背景部分。

CSSCI中，《小科学，大科学》的引文以探讨理论为主，与文献计量相关的文献多为基础的文献计量分析，鲜有深入分析的文献。同时，机械引用占的比例更大，多为对《小科学，大科学》里程碑意义的肯定和对其经典思想的提及。

3.4 引文情感倾向分布分析

SSCI中样本文献对《小科学，大科学》的引用均为正面引用，一是因为《小科学，大科学》中的很多理论和思想已被奉为经典，对之后的研究具有很强的正面借鉴意义；二是因为对于《小科学，大科学》中表述不完善、不严谨的内容，在文献中多以补充、延伸的方式对其发展完善，而非否定其内容。

而在CSSCI中，《小科学，大科学》被负面引用1次，其余均为正面引用。这1篇负面引用的文献对《小科学，大科学》提出的科研合作理论提出了质疑。《小科学，大科学》提出，科研合作将不断加深，合作研究数量会不断增加并接近无限大。而之后的研究者对这一观点进行了修正，认为没有一种持续的力量能使得论文作者数越来越多，因此论文的合作数也会达到一种稳定状态，不同学科的稳定状态不同。

3.5 中外文文献引文内容分析结果比较

3.5.1 中外文文献分析结果的共同特征

中外文文献对于《小科学，大科学》的引用均为直接引用多于间接引用，有机引用和机械引用相近，极少有负面引用。这说明《小科学，大科学》作为科学计量学的奠基之作，不仅作为研究的理论基础、思想借鉴被引用，其中的一些思想仍然是研究的核心内容，产生了深远的影响。

中外文文献对于《小科学，大科学》的间接引用均以机械引用为主，主要分布在文献的前言、背景部分，作为研究成果回顾、综述的一部分，一定程度上反映了间接引用行为和机械引用行为的强相关性。中外文文献对于《小科学，大科学》的直接引用均以有机引用为主，但直接引用中也存在一定数量的机械引用，直接引用行为与有机引用行为存在相关性，但其相关性弱于间接引用行为和机械引用行为的相关性。

3.5.2 中外文文献分析结果的差异

外文文献中《小科学、大科学》在前言、背景部分被引频次最多，为科学学、科学计量学及相关研究提供理论指引。中文文献中《小科学，大科学》在分析部分被引频次最多，大多与我国的科研现状、科技政策紧密联系。中文相关文献的实践性更强。

《小科学，大科学》在外文文献中的被引频次以1次和2次为主，在中文文献中以1次为主。与中文文献相比，外文文献引用《小科学，大科学》的内容更为丰富，在科研合作、知识爆炸、科学评价、探索科学发展规律、文献计量方法等方面都展开了深入地研究，中文文献的研究主要集中在科技政策研究和简单的文献计量分析，鲜有深入研究。外文文献对于《小科学，大科学》的每年引用数在2009年后稳定在较高的数值，而中文文献的每年引用数在2013年后有所下降，研究热度降低。我国学者应更加重视对《小科学，大科学》思想的挖掘，与知识爆炸、科学评价等热点研究相结合，促进我国科学学、科学计量学和相关学科的发展。

4 结语

本文从引文功能、引文质量、情感倾向三个维度出发构建了引文内容分析框架，选取SSCI、CSSCI数据库中引用《小科学，大科学》的施引文献为研究对象，对《小科学，大科学》具体影响了哪些主题的研究、在文献中主要发挥了怎样的作用进行了深入挖掘，并对比分析了中外文文献引文内容分析结果，从而更全面、客观地展示出了其学术影响。因此，在对图书的学术影响进行评价时，应注重引文内容分析法的应用，根据需求构建合理的分析体系，本文构建的引文内容属性标引体系可作为参考。

本文还存在着一定的局限性，首先，引文分析方法作为一种评价方法，可以反映评价对象受到的同行的认可和重视，但也要重视同行评议在学术评价中的地位。此外，采用人工标注效率较低，统计数量有限，未来可采用机器对文献全文内容信息进行抽取，对海量数据进行引文内容分析。

图书与情报2021年2期

图书与情报的其它文章: 社会认识层次论视域下的图书情报学：结构与逻辑*; 用户受教育水平的提升与公益性信息服务的转型*
——基于社会认识层次论的实证研究; 公益性信息服务绩效评价的“拐点”识别研究*
——基于社会认识层次论的探索; 高校知识创新的信息资源基础研究*
——以社会认识层次论为视角; 突发性公共卫生事件中居民的风险信息感知研究*
——基于全国81个城市的调研数据; 突发事件社会风险放大的信息作用机制研究*

基于引文内容分析的图书学术影响研究——以《小科学，大科学》为例