基于文献引证关系的人文社会科学论文评价

2012-06-28 13:26:32任全娥郝若扬

大学图书馆学报 2012年3期

□任全娥郝若扬

1 引言

在发表科学论文或著作时，作者往往采用尾注或脚注等形式列出其“参考文献”或“引用书目”。这样就形成了科学文献之间的引证与被引证的关系。引证文献是科学文献的基本属性之一，科学文献的相互引证关系是引文分析的主要依据。所谓引文分析（Citation Analysis），就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法，对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析，以便揭示其数量特征和内在规律的一种文献计量分析方法［1］。这一方法可以反映出一篇论文、一名科学家、一种科学期刊在科学发展过程中所起的作用；反映出科学论文之间、科学家之间、科学期刊之间、科学专业之间的相互联系与区别。因此，引文分析方法在科研评价及知识关联分析中得到了广泛的重视和应用。实践证明，这种方法可以有效地应用于许多领域，正在发挥着越来越大的作用。

文献计量学引文分析法在成功应用于测评许多自然科学研究之后，又被逐渐扩展到测评社会科学与人文科学的研究。然而，由于学科的特殊性与发展规律的差异，为评价自然科学研究成果而发展起来的文献计量评价方法，如果不经过审慎研究与反复测试，是不宜在大多数社会科学与人文科学中使用的。

2 文献计量方法之于人文社会科学评价的特殊性

与自然科学相比，人文社会科学研究人员在知识生产和引文行为上存在着很大的区别，将文献计量方法用于人文社会科学评价时需考虑其学科特殊性。

首先，人文社会科学研究具有明显的地域性。许多自然科学家是面向国际公众的科学家，但人文科学与社会科学领域的相当一部分产出主要是面向国家或者区域的主题，它们通常出现在区域或国家的期刊、专著或者研究报告中。所以从一个国家的人文科学或者社会科学研究中获得的结果对于另外一个国家的研究人员不一定十分有用。这当然并不意味着社会科学与人文科学研究将天然永远地受国家或地域的限制，但是这种倾向往往比大多数其他学科都要显著。

其次，人文社会科学学者在期刊发表文章相对较少，而以书籍或研究报告形式出现的成果较多。人文社会科学的研究产出与参考文献，大都是以著作与研究报告为主，期刊论文的比例只是很少的一部分，而且学科内部的差异性也很大。但近年来，由于越来越多的期刊引文数据在评价中发挥作用，大部分社会科学与人文科学学者也越来越频繁地在期刊（特别是被汤森路透Web of Science收录的期刊）发表文章，这一迹象在中国高校表现较为明显。

再次，人文社会科学与自然科学有着不同的理论发展步伐。与许多硬科学相比，大部分人文社会科学看起来有理论发展缓慢的特点。而且，在人文社会科学内部各学科之间也会有很大的不同。这可以由不同学科引文类型的结构与特征反映出来，比如人文社会科学期刊论文的半衰期比较长，旧文献的引文率较高，而且往往比自然科学领域的参考文献量要少。我们常见的现象是，在物理和化学中，本科教材中重要的理论和范例都有共识，而在社会学教材中存在的共识很少，多半是随着社会需要而研究现实问题，针对某一专题提出自己的观点与看法，并且当前的各种热门话题都有可能被探讨。很显然，在人文社会科学领域，既定的知识核心很小，研究前沿相对很大。

3 人文社会科学论文评价体系设计思路

科学文献之间的互相引用，形成了学术交流中的“无形学院”，反映了科学知识转移的自然状态，同时也为文献计量中的引证关系分析提供了便利条件。2001年美国德雷塞尔大学教授怀特（Howard D.White）在其论文Authors as Citers over Time中，把“一位作者所引用过的所有作者的集合”称为“引用认同”（citation identity）［2］。第二年，美国印第安纳大学教授Blaise Cronin与Debora Shaw在专业期刊《科学计量学》（Scientometrics）上发表论文，将“共同引用一位作者的所有作者的集合”称为“引证图像”（citation image）［3］。从某种程度上来说，引用认同和引证图像是两个相反的概念。引用认同从作者引用的角度进行分析，而引证图像则从作者被引用的角度进行描述，二者是引用与被引用的关系。

3.1 “引用认同”评价方法

社会科学研究不便如自然科学那样通过重复实验来检验研究成果的科学性，只能从作者在研究过程中对已有知识的阅读与吸收程度，来考察其研究的严谨性、新颖性与科学性。这些研究路径一般会在研究成果的参考文献（这里是广义的参考文献，包括文中脚注）中反映出来。由于同行专家对相关领域的最新研究前沿及有影响的论著较为熟悉，参考文献对该领域重要文献的覆盖情况及吸收程度，基本上可以作为专家主观判断的直接依据。

假设学术交流与知识传播流程是一个闭环结构。在这个闭环结构里，引用认同是作者引用的文献集合，它反映了作者的研究路径；而这又可以为专家和编辑提供评价论文内容创新的依据；经过审核的优秀论文可以作为经典论文进入数据库，以供作者写作时进行阅读、吸收、参考；其参考文献又会形成新一轮的引用认同文献与作者集合。如此循环往复，周而复始，不断促进学术交流与新成果的产生，也不断丰富引用认同与经典论文数据库。论文作者的引用认同，体现了作者对研究领域信息源的熟悉程度、对文献甄选阅读与知识吸收能力，基本描画出作者的研究路径，从一个侧面反映出成果的文献覆盖程度与知识含量。一定程度上，如果引用认同的是高质量论著与杰出作者，说明其研究是站在高起点上进行的；如果引用认同的大多是陈旧过时的劣质论著，说明作者的研究视野狭窄，成果质量也不会太高。图1展示了引用认同在整个学术交流循环中所处的位置。

图1 引用认同学术交流循环图

在传统的知识生产过程中，作者根据自己平时的阅读积累与生活阅历，厘清知识流变，阐述自己观点，不断丰富人类的知识宝库，成为后人反复诵读、参阅的学术经典。随着学科建制的形成及科研工作的职业化，大量的科研人员与论著不断产生。面对海量的文献信息，作者需要从中甄别出可供参阅的有用文献，编辑需要审核来稿参考文献的真实性，评审专家需要评价论著的创新性。此时，由基本参考文献与学科领域核心作者共同组成的知识点地图（数据库）就成为一个很有用的参考工具。图2则是引用认同在知识生产中的作用流程图，涉及到作者、编辑、专家、论文、参考文献、知识点地图等要素。

这里的知识点地图（数据库），是通过大量作者的引用认同而形成的文献与作者集合，并在此基础上经过专家评审而筛选出的知识创新点及作者布局图。专家与编辑在评阅一篇论著时，需要同时借助引用认同与知识地图，来评价论著的科学性与创新性。也就是说，编辑在编发一篇论著时，假设作者已经参阅了基本参考文献，发表才是合法的；专家在评审一篇论著时，假设作者已经找到了知识点地图的最前沿，并以此为起点，在知识地图上贡献出新的知识点。人文社会科学的研究无法像自然科学那样重复验证，因此其科研成果的科学性检验只能借助其参考信息源来查阅成果的形成路径，以此判断论点是否言之有据。如果研究论据与信息源是真实可靠的，研究方法是科学的，基本上可以认为该成果是科学的。从某种意义上，参考信息源的可靠性程度，决定着研究成果的科学性程度。

图2 引用认同在知识生产中的作用流程图

由于引用认同是通过参考文献反映出来，而参考文献是学术论著的必要组成部分，是与研究成果的正文内容同时产生与传播的，因此该评价方法不受评价时限及引文数据库的影响。在自发做学问的年代，可以不必借助任何信息工具，只要提供学术成果本身（包括正文和参考文献），学者个人就可以完成上述的知识生产与评价过程。同样，在学科建制已经很成熟的信息技术时代，某些人文社会科学领域仍然可以由领域专家借助知识点地图（数据库）来完成成果评价。此时，参考文献就与正文一起成为领域专家评价的客观依据。引用认同从作者研究路径的角度，为同行评议提供了最为可靠、可行、方便的参考信息，这对于引文行为较为复杂、引文周期长短不一的人文社会科学成果来说，不失为一种更为合理与可操作的评价方法。而且，引用认同比引证图像更能反映直观、全面、客观与方便的评价信息，适应了人们习惯于通过成果本身进行即时评价（相对于引文分析的延时评价而言）的习惯。这里的引用认同评价，主要功能在于充分挖掘与发挥专家的定性判断优势，而此时的文献信息系统平台，就为专家展示出一个全景式的学术交流状态信息。

在提供学术交流信息呈现服务方面，目前国内做得较好的是中国知网（简称CNKI）数据库［4］与万方数据知识服务平台。检索系统把每一篇文献的参考文献、引证文献、同被引文献、相似文献、相关博文等都放在同一检索页面展示出来，用户一看便知该文的研究背景、探索过程、学术影响，以及与其他文献、作者或机构的知识关系。在论文评价方面，CNKI与万方数据平台为我们提供了方便快捷的数字化产品，每检索出一篇论文，系统就可以显示出该文的所有相关文献篇目列表，而且可以链接到论文全文。作为微观层面的成果评价，具体某一篇学术论文的评价更需要全面与精细，如此才会使评价结果相对客观。评价时，不仅要从被引文献审查论文的学术影响与价值，还要从参考文献查寻其研究路径与知识宽度。在全方位对文献信息展示方面，CNKI与万方数据平台以各自不同的风格为我们提供了引用认同评价方法的信息工具。万方数据服务平台还提供每篇论文的“添加到引用通知”功能，随时监测论文的动态被引情况，同时在线展示论文的相关检索词、相关专家、相关机构列表及知识链接。CNKI与万方数据服务平台相比，在成果评价功能方面还有些不足，比如万方数据服务平台提供了论文的非期刊参考文献的题录信息，而CNKI在参考文献与施引文献中均没有显示出期刊论文之外的其他类型参考文献。另外，由于这些数据库产品中的信息加工还局限在语法信息层面，没有深层次的基于语义信息的知识挖掘，不便直接进行创新性评价与科学性评价，因此当其作为评价信息源时还需要学科领域的专家通过综合分析提取相关知识点。

图3 汤森路透Web of Science引文数据库检索结果截图［5］

国外汤森路透公司的 Web of Science（简称WoS）引文数据库在信息展示全面性与知识挖掘深度方面，也很有特色。该引文数据库来源文献也是以期刊论文为主，但是在每一篇检出论文的参考文献中都可以展现出所有类型的文献，并非只有期刊论文参考文献。与CNKI类似，WoS引文数据库在施引文献列表中也没有显示出被期刊论文之外的其他文献的引用情况，只在检索页面上注明是在WoS中被引用的次数。此外，WoS引文数据库还通过“引证关系图”与“绩效趋势”等技术实现了深层次的知识挖掘，为同行评议提供了更为深入系统的信息集成平台。具体检索结果网页截图如图3所示。

总体而言，无论引文数据库的结构与功能如何完善，整个知识生产与评价过程都离不开同行专家的参与和定性判断，并且需要通过同行评议做出最后的综合评价。另一方面，也正是由于借助了数据库提供的文献引用认同评价信息，才使同行评议结果在较高的信息集成水平上更具权威性。

随着情报学研究的深入与信息资源管理技术的进一步智能化，上文所述的知识点地图操作系统应该不难实现。另外，除了技术层面的支持，还需要从制度层面加以规范与约束，从作者、编辑、专家到读者，都应严格遵守基本参考文献制度，才会实现图1所示的良性学术交流循环。

3.2 “引证图像”评价方法

引证图像主要从论文被引用的角度评价对其他作者产生的学术影响。论文被引用次数是国际通用的文献计量评价指标，它对引文数据库的依赖非常明显。目前，在国内外已经形成了引文分析经典理论及成熟运作的引文数据库，国外引文数据库如汤森路透的WoS与爱斯唯尔的Scopus等，国内引文数据库如中国社会科学院的“中国人文社会科学引文数据库”（简称CHSSCD）与南京大学的“中文社会科学引文索引”（简称CSSCI）等。

本文从论文被引用的视角设计出核心论文、高被引论文与经典论文的评价方法。所谓核心论文，是指进入某一学科核心区的论文，即被这一学科的来源文献引用次数较多的论文。所谓高被引论文，是指被所有学科（包括自然科学与社会科学）的来源文献引用次数较多的论文。所谓经典论文，是指既是某一学科的核心论文，同时又在所有学科中是高被引论文的高贡献率论文。经典论文不但在本学科具有很强的影响力，而且还在其他学科中产生广泛的影响。

论文被引证是文献计量学研究的主要内容，也是评价学术影响的国际通用指标，该指标反映了研究成果对其他作者产生的影响及发挥的学术价值。但是，由于论文被引是一个延时性间接评价指标，评价时段的选取是否科学，被引数据的获取是否全面，都会影响到评价结果的客观性。因此，无论是国际上的三大引文数据库SCI、SSCI、A＆HCI，还是国内的引文数据库，由检索功能衍生出的评价功能，在学界一直是褒贬不一，对其产生的一些负面社会影响也是非议颇多（主要在人文社会科学领域）。其实，责任并非全在引文数据库，应该是使用者过分夸大了数据库的评价功能，没有客观认识到被引指标的局限性。要想充分发挥引文数据库的评价功能，就要遵循文献计量学原理及学术交流规律，在全面熟悉数据库的收录范围与数据结构的前提下，设计科学合理的指标体系，并将评价结果的使用限制在有限范围内。因此，成果的被引评价是一种受限于引文数据库的有限评价，明确这一点对评价者与被评价者都很必要，否则很容易出现事与愿违的评价结果。

如前文所述，通过文献引证关系评价人文社会科学论文时，需要充分考虑人文社会科学的学科特殊性及引文数据库中存在的障碍性因素。因此，针对数据库收录范围、评价时间段的选择、出版物形式的多样性这些问题，我们拟采用自建的人文社会科学引文数据库，通过文献计量方法与技术手段逐项排除与解决。

（1）数据库收录范围问题

人文社会科学研究需要更多地面对本国的实际问题，对引文数据库的收录范围与局限性要有充分的认识。如果盲目选用国外引文数据库来评价中国的人文社会科学研究，必然会引起我国学术“被西化”的误导。因此，我国需要全力加强中国人文社会科学引文数据库建设，选用本国的引文数据库来评价我们的中文学术论文。中国社会科学院自主研发的人文社会引文数据库，将会在我们后续的人文社会科学成果评价研究中，更加完善并发挥作用。

（2）评价时间段的选择问题

由于文献引文与科学交流中普遍存在着“睡美人”现象，人文社会科学评价尤其需要历史评价与延时评价。影响因子（IF）是美国科学信息研究所（ISI）的期刊引证报告（JCR）中的一项数据，即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。但是，由于人文社会科学中各学科文献的被引周期差异很大，如果简单借鉴自然科学的做法，“一刀切”地将评价时段（时间窗口）确定为2年，或者为5年（近几年，CCSI、A＆HCI及CSSCI等国内外引文数据库都将引文指标的统计窗口延长为5年）的话，就不太符合人文社会科学结构复杂的学科特点。这样做的评价结果对某些学科（如历史学）必然会有失公允，从而影响到引文分析法对人文社会科学评价的有效性。因此，本文采用自行研制的人文社会科学引文数据库的数据，分别统计各学科的平均引文半衰期，测试出各学科领域的最佳评价时段。

表1 各学科引文的平均半衰期

从表1可以看出，考古学、历史学、文学的引文半衰期均在10年以上。考虑到评价的功能之一是引导与激励，而激励既要适度又要适时才能达到预期效果。所谓适时激励，就是管理者在适当的时机使用能为对象所感知从而引导其朝着某个特定方向或为完成某个目标而采取行动的驱动力和紧张状态。适时激励需要选择适当的时机，过早的激励会使员工感到激励的获得并不需要付出多么艰苦的努力，因而容易使员工产生“激励轻视症”和“激励麻痹症”；迟到的激励则会因为员工不能及时感知激励的存在，难以满足其预期的目标要求而产生防卫性行为和抵触情绪，从而给工作造成损失。虽然迟到的激励并不代表不激励，但其间由于员工防卫性行为和抵触情绪造成的损失已既成事实，无法挽回，其结果有时甚至比不激励行为更糟糕［6］。因此，对于部分引文半衰期较长的学科，引文评价的延时性与激励的时效性之间需要有个平衡，二者的时间交点就是评价的最佳时间。

（3）出版物形式的多样性问题

图4 复合层次论文评价概念图

对于人文社会科学出版物及引文形式的多样性问题，我们采用自主研发的引文数据库测算出各学科引文类型及其所占比例。如表2所示（仅显示部分数据）。

表2 各学科引文类型及其所占比例（按降序排列）

从表2可以看出，马克思主义、哲学、宗教等学科论文参考文献中，著作出版物所占比例最高，而心理学、统计学、人口学、管理学等学科论文参考文献中，占比例最高的是期刊论文，但也很少过半，仅是在57.35%、45.26%、41.59%、44.04%之间分布。这一数字说明，著作是人文社会科学的主要出版物形式，如果仅从被期刊论文引用来评价人文社会科学成果，难免以偏概全。此时，需要认真研究人文社会科学中各学科的学术交流与文献特点，通过时间限制、空间限制与阶段限制来设计评价指标体系，实现文献计量方法的“有限评价”功能，使其与社会评价、同行评议等评价方法一起参与学术评价活动。

3.3 复合层次评价方法

综合考虑社会评价、同行评议、文献计量各因素，我们设计出复合层次论文评价概念图。具体如图4所示。

图4中箭头所指的方向，指的是评价指标项的增加及评价因素的复杂性递增趋势，并非指向各级论文的产生流程。不同级别论文之间的关系也并非严格的递进关系，其概念内涵存在着部分重复与交叉。核心论文、高被引论文与经典论文三者都是从论文的被引情况评价其学术影响。优秀论文在被引的基础上增加了发表期刊与转载情况，属于综合性客观指标评价。获奖论文的评选涉及的因素最为复杂，不仅有论文质量因素，还会有利益平衡因素，评价结果在很大程度上受到评价目标与评价主体的影响。正因为此，本文设计出获奖论文的参评资格，即获奖论文必须是优秀论文，是经历过综合性客观指标筛选出的论文（对于个别数据表现异常的优秀论文可以申请单独评审）。这样，就在一定程度上限制了获奖论文评选中的人为干扰因素，使获奖论文在保证质量的前提下实现利益分配与协调。

从论文评价指标的性质来看，核心论文、高被引论文、经典论文属于用文献计量指标评价出的高质量论文；优秀论文属于用间接指标（包括文献计量指标）评价出的高质量论文；获奖论文则属于用复杂性指标评价出的高质量论文。这里的复杂性指标，是借用复杂性科学的理论，因为论文评奖不仅是学术问题，还是社会问题，对于研究处理复杂社会关系与人类行为的社会科学来说，很难用线性的或简单化的思维方式与传统模型，而应强调人类认识的自组织性、多样性、非线性、整体性、不确定性特征。但是，从论文的质量与学术水平来讲，三种方法评价出的高质量论文并非有严格的高下之分，它们之间是一种互相影响、紧密关联的齿轮关系，见图5。

图5 不同论文之间的关系齿轮图

4 结论与展望

人文社会科学研究的复杂性与特殊性，决定了对该领域的评价与管理不能简单借用自然科学的做法，需要细致而审慎地运用文献计量指标，正确地处理与社会评价和同行评议之间的关系。人文社会科学研究论文评价的进一步研究，还需要从以下几个方面深入有效地开展。

（1）期刊的影响力评价不是预测每篇文章实际引用影响的良好指标，还需要设计出针对单篇论文的评价指标体系。而且，社会科学论文需要增加比自然科学论文更多的限制条件，如地域分布、引文年限、文献类型等方面。

（2）引文评价需要更多地依赖于引文数据库的地域及语种覆盖范围，因此要合理使用外文引文数据库，加强中国社会科学引文数据库建设，赢得中文的世界话语权。与此同时，国际与国内引文数据库的智能组合与对接也很重要。目前，中国科学院的中国科学引文数据库已通过多种方式与汤森路透和Google等机构合作，进行引文数据的信息资源整合；中国社会科学院的中国人文社会科学引文数据库也应顺势而为，积极把中国社会科学的丰富成果融入到世界交流平台，使世界了解中国，使中国融入世界。

（3）未来的科学研究评价应该是文献计量和同行评审之间的有机结合。同行评审方式需要参考文献计量分析的结果，同行委员会也可以根据文献引证分析结果做出初始的判断。实质上，从发表论文到引用论文，文献计量指标已经从另一个角度折射出同行评审与专家推荐的过程与结果。

（4）对于社会科学研究成果，基于使用的评价指标不仅限于被引用，还应有网络浏览与下载指标，以及被政策吸收、社会反响等社会价值指标，这些指标分别反映了研究成果在科学信息交流的不同阶段被使用的情况。这就需要将考察视域从收集作者信息拓展到收集用户信息，从引用文献拓展到阅览并采纳文献，从考察作者单位拓展到用户的账户名称，从引用次数拓展到网络影响及社会受益范围，等等。

1 邱均平等.信息计量学.武汉：武汉大学出版社，2007：317

2 White HD.Authors as citers over time.Journal of the American Society for Information Science and Technology，2001，52（2）：87－108

3 Cronin B.，Shaw D.Identity－creators and image－makers：Using citation analysis and thick description to put authors in their place.Scientometrics，2002，54（1）：31－49

4 清华同方中国知网.［2011－12－06］.http：／／epub.edu.cnki.net／grid2008／detail.aspx？QueryID＝4＆CurRec＝1

5 汤森路透引文数据库.［2011－12－6］.http：／／apps.webofknowledge.com／full＿record.do？product＝WOS＆search＿mode＝ GeneralSearch＆qid ＝ 7＆SID ＝ 4CCONLje3G4lphLa ＠gN＆page＝1＆doc＝2

6 罗明祥.适时激励是企业管理的有效方法.科技进步与对策，2002，（7）：111－112