舒 非,丰鹂萱,邱均平,舒仕斌,Vincent Lariviere
(1. 杭州电子科技大学,杭州 310018;2. 蒙特利尔大学,蒙特利尔 H3C3J7)
引文分析是科学计量学的核心内容,也是科研评价的重要依据之一。被引用次数被认为既是衡量期刊质量[1-2],也是衡量科研影响力的重要指标[3];而共被引分析则被用于发现科研论文的内在联系和构建知识图谱[4]。根据传统的科学计量学理论,引文的本质被认为是作者对前人研究的一种认可和感谢[5],但是引用的原因却比较复杂[6],一篇文章作者为什么引用或不引用的原因尚不可而知[7-8]。在科学计量学研究里,有大量基于不同的数据源的研究试图解释引用的原因,但一直没能在引文本质的问题上形成一致答案[9-10]。
在西方传统的科学计量学里,引文的历史可追溯到16 世纪末的意大利,认为是当时的意大利学者在文章中开始引用前人的研究,并将此作为引文的发源与开始[11]。然而,中国古典文学有着几千年“引经据典”的传统,虽然没有文中标注和参考文献这样的格式,但已经形成了引文的一种雏形。遗憾的是,从引文分析的角度对于我国古籍中“引经据典”进行研究的学者很少,本研究将通过对这一现象进行深入研究,从历史角度发现我国古籍中“引经据典”的作用,研究结果既可为形成新的引文本质理论提供思考,也可以增加科学计量学理论研究中的中国话语权。
在西方传统的科学计量学理论中,引文被认为代表着作者对前人研究的一种关注,进而对前人研究的借鉴作用表示感谢和认可[12]。Garfield[13-14]认为,引文就是引用文章对被引文章的一种标记,里面承载着引用者对于被引文章的评价和认识[15]。Price[16]认为,引文代表着引用文章与被引文章的一种联系,而新的科学研究就是通过这种联系建立在前人研究的基础上。与此同时,另外一部分学者对于引文有着不同的定义,他们认为引用只是为了说服读者,以显示文章权威性的一种方法[17],这在学术圈里引起了极大的争论。众多学者加入这场争论中,提到了自己关于引文的定义[18-23],但一个统一的关于引文本质的理论却一直没有形成[10,24-25]。
引文,本质被定义为作者选择引用的原因[26]。在传统的科学计量学理论中,关于引用的原因有着不同的理论与观点,一般来说,引用是施引者对被引文章的学术贡献的一种肯定[12],但也有学者认为绝大多数作者是随意选择引用对象的[27],有的学者则认为作者引用的选择会受同事或同行的影响[28-29],甚至有时会因期刊主编或编辑的建议而引用[30-32]。虽然目前关于引文本质的研究很多,也提出了不少有建设性的观点,但仍然无法确切地知道作者究竟为什么会引用这篇文章或那篇文章[7-8]。关于这个问题,规范主义理论和建构主义理论有着截然不同的观点。
规范主义理论是基于美国著名社会学家Merton的科学社会学而提出的一种关于科学研究的目的与性质的理论,其认为科学是一个有着规范、价值和奖励的社会制度[12,33],而学者发表科学成果的目的是获得同行的认可[34],引用则代表着这种认可——一种对于知识贡献表示感谢的认可[35]。通过引用对他人贡献表示感谢和认可,也是这种科学社会制度下的规范之一[29];学者作为这个科学社会制度下的一员,这种对规范的遵守应该是存在于其内心之中[19]。
虽然Merton 的规范主义理论得到了大多数人的认可,并奠定了科学计量学的主要理论基础,但以瑞士著名心理学家Jean Piaget 为首的建构主义者却对科学知识的构建与价值提出了不同观点[36-38]。建构主义理论认为,科学知识是在政治经济发展中的形成的一种社会建构[28,36,38-40],引用绝非对他人贡献表示认可和感谢那么简单,而是有着复杂的社会、政治和经济上的原因[41]。建构主义者认为,科学是一种说服的艺术[38],而引用则是一种说服的工具[17]。在实践中,为了让读者接受自己的观点,作者往往在其文章中引用许多著名学者的文章,以显示其权威性[17]。
规范主义理论和建构主义理论的存在引发了大量的关于引文本质的实证研究(表1),而这些实证研究一般使用两种方法:作者调查和文本分析。第一个方法是围绕作者本身来发现其引用的原因,通过采访和问卷调查去了解作者选择引用的原因;第二个方法则通过挖掘文本去发现作者引用的原因,根据引文的上下文、引用的内容和目的去揭示引用的原因。无论采取哪种方法,这些实证研究的目的是证实某一引用理论(规范主义或建构主义)或质疑另外一种引用理论。遗憾的是,两种理论都在某些实证研究的结果中得到了证实,所以很难说规范主义理论和建构主义理论哪个更好、哪个能更准确地解读引文的本质[42]。
表1 国际上关于引用原因的实证研究
国外最早采用作者调查的方法分析引用原因的研究是Prabha[43]于1983 年在美国伊利诺伊大学做的问卷调查,19 名商学院教授在问卷中被问及其论文中引文对于文章的重要性,结果显示非常重要的引文不到1/3,而近1/2 的引文则是无关紧要的。4 年后,Vinkler[44]的研究也得到类似的结论;但White等[8]在1997 年的研究却得到了相反的结果。以往的研究显示,自引与他引在引用原因上没有显著差别[45],但不同学科[46]和不同资历[47]的学者的引用原因却存在差异。
使用文本分析方法调查引用原因的研究出现更早,Lipetz[48]在 1965 年分析期刊Physical Review和Soviet Physics中60 篇论文的750 个参考文献,将引用原因归纳为4 组28 类。7 年后,Hodges[49]的研究将引用原因分类精简归纳为10 类;Moravcsik 等[50]则提出“多余引用”的概念,并发现其样本中1/3的引文是多余的、没有意义的。随后,不同学者根据文本分析总结出不同的引用原因分类系统[51-62],但始终没有形成一个统一的引用原因分类系统。Tabatabaei[58]针对JASIST 论文对其他学科的贡献进行研究,将引文根据在施引文章中的作用分为应用、对比、支持、综述和无关5 类,是目前比较新颖的引文特征的分类系统,并被用于本研究。国外也曾有少量研究试图在历史文献中进行引文分析,如Walsh 等[63]就英国维多利亚时代的诗歌中的引用现象进行分析以研究引文本质。
我国的科学计量学研究始于20 世纪80 年代[64],其主要理论基础是由著名科学计量学学者Price 介绍而来。所以国内的研究大多数是基于理论的应用研究和实证分析,真正的理论研究很少。对于引文本质和引用行为的研究,除了少量实证研究外,大多数的国内研究以综述和理论探讨为主(表2)。
表2 国内关于引文原因的研究
国内关于引文本质的实证研究也是采用作者调查和文本分析的方法去分析引用的动机,只是选用了国内的样本(国内的学者或文章)。早在1998年,崔红[65]就Brooks 使用的方法①https://doi.org/10.1002/asi.4630360402对国内学者的引用动机进行了聚类分析,发现国内学者的引用动机与国外学者存在差异。马凤等[66]在2009 年发表文章中提出,尽管国内学者的引用动机各异,但主要动机有:①对他人研究成果的尊重;②参考文献作为背景性材料;③借鉴参考文献中的概念、观点、方法等;④将参考文献作为论点、论据或论证。邱均平等[67]发现,施引者的知识程度对其规范的引用行为有下面促进作用;张敏等[68-71]在对学者的情感反应、认知反应和社会影响进行深入分析后,发现文献质量和文献声誉对文献的被引起到了关键作用;刘宇等[72]研究发现,在论文质量完全相同的情况下,学者会更多地引用发表在核心期刊上的论文,其引用动机具有明显的权威尊崇色彩。
目前,关于“引经据典”中引文特征的研究并不多。有些早期研究认为,现代文章写作中“引经据典”的主要作用是为观点寻找论据以说明问题[73-76],但基于古文“引经据典”现象进行分析的研究很少。王京州[77]曾对魏晋论说文中的引证现象进行分析,发现其对《诗经》存在频繁引用;陈炜强[78]则针对古代法律判词进行分析,发现许多判词“引经据典”取代法律原文作为判案依据。陈平原[79]对以“引经据典”为中心的我国述学文体进行分析,认为古文中的引用可以分为“明引”与“暗引”“正引”与“反引”“全引”与“略引”3 组6类,其中“暗引”不符合现代科学的引用规范。
由于作者引用的动机受到包括社会、经济、政治、技术等因素的影响[80],关于引文本质的研究遇到“瓶颈”而一直无法形成统一的理论。在没有新的方法和数据的情况下,近年来这方面的研究逐渐减少。然而,我国古籍中的“引经据典”现象已经形成了引文的雏形[81],其历史远远早于被认为引文起源的意大利,但还从来没有被系统地深入研究过。本研究将对我国古籍中的“引经据典”现象进行分析,基于引文分析的角度探讨我国古籍中“引经据典”的作用,将主要回答以下三个问题:
(1)我国古籍中“引经据典”在文章中的作用是什么?
(2)“引经据典”在文章中的作用,在不同朝代是否相同或不同?
(3)“引经据典”在文章中的作用,是否因被引文献的不同而异?
为了研究中国古典文学中的引用现象,本研究选择了《古文观止》和《古文辞类纂》两本我国古代文集作为数据来源。《古文观止》是一本中国古代散文集,被认为是学习古代散文的入门教材。《古文观止》最早出版于清朝初年的1694 年,共收录了222 篇从东周到清初的经典散文。而《古文辞类纂》是清朝桐城派学者姚鼐在1779 年编撰的一本中国古代文选,收录了13 种文体的794 篇文章,也是学习我国古代文学的进阶教材之一。
在两本文集的近千篇文章中①有少数文章同时被两本文集收录,所以文章总数少于1000篇。,经过人工辨识,在235 文章中共找到593 处引文,施引文章的历史年代分布情况如表3 所示。通过上下文分析,本研究成功地辨识出562 处引用的来源;由于没有文中标注和参考文献,有31 处引用无法找到被引用文献的信息而标注为“佚名”。
表3 施引文章的历史年代分布情况
这里需要说明的是,虽然我国古籍中的“引经据典”已经形成了引文的雏形,但其中典故大多数是经典历史故事,并不具备引文的知识贡献特征[82],所以并不符合引文的定义。因此,我们在数据分析中将这些典故排除在外,在本研究中古籍的引用指的是“经”而不是“典”。图1 显示的是一个引文的例子,司马迁在《史记·游侠列传序》中提到“窃钩者诛,窃国者侯”就是对庄子的《庄子·胠箧》的引用。
图1 古籍中引文案例
虽然我们认为中国古文中“引经据典”是引用的一种雏形,但其毕竟不同于现代意义上的引文,既没有文中标注,也没有文末的参考文献,所以古文中的引文必须人工去文中辨识。在数据分析的过程中,我们通过对以往关于引文本质实证研究的分析,根据引用文章和被引文章的关系,对引用的原因作了一个总结,在借鉴Tabatabaei 研究[58]的基础上,将引文分成五大类别(表4)。其中,“应用”和“对比”类型的引文对于施引文章有着显著的学术贡献,是基于规范主义理论的引用;而其他三种类型的引文则更多是为了引用而引用,其引用原因更倾向于建构主义理论。
表4 根据引用原因总结的五种引文类别
本研究有三人参与了数据分析的过程。其中,一位是具有图书情报博士学位的项目负责人,具有丰富的科学计量学研究经验;另外两位负责编码分类:一人为古典文献学硕士,另一人为中国古典文学硕士,他们对于作为样本的两本文集均十分了解。在数据分析开始前,项目负责人对两位编码员进行了关于引文分析的培训,并就少量样本进行了测试。在正式的数据分析过程中,两人为所有593处引文进行编码分类,根据其上下文归类到这5 种引文类别之中。在编码分类过程中,若两人的意见相同,则通过;若意见不一致,则由项目负责人进行仲裁。在实际过程中,两人意见一致的比例在85%左右。
如表3 所示,本研究的施引文献的历史年代分布并不均匀,在秦汉、隋唐和宋元三个时期中,较多在先秦和魏晋南北朝,明清较少,这也与《古文观止》和《古文辞类纂》大量收录两汉和唐宋的文章有关。如图2 所示,本研究的被引文献更是出现了不均匀分布,约80%的被引文献(471/593)集中在先秦时期,而秦汉时期次之(78),这说明我国古籍中“引经据典”的对象,大多还是春秋战国形成的诸子百家经典著作(尤其是以孔孟为代表的儒家经典)。而从引文的流向来看,在每个历史时代,先秦文献的被引用次数都是占绝大多数的,而秦汉时期的文献主要被同一时期和宋元时期的作者所引用。
图2 被引文献的历史年代分布(a)和引文流向(b)
从被引的次数来看,《诗经》是被引用最多的书籍,共被引用102 次,紧随其后的是《论语》和《尚书》,分别被引用93 次和47 次。孔子是被引用最多的作者,其著作共被引用164 次,占了总引文数的1/4 还多,这些引用分别来自《论语》(93)、《尚书》(47)、《春秋》(20)和《孝经》(3)。姬昌(周文王)和孟子的文章分别被引45 次和26 次,排在第 2 位和第 3 位。
同时,本研究发现主要被引文献(作者)在不同历史年代的被引次数也有所差异。如图3 所示,《诗经》 是被引用最多的文献,但其2/3 的被引(68/104)在隋唐之前;与之对应的是,孟子的26次被引全部来自魏晋南北朝之后,尤其是明清时期孟子的被引超过了《诗经》和姬昌而仅次于孔子,这与当时程朱理学将孟子提高到儒家亚圣的地位有关。
图3 主要被引文献(作者)的历史年代分布
虽然样本的数据量有限,但我们仍然从中发现了43 对引文耦合。如图4 所示,司马迁和韩愈分别在《史记·伯夷列传》和《杂说一》中引用了《易经·乾卦》中的“云从龙,风从虎,圣人作而万物睹”,从而形成了一组引文耦合。与此同时,我们在为数不多的数据中还发现了共被引现象,如图5所示,在王安石的《复仇解》中,分别引用了《公羊春秋传》《礼记》和《周礼》,这3 篇被引著作形成了共被引关系。
图4 我国古籍中的引文耦合案例
图5 我国古籍中的共被引案例
在科学计量学中,引文耦合和共被引都代表着文献的相似性。在本研究中,虽然出现的引文耦合和共被引由于样本有限无法发现显著的相似性,但也有些研究方向可待未来进一步挖掘。例如,我们发现韩愈、柳宗元和王安石3 人的作品之间有着较多的引文耦合,韩愈和王安石之间的引文耦合有4处,而韩柳、柳王之间的引文耦合各有2 处,这说明3 人在“引经据典”时有着共同的偏好。另外,同为西汉历史学家的司马迁和刘向的作品之间也有2 处引文耦合,说明这种文献的相似性确实存在,只不过需要更多样本去分析。
根据引文上下文的分析,可发现近一半的引文其引文类型为“支持”,即引用被引文章是为了支持引用文章的方法、观点或结果。由图6 可知,有285 处“支持”类型的引文、95 处“综述”类型引文和34 处“无关”类型引文,显然约70%的引文的引用原因更倾向于建构主义理论,这也意味着只有30%的引文符合规范主义理论,即被引文章对施引文章有着显著的学术贡献。
图6 引文类型的分布
我们同时发现引文类型的分布在不同被引文献和不同历史年代的施引文献中也有差异。如图7a 所示,当被引文献是孔子、孟子、姬昌的作品或《诗经》时,有超过3/4 引文的引用原因倾向于建构主义理论(引文类型为“支持”“综述”或“无关”);这一比例在被引文献为其他作者时,则相对较低,引用司马迁的引文中这一比例不到2/3,而引用孙武的引文中这一比例降到近1/2。这说明古代作者更倾向于引用圣贤之言来支持自己的观点以说服读者。这种分布也反映了在不同历史年代的作品中,如图7b 所示,引用原因倾向于建构主义理论的引文在先秦刚刚多于1/2,然后这一比例逐渐增加(除了魏晋南北朝外),到明清时期这一比例已经超过90%。
图7 引文类型的高被引作者分布(a)和历史年代分布(b)
在过去几十年里,虽然许多学者进行了大量关于引文本质的研究,但始终没有形成一个统一的引用理论,能够完全解释出引文的本质和引用的原因。规范主义理论从理想的状况出发,认为每一个引用都代表着施引者对于被引文献贡献的认可,而科学就是建立在被引文献对施引文献的不断贡献之上[12]。与此同时,建构主义理论从引用行为的实际出发,认为施引者的引用行为受到社会、政治和经济等因素的影响[41],在现实中引用只是一种支持自己观点以说服读者的工具[17]。这种影响不仅被发现存在于现代学术发表和引用中,也被发现存在于古代文献中。正如本研究所发现的,我国古籍中“引经据典”在文章中的作用也受到了其时代因素的影响。
自春秋战国以来,我国两千多年的历史就是一段封建集权不断加强、封建思想不断保守禁锢的历史。在不同朝代的时代背景下,古代作者的引用行为也有所差异。从研究结果中可以看到,虽然在不同历史时代我国古代作者都倾向于引用圣贤之言来支持自己的观点,但在先秦、秦汉和魏晋南北朝时期的施引文献中,仍然有许多倾向于规范主义理论的引文类型(“应用”和“对比”),在诸子百家争鸣的先秦时期,这一比例接近50%;而在思想自由开放的魏晋南北朝,这一比例更是高达70%。而这一比例在隋唐之后逐步下滑,在程朱理学作为儒家主流思想的明清时期,这种规范主义的引用几乎绝迹。这似乎给人们一点启示,即在古代思想自由开放的背景下,学者更倾向于规范主义的引用;而在思想保守禁锢的背景下,更倾向于建构主义的引用,即引用圣贤之言来支持自己的观点以说服读者。
本研究通过分析《古文观止》和《古文辞类纂》中593 处引文的引文类别和引用原因,探讨在我国古籍中以“引经据典”现象为代表的引文的作用,主要发现如下:
(1)我国古代作者引用的主要作用是借用圣贤之言支持自己的观点来说服读者,这一发现也证实了建构主义理论对于引文本质的解读[17,38]。
(2)随着我国古代历史封建集权的不断加强和封建思想的日益保守,我国古代作者中基于规范主义理论的引用日益减少直到消亡。
(3)古代作者在对不同文献的引用时有着不同的原因,对于儒家经典文献的引用较其他类文献引用更多,主要是出于说服读者的目的。
当然,本研究也有一定局限性。我国古典文献以散文为主,与现代的学术论文在体裁和写作目的上不尽相同,古文中的“引经据典”和现代学术论文中的引用在语境背景上也存在差异,以古文为研究对象研究引文本质并不具有代表性。由于现代引文理论是基于现代科学研究的规范而我国古籍中多为文学文章或书籍,所以本研究只能从历史角度检验现代引文本质理论在中国古典文献中的适用性,而无法对引文本质研究提出新的视角。
另外,从样本容量的角度来说,593 个引文仍然不够。有些引文的来源无法确定;引文类别的划分是根据西方学者的研究总结归纳的,未必适合中国古籍引用的分类;两者在学科和文章类别上存在差异,等等。希望在未来的研究中,能够基于更大的样本,使用符合我国历史文化背景的引用分类系统,对我国古籍中的引用现象进行更深入的研究。