●王 岗 编 译(宁夏图书馆,银川750011)
概念视角下信息计量学的三个层面
●王 岗 编 译(宁夏图书馆,银川750011)
信息计量学;文献计量学;引用;实体-关系模型;概念模型;信息;信息检索
简要回顾信息计量学研究内容的现行模型,并就模型的记录层面、社会层面、认知层面分别进行了讨论;在此基础上,讨论了每个层面内部以及层面之间的关系,并特别论述了引用关系的性质,研究了映射、距离远近以及影响等概念在该模型中的位置。
信息计量学的研究对象(或者分析单位)是什么?信息计量学研究中研究实体是什么?回答这些问题对于描述信息计量学研究、将其与相关学科比较以及发现信息计量学中不具代表性的领域相当重要,而且可以为有关引用问题提供另一种视角。正如Mc-Grath(1996)认为,准确地搞清楚哪些对象正在被研究对于避免错误认识很有必要。
笔者认为,信息计量学研究三个层面的实体及其关系:(1)记录层面(文献);(2)社会层面(人与人的分组);(3)认知或者认识层面(主题与观念)。这些概念并不新鲜,在过去40年时常出现在文献中。
“层面”一词,在某种程度上充当“领域”或“域”的准同义词。笔者使用“层面”一词是为了避免与“研究领域”相混淆(CF.Hjorland与Albrechtsen,L),并强调这些层面是相互独立的且又并不完全正相交(orthogonal)。文献层面会影响社会层面,认知层面会影响文献层面等。事实上,不同层面的实体之间存在着相互关系是相当普遍的现象。
在本文中,采用信息计量学中的实体—关系观点。实体-关系(E-R)模型由Chen(1976)最早引入,现在已成为数据库设计的标准技术。信息计量学中的实体包括作者、大学、期刊等,而实体可以通过关系连接。如作者写文章、大学雇佣研究人员、期刊包含文章等。多数关系涉及两种实体,偶尔会出现n元关系(连接三个或者更多实体)。实体和关系可以有属性,如期刊的ⅠSSN、作者名字或文章关键词,然而最终由模型制作人来决定其是实体还是关系。如引用通常被视为关系,如果某人研究引用背景,那么将引用视为一个独立的实体就更为合理,而这取决于模型制作人的目标。
信息计量学模型涉及三个层面的研究已不是新鲜事物,在此简要概述以前的研究成果及相关工作。
Kochen(1974)提出了一个信息(检索)的概念化模型(如图)。该模型由三部分组成:行为主体(人)、文献以及主题。每个实体和关系都是抽象的,如“影响”关系连接两个行为主体。每个实体与其自身和其他两个因素相连接,如一个文献可以被其他文献引用;作者为一个或者更多行为主体以及涉及一个或者更多个主题。显然,作者身份和共同作者身份、引用与被引用、主题分布等都是信息计量学中的关键因素。
图AdaptationofKochen’s(1974)conceptualmodel
Leydesdorff(1989,2001)提出“科学的科学”是一个多维/层面问题,这里包括三个层面:专家学者、文本和认知。与Kochen’s(1974)模型相对应,专家学者是一个行为主体、文本对应着文献、认知反映主题。Leydesdorff(1989)利用这一模型来澄清信息学、科学计量学以及社会学之间的区别。他将计量学定位为专家学者与文本之间的一个研究领域,将社会学定位为专家学者与认知之间的一个研究领域,而将信息科学定位为认知和文本之间的一个研究领域。
另一个相似的模型由Borgman(1990)提出,他认为有三种变量在起作用:(1)交流的生产者(作者);(2)交流的产品(文献);(3)交流概念/观念(认识和认知)。其中,涉及交流概念的研究细分为作者术语研究和引用动机研究。
在对信息计量学的评论文章中,Wilson(1999)用了很长一部分讨论“信息计量学的内容”。她提出了一个模型,其中最基本的析出单位是出版物馆藏(或者出版物记录)。在该模型中,每个出版物都有若干特性(这与E-R属性相符)并保持与其他实体间的“准连接”,如期刊与作者间的“准连接”。W ilson认为,唯一“真实的”连接是出版物之间的引用,其他关系为“间接比较”。尽管出版物及其引用关系非常重要,但是这一模型将行为主体与认知视为次要因素并没有充分的理由。事实上,实体是信息计量学中许多研究领域的关键内容,而没有必要对“真实连接”与“准连接”进行区别,在E-R模型看来,它们是截然不同种类的关系。
Scharnhorst和Garfield(2010)将科学计量学概述为(主要)研究文本和行为人的一个领域。文本概念几乎包含了所谓的文献和认知层面。事实上,在文本之下,期刊、期刊文章和参考文献等都属于文献层面;主题、范例、领域和学科属于认知层面;行为者包括作者、机构和国家等,与社会层面的实体相一致。
综上所述,不同时代的作者对信息计量学(或相关领域如文献计量学、科学计量学)的定义基本相同。笔者赞同Kochen(1974)、Leydesdorff(1989,2001)和Borgman(1990)所倡导的一般模型:信息计量学由三个较广的领域构成,即社会、文献和认知实体。需要指出的是:在信息计量学之外的信息科学作品中也有类似的区别。书目记录的功能需求(TheFunctionalRequirementsforBibliographicRecords,FRBR)是ⅠFLA1998年出版的一份研究报告,旨在根据当今数据环境对编目实行现代化。FRBR是一个旨在描述“书目世界”的概念模型,它将书目记录涉及的实体分成三组进行区分:(1)智力或者艺术的产品是广义上的文献;(2)个人或者团体(社会实体)负责生产和传播第一组的实体文献;(3)智力或者艺术作品的主题与认知层面相符。很显然一条书目记录划分为以上三个层面,这与Kochen模型一样均是为书目信息检索而设计的。
信息计量学从三个层面研究实体和关系:文献层面、社会层面以及认知层面。
3.1 记录层面/文献层面
记录层面的实体是文献。信息科学中(Buckland, 1997;Briet,1951),“文献”的涵义远远大于传统的印刷文本这一概念。任何以某种形式(手写、印刷、视觉形式……)记录数据或者知识的客体都可以被视为文献。由此,文献可以包括照片、电子邮件消息、数据库记录、地图、乐谱、录音等,所以,文献是提供信息的客体。
文献对信息科学的重要性无可争议。其实,“信息学”一词在20世纪的前半叶被称为documentation(在英国和法国),这意味着信息科学与文献之间存在着紧密的关系,这种紧密关系归结于:文献是重要的信息载体,知识信息在很大程度上是通过文献来交流的。
单从信息学角度看,信息计量学显然是关于文献的,只是简单地统计有关诸如文章、专利、期刊、网页及其他文献的研究数量。然而,信息计量学还涉及不能直接利用文献的方面(如一些经济方面)。Tague-Sutcliffe(1992)认为信息计量学是个包罗万象之词,是“对所记录信息的生产、传播和使用方面的定量研究”。同样的观点被Bjo¨rneborn和Ⅰngwersen(2004)应用于其模型之中,他们认为科学计量学(如科学政策)与网络计量学(如网络流量)的一部分在文献计量学范围之外,也就是说不依赖于文献。这与笔者所提出的文献层面在信息计量学中占有重要地位的观点相左。笔者认为并非每个个体的研究项目或者出版物都必须涉及所有三个层面。
在很大程度上,信息计量学的研究只涉及少数几种文献类型(文章、期刊、专利、会议论文),并简单化地预先排除了某些特殊文献。为证明这一点,1990年有人试图穷尽列举所有关于信息计量学所涉及的文献类型。在这里不包括网络文献,因此,网络计量学已被排除在外,虽然现在它们也是信息计量学中重要的一部分。总体而言,不存在不适合信息计量学研究的文献类型。毕竟,Tague-Sutcliffe(1992)将信息计量学定义为“对任何形式的信息的定量研究,不只是记录或者书目形式,并且不只是专家学者,而是在任何社会团体中”。
3.2 社会层面
社会层面是关于人的,如作者、编辑、评论者、图书馆用户等,以及他们如何相互作用。人通常是较大群体的组成部分,而这些群体可以是官方机构和结构性机构,如组织、大学、公司、临时性组织等。某种意义上,国家也可以视为是社会构件。
社会层面对信息科学非常重要,这可以从“谁的知识被关注”、“这一信息是关于谁的”等等问题中得到反映。换句话说,信息是由人和机构生产的,同时也是为人和机构生产的;是被人和机构消费的;被人和机构传播的……很少有人质疑社会层面与信息学整体的高度相关。
在信息计量学中,所有试图对作者、机构或者国家进行的研究都会论及社会层面。有关利用信息(下载、图书馆使用)或者科学社会学或网络社区(如协作、无形学院)的研究也是如此。大多数重点研究社会层面的信息计量学研究都关注信息生产者(即作者),尽管这并非是必需的;其实,还有对评论人、编辑委员会成员等研究(如Frandsen与Nicolaisen,2010)。
目前,信息计量学研究从社会网络分析领域、SNA(如Otte与Rousseau,2002)引入了许多概念和技术。这归因于两个因素:(1)社会网络分析成功解释和澄清了许多问题,这些问题也在信息计量学发挥作用(例如,谁重要或者谁是中心?);(2)对社会层面认识的不断深入。其实,这些网络中的节点通常正是社会实体(研究人员、大学等)。另外,一些研究人员也利用SNA技术研究文献网络或者认知实体(如Bollen等,2006;Ding等,2001)。
3.3 认知层面
认知层面是涉及主题、观念和概念的层面,与Buckland(1991)提出的“作为知识的信息”一致。尽管比其他两个层面更加难以准确界定,但认知层面是一个关键因素。因为,信息的生产不是为了自身原因,而是它在某一时间点为人们感兴趣或者与人们相关。因此,认知层面很大程度上决定着什么信息会被交流、生产并且最终成为创造新信息的基础。
认知层面在信息科学领域与知识组织和知识组织系统相关。如主题词表、分类、生物分类学和大众分类使用的概念且概念之间的关系,都是某个领域的认知的表现。准确描述实体会给任何领域带来问题,这在认知层面尤其困难。概念的实质是未定的(Stock, 2010)并且认知实体容易改变(Tennis,2002)。从根本上说,人们认为任何分类形式最终是混乱的(Weinberger,2007),这意味着对于认知实体并不存在唯一正确的描述。
从信息计量学的视角来看,认知层面比其他两个层面更加难以描述和计算。尽管如此,研究人员还是设计了不同方法来呈现认知层面。实际上,有相当多的信息计量学研究涉及认知层面中的如何才能“成为有形的或可见的”这个一般性问题。当某些词汇出现在文献的标题、摘要或者全文本时,或许最能反映文献的认知状况的就是以这些词汇或者共现词为基础的文献计量研究(参见Borgman1990年提及的术语研究),如通过建立在简单词汇出现率与共现率基础上的潜在语义分析Latent Semantic Analysis(Deerwester等,1990;Dumais,2004)技术(方法),准确地构建了文献认知模型;而另一种方法是试图通过引用连接来反映文献或者社会行为主体之间的认知关系。
前面提到,Scharnhorst与Garfield(2010)对于文献层面与认知层面不予以区分,都聚集在“文本”这一词汇概念之下。他们的样本研究提出了分析“文本单位”这一问题,并且都集合于认知层面而非文献层面,包括主题、范式、知识流、研究前沿等。然而,这就提出了一个新的问题,即在何种程度上,信息计量学只关注文献层面内及文献层面本身的问题。显然更常见的是,文献只是用来作为认识认知或者社会结构的一个必要工具。尽管如此,一些纯粹的文献研究确实存在,如对信息计量分布(Egghe, 2005)、信息生产的增长(Morris和Yen,2005)、引用网络中的网络结构(Fang和Rousseau,2001;Egghe和Rousseau,2002)等。需要注意的是,关于已有规律的解释仍然涉及认知或社会因素(如累积优势,马太效应,可视性等)。
4.1 层级关系
一般而言,每个层面中的实体都可以按层级予以组织与实践。这些层级关系是基于上下位关系(是……的一类)或者整体部分关系(是……的一部分)(Stock,2010)。在社会层面中,人通常为组织、公司、国家等的一部分。在认知层面中,层级结构反映在分类与主题词表的结构中,具体到科学计量学,可以从涵盖的学科专业到主题或者某一确定的位置中辨识出一个大概的层级结构。在文献层面中,层级结构呈现于期刊—文章关系之中,以及连续出版物—图书—章节或者会议出版物—会议—论文之中。这些层级关系的重要性在于它们是形成聚类的基础。引用和被引用的论文聚合成量化组,而不是分而处之。事实上,这是形成所有科学计量学指标如影响因子和h指数的基础。
4.2 社会与记录层面之间的关系
社会层面与记录层面之间的主要关系是创造或者责任关系,即社会实体(代理人agents)创造文献。事实上,这种关系更是FRBR指南定义第二组的基础,是社会层面的等同词。原则上责任者合作是社会层面内部的关系,它们通常近似于合作关系,这种关系由两个或者更多行为人创作的文献来体现。反过来说,从文献记录层面到社会层面,有一个重要又并不直观的影响关系,即文献不仅是由行为人阅读(或者更普遍地说是“消费”)的,而且会对行为人产生影响。信息计量学的一个重大贡献就是使这些影响可见并且可以计算与测量。引用是知识影响最广为人知的“反映”,但是也存在一些不足:(1)引用也可能反映社会层面内部的互动(见讨论引用的部分);(2)影响只有在受影响的行为人后来出版了引用原文献的文献后才能可见;(3)因引用要求出版新的文献,所以引用相对较慢。
由于上述原因,研究人员尝试发明其他方法,以便追踪文献对行为人的影响,如通过文献计量学(Kurtz和Bollen,2010),该方法包括图书馆事务和文章下载量。
4.3 社会层面与认知层面的关系
Kochen(1974)认为,从社会层面到认知层面得到的是一种“是……方面的专家”关系。在更普遍意义上,可以说社会层面与认知层面间的关系是非常广泛意义上的“知道……的”关系。这种“知道……的”关系是有等级的,并存在一个连续统一体,即从“对……有点认识”经由“对……很熟悉”到“是……方面的专家”再到“是……方面的创始鼻祖”。从信息计量学上来讲,人们并不在乎某个行为人是否对一些概念的认识是模糊的,但在信息科学或者其他学科的所有领域并非都是如此。如某个特定观念的出现,可能影响一个研究学科的信息寻找行为。
社会层面与认知层面的关系是看不见的,直到行为人出版文献。需要注意的是,由于“文献”可以从广泛意义上理解,因此,行为人也可以通过邮件消息或者博客文章透露他们对某一概念的认识。在某一学科发表或出版论著至少要具备这一学科的基本知识。这意味着将失去该连续统一体的一部分:那些只是表面上熟悉某个学科(主题)的人是最不可能在此方面发表或出版论著的。信息的丧失,如果有的话,对于信息计量学研究而言是件好事,因为错失的部分能够模糊社会层面与认知层面之间更为重要的关系。
此外,社会层面和认知层面之间的相互作用相当复杂。研究相同主题的研究人员不自觉地更有可能知道彼此、彼此合作等。同时,有社会关联性的研究人员(如他们属于同一研究机构)就会有更多的机会影响彼此的思想。
4.4 记录层面与认知层面之间的关系
记录层面与认知层面间的主要关系是“关于……的”关系,用来连接记录实体(文献)与认知实体(概念)。换句话说,这些关系表达了这一主题(学科)或者文献的相关性。在极端的情形下,文献可能成为某个概念的象征(Small,1978),即记录层面与认知层面的关系事实上为一对一的关系。在更极端的情形下,一个文献可能涉及几个概念。从另一种角度看这种关系,事实上,每个概念都出现于大量文献之中。正如前面已经讨论过的,主要问题在于这些关系不能被直接认识到。如果将一个认知实体的构建认定为一个词或者短语,就能明确文献与概念之间的关系。这些关系甚至可以用一个概念在一个文献中出现的次数或者用其他方法如TF-ⅠDF予以量化。
如果两个文献有一个或者多个概念,那么,他们就是由二级关系连接,可以说他们在认知层面上是有关联的。研究人员尝试判断认知联系的另一种方法是通过引用分析。鉴于引用对信息计量学的重要性,下面将分别讨论这些关系种类。
4.5 引用
引用关系是一种记录层面(文献层面)内部的关系,用于连接两种文献。引用分析是信息计量学中研究最多的对象之一。在众多问题之中,引用意味着什么或者代表了什么是关键问题。而且引用还反映了在另外两个层面中的关系。Kochen模型中含蓄地说明了这个问题(如图所示):影响另一个行为人的行为人或者与另一个话题相关的话题(注意两者都是他们各自层面之内的关系)会导致在文献(记录)层面内部的引用关系。
在高层次上,有学者区分了引用的两种主要功能,即作为奖励和作为劝导(Davis,2009;White, 2004)。作为奖励的引用可以被视为对被引用作者的奖励,对其智力劳动的认可。这种观点的一个主要问题是否定性引用,是批评被引用的文献。然而,“奖励性”(积极的)和否定性引用都是认知层面中的文献(记录)反映。而作为劝导的引用是一种修辞手段,用来劝说某人的同行赞同自己的观点。他们并没有清楚地划分认知层面或者社会层面,虽然本质上有更多的社会性,如Cronin(1984)提及身份认同的功能,这显然是社会性的。Brooks(1986)的研究认为,“劝导或者奖励”两分法争论过于简单化,在很多情形下,认知层面与社会层面都可能在引用中发挥作用,这使得孤立研究引用的认知或者引用社会性极其困难。怎样才能确定哪一个层面在起作用?Larivie`re与Gingras(2010)研究了重复出版(发表)现象,即同一篇文章被两个期刊发表出版的情形。他们发现在更权威的期刊上(具有更高影响因子的期刊)发表的文章比其他期刊得到的引用更多。这样,作者就能将社会层面的影响与记录层面(文献层面)的影响区分开。
在信息计量学中普遍地都为“引用”含蓄地假设认知原因,这就是基于引用的影响分析。这也遭到大量批评(Mac Roberts和Mac Roberts,1996),因为一些研究人员认为引用本身就是反映认知层面的。对引用认知原因的假设也是构成(基于引用的)学科地图的基础,即基于引用的科学结构的可视化,暗示引用正确地表现了认知的关联性。然而,只有假设这是一个一般性原则,情况才会如此。如作者共引图“揭示”某一领域的“认识”或者“智力团”结构(White, 1990)。White还指出了作者共引图中更具有社会性的方面,即图形也反映了“共同国籍、时间连词、师生关系、同僚或者共同作者关系,或者共同的哲学取向。”这意味着至少引用可以用来作为认知结构的构建。如White(2001)主张“在其范围之内,引用分析会发挥作用。”而且大多数科学图谱都能够展示出一个类似的宏观结构(Klavans and Boyack,2009)。
图谱的构建值得特别关注。至少社会层面与认知层面可被视为虚拟空间(virtual spaces),在那里实体可以被封闭或分开认识。换句话说,人可以决定这些层面中的距离。Boschma(2005)对五种距离形式予以区分(同时参见Frenken等,2009):(1)地理上的;(2)认识上的;(3)社会的;(4)组织的;(5)机构的。认识距离等同于我们对认知层面中距离概念的理解。社会层面的距离包括Boschma的社会、组织及机构距离。再次强调,对社会尤其是认知层面的许多研究,只有通过观察第三个文献(记录)层面才能判断其距离的远近,并建立图谱。应当注意的是,分析实体单位可能属于某一个层面,而该层面并非是想要勾勒的层面,如作者共引分析试图勾勒认知空间的社会实体关系。
在前面段落中,已经几次提及主题影响。这并非巧合,因为影响是涉及三个层面的一个多维观念。从本质上看,影响发生于认知层面——一个想法、概念或理论有助于创造或重组另一个新的想法、概念或理论。然而,这需要社会层面起作用,即概念通过行为主体彼此影响。但是并非这些行为主体必须是利用文献作为交流其当前认识状态的手段,尽管文献有助于其将观点(思想)传播给更多的读者。此外,文献也显示出引用关系中最清晰的影响踪迹,但不直接涉及文献影响的情况包括博士生与其导师、在会议上两个同事见面交流观点等。至今仍然缺乏深入研究的一个问题是:如何才能更好地研究这三个层面的相互作用?在E-R模型基础上,所谓的多关系网络可能会提供一把钥匙。多关系网络使用不同的关系类型(引用、建立关联性等)连接不同种类的实体(行为主体、文献和概念)。换句话说,实体和关系并非只是抽象的概念,它们可以应用于实践。虽然多关系网络并不是标准信息计量学工具箱的组成部分,但一些现行研究证明了它对信息计量学研究的潜力(如Guns,2010;Morris和Yen,2005;Yan等,2011)。
总之,信息计量学研究社会、文献以及认知层面的相互作用。这些层面应当保持独立,但是又不完全独立。每个层面通过直接关系如从社会层面到文献层面(记录层面)建立关系并受到其他两个层面的影响,同时还存在更多巧妙、间接的关系,如社会关系(在社会层面内部的关系)可能会反映在文献引用关系之中。多关系网络是一个研究这些层面相互作用的有发展前途的研究工具。
本文中提出的概念框架澄清了每个层面对信息计量学领域的重要性。信息计量学不能简化为上面提到的一个或者两个层面,完整表述的信息计量学应当涵盖所有三个层面。
原文参考文献略。
文章译自:RafGuns.The threedimensionsof informetrics:a conceptual view[J].Journal of Documentation, 2013,69(2):295-308.
G250.252
A
1005-8214(2014)09-0046-05
王岗(1966-),女,宁夏图书馆研究馆员,研究方向:图书馆学。
2013-09-25[责任编辑]王钧梅