●任红娟
(郑州航空工业管理学院信息科学学院,郑州450015)
国内外引用认同研究进展文献计量分析
●任红娟
(郑州航空工业管理学院信息科学学院,郑州450015)
引用认同;研究进展;文献计量
以文献计量学方法为基础,分别选用Web of Science和中国知网、万方知识服务平台构建数据集来分析国内外引用认同的研究现状,对国内外引用认同的主要载文期刊、高产作者、高被引作者等基本统计信息进行调查,并基于作者共被引方法分析了该领域的主要研究分支。在此基础上综合分析了国内外引用认同研究的内容,概括了引用认同的主要研究主题。
引用认同(CitationⅠdentity)是一种全新视角的引文分析方法,该方法从引用者出发对引用者和被引者都加以研究,是评价个体学者的一种新方法。研究引用认同在了解作者重复引用规律,把握作者研究风格,洞悉作者影响力和研究领域等方面都具有重要的意义。2000年,美国德鲁克赛尔大学教授Howard D. White在《The Web of Knowledge:A Festschrift in Honor of Eugene Garfield》文集中第一次提及“引用认同”。[1]随后于2001年在其论文“Authorsascitersovertime”中,White第一次正式提出了“引用认同”概念,他指出:引用认同是某位作者引用的所有作者的集合。[2]作为引用分析方法的新视角和重要组成部分,引用认同方法提出十多年来,从国内外的研究来看,对该方法的梳理和系统分析的研究还比较少。2010年,鲁晶晶等发表了“引用认同研究进展分析”一文,对引用认同的发展现状进行了简要介绍。[3]本文拟利用文献计量学的方法来综合分析引用认同的发展现状,以期能够全面地把握该领域的研究状况,分析该研究领域的发展趋势以及该引文分析方法的不足之处。
1.1 数据集构建
国外数据选取Web of knowledge平台的“Web of Science数据库”,以“主题=citation identity*”进行检索,检索时间为2012年11月20日,得到11篇相关文献。从结果来看,数据量偏小,这是由于部分文献在主题中没有直接采用该主题词,但研究内容却与之非常相关。按照逻辑,文献的施引文献是在某一个方面借鉴或者包含了与被引文献相关的研究方法或者内容,因此利用这些文献的施引文献来进行数据集的扩展,可以保障这些文献主题上一定程度的相关性;另一方面由于Web of science只收录了全世界范围内以英文语言为主的一小部分优质期刊资源,而利用这些文献的施引文献进行数据集扩展就可以把更大范围内的相关研究文献纳入其中,从而扩大文献的查全率。利用施引文献扩展检索之后,经过去重和不相关文献的排除,共得到143篇相关文献,去除不相关文献之后,共有126篇文献。
1.2 基本统计信息分析
(1)引用认同研究的起源及论文年代分布。对该数据集的论文年代分布进行分析,结果如图1所示。由图1可知,引用认同在2001年提出以后,起初几年并没有引起太多的关注,研究文献增加速度比较缓慢,2005和2006年甚至还出现了下降的趋势。2006年以后,相关论文数量经历了快速的增长,2009年达到了一个顶峰,发表了25篇相关的文献。在2010年,发文数量出现了急剧的下降,2011年开始回升,2012年由于数据统计的不完全,相比2011年论文数量有所下降,但相差不大。总体而言,引用认同的相关研究以相对比较缓慢的速度在增长,在增长的过程中还伴随着间或的下降。这也从一定程度上说明该领域的研究还不是很成熟,仍处在研究的起步阶段。
图1 国外引用认同论文年代分布图
图2 国外引用认同研究期刊分布图
(2)被引频次分析。126篇文献的总被引频次为1150次,篇均被引9.13次。被引用次数最高的是Borgman和Furner于2002年发表在《Annual Review of information Science and Technology》的一篇综述文章“Scholarly communication and bibliometrics”,被引144次。排在第二的是2008年Bornmann和Daniel所著,题为“What do citation counts measures?A review of studies on citing behavior”的文献,被引111次。排在第三位的是Bar-Ⅰlan的“Which h-index?-A comparison of Wos,Scopus and Google Scholar”,被引97次。排在前两位的文献都是综述性文献,对综述性文献的引用是获取某一个主题研究全貌的一个很重要的途径,因此其引用次数相对比较高,而实际上这些综述文献和引用认同的深入研究相关性并不大,但无形中提高了该主题篇均被引次数。White的“Authors as citers over time”的文章被引次数为78次,排在第五位。在该数据集中,有29篇文献从未被引用。从这些文献的分布年代来看,2012年的文献有11篇,2011年的文献有8篇,由于这些文献发表较晚,因此存在有些文献还没有被该领域研究学者关注到的可能性,但也存在一部分文献已发表一段时间却仍未被引用。
(3)期刊分布。对该数据集中文献的主要出版平台进行分析,载文大于2的出版物如图2所示。共包含了8种期刊,这8种期刊均集中在图情领域,除了马来西亚图书馆信息科学期刊之外,其余的期刊均为图情领域的知名期刊。
(4)高产作者及高产机构。该数据集共有作者181位,分别对第一作者和全作者(所有作者,不分署名顺序)的发文情况进行统计,结果如表1所示。表1中列出了产出大于1的35位作者,其中字体加黑的作者是以对第一作者产出进行统计的结果,共有19位作者。发文变化是指作为第一作者发文的数量与不分署名顺序进行统计的全作者发文数量之间的差值。从表1中可知,没有数量变化的均为所有作品都是以第一作者署名的作者,变化最大的是Shaw和Wolfram,说明这两位作者的所有作品均不是以第一作者发表的。虽然他们的产出数量相对比较高,但是分析这些合作就会发现,Shaw是印第安纳大学图书馆信息科学系的主任,她以第二作者发表的这几篇文章都是和Cronin合作的,而Wolfram的合作者为其指导的博士生。所以,从表1不难发现,采用第一作者来进行高产作者的统计在有些情况下要更科学一些,但鉴于合作关系以及署名规则在不同机构之间的差异,可以把第一作者和全作者综合的进行统计分析来确定领域的高产作者。对这些作者,无论是第一作者还是全作者,所在的机构进行分析,排在前三位的机构结果是一致的,分别是美国德鲁克赛尔大学、美国印第安纳大学和以色列巴伊兰大学。
1.3 作者共被引分析
选择被引频次大于17的46位作者进行共被引分析,将遴选出的46位作者进行作者共被引分析,利用SPSS18.0对相似矩阵进行因子分析,在分析的过程中选用最大方差正交旋转的方法来简化因子结构。因子分析的结果共得到7个公因子,累积方差贡献率为87.335%,可以代表引用认同研究主题的不同的学术共同体及其核心作者。因子负载的绝对值超过0.5才被接受,超过0.7则认为对解释因子有帮助。[4]依据此标准,将46位作者分配在7个公因子中。其中,因子7中只包含Hyland,作者Drucker在任何公因子中的绝对值都不超过0.5,将Ducker和Hyland归为第7个公因子中,他们的研究主题分别集中在营销和应用语言学。通过对该数据集中引用高影响力作者文献的作者关键词以及标题词词频分析,并通过Web of science数据库检索作者的作品并辅以Google scholar以及Google个人主页、个人相关介绍等内容来为每个公因子进行命名。除了第7个公因子之外,其余6个公因子的研究内容分别是:科学计量学、网络计量学、信息计量学以及文献计量学领域的方法和实证研究;作者引用认同、引文分析理论和方法研究;科学交流与文献计量学关联研究;引用质量评价和影响因子;H指数;期刊引用认同及期刊评价。
表1 国外引用认同高产作者分布表
2.1 数据集构建
国内数据选取中国知网和万方知识服务平台来进行数据搜集,以“主题=引用认同”进行检索,检索日期为2012年11月20日,共得到27篇相关文献。其中有两篇为硕士学位论文,分别是中国科学院鲁晶晶(2010)的“基于引用认同的科研机构认知方法研究”和吉林大学高歌(2011)的“基于引用认同的学科前沿热点研究”,其余均为期刊论文。
2.2 基本统计信息分析
(1)文献年代分布。2009年,马凤和武夷山撰文“引用认同——一个值得注意的概念”,将引用认同研究引入,引用认同开始受到我国学者的关注。2010年发表了8篇相关成果,2011年达到10篇,2012年由于检索时数据不完全,相比11年略有下降,但两者的数值相差不大。由此可知,我国越来越多的学者认识到引用认同研究的重要性,以逐年增加的趋势投入到该主题的研究中。
(2)期刊分布。国内引用认同的成果大多集中在图书馆学和情报学领域期刊,排在前三的依次是《情报理论与实践》《情报杂志》《图书情报工作》。在这些期刊中,只有《科学学研究》属于科学学领域,由于《科学学研究》与科学计量学研究领域有着密切的联系,因此,该期刊也属于图情领域的亲缘学科期刊。总体而言,从期刊分析结果来看,引用认同的研究主要集中在图情领域,在其他领域的拓展研究还比较少见。
(3)高产作者和高产机构。选取发文数量大于1的作者及其作者所在机构进行分析,而且高产作者按照第一作者和全作者分别进行统计。以第一作者发文最多的作者是苏芳荔,其次是鲁晶晶,郑德俊等人并列第三。而对全作者进行统计分析,排在第一位的仍是苏芳荔,郑德俊位居并列第一,鲁晶晶仍然排在第二位,其余作者并列第三。
发文最多的机构是南京农业大学信息管理系,其次是南京大学信息管理系、郑州航空工业管理学院信息科学学院以及中国科学院文献情报中心,排在第三位的是武汉大学信息管理学院。
(4)高频关键词。对数据集中文献的关键词进行统计分析,可以大体了解引用认同研究的主要内容。在统计分析的过程中,对同义词进行合并,如实证研究、实证分析以及实例分析的含义相似,都合并为实证研究。表2列出了国内引用认同研究频次大于1的18个关键词。由表2可知,国内的引用认同研究主要是对(作者)引用认同、期刊引用认同、机构引用认同的实证分析。
表2 国内引用认同高频关键词
3.1 不同研究对象的引用认同实证研究
从国内外引用认同的研究文献来看,引用认同主要包含三个研究对象:作者、期刊和机构。
White利用引用认同对8位信息科学家的引用认同进行了分析,正式提出了引用认同的概念。[2]Cronin和Shaw以3个图情领域的教授为研究对象,分析了他们的引用认同。[5]2004年,White选取了来自不同学科的28位作者进行了引用认同的分析,把引用认同的研究拓展到了图情领域之外。[6]高歌在其硕士论文中,利用引用认同在临床神经学领域进行了分析。[7]这些研究都是以作者为分析对象进行的引用认同研究。
2006年,Ellen Nebelong-Bonnevie将引用认同的研究对象扩展到期刊,利用期刊引用认同作为期刊评价的指标对《Journal of Documentation》的引用认同进行了分析。[8]郑德俊和叶继元对期刊引用认同引申的期刊评价指标有效性进行了研究。[9]
鲁晶晶等提出将引用认同方法用于科研机构的分析,选取印第安纳大学图书情报学院作为研究对象,研究该机构的引用认同,结果表明:引用认同方法可以用来分析机构的科研引用模式、科研领域布局和研究动向以及发现潜在的科研合作对象。[10]苏芳荔对机构引用认同和机构合作进行了对比研究。[11]从构建的数据集来看,国外还没有看到有机构引用认同研究的成果。
3.2 多数据源选取的引用认同研究
国外引用认同的分析大多数都是基于Web of science数据库,但是该数据库自身收录的期刊种类在全世界或者某个国家发行期刊中比例是非常低的,而引用认同要求对作者某一段时间内作品集的所有被引作者进行分析。因此,数据库选取以及数据覆盖的全面与否对于最终的结果是有一定程度影响的。
Bar-Ⅰlan选用Web of Science、Google Scholar和Citeseer作为数据源,并对这三种数据源在计算机科学领域分析中的优势和不足进行了深入的分析。[12]Cronin和Shaw选取网络资源、图书馆馆藏、作者个人简历等多种来源获取该学者的作品集,然后利用web of science数据库来收割分析对象所引用的作者列表。[13]
3.3 引用认同研究方法研究
引用认同的研究涉及分析对象作品集构建、引用对象的提取、引用对象与分析对象关联强度的分析以及在定量分析基础上的定性分析。每一个步骤对于最终的分析结论都有一定程度的影响。White主要是基于Dialog来检索数据,如果作者X在他的5篇文献当中,每篇都引用作者Noam Chomsky两次,则X对Noam Chomsky的引用认同为5,而不是10,而且对于重复引用的次数统计,作者被引n次,重复引用次数应该为n-1,White指出由于Dialog系统只给出被引次数,他没有进行调整,把被引大于1的引用看做是重复引用。[2]
Ellen Nebelong-Bonnevie将引用认同的研究对象从作者扩展到期刊,他在期刊引用认同研究中,将White的引用认同度量方法进行改变,提出用期刊参考文献总数/被引期刊数得到的比值来计算期刊的引用认同,与White提出的用绝对被引次数来计算引用认同方法不同。鲁晶晶等在研究机构引用认同时,对于采集到的机构的被引数据没有进行去重处理,引用中出现1次,则引用认同的数值加1,也就是说,对于同一篇文献的多次引用,引用认同值是累加的。[10]
本文利用文献计量的方法对国内外的引用认同研究进行了系统的梳理,采用定量和定性相结合的方法对该主题的研究进行了深入的分析。从国内外的研究来看,引用认同作为引文分析的重要组成部分,具有很重要的研究价值,既可以用于描述特定作者、期刊、机构的研究主题和主题的迁移,也可以用于评价作者、期刊、机构等对象的写作风格、研究的广度和深度、影响力以及引用行为特征等,是一个非常重要的研究领域。然而,国内外相关研究也存在不足之处,总体而言还不太成熟,成果不够丰硕。在现有的研究中,对于引用认同系统化的研究成果还相对较少,对于如何才能更加科学的搜集到某个作者、某个机构以及某个期刊的引用认同数据,缺乏全面的检索工具和自动化的分析手段,以及如何才能进行大批量的引用认同分析,扩大引用认同研究对象数量的研究比较缺乏。同时,对于如何度量引用认同数值以及引用认同适用性的研究也有待进一步加强。随着更多的方法研究和实证研究的出现,将会更有力的推动该研究领域的发展。
[1]Cronin B,Atkins H B.The Web of Knowledge:A FestschriftinHonorofEugeneGarfield[M].Medford:ⅠnformationToday,2000:475-496.
[2]White H D.Authors as citers over times[J].Journal of the American Society forⅠnformation Science and Technology,2001,52(2):87-108.
[3]鲁晶晶,等.引用认同研究进展分析[J].图书情报工作,2010,54(20):45-48.
[4]张勤,马费成.国外知识管理研究范式——以共词分析为方法[J].管理科学学报,2007,12(6):65-74.
[5]CroninB,ShawD.Ⅰdentitycreatorsandimagemakers: usingcitationanalysisandthickdescriptiontoputauthors in their place[J].Scientometrics,2002,54(1):31-49.
[6]WhiteHD.Reward,persuasion,andthesokalhoax:a study incitation identities[J].Scientometrics,2004, 60(1):93-120.
[7]高歌.基于引用认同的学科前沿热点研究[D].吉林:吉林大学,2011.
[8]Nebelong B E,Frandsen T.Journal citation identity and journal citation image:a portrait of the journal of Documentation[J].JournalofDocumentation,2006, 62(1):30-57.
[9]郑德俊,叶继元.期刊引用认同及其被引评价新指标有效性分析[J].中国图书馆学报,2010,36(4):106-114.
[10]鲁晶晶,等.引用认同用于科研机构分析的探讨[J].图书情报工作,2011,55(6):53-56.
[11]苏芳荔.机构引用认同和机构合作的比较研究[J].情报理论与实践,2012,35(11):125-128.
[12]Bar-Ⅰlan J.An Ego-centric citation analysis of the works ofJ].Ⅰnformation Processing&Management, 2006,42(6):1553-1566.
[13]Cronin B,Shaw D.Peers and spheres of influence: situating rob kling[J].Ⅰnformation Society,2007, 23(4):221-233.
G250.252
A
1005-8214(2014)08-0042-04
任红娟(1979-),女,郑州航空工业管理学院讲师。
2013-07-04[责任编辑]菊秋芳
本文系教育部人文社会科学研究青年基金项目“引用认同的相关规律及其应用研究”(项目编号:12YJC870022),国家社科基金项目“引用认同和引证形象在引文分析中的应用研究”(项目编号:13TQ039)的研究成果。