陈丽群+沈彦君
[摘要]针对引文评价中存在作者信息有效性的问题,分析了造成引文中作者信息统计混淆的原因和消除混淆的方法,提出了根治作者信息统计混淆的方法,从而实现作者信息与引文信息的一一对应。
[关键词]作者信息;混淆;作者标识符;ORCID;引文分析
[中图分类号]G250.252[文献标志码]B[文章编号]1005-6041(2016)02-0064-04
近年来,引文评价越来越为我国大学、科研院所及评价机构所重视,但是有关引文评价的有效性的质疑一直没有停止过。目前,科学界对引文的认识还存在不少误区,不少科研人员和研究机构将引文评价等同于论文作者的学术水平评价,将被引频次的多寡和发表期刊影响因子的高低等同于论文质量的好坏。其实,引文评价是有关作者及其论文的影响力大小的评价,质量高低和影响力的大小是两个不同的概念。尤其应引起重视的是,在引文信息统计中如何提高作者统计信息的唯一性、有效性和完整性,只有消除不同作者信息的混淆,避免同一作者信息的遗漏,才能提高引文评价和分析的准确性、有效性和可靠性。
1引文评价中存在作者信息有效性的问题
引文评价始于1927年,Gross夫妇通过引文对化学专业期刊进行排行[1]。1971年Zunde认为引文分析有三个主要的应用领域:1)科学家、科学出版物和科学机构的定性和定量评价;2)探究科学技术的发展历史;3)文献的查找和检索[2]。
在引文分析应用于作者评价时,人们总期望作者信息能够达到唯一,从而准确地获得引文分析的结果,但在数据库的实际引文检索和分析评价中,由于存在引文作者信息的有效性问题,通常会遇到作者信息因异人同名、同人异名,以及异名同构(英文的全称、缩写,姓与名的书写顺序)等信息混淆问题,引起引文作者归属的歧义、混淆,有时遗漏作者应有的信息,有时加进了其他作者的信息,甚至产生错误的信息,从而导致引文分析结果的误差。
这样,不仅对文献检索、Web检索和数据库整合等造成影响,而且对引文分析的结果也会产生麻烦,影响引文计量中论文被引频次统计、作者排名结果、作者h指数测定和同被引图谱输出等的准确性和有效性。
2造成引文中作者信息统计混淆的原因
2.1 引文中作者姓名的构成
目前国际上主要的引文著录规范有:
(1)温哥华体例(Vancouver Style),也叫“作者—数字体例”(Author-Number Style)。它通常用于医学和科学期刊,目前国际上已有500多家医学期刊采用[3]。我国的引文著录标准——《文后参考文献著录规则》(GB/T 7714-2005),也参照该体例。
(2)哈佛体例(Harvard Style),也叫“作者—日期体例”(Author-Date Style)。它主要应用于人类学、商业、经济和社会政治等社会科学,也用于建筑学、计算机、数学、卫生保健和戏剧等科学和人文学科[4]。
(3)牛津体例(Oxford Style),也叫“文献—注释体例”(Documentary-Note Style)。它采用脚注、尾注或页边注的形式,多用于人文学科[5]。
这些国际上的引文著录规范,均强调引文信息著录的一致性。在引文著录时,要求作者姓名采用“姓全称+名首字母”的方式。这种方式会引起识别、检索统计的困难,产生异人同名和异名同构等问题。
2.2 数据库中引文作者误检和漏检的原因
2.2.1 作者信息中的异人同名。在现实中异人同名现象相当普遍。据美国人口普查局统计,1亿个人只用了9万个不同的名字[6],表明了在美国存在异人同名现象的普遍性。在国内,作者名字的异人同名现象也相当普遍,例如:截至2012年3月12日,在CNKI中检索作者“陈建”,检中结果为652条,涉及论文4 455篇,其中有被引频次的就有324人,涉及论文1 323篇;有的甚至发生在同一个单位里,例如作者“陈益君”这个名字,仅浙江大学就有三人。他们的论文被引用,在引文分析时会出现误检。
2.2.2 作者信息中的同人异名。作者在发表论文时,有时还会采用别名、笔名,有时甚至会出现印刷的错误。例如:作者“叶鹰”,就曾用“叶福翔”发表过多篇有关哲学方面的学术论文。又如:在《图书与情报》1998年第4期上发表的“期刊是否都要精装入藏”一文的作者“粟慧”就错误地印刷成“栗慧”,在相关的数据库检索中作者信息也就呈现为“栗慧”。他们的论文被引用,在引文分析时会出现漏检。
2.2.3 引文著录规范产生作者新的异人同名和异名同构。由于国外的引文著录规范均要求作者名字在引文著录时采用姓全称+名首字母的方式,这种方式会导致姓相同,名全称不同,而名的首字母缩写相同的情形,引起检索统计新的误差。例如:如果作者“陈建”在国外发表论文,引文著录时采用Chen J或者J Chen,而用“Chen J或者J Chen”拼写的作者可以是陈静、陈进、陈健、陈娟等等,这样就产生了更多的异人同名和异名同构。他们的论文被引用,在引文统计分析时无疑会出现更多的误检。
3消除作者信息统计混淆的方法研究进展
在引文信息中,由于普遍存在作者异人同名和同人异名现象,势必会造成引文中作者评价结果的不准确性。于是在引文著录规范得到广泛遵循的情况下,学术界针对引文中作者信息统计混淆的问题,从不同的角度进行了研究,通过软件一定程度上消除了作者信息混淆的问题。
引文中作者信息统计混淆的本质在于引文作者的歧义,要消除作者统计混淆的方法就是要解决引文中作者名字的歧义。综观现有的学术研究成果,对引文中消除作者信息统计混淆的研究主要有三条途径,即无关联信息的作者名字消歧、单关联信息的作者名字消歧和多关联信息的作者名字消歧。
3.1 无关联信息的作者名字消歧
2004年Hong Yoojin等为系统支持作者或出版物名字规范控制问题,总结出了三种名字关联的变化,即A变成B、A分成B和C、A和B合并成C[7]。鉴于目前几乎所有的对引文作者的分析评价都采用姓氏加名的首字母的现状,Masada、Strotmann等通过人名的全称来解决引文作者名字的混淆问题,实验结果显示效果很好,尤其是针对中国和韩国的作者[8-9]。
3.2 单关联信息的作者名字消歧
许多与作者相关联的信息,都可以作为引文作者名字消除混淆的判断依据。采用单关联信息解决引文中作者名字消除混淆的研究主要集中在基于合作者、Web网页或主题特征等。On Byung-Won和Kang In-su等通过合作者身份来辨别作者身份[10—11]。Tan Yee Fan通过稀有Web网站上的网页来消除作者歧义[12]。Song Yang、Pereira和Kai-Hsiang Yang等从主题的角度聚焦于Web页或科学文献[13—15]。Jia Zhu利用社会网络[16]。这些单关联信息能在一定程度上消除作者名字的混淆问题。
3.3 多关联信息的作者名字消歧
与引文作者相关联的信息很多,包括合作者、篇名、论文主题、出版物名称、E-mail、作者单位和相关Web网页等,因此采用多关联信息进行作者名字消除混淆的研究是最受关注的。Han Hui等利用合作者名字、篇名和刊名/会议录名称等关联信息消除混淆[17—19]。Torvik等对MEDLINE的引文作者依据篇名、刊名、同被引名字、MESH、语言、作者单位和名字归属等关联信息消除混淆[20—22]。McRae-Spencer等通过自引、合作者身份和文献出处的分析消除混淆[23]。Cota等基于合作者、篇名、出版物名字沿革等关联信息消除书目引文的名字混淆[24—25]。Kai-Hsiang Yang等基于主题关联意味着两篇引文的研究主题相似,而Web关联意味着在Web页中共现[26],来消除混淆。
其实,作者的姓名构成是复杂多样化的,但是同一个单位中研究相同学科领域问题的同名或异名同构的作者情况就很少,或者几乎不存在,尤其是中国作者,如果我们在数据库检索中采用“姓名+学科+单位地址或籍贯”就能较好地控制异人同名和同人异名引起的信息检索误差,但是由于存在作者单位变更的现象以及早先的论文中缺乏作者籍贯信息的情况,还是存在部分难以解决的问题,必须采取其他更为有效的方法加以解决。
4根治作者信息统计混淆的方法
4.1 实现引文作者的一一对应
早在1998年,G.Cleveland就认为:数字图书馆时代名字的重要性就像传统图书馆时代的ISBN号一样[27],因此要根治引文作者信息统计混淆的问题,必须做到引文作者的一一对应。
美国出版商协会(AAP)和美国全国研究创新联合会(CNRI)在1998年就倡议实施数字对象唯一标识符(DOI)。经过10余年的发展,目前Elsevier、Blackwell、John Wiley和Springer等国外的大型出版商大多采用它来标识数字对象,使数字对象达到一一对应。目前DOI已得到业界和学术界的广泛认同。
在推动DOI普遍应用的同时,致力于唯一性的作者标识符(Author IDentifier,AID)的研究也已得到业界和学术界的重视。AID的较早设想是1999—2000年南非比勒陀利亚大学的Synman等倡议的建立国际标准作者号码ISAN(International Standard Author Number),并提议每个作者个人身份号码的长度均为18个字符,即由“作者单位(2B)+作者国别(2B)+作者发表的语种(3B)+出版年(4B)+ISAN给出的连续号(6B)+校验码(1B)”组成,并在此基础上建立了ISAN模型,较之传统的NACO(Name Authority Cooperative Program)模型,作者认为:尽管ISAN模型的实现需要较多的改动,但对名字的标准化是最有效的方法[28—30]。这一设想得到了Cruz等人的认同,并在2000年提出呼吁:存取控制的实现是1999年Snyman等提议的用ISAN标识每位作者,ISAN可由国家书目规范内机构给予维护,每个国家规范机构在国际间分享其数据[31]。现在看来,Snyman等用ISAN来规范每位作者名字唯一性的设想是极具超前性和创造性的,可惜当时没有引起业界和学术界的足够重视。
4.2 作者唯一标识符
由于作者名字混淆导致作者错误归属的问题一直存在,而且在数字图书馆时代已更显突出,因此作者名字的唯一性有必要嵌入到学术研究的生态系统中。为了能像DOI那样,消除作者信息统计混淆这一实际问题,2009年11月,汤姆森路透社和自然出版集团在美国麻省剑桥就作者名字歧义问题召开了首次AID峰会,作为非营利机构的ORCID(Open and Researcher & Contributors ID)也在2010年8月正式诞生,并开始接纳参与者。ORCID的目标就是旨在解决作者在学术交流中作者信息的歧义问题,在ORCID注册后成为研究者唯一的ID,并和其他现有作者的ID建立开放透明的链接。这些ID和他们之间的关系能被链接到研究者的成果,这样就可以提高科学发现的进程,提高研究资金的效率和研究群体内的相互合作,现由14个组织参与管理。截至2012年3月8日,ORCID成员已发展到280多个,分别来自40个不同的国家和地区,例如:美国、英国、德国、加拿大、澳大利亚、巴西、印度、法国、西班牙和瑞士等,其中学术机构占41%、出版社占15%、公司占15%、非营利组织占11%、学术团体占10%、政府机构占4%及其他组织占4%。我国的中国科技信息研究所、科学出版社和香港大学3个单位也已加入其中。目前,ORCID已经受到全球关注,引文作者信息统计混淆的问题也必将迎刃而解。
5结语
引文中消除作者信息统计混淆的方法,通过软件虽然能在一定程度上减少其统计混淆,但在数字图书馆时代,真正要解决引文中作者信息统计混淆的问题,必须像ISBN、ISSN和DOI那样,给每个不同的引文作者一个唯一的作者标识符,ORCID无疑是目前较好的解决方案,值得我们期待。应当指出的是作者唯一标识符的施行需要时间的积累和出版机构积极地参与,同时也还面临着诸多的实际困难。
[参考文献]
[1]Gross P L,Gross E M.College libraries and chemical education[J].Science,1927(66):385—389.
[2]Zunde P.Structural models of complex information sources[J].Information Storage and Retrieval,1971(7):1—18.
[3]Curtin University Library.Vancouver referencing[EB/OL].[2012-03-17].http://wenku.baidu.com/view/c68ab9d4b14e852458fb575d.html.
[4]University Western Sydney Library.Harvard Referencing Style Guide[EB/OL].[2012-03-17].http://library.uws.edu.au/FILES/cite_Harvard.pdf.
[5]The documentary-note(Oxford) referencing style[EB/OL].[2012-03-17].http://www.deakin.edu.au/current-students/assets/resources/study-support/study-skills/oxford.pdf.
[6]Artiles J,Gonzalo J,Verdejo F.A testbed for people searching strategies in the WWW[C].Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,2005:569—570.
[7]Hong Y,On Byung-Won,Lee Dongwon.System Support for Name Authority Control Problem in Digital Libraries:OpenDBLP Approach[J].Lecture Notes in Computer Science,2004(3232):134—144.
[8]Masada T,Takasu A,Adachi J.Citation Data Clustering for Author Name Disambiguation[C/OL].Proceedings of the 2nd international conference on Scalable information systems,2007:http://www.cis.nagasaki-u.ac.jp/~masada/masadaINFOSCALE2007.pdf.
[9]Strotmann A,Zhao D.Author name ambiguity problem in biomedical research fields:Implications for bibliographic databases and bibliometric studies[C].3rd International Conference on Qualitative and Quantitative Methods in Libraries,2011:25—26.
[10]On B W,Lee D,Kang J,et al.Comparative study of name disambiguation problem using a scalable blocking-based framework[C].Proceedings of the 5th ACM/IEEE Joint Conference on Digital Libraries,2005:344—353.
[11] Kang In-su,Na Seung-hoon,Lee Seungwoo,et al.On co-authorship for author disambiguation[J].Informa- tion processing & management,2009,45(1):84—97.
[12]Tan Yee Fan,Kan Min Yen,Lee Dongwon.Search engine driven author disambiguation[C/OL].Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries,New York,NY,USA,2006:314—315.http://nike.psu.edu/publications/jcdl06b.pdf.
[13]Song Yang,Huang Jian,Councill I G.Efficient topic- based unsupervised name disambiguation[C/OL].Proceedings of the 7th ACM/IEEE-CS joint con- ference on Digital libraries,2007.http://research.microsoft.com/apps/pubs/i/pdf.jpg.
[14]Pereira D A,Ribeiro-Neto B,Ziviani N,et al.Using web information for author name disambiguation[C/OL].Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries,2009.http://grupoweb.upf.es/fows2009/slides/Ziviani-FoWS09.pdf.
[15]Yang Kai-Hsiang,Wu Yi-Hsuan.Author Name Di- sambiguation in Citations[C].2011 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology,Lyon,France,August 22—27,2011(3):335—338.
[16]Jia Zhu,Gabriel Pui Cheong Fung,Xiaofang Zhou.Anddy:A System for Author Name Disambiguation in Digital Library[J].Lecture Notes in Computer Science,2010(5982):444—447.
[17]Han Hui,Giles L,Zha Hongyuan,et al.Two supervised learning approaches for name disambiguation in author citations[C/OL].ACM/IEEE-CS Joint Conference on Digital Libraries(JCDL'04),Tucson,Arizona,USA,2004:296—305.http://clgiles.ist.psu.edu/papers/JCDL-2004-author-disambiguation.pdf.
[18]Han Hui,Zha Hongyuan,Giles C L.Name Disambiguation in Author Citations using a Kway Spectral Clustering Method[C/OL].International Conference on Digital Libraries,Denver,CO,7—11 June 2005:334—343.http://clgiles.ist.psu.edu/papers/JCDL-2005-K-Way-Spectral-Clustering.pdf.
[19]Han Hui,Xu Wei,Zha Hongyuan.A hierarchical naive Bayes mixture model for name disambiguation in author citations[C].Proceedings of the 2005 ACM symposium on Applied computing,New York,NY,USA,2005:1065—1069.
[20]Torvik V I,Weeber M,Swanson D R,et al.A probabilistic similarity metric for Medline records:A model for author name disambiguation[J].Journal of the American Society for Information Science and Technology,2005,56(2):140—158.
[21]Torvik V I,Smalheiser N R.Author Name Disambiguation in MEDLINE[J].ACM Transactions on Knowledge Discovery from Data.2009,3(3):11—40.
[22]Smalheiser N R,Torvik V I.Author name disambiguation [J/OL].Annual Review of Information Science and Technology,2009,43(1):1—43.http://arrowsmith.psych.uic.edu/arrowsmith_uic/tutorial/ARIST_preprint.pdf.
[23]McRae-Spencer D M,Shadbolt N R.Also by the same author:AKTiveAuthor,a citation graph approach to name disambiguation[C/OL].Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries,2006:5—54.http://eprints.ecs.soton.ac.uk/12704/1/sp080-mcraespencer.pdf.
[24]Cota R G,Gon alves M A,Laender A H F.A Heuris- tic-based Hierarchical Clustering Method for Author Name Disambiguation in Digital Libraries[C/OL].Proceedings of the 22nd Brazilian Symposium on Databases,Jo o Pessoa,Brazil,2007:20—34.http://www.lbd.dcc.ufmg.br:8080/colecoes/sbbd/2007/SBBD02.pdf.
[25]Cota R G,Ferreira A A,Nascimento C,et al.An unsupervised heuristic-based hierarchical method for name disambiguation in bibliographic citations[J].Journal of the American Society for Information Science and Technology.2010,61(9):1853—1870.
[26]Yang Kai-Hsiang,Peng Hsin-Tsung,Jiang Jian-Yi,et al.Author Name Disambiguation for Citations Using Topic and Web Correlation[J/OL].Lecture Notes in Computer Science,2008,5173:185—196.http://www.iis.sinica.edu.tw/papers/hoho/7642-F.pdf.
[27]Cleveland G.Digital libraries:definitions,issues and challenges[R/OL].IFLA Universal Dataflow and Tele- communications Core Programme.Occasional Paper 8,1998.http://www.ifla.org/VI/5/op/udtop8/udtop8.htm.
[28]Snyman M M M,van Rensburg M J.Reengineering name authority control[J].Electronic Library,1999,17(5):307—311.
[29]Snyman M M M,van Rensburg M J.NACO versus ISAN:prospects for name authority control[J].Elec- tronic Library,2000,18(1):63—68.
[30]Snyman M M M,van Rensburg M J.Revolutionizing Name Authority Control[C].Proceedings of the 5th ACM Conference on Digital Libraries,2000:185—194.
[31]Cruz J M B,Klink M J R,Krichel T.Personal data in a large digital library[C/OL].Proceedings of the 4th European Conference on Research and Advanced Technology for Digital Libraries,2000:127.http://openlib.org/home/krichel/phoenix.a4.pdf.