郝嘉树 (国家图书馆 北京 100081)
个人名称规范维护新方法探析
郝嘉树(国家图书馆 北京 100081)
[摘 要]我国采用自上而下、人工操作和封闭的模式影响名称规范的维护能力、效率及规范控制效果。基于著者交互的自规范、自动人名消歧和开放关联数据的个人名称规范维护方法,借鉴了文献数据库系统中的著者唯一标识、机器学习领域的自动身份辨识和有效信息源获取,可改变我国个人名称规范数量少、覆盖范围受限和数据质量不高的现状,解决当前名称规范模式维护能力差、效率低下和无法与外界互操作等问题,真正发挥出名称规范控制应有的功能及效果。
[关键词]个人名称规范维护 自规范 自动人名消歧 开放关联数据 MARC格式
名称规范的重要功能及近几年越来越倾向于以人为中心的资源组织,使得个人名称规范数据维护成为图书馆信息组织的重要内容。目前,国内对我国名称规范维护工作问题的探讨大多集中于从完善编目格式和规则的角度提升规范数据质量,从多机构联合构建角度解决数据的共享和重用[1-2]。然而,数据质量的提升如果没有信息源的有效获取模式,完善格式和规则只能成为空壳,并且国内多机构联合共建仍为自上而下的维护模式,并没有从根本上提高维护的效率,规范控制能力仍跟不上资源增长的速度。
笔者认为,当前我国个人名称规范维护工作的突出问题有:一是面对海量数据资源采用自上而下、由领域内少数权威机构维护的模式,使得个人名称规范数据质量、规模和范围受到影响与限制,规范控制能力跟不上资源增长的速度;二是面对大量数据和难以获取有效信息的事实,完全由编目员承担个人名称规范维护工作,出现较多影响规范控制效果的不完整和白板数据①,这种人工维护的方式耗费人力、财力而又效率偏低;三是网络中发布了大量与人相关的资源和规范数据,我国名称规范数据封闭在图书馆环境内无法与已开放数据关联,阻碍发现、整合已有资源以扩大本地个人名称规范规模和补充完善自身数据,另外,数字化环境充斥的今日,期刊数据库、网络资源等对人名消歧和辨识有强烈的需求,然而封闭在图书馆内的规范数据却无法提供给外界使用。
针对以上问题,本文借鉴文献数据库系统中的著者唯一标识、机器学习领域的自动身份辨识和有效信息源获取,提出基于著者交互的自规范、自动人名消歧和开放关联数据的个人名称规范维护方法,并分别对这些方法进行介绍,指出它们可解决的名称规范问题,并给出如何实现维护的具体方案或做法。
2.1 自规范模式及相关应用
因为著者更了解自身的相关信息和著作,所以采用自下而上、由著者主导的联合共建模式,是提升个人名称规范数据质量、规模和范围的途径与方法。本文将无需外界指令而由著者自发和协同地实现个人信息生成和完善,以及不同人辨识的过程称为自规范。自规范是一种自下而上、去中心化的由著者主导的联合共建模式,由著者协同地维护个人名称规范数据。
著者交互的自规范可解决自上而下维护模式的问题,具体表现在:一是广泛的著者参与能消除自上而下维护的局限,扩大个人名称规范数据的规模和范围;二是著者熟悉自身情况,能准确辨识规范库中的个人身份,区分同名著者,发现由更名、别名构建的重复记录;三是添加和修改生卒年、研究领域、相关作品、所在机构等信息,可完善名称规范数据,提高个人名称规范数据质量。
自规范应用出现在文献数据库系统,这些系统大都由著者填写自身及相关学术信息并进行注册,系统会为每个著者分配一个唯一标识符(Identifier),如Research ID[3]、Scopus Author ID[4]和arXiv Author ID[5]等。该做法可有效消除姓名拼写方式混淆和重名问题,但只局限在某一范围或系统内,整体上还是削弱了著者标识符辨识度,同时系统间的分割导致了同一著者多次注册、多入口操作和有多个标识符。针对以上情况,近几年出现了ORCID(Open Researcher and Contributor Identifier,开放研究者与贡献者身份),目的是解决各系统间著者姓名混淆和识别问题。ORCID在兼容性和互操作方面进行尝试,建立与各系统著者标识符的关联,并将著者相关信息和科研情况聚合起来;同时不受学科、机构和地理的限制,免费向全球学术界开放并提供服务[6],这种扩大数据和服务范围的做法真正起到了不同著者唯一身份辨识的作用。
2.2 基于自规范的个人名称规范维护
个人名称规范维护可借鉴自规范相关应用,以搭建网络平台为渠道,通过著者辨识、修改、合并和新增等参与形式达到维护个人名称规范数据的目的。构建自规范平台要重点实现以下3方面:
(1)在数据维护方面,著者新增或修改的信息项包括别名、更名、出生年月、所在机构、发表文献情况、研究兴趣、教育程度、工作单位和开展项目等,平台构建者需将其与规范数据MARC格式建立映射,用以自动完善个人名称规范数据附加成分、单纯参照等相关字段,并能将著者在平台新建的数据批量转化为图书馆规范记录,从而大幅提高个人名称规范数据的维护效率。
(2)在系统设计方面,通过技术手段和友好性设计降低著者参与的复杂度。平台构建者需规避专业的MARC格式,设计新增、修改、合并模板并内嵌到系统内,通过著者参与挖掘头脑里有关人的事实信息来新建、修改和补充个人记录。除此之外,以易于理解的形式和语言帮助著作开展相关操作,同名规范数据的展示要利于其辨识,尽量采取客观形式完成信息项的填写。
(3)在参与度方面,要增强著者粘性。只维护数据难以提高著者的参与兴趣,平台构建者应设计相关功能来增强著者参与的驱动力,如开发个人科研管理模块以自动导入和生成科研成果,帮助著者发现开展相似项目的合著者等;同时与出版界、科研机构、学术界等开展合作,他们对科研产出者有准确识别和名称消歧的需要,通过这些切合点带动更多的科研产出者参与到自规范中,从而扩大个人名称规范维护和控制的范围和能力。
我国存在大量未能显著区分的同名个人名称规范数据,该类数据在维护和书目挂接时需要人工逐条分析、比对和辨别,严重影响编目员的工作效率,成为个人名称规范维护和控制中的突出问题。自动人名消歧可弥补人工维护的不足,利用相关方法和技术自动区分重名著者和聚合著者别名作品,从而实现个人名称规范维护及控制。另外,受图书馆传统维护模式与方法的影响,我国名称规范控制工作局限于专著领域,而数字图书馆、网络资源和期刊数据库等对名称规范控制有强烈的诉求,自动人名消歧非常适用于网络和数字环境,有快速区分海量数据著者及其作品的能力,更好地适应不断扩大的数字化趋势。
3.1 基于著作文体的辨识
文体学是用统计学中定量方法来分析著者写作风格的一种学科。著者都具有自己特定的写作习惯和风格,这种无意识和根深蒂固的写作习惯和风格会在所写的著作中通过各种特征表现出来。因此,计算机可以通过统计特征来分析著者写作风格,从而能快速区分同名著者作品、聚合同人异名作品。
首先,著者文体识别需要提取出能代表著者文体风格的识别特征(Identification Attributes),并根据这些特征评估作品之间文体风格的相似程度。能有效区分著者文体的识别指标可归类为4个方面(见表1)[7-8]。其中,词汇和句法特征中词、标点符号和功能词等的使用情况可以体现著者的写作特点和风格;结构特征反映著者如何组织整个篇章结构,不同著者对整体文本的呈现有不同偏好;内容特征体现著者感兴趣的主题类别。
表1 文体风格识别指标
其次,著者文体识别需设计各识别指标的统计方法或公式。词汇特征中,基于字的特征中各平均数指标分别用总数字个数、总字母个数、总空格数、每个特殊字符数除以总字数得出,而平均每句字数用总字数除以句子数得到;基于词的特征提取要进行中文分词,可利用已有成熟的分词软件,平均词长用总字数除以总词数,平均每句中的字数和词数分别用总字数和总词数除以句子数获取;句法特征中,通过统计标点符号、功能词和词性的使用频率来判断著者的写作风格;结构特征中平均每段的句、词、字数分别用总句数、词数和字数除以段落数获得;内容特征主要抽取能表达主题的关键词,可通过TF-IDF、词频、互信息等方法提取。
3.2 基于著作外部特征的辨识
基于著作外部特征的辨识是利用著者的合著者、题名、研究方向、关键词、出版物名称及类型、著者机构、引文和分类号等作为特征,使用机器学习中的相似度计算、自动分类及自动聚类等方法,将重名著者中同一人的作品聚合在一起,而将不同人的作品分开的过程,可利用该方法自动区分重名著者和聚合同人别名著者的作品,达到个人名称规范维护及控制的目的。
(1)算法介绍
基于著作外部特征的辨识包括著者分组法和著者分配法。著者分组法通过相似度函数计算文献属性的相似度值从而将同一著者的作品集合到一起,其中值越高代表文献之间的相似度越高,表明为同一著者所著的可能性就越大。计算相似度包含两种算法:预定义相似度函数是在算法中植入预先定义的函数或公式,如余弦相似函数、TFIDF、Levenshtein距离和Jaccard公式等[9];基于学习的相似度函数需要训练数据集②来标注各个文献是否属于同一著者,然后在此基础上生成精确的相似度函数来区分同名作品[10-11]。
著者分配法构建著者模型,将作品分配给不同的著者,包括分类和聚类两类方法。分类法需要准备训练数据集,即用相关特征与正确著者关联以帮助训练生成消歧函数,之后用该函数对作品集合选择分类算法进行分配[12-13];聚类方法通过构建著者的数学模型,直接选择相应的聚类算法,如划分法、层次法、基于密度的方法和基于网格的方法等将作品分配给所属的著者[14-15]。
(2)算法选用
著者分组法针对只有一个同名著者而有多个作品的情况,通过计算作品之间的相似度聚合同一著者的作品;著者分配法适合有多个同名著者且有多个作品的情况,区分同名异人的作品,聚合同人异名的作品。
著者分组法包含的两种方法各有优劣,在区分同名著者作品时,要根据自身数据情况选择合适的算法。基于学习的相似度函数对不同数据集都有好的区分结果,但是需要大量的例子和充足的特征,构建费时费力;预定义函数不需要训练数据集,但是面对不同的集合需要调整新的函数来适应。对于已有训练数据集基础、易构建的情况,可考虑采用基于学习的相似度函数方法,否则可采用高效的预定义函数,嵌入较多的预定义函数以增强对数据的适应性。
著者分配法中,分类方法有较高的准确度,但需人工构建训练数据集,面对海量数据进行人工标注的工作量巨大,限制了该方法在自动人名消歧中的应用。聚类方法不需要训练数据集,适用性较高,是当前自动人名消歧的主流方法,但预先设定聚类个数、判断数据分布特征等做法影响准确性,因此EM算法和Gibbs抽样可弥补一般聚类算法的不足。
4.1 去除MARC格式
MARC格式是制约当前图书馆资源开放利用的最大障碍。随着技术的发展和信息环境的改变,读者利用图书馆资源的对象和方式发生巨大变化,MARC格式的种种局限在网络时代越来越成为绊脚石:一方面在技术上,图书馆的MARC记录虽然可以通过互联网查询,但是ISO2709格式依然作为其交换格式,除了按照C/S时代研发的Z39.50标准开放的API接口之外,基本没有其他互操作方式;另一方面在领域上,网络上充斥的错误、冗余和虚假信息需要规范控制,而MARC因其领域上的封闭性已无法满足这种需求。MARC格式的数据被牢牢“圈养”在各个图书馆的OPAC范围内,缺乏方便生成一个国家或地区的联合数据的技术和能力,更不用说开放给整个社会使用[16]。
名称规范发布为开放关联数据,是采用RDF格式将封闭在图书馆由MARC格式表示的名称规范数据开放到Web上,通过定义能用于识别名称规范的词汇集以实现唯一标识,并借助这些词汇建立相关名称标识的自动语义链接,实现与其他系统数据的互操作以及无缝访问和获取多来源、异构资源,具体表现在:
(1)我国名称规范控制工作局限于专著领域,名称规范通过获取来源于期刊数据库、网络和他国信息源的开放关联数据,能够扩展本地名称规范数据种类、范围和规模[17]。
(2)完善和提升本地数据质量。本地规范记录可通过URI(Uniform Resource Identifier,统一资源标识符)和词汇集的关联自动发现和整合开放数据集合中特定人的相关信息,可用来完善自身附加成分、单纯参照和信息附注,提高个人名称规范数据质量。除此之外, skos:related等词汇挖掘与该规范记录相关的人和机构等从而帮助构建个人名称规范数据的相关参照。
(3)图书馆高质量的规范数据在语义网环境下开放,可以被外部检索使用,能够促进对分布异构式网络发挥规范控制作用。
4.2 基于开放关联数据的个人名称规范维护
基于开放关联数据的个人名称规范维护涉及到管理策略和具体实现。机构首先要制定相关管理策略,包括开放哪些数据,在技术和人力方面的支持、准备和管理等。在实施初期可以分阶段逐步推进,在实现规范数据自身开放的基础上,逐渐实现与其他资源的互操作。
实现基于开放关联数据的个人名称规范维护的措施具体有以下3方面:
(1)用URI标识规范记录
URI形式稳定,和规范记录是固定关系,因此无论何种环境都可用URI来表示该规范记录,避免由名称表示人名带来的种种歧义[18]。用户通过HTTP URI访问来实现对数据的参引(Dereference,即查找和获取)。
(2)个人名称规范数据的语义描述
名称规范数据的语义描述就是将名称规范数据MARC格式转换为RDF表达形式,即通过“主体-谓词-客体”三元组(Triple)描述著者规范中各项内容[19]。
建立个人名称规范数据MARC格式字段及子字段对应的RDF词汇映射表,方便计算机自动批量实现名称规范数据的语义化描述。为保证共享和重用,数据在转化过程中要尽量利用已标准化和成熟的词汇集描述,避免自造新词汇,并根据中文人名的特点,采用SKOS(Simple Knowledge Organization System,简单知识组织系统)[20]、Schema. org[21]和FOAF(Friend of a Friend,朋友的朋友)[22]已有词汇组合定义中文人名规范数据的语义描述词汇集,如表2所示。
表2 RDF词汇与名称规范MARC格式映射表
(3)与其他数据集建立关联
建立与其他外部数据集的广泛关联,便于本地数据在不同数据集跳转,帮助本地数据发现、重用已有资源来扩大本地规范规模和完善自身数据。目前可选择关联的与人相关的开放数据有:VIAF(Virtual International Authority File,虚拟国际规范文档)和NACO(Name Authority Cooperative Program,名称规范合作项目)都联合了多国的名称规范数据;BIO本体描述关于人的传记类信息,包括出生日期、职业、事件、地点等信息;Wikipedia可定位关于人的百科文章;FOAF对人及其所关联的社会网络进行描述;Organization本体描述机构,包括成员、角色和活动等信息[23]。
关联其他数据源虽然可通过匹配算法实现,仍需要人工修正,因此并不是要关联任何来源数据,而是根据一定的标准来选择:一是该资源被广泛参考引用,二是该资源信息丰富,可用来完善本地数据。
我国名称规范维护中的突出问题希望能引起相关机构的关注及重视,采用相关方法和措施帮助改善我国名称规范维护能力和效率较低下、数据质量不高的现状,真正发挥出名称规范控制应有的功能及效果。
注 释:
①白板数据为只有著者姓名而无其他信息的数据。
②训练数据集属于机器学习中语料库的范畴,通过其可获得相关参数以提高准确性。
参考文献 :
[1]曹玉强.国家图书馆中文名称规范的探讨[J].图书馆建设,2007 (3):46-48.
[2]谢琴芳. CALIS中文名称规范数据库建设方案及其实施进展[J].新世纪图书馆, 2005(1):3-6.
[3]Research ID[EB/OL]. [2015-08-27]. http://www.researchid.com/.
[4]Scopus Author Identifier [EB/OL]. [2015-08-27]. http://help. scopus.com/Content/h_autsrch_intro.htm.
[5]Author Identifiers[EB/OL]. [2015-08-27]. http://arxiv.org/help/ author_identifiers.
[6]What is ORCID[EB/OL]. [2015-09-18]. http://orcid.org/content/ initiative.
[7]吕英杰, 范 静, 刘景方. 基于文体学的中文UGC作者身份识别研究[J]. 现代图书情报技术, 2013,29(9):48-53.
[8]Baayen H, Halteren H V, Neijt A, et al. An Experiment in Authorship Attribution[C]// In Proceedings of the 6th International Conference on Statistical Analysis of Textual Data. Saint Malo:LED, 2002:29-37.
[9]Soler M. Separating the Articles of Authors with the Same Name[J]. Scientometrics, 2007,72(2):281-290.
[10]Torvik V I, Smalheiser N R. Author Name Disambiguation in MEDLINE[J]. ACM TKDD, 2009,3(3):1-29.
[11]Ferreira A A, Goncalves M A. Laender A H F. A Brief Survey of Automatic Methods for Author Name Disambiguation[J]. SIGMOD Record, 2012,41(2):15-26.
[12]郭 舒. 文献数据库中作者名自动化消歧方法应用研究[J]. 情报杂志, 2013,32(9):132-137.
[13]Han Hui, Zha Hongyuan, Giles C L. Name Disambiguation in Author Citations Using a K-Way Spectral Clustering Method [C]// In Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM, 2005:334-343.
[14]任景华. 利用优化的DBSCAN算法进行文献著者人名消歧[J].图书馆理论与实践, 2014(12):62-68.
[15]Tang Jie, Fong A C M, Wang Bo, et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library[J]. Knowledge and Data Engineering, 2012,24(6):975-987.
[16]刘 炜.书目数据新格式BIBFRAME及其应用[J]. 大学图书馆学报, 2014(1):5-13.
[17]Ilik V. Cataloger & Makeover: Creating Non-MARC Name Authorities[J]. Cataloging & Classification Quarterly, 2015(53): 382-398.
[18]Report for PCC Task Group on the Creation and Function of Name Authorities in a Non-MARC Environment[EB/OL]. [2015-09-27]. http://www.loc.gov/aba/pcc/rda/RDA%20Task% 2 0grou ps%2 0 and%2 0char ges/R epor t P CC T Gon NameAuthInA_NonMARC_Environ_FinalReport.pdf.
[19]Schreiber G, Raimond Y. PDF 1.1 Primer[EB/OL]. [2015-06-07]. http://www.w3.org/TR/rdf11-primer/.
[20]Simple Knowledge Organization System Reference [EB/OL]. [2015-09-18]. http://www.w3.org/TR/2009/REC-skosreference-20090818/.
[21]Person[EB/OL]. [2015-09-18]. http://schema.org.cn/Person.
[22]Dan B, Libby M. FOAF Vocabulary Specification 0.99[EB/OL]. [2015-09-18]. http://xmlns.com/foaf/spec/.
[23]贾君枝. 开放书目数据的实现与发展[J]. 晋学图刊, 2015(1): 1-4.
Study on the New Methods of Personal Name Authority Maintenance
[Key words]Personal name authority maintenance; Self-authority; Automatic author name disambiguation; Open linked data; Non-MARC
[Abstract]Top-down, artificial and closed maintenance mode in our country have seriously affected the name authority maintenance's ability and efficiency, and also affected the effect of authority control. Personal name authority maintenance methods of self-authority based on author interaction, automatic author name disambiguation and open linked data draw the lessons from the contributor identifier in the document database system, automatic authorship identification of machine learning domain and effective information source acquisition, change the status of less quantity, limited coverage and low quality of data in China, resolve the problems of name authority maintenance mode, such as poor maintenance capacity, low efficiency and unable to operate with the outside world, which developing function and effect of the name authority control.
[中图分类号]G254
[文献标识码]A
[作者简介]
郝嘉树 女,1983年生,现工作于国家图书馆,馆员,已发表论文5篇,参与编写著作5部。
[ 收稿日期:2015-10-13 ]