人文计算中的语义组织研究

2022-04-29 13:12刘建斌
计算机应用文摘 2022年16期
关键词:数字人文知识图谱

摘 要∶人文计算中的语义组织对人文计算研究具有重要意义。文章采用案例调查与文献分析的方法,从语义组织技术、基于语义组织的人文计算服务两个方面对人文计算中的语义组织研究现状进行梳理、总结并提出相应的建议。未来的人文计算研究可加深语义标注的层次,促进领域数据的关联与复用,开发出更多的语义知识服务。

关键词∶人文计算;语义组织;数字人文;知识图谱

中图法分类号∶TP3-05    文献标识码∶A

Research on semantic organization in humanities computing

LIU Jianbin

(College of Information Management, Nanjing Agricultural University, Nanjing 21095, China)

Abstract:Semantic organization in humanistic compouting is of great significance to the research of humanistic computing. Using the methods of case investigation and literature analysis, this paper sorts out the research status of semantic organization in humanistic computing from two perspectives:semantic organization technology andhumanistic computing services based on semantic organization, and puts forward corresponding suggestions. Future humanistic computing research can improve semantic annotation,enhance domain data correlation and reuse, and provide more semantic knowledge services

Key words: humanistic computing, semantic organization,digital humanities,knowledge graph

1引言

整合领域知识的常见方法是以语义化的方式来对不同来源与不同结构的数据进行组织,近年来,人文计算的处理对象越来越多样化,数据的结构越来越复杂,结合本体、语义知识图谱、机器学习等语义技术对人文计算资源进行有效的语义组织与整合是人文计算研究中的关键一步。在此背景下,本文以人文计算领域中的相关研究及项目为基础,对国内外人文计算领域中的语义组织技术研究现状进行研究,以期为人文计算的语义组织研究提供借鉴。

2人文计算中的语义组织

语义组织使研究者能够更快地发现原始数据及资源之间的内在联系,从而更加准确地發现有关事实,解决研究问题。人文计算研究中的语义组织方法主要分为传统语义组织技术、现代语义组织技术及其他语义组织技术等三个类别。

2.1传统语义组织技术

(1)叙词表

叙词表以概念为基本原则,认为任何语词都是概念的象征,通过概念以及概念间的关系构建专业领域的知识。Getty词表是人文计算领域中比较有代表性的词表,被广泛应用于博物馆编目和文献工作,以及艺术、建筑和物质文化方面的数据检索,是人文计算领域的经典词表。我国的敦煌壁画主题词表是借鉴AAT的分面与层级划分关系,针对敦煌壁画的内容构建的叙词表,用于规范敦煌壁画数据的标注与挖掘。除此之外,针对人文计算领域构建的叙词表还有乐器分类词表、艺术作品描述类目[1]等领域词表,以及人名规范、地理名称规范词表等。使用叙词表在人文计算中进行语义组织的优点是叙词表的使用简单方便,但叙词表的编制较为困难,不适用于组织有个性化需求的数据。

(2)元数据

元数据用于描述资源的基本信息、存储位置信息。将元数据模型用于人文计算领域的语义组织的主要步骤有元数据元素信息抽取、元数据元素定义与描述规范设计、基于元数据的信息库建设以及元数据应用体系构建。都柏林核心元数据用于描述网络信息资源,包含15个核心元素集,可以分为资源内容描述、知识产权描述和外部特征属性描述三个部分,适用于对资源的控制和管理进行规范,与其他元数据之间互操作性强。在人文计算的应用中,DC元数据常常与其他模型结合来组织领域数据,如胡以涛[2]在复用DC元数据以及CIDOC-CRM的基础上建立了描述农业文化遗产的元数据标准,姚天泓等[3]在复用DC元数据、CIDOC-CRM,FOAF的基础上对张学良史料资源进行语义组织。

2.2现代语义组织技术

(1)本体

本体是对某个领域的概念及其相互之间关系的形式化表达,人文计算领域比较通用的本体模型有CIDOC-CRM,EDM等。CIDOC-CRM是国际文献工作委员会开发的概念参考模型,用于描述文化遗产领域信息的概念与关系,是一种以事件为中心的本体构建方法。陈艳[4]以DC元数据的映射为例,介绍了基于CIDOCCRM的文化遗产资源的元数据集成方案;Tan[5]在CIDOCCRM的基础上构建了“丧葬舞蹈”本体。EDM是欧洲数字图书馆Europeana在采用其他数据模型的基础上,根据自身的数据特点设计的语义描述模型,建立了面向文化遗产领域的元数据知识本体模型[6]在拓展EDM的基础上构建了女性内容表达本体。此外,还有许多领域本体,如ABC本体、地缘政治本体、音乐本体、舞蹈本体等。由于大部分研究都针对资源特点构建了本体,所以人文计算领域的本体较多,彼此之间的复用性较差。

(2)关联数据

关联数据是万维网发明者TimBerners-Lee在2006年提出的,关联数据建立在标准的网络技术(如HTTP,RDF和URI)的基础上,旨在使计算机也能理解网页上的信息。目前,大部分传统语义组织工具都发布了关联数据形式,如Getty叙词表、敦煌壁画主题词表、DC元数据等,方便用户使用。上海图书馆将家谱数据、档案数据以关联数据的形式发布在网站上;欧洲数字手稿项目[7]以关联数据技术重构并发布数字人文关联开放数据集;“威尼斯时光机”项目通过关键词建立起不同类型文档的链接,将信息组织成一个巨大的关联数据资源库[8]。

(3)知识图谱

知识图谱是谷歌公司在2012年提出的一种组织知识单元的方法,在实际应用中可以分为广义知识图谱与语义知识图谱。陈涛等[9]以CBDB中的数据为基础,构建了人物关系知识图谱,并对其中的人物关系进行推理补充;杨海慈等[10]构建了宋代师承关系知识图谱;周莉娜等[11]构建了唐诗知识图谱并开发出唐诗智能服务平台KnowPoetry。相较于其他语义组织方法,知识图谱的优点是可以实现知识推理可视化。

2.3其他语义组织工具

GIS是一种空间信息的分析与处理的计算机工具,人文计算研究中常将原始数据通过GIS进行空间的可视化,这是人文计算中语义组织的方式之一。Knoerl[12]认为历史地图能清晰地让历史学家了解一个地区的历史,最早将GIS技术引入历史学的研究中。Murrieta[13]使用GIS分析了19世纪英国霍乱发生的位置信息。

3基于语义组织的人文计算应用

在现有研究中,部分人文计算学者在语义组织的基础上开发出面向用户的知识服务,拓展了语义组织的作用与意义。目前,基于语义组织的人文计算应用主要有知识可视化、语义检索、智慧知识服务三个方面。

3.1知识可视化

人文计算语义组织可视化的应用主要有基于知识图谱、GIS、历史时间轴等方式的可视化。大不列颠名人库用可视化技术展示名人之间血缘关系或因处于同一时空而产生的关联关系等;严承希等[14]以CBDB的数据为基础,绘制了宋代政治网络关系图,展现宋代的政治中心演变与政治合作对抗关系;美国犹他家谱学会数据库利用时空关联和亲属关系等可视化内容特征来探索家谱资源和人物关系。基于知识图谱以及VR技术、GIS技术的知识发现平台,促进了人文计算研究结果的转化。

3.2语义检索

人文计算研究者将语义组织后的数据库、知识库开放给用户查询使用,主要包含两个方面:一是在用户的检索结果内提供语义化的结果,用户可以在普通检索界面进行语义检索或在检索结果中通过关联数据发现相关结果;二是人文计算项目平台为用户提供专业的SPARQL查询,如上海图书馆开放数据平台的家谱知识服务平台、盛宣怀档案数据库为用户提供SPARQL查询方式等。普通用户通过人文计算项目提供的语义检索平台可以发现更多知识,便于获取信息。

3.3智慧服务

智慧服务指人文计算研究者为用户提供深层次的人文计算服务。当前,人文计算研究者推出的面向普通用戶的深层次人文计算智慧服务较少,处于发展阶段。中国家谱知识服务平台是上海图书馆推出的基于关联开放数据的数字人文服务,用户可以在该平台查阅家谱、进行姓氏寻根溯源,也可以在线修家谱、上传家谱数据等;清华大学的九歌智能系统具有自动写诗服务,用户可以输入关键词由系统自动生成诗歌;还有学者将有关语义信息应用于博物馆馆藏品的在线展示中,为用户提供展览品的时空演变过程信息。

4总结

本文对人文计算研究中的语义组织技术以及语义的人文计算服务进行了梳理。从当前已有的研究结果来看,大部分传统的语义组织工具,如叙词表、元数据等都发布了关联数据的形式,元数据在人文计算语义组织中的使用经常根据数据特点与其他模型相结合;人文计算领域的本体较多,各本体之间的复用比较困难,缺少通用性较强的本体模型,尤其是在国内的研究中更为突出;人文计算中语义标注的层次较浅,语义知识图谱的构建较少,知识推理的研究相对较少;人文计算中面向普通用户的语义服务较少,没能为用户提供方便使用的人文计算服务。在今后的研究中,人文计算学者可以加深数据语义标注的层次,建立数据之间的关联,开发领域语义组织工具与通用数据模型,并开发更多的人文计算服务。

参考文献:

[1]LubasRL,JacksonAS,SchneiderI.UsingCategoriesfortheDescriptionofWorksofArt(CDWA)andCDWALite:WithinformationfromtheGettyInstitute[J].Metadata

Manual2013:93-133.

[2]胡以涛,惠富平.元数据方法在数字人文视域下的应用探索—以农业文化遗产为例[J].图书馆,2019(1):82-87.

[3]姚天泓,陈艳梅,刘革,等.基于CIDOC-CRM的数字人文史料资源语义化知识组织研究—以张学良史料资源为例[J].图书馆学刊,2019,41(7):35-43.

[4]陈艳,周馨.基于CIDOCCRM的文化遗产资源的元数据集成—以DC元数据的映射为例[J].现代情报,2010,30(5):60-63+84.

[5]TanG,SunG,ZhongZ.KnowledgeRepresentationof“FuneralDance”BasedonCIDOCCRM[C]//20092ndInternationalSymposiumonKnowledgeAcquisitionandModeling(KAM2009),2009:39-42.

[6]KyvernitouI,BikakisA.AnOntologyforGenderedContentRepresentationofCulturalHeritageArtefacts[J].DigitalHumanitiesQuarterly,2017,11(3):58-66.

[7]BaiererK,EckertK,GoldfarbD,etal.DM2E:ALinkedDatasourceofDigitisedManuscriptsfortheDigitalHumanities[J].SemanticWeb,2017,8(5):733-745.

[8]翟姗姗,张纯,许鑫.文化遗产数字化长期保存策略研究—以“威尼斯时光机”项目为例[J].图书情报工作,2019,63(11):140-148.

[9]陈涛,刘炜,单蓉蓉,等.知识图谱在数字人文中的应用研究[J].中国图书馆学报,2019,45(6):34-49.

[10]杨海慈,王军.宋代学术师承知识图谱的构建与可视化[J].数据分析与知识发现,2019,3(6):109-116.

[11]周莉娜,洪亮,高子阳.唐诗知识图谱的构建及其智能知识服务设计[J].图书情报工作,2019,63(2):24-33.

[12]SantosJ.Usingmachinelearningmethodsfordisambiguating

placereferencesintextualdocuments[J].Geojournal,2015,80(3):375-392.

[13]Murrieta-FloresP,BaronA,GregoryI,etal.Automatically

AnalyzingLargeTextsinaGISEnvironment:TheRegistrarGeneral'sReportsandCholerainthe19thCentury[J].TransactionsinGIS,2015,19(2):296-320.

[14]严承希,王军.数字人文视角:基于符号分析法的宋代政治网络可视化研究[J].中国图书馆学报,2018,44(5):87-103.

作者简介:

刘建斌(1997—),硕士,研究方向:文本挖掘与数字人文。

猜你喜欢
数字人文知识图谱
数字人文时代公共图书馆经典阅读推广研究
数字人文目标下图书馆信息服务模式研究
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文
大规模古籍文本在中国史定量研究中的应用探索
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析