刘绍南 /首都博物馆 北京 100045
杨鸿波 /首都博物馆 北京 100045
侯 霞 /首都博物馆 北京 100045
为了更好地展示、保护和研究文物遗产,世界各国建立了数以万计各种类型的博物馆,博物馆逐渐成为文物保护和文化传承的主要载体。博物馆的发展可以划分为传统博物馆、数字博物馆和智慧博物馆三个阶段。
传统实体博物馆中,信息的传递主要以文物到人的形式存在,人到文物的信息传递需要考虑到文物展出的时间和空间要求。而数字博物馆的建立克服了时空要求,通过集中式的数据采集将文物实体数字化,并借助互联网和多媒体技术在终端上更好的将文物展示给人。但是文物与人的信息传递被数字化所阻隔,人看到的只是冷冰冰的数字化的文物,导致真实感、交互性和体验感不足,尤其是对于文物与文物之间的关系挖掘和研究支持不足,不利于文物的维护、保管和研究。智慧博物馆的提出是现代技术进步的产物,随着互联网、云计算、虚拟现实和人工智能技术的进步,数字博物馆存在的问题也逐渐得到解决。其中知识图谱是一种可以挖掘实体与实体之间关系的技术,可以有效挖掘文物与文物间的关系,构建知识数据库,进而有效地解决文物的存储、展示和管理问题。因此将知识图谱引入到智慧博物馆建设中,是目前的发展方向。
知识图谱最早于2012年由谷歌提出并成功应用于搜索引擎,当前知识图谱已为语义搜索、大数据分析、智能推荐和数据集成等提供强大的支撑,正在多种大型行业和领域中得到广泛应用。除谷歌外典型的案例还有Facebook的图谱搜索,Microsoft Satori以及商业、金融、生命科学等领域特定的知识图谱。
数字博物馆的广泛建立,使得文物实体数据化,同时数据规模也越来越大。目前仍然主要依靠专家来分析和维护这些文物数据,由于工作量巨大,领域专家的稀缺,导致该工作越来越难以完成,需要耗费大量的人力、物力和时间。信息处理技术的进步使得自动分析文物实体间的联系成为可能。因此,急需现代化手段来推动智慧博物馆的发展。知识图谱在文物资源保护与研究方面有三方面优势:
(1)能够深度挖掘文物实体间的内在联系;
(2)优良的可扩展性,如想要把新的文物加入到图谱中,只需要找到相关的节点进行添加即可,从而建立新的联系,原来的文物实体连接关系并不会发生改变;
(3)推理检索的便利性,知识图谱的边代表文物实体间的关系,对文物的检索就是对知识图谱的遍历,本质上来讲就是推理检索。
因此,知识图谱技术可以更好地表示文物知识及其之间的各种关联,将有力推动文物信息资源的开放共享,推进文物信息资源、内容、产品、渠道、消费全链条设计,不断丰富文化产品和服务,进一步发挥文物在培育弘扬社会主义核心价值观、构建中华优秀传统文化传承体系和公共文化服务体系中的重要作用。
知识图谱技术是在语义网络的基础上发展起来的,是一种知识库表示方式,是实现人工智能的重要手段。2006年,万维网之父Berners Lee提出了链接数据(linked data)的思想,旨在强调语义互联网的目的是建立数据之间的链接,而不是发布结构化的数据。并且相关技术标准如RDF(resource description framework)、URI(uniform resource identifier)、OWL(Web ontology language)等的完善为语义网络的研究提供了基础[1]。
国内外对知识图谱的研究已经取得了一定的进展。除了传统搜索服务提供商如谷歌和微软等先后推出用于网络搜索的知识图谱产品外,包括Facebook、Apple、IBM等互联网领军企业也加入了竞争,比如Facebook的Facebook KB、Apple的Wolfram Alpha、IBM的Watson KB等。国内对中文知识图谱的研究起步较早,也取得了一系列的研究成果。中科院计算机语言信息中心董振东领导建立了知网(HowNet)项目[2],但是该知识库的数据规模相对较小、并且对于领域的限定较强,难以将其技术推广。在工业界,百度知心和搜狗知立方等优化了搜索引擎。在学术界,清华大学建立了第一个大规模中英文跨语言知识图谱XLore、中国科学院计算机技术研究所基于开放知识网络(OpenKN)建立“人立方、事立方、知立方”原型系统,中国科学院数学与系统科学研究院陆汝钤院士提出知件(Knowware)的概念,复旦大学GDM实验室推出的中文知识图谱项目,上海交通大学构建并发布了中文知识图谱研究平台zhishi.me等,这些项目的特点是知识库规模较大,涵盖的知识领域较广泛,并且能为用户提供智能搜索和知识问答。
2006年链接开放数据(linked open data,LOD)概念开启了文化遗产领域的数字资源语义融合及知识图谱构建的相关研究[4]。近年来文物知识图谱在世界各个国家得到了快速发展,出现了多个具有代表性的文物知识图谱项目,在数字资源和文化资源的语义描述、语义关联和关联数据网络建设中,出现了具有一系列代表性的研究成果。下面从各项目采用的知识图谱元数据模型的角度对相关工作做一个简单的介绍。
文物知识图谱项目绝大多数基于各种不同的知识图谱元数据模型,主要有: DC[5],DC terms[6],SKOS[7],CIDOC-CRM[8], FRBR[9],EDM[10]等。其中国外应用较多的为CIDOC-CRM模型和Europeana推出的EDM模型。
1.CIDOC-CRM
CRM(Conceptual Reference Model)是文化遗产信息领域的概念参考模型,是由国际博协登记著录委员会(CIDOC)花费十年以上时间完成的旨在促进多样化的文化遗产信息的集成、转移和相互交换的形式本体。CIDOC-CRM模型提供了一个通用并且可扩展的语义框架,以促进对文化遗产信息的共享共识,该框架可以映射任何文化遗产信息,并且利用其提供的定义和形式结构可以描述文化遗产中使用的隐含和显性概念和关系。CIDOC-CRM于1998年发布第一个版本,经过多年的发展到目前已经演变到V5.0.4版本。该版本将文化遗产领域定义出90个实体、149个属性,包含了特定文物实体的时间、地点、人物、历史事件、人文艺术等信息。CIDOCCRM提供的大量的摘要概念(Abstract Concepts)可以用来描述不同类型的文化遗产,世界上大量的博物馆已经广泛使用CIDOC-CRM,将博物馆的数据映射到该模型上。其中比较著名的有大英博物馆关联开放数据项目[11]、俄罗斯文化遗迹云平台[12]、波兰数字国家博物馆项目、徐悲鸿博物馆绘画藏品项目[13]。
大英博物馆是最早使用知识图谱技术的博物馆之一,2011年大英博物馆关联开放数据项目(https://www.researchspace.org/Events.html)将文物数据映射到本体CIDOC-CRM上,共发布了1亿条三元组,并将其连接到世界范围的知识谱图上,开发了语义检索系统。在此基础上大英博物馆与Andrew Mellon基金会合作为艺术研究推出了虚拟研究环境ResearchSpace。大英博物馆为该项目提供了2500条关联开放数据,并利用这些开放数据陆续推出了多项语义检索、语义数据注释、语义图像注释等开放研究课题。
俄罗斯文化遗迹云平台构建了包括俄罗斯博物馆、彼得人类学和人种学博物馆在内的俄罗斯最大文化知识图谱,提供了丰富的知识呈现方式,包括时间轴、地图、关系图等,支持网站和手机应用多种终端。图1(a)显示了该图谱中某艺术品表示的实例。
2.EDM
Europeana是一个大型数字博物馆项目,由欧盟委员会和成员国的文化和教育部门赞助和支持,欧盟各国的图书馆、档案馆和博物馆参与其中。2012年,为了适应语义网的发展,Europeana推出了关联开放数据试点——data.europeana.eu,其中关联数据资源类型包括文本、图片、音频、视频、动画等,这些数据来自欧盟成员国的1500多个不同的文化机构,使用元数据模型EDM(Europeana Data Model)作为资源内容的描述模型。包含有1000万个数字文物对象和超过两亿条记录,这些数据以关联的形式对外开放,给欧洲的文物、文化遗产提供了新的共同接口[10,14],构建了文化资源不同概念之间的关联关系的语义知识本体模型。目前欧盟成员国的文化遗产知识图谱项目多选用EDM作为数据模型,比较著名的有:荷兰国立博物馆知识图谱项目[15-16]、欧洲图书馆项目、欧洲文化遗产资源在线访问平台(ATHEVA)、西班牙文博物馆数字化项目(Hispana)等[17]。图1(b)显示了荷兰国立博物馆知识图谱中某艺术品表示的实例。
由于文物及文化遗产大数据的快速发展,数据量和数据形式都不断发展,知识图谱逐渐成为实现对异构文物海量数据的管理和相关内容挖掘的主要技术。
在文物领域,知识图谱的构建过程可由数据源采集、数据融合、图谱生成及应用几个步骤构成,具体如下图2所示。
构建图谱的数据采集主要来源于数字化的文物记录结构化数据以及描述文物的文本、音频、图像等非结构化数据。
图1.元数据模型实例
图2.文物知识图谱的构建过程
构建图谱的数据要根据不同的数据类型进行融合和链接。结构化数据主要是存储在各大数字博物馆的文物关系型数据库中,由于不同机构的文物数据库对记录文物信息的字段定义各有不同,所以必须对结构化数据依照文物领域的元数据规定的本体和概念进行数据的对齐才能与非结构化数据进行融合的链接。非结构化数据主要有文物的文本描述、音频和图片数据组成。在进行文物知识的链接与融合之前需要根据文本、音频和图片信息进行实体抽取、关系抽取和属性抽取产生文物知识的表示,通过进一步的共指消解、实体消歧等技术完成文物信息的智能理解与知识链接之后才能使用。特别对于某些文物的音频和图像信息还需要进行特征提取、内容理解和相关属性识别后与其他相关知识进行链接和融合。
在数据采集和数据融合基础上,为了能够不断挖掘文物信息组织深度的序化和资源内容关联关系,需要对处理后的文物知识依据文物知识图谱模型采用一定的规则和结构生成文物知识图谱,并以图谱为基础完成语义检索、知识推荐和自动问答等具体应用。
知识图谱构建是一项庞大而复杂的工程,现阶段知识图谱构建基于现实世界中复杂而庞大的多源异构模式数据,因此图谱建立和应用的技术,是语义网络、自然语言处理和机器学习等的交叉学科。其中的关键技术主要包括了知识表示、信息抽取和知识融合等多项内容。
1.知识表示
无(半)结构化数据中包含大量的文物知识,而知识图谱中的数据存储形式则是结构化的。因此,文物知识图谱的主要研究目标是从这些无(半)结构化数据中获取文物的结构化知识,自动整合和构建文物知识图谱,服务于文物知识推理的相关应用。文物知识图谱构建和应用过程中的关键问题是文物的知识表示。例如:万维网联盟(W3C)发布的资源描述框架(RDF)技术标准以三元组表示为基础,受到广泛认可。然而目前的知识表示面临着计算效率和数据稀疏问题[18]。
传统的知识库的知识表示是基于逻辑的符号知识表示,主要以一阶谓词为基础,扩展了等价、缺省推理、斯科林化和部分二阶谓词逻辑等知识表示能力。而现代知识图谱都在逻辑的语义表达方面降低了要求,以事实型知识为主。随着表示学习和深度神经网络的发展,基于向量的知识表示方法得到越来越多的重视。基于向量的知识表示的目的是对文物实体的描述信息,比如无结构化的文本对象,运用机器学习、统计方法等技术提取其向量特征,从而将具体的文物抽象为数学化的向量表示,为文物关系的挖掘打下基础。以下着重介绍基于向量的知识表示的发展和相关技术。
基于向量的知识表示通常可以分为无学习表示和学习表示两种方法。无学习的数据表示最常用是独热(one-hot)表示[19]。这种表示方法将信息表示为只有某一维非零的向量。为了将不同知识区分开,这就导致独热表示的向量维数很高。例如某文物文字介绍集合中共出现W个不同的词,则使用一个W维的向量表示每个文物的文本描述,每一维的取值大小表示文物介绍集中的该词汇在该特定文物描述中的重要性。独热表示无法有效利用对象间的语义相似度信息,容易受到数据稀疏问题影响,计算效率不高。
而学习表示与独热表示相比,通过学习阶段可以充分利用对象间的语义信息,大大降低知识表示的向量维度。近年来,出现了许多知识表示技术,包括距离模型,单层神经网络模型,双线性模型,能量模型,张量神经网络模型,矩阵分解模型和翻译模型(TransE)[18]。在TransE基础上研究者从不同角度尝试解决复杂关系建模问题,又陆续提出了TransH,TransR,TransD,TransSparse,TransA,TransG和KG2E等模型[20,26],不同程度的提高了表示性能。
2.信息抽取
形成知识图谱的数据依靠人工加工工作量巨大,很难形成大规模的知识图谱。构建知识图谱的关键是如何自动地去抽取信息。对于文物知识图谱的构建而言,大部分数据都是半结构化的网页信息和非结构化的文本信息,由于其数据规模较大,手工抽取难以实现,因此需要借助当前较为成熟的机器学习、深度学习技术自动地去抽取文物信息。
知识抽取大部分是面向开放的半结构化和非结构化数据,通常典型的输入是自然语言文本或者多媒体内容文档等。知识抽取主要包括实体提取、关系抽取和属性抽取三个方面,主要是借助统计方法和机器学习方法实现自动抽取。在知识抽取的基础上,进而进行知识表示,然后考虑实体对齐、本体构建、知识更新等方面,最终构造完整的知识图谱。
实体提取是从自然语言文本中查找相关实体,并标记实体的位置和类型,也被称为命名实体识别(Named Entity Recognition,NER)。命名实体是构建知识图谱的基础,因此实体抽取的完整性、精确度和召回率等决定了知识图谱构建的质量。实体抽取的方法分为4种:基于百科站点或垂直站点提取[27]、基于规则与词典的方法、基于统计机器学习的方法[28]以及面向开放域的抽取方法。
关系抽取的目的是通过提取命名实体之间的关系来解决实体语义链接的问题。其中,实体间的关系包括参数类型、符合此关系的元组模式等。由此可见,关系抽取是在实体抽取的基础上,把无结构的信息数据中所蕴含的实体之间的语义关系抽取出来,整理成结构化的三元组存储在图数据库中,以便让人们进一步的做知识融合和知识表示。这对于知识图谱的构建非常关键。目前主流的关系抽取技术分为:基于规则的方法[30-31]、基于核函数的方法[32-33]和基于深度学习的方法[34-35]。
属性抽取的任务是为每个本体语义类构造属性列表,而属性值提取则为一个语义类的实体附加属性值。属性和属性值的抽取能够形成完整的实体概念的知识图谱维度,属性抽取也可看作是关系抽取中“isa”关系的特例。
3.知识融合
除了知识表示和信息抽取技术以外,知识图谱的构建还面临着多源信息融合、复杂推理模式的重要问题。知识融合指将不同来源的知识进行对齐、合并的工作,形成全局统一的知识标识和关联。知识融合是知识图谱构建中不可缺少的一环,知识融合体现了开放链接数据中互联的思想。
如著名的TransE仅利用知识图谱中的三元组结构信息进行表示学习,尚有如实体和关系的描述、类别信息以及知识库外的海量信息未得到充分利用的问题。如何充分整合这些异构多源信息实现知识融合具有重要意义。其中,基于实体描述的知识表示学习模型(DKRL)[29]和基于文本和知识库融合的知识表示学习最为典型。多源信息融合可以有效地提高知识表示的性能,尤其是新实体的表示。多源信息融合的知识图谱构建仍处于起步阶段,相关工作较少,信息来源有限,有大量信息(如实体类别)未被考虑,所以具有广阔的研究前景。此外,基于关系路径的知识表示学习由于充分利用了实体间关系和关系路径的推理模式也成为研究的重要方向[18]。
在文物领域构建知识图谱后,语义检索、推荐、问答是最典型的三类应用,是在智慧博物馆建设中迈出的一大步。无论是对于仅是想要了解文物信息的普通用户,还是对想要研究文物的专业人士,基于文物知识图谱构建的这些应用,对于深层次地挖掘和利用文物领域的数字化资源都是非常具有研究价值和应用价值的。
在信息爆炸的时代,大数据量的信息对于用户来说具有很大的选择压力,用户很难从海量数据中找寻到自己感兴趣的资源,反而导致信息使用效率的降低。随着数字化博物馆的建设,数据资源无论是种类还是数量都很巨大,信息高效检索利用问题也日益突出。
知识图谱以图的形式刻画和管理数据及其之间的关系,构成一个知识库,在这种知识库上可以方便地进行多维相关信息的检索,而不仅是基于关键词的全文检索。因此,在构建文物领域的知识图谱后,可以清晰地描述文物、人物、时代、材质等各种实体及其之间的关系,并进行快速的数据导航。例如,当输入一个名画的名称时,不但可以查询到该画作的详细信息,同时还可以给出该画作的作者、时期、简介、图像资料等相关信息。基于此结果,还可以进行深入地信息导航。例如,了解该作者的其他作品,了解同时期的同类作品等。类似地语义检索更便于文物领域知识的高效导航和数据利用,对于博物馆的管理人员和游客都具有非常好的应用价值。
推荐技术是解决信息过载问题一个非常有潜力的办法。用户不仅仅只是主动去搜索信息,而是根据用户的兴趣特征主动向用户推荐他们感兴趣的信息。“推荐”目前在购物网站中应用很多。在头条的带领下,很多新闻类系统也开始采用推荐技术,使用户更容易获得感兴趣的内容。通过推荐系统的帮助,可以实现信息的生成者和消费者双方都获利的局面。在文物领域,推荐技术也存在应用价值,但是目前并没有大幅推广应用。
经过数字化建设,很多博物馆的网站建设已具规模,但是信息主要依靠用户主动浏览。借助推荐技术,可以依靠系统收集用户的属性特征、行为历史,在此基础上通过推荐算法计算出用户可能感兴趣的相关信息,并对候选信息进行排序返回。
问答系统(Question Answering,QA)是让计算机自动回答用户所提出的问题,和目前的搜索引擎不同,问答系统不再是返回基于关键字匹配的文档排序,而是通过自然语言的形态给出确定的答案。智能问答系统是让计算机理解人类语言的主要手段。这部分内容的体现主要集中在门户社区或各种交互式的问答系统中。目前专门针对文物领域的问答系统还并不成熟。
构建文物领域的知识图谱后,则可以为该领域的自动问答提供知识来源。例如,用户提问“《墨梅》的作者是谁?”。文物图谱中已经存储了三元组数据[《墨梅》 作者 王冕],问答系统会返回“王冕”。
自动问答是针对用户输入的自然语言问句进行理解,然后从知识图谱中计算出用户问题的答案。其中涉及的关键技术和难点包括:如何正确理解用户的真实意图;如何对候选答案进行评分以确定优先级顺序等。基于知识图谱,构建文物的自动问答系统,则可以在其上完成更人性化的应用服务。
现阶段,基于本体工程的知识描述和表示仍是知识图谱建模的主流方法,而且仅用到了一些 RDFS及OWL中定义的基础元属性来完成知识图谱模式层构建,图谱所关注的重点也仍然是数据中的概念、实体属性等。由于文物描述承载了更多的时间、空间以及历史事件的知识,所以随着人们对文物背后蕴藏的文化知识的认知层次的提升,势必会对现有的知识表示方法进行扩展,需要逐步扩展对现有的文物知识表示方法,扩充对于文物的时序知识、空间[37]、事件知识[38]等的表示。而知识图谱本身也会逐步将关注重点转移到时序、位置事件等动态知识中去,来更有效地描述事物发展的变化,为预测类的应用形态提供支持。
国内各地文物博物馆的数字化资源建设已经进行了若干年,效果显著。数字化资源建设已获得了大量的结构化数据。但是除此之外还有大量的文本、图像等非结构化数据有待深入挖掘和利用。
文物领域中通常具有大量的文物知识语料是采用图文配合的方式提供的,因此图像和文本都含有了文物的信息。鉴于文物语料知识的这种特点,文物知识图谱的研究急需构建一种同时处理文本和视觉的多模态信息文物知识表示和抽取方法,研究融合图像和文本的特征提取方法,进而提升命名实体识别精度和召回率,达到增强文物知识的表示能力的目的。
通过分析目前国内各博物馆网站结构和数据发现,多数项目是独立进行的,国内资源共享和管理模式还没有达成。如果能够借助知识图谱技术,通过知识融合将各地的数字化资源进行关联与链接,形成以知识为中心的大型知识库,可为我国文物信息的资源整合和利用,提供技术和资源基础。为了更好地完成这一设想,需要统一和规范跨类型、跨机构、跨领域数字文物资源内容的语义描述规则;转换文物资源对象的完整格式记录为特征内容的元素描述;突出文物对象具体内容特征的全方面描述,挖掘其内在的关联关系;实现对数字文物文化资源内容的统一细粒度描述和去格式化语义描述。
多方面的实践证明,目前国内文化遗产保护领域急需设计一个与多域元数据标准兼容的语义互操作框架模型。在该框架模型的基础上,参考元数据应用程序概要(Metadata Application Profile),复用现有成熟元数据标准的元素、术语和修饰词来扩展满足文化遗产领域资源描述所需的其他类和属性的定义、约束和规则,构建聚合式元数据模型以支持数字文化资源的语义描述和组织,并节省元数据开发的成本。
对文物大数据进行信息抽取形成文物知识图谱,再通过推理和分析技术,挖掘文物极具价值的文化、历史、艺术、哲学、宗教等信息,可使人们对文物所承载的文化历史发展脉络、社会规律和关联的认识更全面、透彻。利用文物知识图谱不断挖掘文物信息组织深度的序化和资源内容关联关系,支持用户利用开放的应用程序接口(API)将获取的数据集嵌入到移动APP、网站、社交网络平台、网络社区等特定应用服务中,为用户提供广泛的数字文化遗产应用服务,促进文物信息资源的公开共享,促进文物信息资源、内容、产品、渠道和消费链的设计,不断丰富文化产品和服务,使文物在培育和弘扬社会主义核心价值观,建立中国优秀传统文化和公共文化服务体系的传承体系中发挥重要作用。