柳益君 何 胜 熊太纯 吴智勤 陈 丹
(1. 江苏理工学院计算机工程学院 江苏常州 213001;2. 江苏理工学院图书馆 江苏常州 213001;3. 常州市云计算与智能信息处理重点实验室 江苏常州 213001)
知识服务是图书馆服务的重要内容。知识服务以满足社会知识需求为目标,将各种显性和隐性信息按照用户需求进行提炼、加工、组织,形成知识产品提供给用户[1]。随着网络化和数字化建设日趋完善,图书馆不但保存有传统的纸质文献,还拥有包括商业信息资源、开放网络资源、联合共建资源等电子资源。图书馆资源呈现出跨源和跨模态的跨媒体特征,跨越书目库、专利库、论文库、OA资源、网站等多种渠道来源,跨越文本、图像、语音、视频、流媒体等多种模态。清华大学杨毅[2]指出,“在互联网环境中,不断涌现的媒体对象之间的相互合作、补充、互动与协调,使得共生的媒体对象呈现出‘跨媒体’的发展态势。这种态势既表现为包括网络文本、图像、音频、视频等复杂媒体对象混合并存,又表现为各类媒体对象形成复杂的关联关系和组织结构,还表现在具有不同模态的媒体对象跨越媒介或平台高度交互融合”。跨媒体是一种新媒体表现形式,它是多媒体和网络技术发展到一定程度的必然产物,具有跨模态和跨数据源、丰富的表达和呈现力、媒体数据的社会性三个基本属性[3-4]。图书馆的资源库中蕴含了海量高质量知识,资源的跨源和跨模态使得知识具有分布性、异构性、海量性、多模态性、隐蔽性的特点。知识零散地分布在结构各异的媒体模态中,成为知识碎片,构成知识孤岛。同一知识可能表达为不同的模态形式,如某一专业知识可能包括文本描述、图片展现、视频演示等。很多有价值的知识可能隐藏于并不起眼的图像、照片、音频等资源文件中。
互联网、物联网和信息技术的发展使得资源共享的协作协同方式在科研、教学和学习中得到普遍应用。科研人员组成跨学科、跨地域、跨组织的科研团队,通过网络协同工作的方式开展科学研究活动;学习者在网络化、虚拟化的e-Learning环境中进行面向任务的跨领域、跨时空协同学习。作为海量文化和科技知识资源的储存和管理机构,图书馆亟需提供大跨度、大视角、大服务的跨媒体知识服务以适应新的形势。对跨媒体资源综合体进行聚合和融合分析,深度理解其中蕴含的知识,提供集成、共享、嵌入的跨媒体知识服务,助力国家科技创新和人才培养,已成为图书馆在跨媒体时代的新型能力要求。目前,虽已有诸多关于图书馆知识服务的探索和实践,但是面向资源的跨媒体知识服务研究略显不足。基于以上现状,文章对图书馆跨媒体知识服务的特征、实现路径和创新服务作初步探讨,以期为跨媒体知识服务的深入研究提供参考。
跨媒体知识服务是对传统知识服务的继承和超越。具有如下三个重要特征:
跨媒体知识服务突破了仅提供单一模态知识的局限性,强调综合运用文本、图像、音频、视频等多种模态的知识提供知识服务。认知科学研究表明,人脑对外界事物的认知需要跨越不同感官传递的信息,以做出综合判断[2]。通过对跨模态知识资源的交叉整合和加工,跨媒体知识服务为用户提供静态和动态相结合、视觉和听觉综合感知的知识,实现特定知识在思维中的全面反映,以及用户对知识的深刻认知和深层理解。
跨媒体知识服务从多源异构、模态多样的跨媒体知识资源中析取、挖掘和重组知识,提供与用户任务情境有密切联系的大视角知识。跨媒体环境下,跨源跨模态的知识可能主题相同或内容深层关联,从不同的角度与任务情境发生联系,对解决问题皆独具价值。在分布性强、模态多样的复杂知识结构上识别显性关联并揭示隐性关联,形成任务和问题相关的大视角知识内容,将之提供给用户,帮助用户拓展思维,突破思维定式,促进思维形成的整体性和变通性,更好地解决问题和完成任务。
《人民日报》于2019年2月发表文章《提升科技创新能力》,文中引用习近平总书记的论述“当今世界,科技创新已经成为提高综合国力的关键支撑,成为社会生产方式和生活方式变革进步的强大引领”,并指出“科技水平影响民族兴衰,创新能力关乎国家命运”。为了更好地响应国家的方针政策,图书馆的核心使命必将从文化传承、信息服务向基于思想交流、激发创意和支持创新的知识服务拓展[5]。在“互联网+”环境下,跨学科、跨领域、跨时空的大规模科研合作成为现实,科研工作者突破空间、物理障碍进行交互和协同工作。毕强认为知识服务需要关注知识到再生知识的增值[6]。跨媒体知识服务的实现过程是一个知识发现和创新的过程,从多源、多模态、多学科的资源中发现创新型知识,主动提供给用户。跨媒体知识服务将是适应时代发展的跨平台、跨时空、跨学科、跨领域的大服务,以知识创新为中心,助力科学研究和科技创新。
实现跨媒体知识服务将面临两大挑战:①跨越海量知识资源的语义鸿沟,将具有跨媒体特性的复杂知识结构形成内容关联的有机整体;②实现跨媒体知识发现和再生,产生创新型知识。初景利等[7]提出,图书馆需要运用智能技术,进行知识发现,将资源潜力转化为知识能力。人工智能技术在知识服务中有广阔的应用前景[8]。跨媒体智能技术是实现跨媒体知识服务的支撑技术,它被列入国务院颁布的《新一代人工智能发展规划》中[9],主要包括跨媒体知识图谱构建、跨媒体分析与推理等。
通过跨媒体知识图谱构建应对跨媒体知识服务面临的挑战一。构建跨媒体知识图谱将跨媒体知识融合成语义关联的有机整体,对复杂知识结构进行一致、关联的表达。
2012年Google提出知识图谱(Knowledge Graph)的概念,该知识图谱与信息计量学领域“科学知识图谱”不同,它是一种语义网的大数据知识表示和组织形式,通过图模型、RDF/OWL、本体建模等技术形成实体级关联的知识库。知识图谱将传统的基于浅层语义分析的信息服务范式提升到基于深层语义的知识服务,受到学术界和工业界广泛关注,成为新一代人工智能的基础设施[10-11]。目前,不仅有DBpedia、Yago、Freebase 等通用知识图谱,也有金融、电商等领域的垂直知识图谱,知识图谱在语义检索、深度问答、智能推荐等智能应用中有着广阔前景[12]。
《新一代人工智能发展规划》要求“实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知识演化建模和关系挖掘能力,形成涵盖数十亿实体规模的多源、多学科和多数据类型的跨媒体知识图谱”。跨媒体知识在一定程度上存在分散无序、聚合性不足、共享性差的缺陷,跨媒体知识图谱将其进行语义关联,在多源多模态的知识碎片和知识孤岛之间建立有效连接,进而使知识体系化、系统化。
通过跨媒体分析与推理应对跨媒体知识服务面临的挑战二。应用跨媒体分析与推理进行跨媒体知识发现和再生,产生创新型知识,实现以创新为中心的知识服务。
目前图书馆知识发现系统多是基于相同模态的资源数据进行分析和推理的,比如单纯分析文本资源之间的内容关联,或图像之间的联系。跨媒体知识发现和创新需要应用跨媒体分析与推理技术。《新一代人工智能发展规划》提出“突破跨媒体统一表征、关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理、智能描述与生成等技术,实现跨媒体知识表征、分析、挖掘、推理、演化和利用,构建分析推理引擎”。通过语义标注、机器学习等智能分析技术建立资源底层特征与高层语义之间的联系。在多源多模态数据之间进行跨媒体推理,从一种模态数据,经过问题求解,转向另一种模态数据。通过图像到文本、图像到图像、视频数据到动画序列等多种模态数据之间的转换和演绎,挖掘出隐藏在多模态知识内部的复杂抽象的内在联系,对多种媒体及其交互属性进行多元融合和知识演化,实现跨媒体知识的发现和创新。
文章提出跨媒体智能应用下的图书馆跨媒体知识服务实现路径,如图1所示。实现路径由5个阶段构成,其中,跨媒体资源收集和整合是起点、跨媒体知识获取和融合是基础、跨媒体知识图谱构建和管理是核心、跨媒体知识发现和创新是关键、跨媒体知识赋能和服务是目标。
图1 图书馆跨媒体知识服务实现路径
全面收集图书馆资源,包括电子图书、电子期刊、文摘数据库、书目数据库、专利库、馆藏特色文献等商业化或开放获取的资源,以及讲座、报告、统计数据、会议资料、名人手稿照片、电影戏曲等各类介于正式与非正式出版之间的灰色文献,形成文本、图像、音频、视频等多种媒体形态的资源综合体。
整合跨媒体资源,对其进行语义化解析。解析跨媒体资源的元数据信息、结构信息及内容信息,提取跨越媒体类型的信息描述,将底层视听觉等特征映射到高层跨媒体语义,形成统一的数据格式。解析资源需要根据资源特有的媒体形态、结构化程度、类型、属性等特点,进行针对性处理。对于图像、音频、视频等资源,不仅需要根据题注信息解析,还需要综合运用多媒体数据挖掘、机器学习、语音视频分析等智能技术对资源特征进行解析,发现特征和语义之间的隐含关系,对资源携带的语义形成整体理解,通过统一的语义化解决跨媒体资源的形态异构问题。
从来源、类型、格式各异的跨媒体数据中通过信息抽取的方式获取知识元,并进行知识融合,构建结构清晰、扩展性良好的基础知识元库。对于结构化、半结构化的资源数据,从中抽取知识的方法相对简单,干扰较少,人工过滤便可以获得高质量的三元组知识。文本、图片、声音、视频等多媒体数据是数据结构不规则、没有预定义数据模型的非结构化数据,格式和标准各异,理解难度大。从这些非结构化的多媒体数据中获取知识,需要完成实体识别、实体消歧、关系抽取等基本任务。目前的研究和实践主要集中在非结构化文本中的实体识别及实体之间关系的抽取,涉及的技术包括自然语言分析和理解、主题模型、机器学习、深度学习等。
跨媒体知识融合对于构建跨媒体知识图谱至关重要。知识融合主要包括实体融合、关系融合和实例融合三类。将某一实体的多个名称规约到同一实体,完成实体融合;统一关系命名,完成关系融合;通过冲突检测和消解,解决不同实例之间的冲突,完成实例融合。对从跨媒体数据中获取的三元组知识元进行实体融合、关系融合和实例融合,完成跨媒体知识融合。
构建跨媒体知识图谱以融合和组织各类知识,形成语义关联、深度融合的知识库。以分类目录、主题、关键词、内容、作者、出版机构等方式关联跨媒体资源,形成知识资源图谱;以具体学科知识点为实体,知识点之间的相关联系为边界,形成针对不同需求而构建的各类学科知识图谱。同时,构建用户图谱和情境图谱以精准定位用户需求。构建用户图谱,以人际关系、学术或学习兴趣等关联教师、学生、科研人员等,形成用户社会网络和用户兴趣图谱;构建情境图谱,关联情境及该情境下的特定需求。
在跨媒体知识图谱的基础上,进行跨媒体知识管理。知识图谱是典型的图结构,其管理需要应用图数据库。图数据库可以存储复杂的、高度关联的、跨越数十亿节点的知识结构。Neo4j、OrientDB、HyperGraphDB等都是当前常用的图数据库存储系统。其中,Neo4j既有开源版也有企业版,因其高性能、轻量级、健壮性等优势受到广泛关注;OrientDB是一个开源的文档图数据库系统,兼具图数据库强大的数据表示和组织能力以及文档数据库的灵活性和高扩展性。常用的图数据查询语言有SparQL、GraphQL、Cypher等。SparQL是W3C为RDF数据开发的一种结构化查询语言和数据获取协议,被图数据库广泛支持;GraphQL是Facebook于2012年在内部开发并于2015年开源的数据查询语言;Cypher是图数据库Neo4j支持的声明式查询语言。应用图数据库管理大规模跨媒体知识图谱,通过知识图谱的存储、索引、快速访问和查询,为知识创新和知识应用奠定基础。
对跨媒体知识图谱进行语义推理和深度学习,由已有知识预测未知的隐含知识,并进行知识发现和创新。跨媒体知识中蕴含着多种媒体类型和结构多样的知识资源,知识资源和媒体之间存在多样复杂的关联性,并且由于知识资源之间存在规律复杂的相互作用,使得跨媒体知识中蕴含了丰富复杂的关联关系。跨媒体知识发现和创新需要对跨媒体知识图谱进行多层次、多粒度挖掘和学习,发现知识单元之间的深层关联。对海量跨媒体知识可以从以下三个层次进行知识发现和创新。
在相同模态的知识中进行挖掘和学习,比如单纯地分析文本之间、图像和图像之间的内容,发现其中的新型分类、聚类、关联知识。
在不同模态的知识之间进行关联挖掘和语义推理,发现新型的跨模态关联知识。对文本、图像、音视频等多模态知识进行综合分析,推断知识实体间的新关系,发现知识在多样特征上的深层关联及结构特征,形成有内在逻辑联系的知识主题圈、知识链等,去除知识遮蔽,消除知识孤岛和知识碎片。
对随时间变化发展的跨媒体知识进行时序分析,分析知识在时间纬度上的发展过程和方向,发现知识之间的时序关联、知识的演化规律和发展趋势。
与用户积极互动,了解用户的知识需求和兴趣,应用跨媒体知识图谱中准确丰富的知识结点、显性知识和隐性知识,以及获取的知识精华和创新知识,通过跨媒体知识检索、导航、推荐、咨询、问答等方式,跨平台、跨时空地精准嵌入教学、学习、科研、决策等过程,助力问题解决、知识创新、决策管理等,实现跨媒体知识赋能和服务,最大化提升知识效益。
跨媒体智能为图书馆知识服务带来了机遇,使大跨度、大视角、大服务的跨媒体知识服务成为可能。文章对图书馆跨媒体知识服务创新模式做了初步探讨,具体包括集成性跨媒体知识检索、全景式跨媒体知识导航、情境化跨媒体知识推荐、深度嵌入式跨媒体知识咨询、个性化跨媒体知识推送、自动化跨媒体知识问答,如图2所示。
图2 图书馆跨媒体知识服务创新模式
目前,图书馆知识检索系统多是针对用户输入的检索关键字返回单一模态的知识资源系统。跨媒体知识检索系统通过跨媒体知识图谱实现多源多模态知识资源的无缝集成,根据用户的文字、语音、手势、视觉等多途径输入,理解检索意图,返回集成性的文本、图像、语音、视频等跨媒体知识资源,帮助用户整体理解知识并全面掌握知识。例如,当用户输入“机器学习”,界面不仅返回机器学习类图书、专利、期刊等文本类知识资源,还返回与机器学习有关的教学、学习、科研视频类知识资源等。围绕用户的知识检索意图组织和提供具有内容一致性、关联性的跨媒体知识资源,充分体现知识资源的集成性。
传统的知识图谱通常是根据某种特定的知识资源开发制作的,比如根据CSSCI数据库收录的图情领域论文开发图书馆知识服务的知识图谱。这样的知识图谱虽然能为用户提供有益参考,但是其知识资源来源不广,常常仅来自于单数据源且是单一文本模态,故而提供的知识在广度和深度上均存在局限性。跨媒体知识图谱可突破限制,综合加工跨源跨模态的知识资源,将知识连接形成整体性的知识网络,为用户提供全景式的跨媒体知识导航,帮助用户更好地从全局发现知识的关联、流动和汇聚规律,进而把握知识热点和发展趋势。
建构主义认为,知识是学习者在一定的情境下,借助他人的帮助,即通过人际协作活动,利用必要的学习资料,通过意义建构方式获得;情境认知理论认为,知识是一种动态的构建与组织,是个体与环境交互作用过程中建构的一种交互状态,去适应动态变化发展环境的能力,学习者在任务情境中完成知识的意义组建[13]。移动互联网和移动设备的普及,以及虚拟现实和增强现实技术在教学中日益广泛的应用,使知识服务可自动、智能地嵌入教学和学习过程[14]。在构建性、沉浸性、交互性的多维化学习环境中,将知识服务嵌入学习过程,从问题情境出发,提供情境化的知识推荐,将促进知识理解和知识构建。
中国工程院院士潘云鹤[15]指出,思维与感知紧密联系在一起,概念是由文字、听觉、味觉、触觉、视觉等多种信息综合而成,因此跨媒体的智能应用将极大提升学习成效。情境化跨媒体知识推荐针对问题情境推荐知识,所推荐的知识实现对文本、图像、音视频等多种媒体类型的知识资源的交叉跨越,融入问题解决的过程,通过充分发挥不同模态知识之间的协同效应,有效支持用户对知识的整体深入、多维立体的理解和构建,进而培养其知识创新能力。
在解决问题完成任务的过程中,用户不仅需要应用已存在的知识,更需要创新型知识。与单一模态的知识相比,跨媒体知识无论来源、形态还是内容都更为丰富,对其进行知识挖掘也更易产生创新型知识,实现知识增值。图书馆员在整合和归纳跨媒体知识资源的基础上,综合运用自然语言处理、数据挖掘、机器学习等多种智能工具和技术并从中挖掘和提炼知识精华,发现更多新型知识,为用户提供嵌入式跨媒体知识咨询服务。
图书馆尤其需要将科研人才、科研团队列为重点服务对象,提供深度嵌入式跨媒体知识咨询服务,满足其对创新型知识的需求。借助跨媒体智能技术手段,馆员对多模态的跨媒体知识资源群体进行协同分析和挖掘、深度加工和处理,把握科研个人或团队所关心的学科知识内容、学术前沿、科技趋势和当前热点,提炼知识精华,实现跨媒体知识再生,发现创新型知识。将创新型知识通过用户群组嵌入、网络环境嵌入、科研过程嵌入等方式,深度嵌入科研工作流的诸环节,包括项目申请、方案制定、项目执行、问题研究等,满足跨领域和跨学科的大跨度学科关联的知识需求,激发用户在科研活动中的灵感,促进创意思想和创新成果的产生。
跨源、跨模态的海量资源虽蕴含大量知识,但也会使用户面临信息过载和知识迷航的困境。个性化跨媒体知识推送服务可帮助用户过滤噪声杂音,及时获取所需知识。通过邮件、App应用、知识服务系统,以及微博、微信、社区等各类社交服务平台,图书馆可以主动提供知识推送服务。用户的知识需求具有个性化特点,与用户类型及其学习、科研等属性相关,不同院系、实验室、研究机构、科研团队、学习小组、个人等对知识领域、粒度、层次的需求是不同的,科研学习不同阶段的知识需求也存在差异。个性化跨媒体知识推送服务在洞察用户显性和隐性的知识需求和兴趣的基础上,定期遴选不同专题领域、不同方向的知识,对多源渠道和多样媒体形态的知识资源进行协同过滤和重组整合,为用户精准推送特定主题的跨媒体知识资源,帮助用户摆脱知识迷航的困境。
跨媒体知识图谱中存储了大量有价值的知识,但是这些知识很难被图书馆用户直接获取。知识问答系统是一种友好的知识图谱查询方式,可以提供自动化跨媒体知识问答。它为用户屏蔽规模庞大、结构复杂的跨媒体知识图谱,根据用户的理解水平从图谱中查询或经复杂关系推理得到问题的答案。即使未受过专业训练,用户也可以通过自然语言表达精细复杂的个性化知识需求,简便、直接地获取所需知识。
目前,在问答系统中引入图像、语音、视频等多模态信息的研究受到学术界和工业界的关注,视觉问答(Visual Question Answering,VQA)已成为前沿热点之一。在VQA系统中,用户输入自然语言问题和图片,得到自然语言显示的答案[16]。VQA系统的实现不仅需要自然语言理解,还需要图像挖掘和理解。应用跨媒体智能,图书馆自动化知识问答可望突破自然语言交流的局限,向综合图像、视频等多模态信息的跨媒体知识问答迈进。
充分利用网络化和多媒体化的资源,提供跨媒体知识服务,支持跨学科、跨领域、跨组织、跨时空的协同科研和学习,成为图书馆在跨媒体时代的新任务。在跨媒体知识图谱构建、跨媒体分析与推理等跨媒体智能技术的支持下,图书馆知识服务将上升到大跨度、大视角、大服务的新高度,进入具有知识模态的大跨度、知识内容的大视角、激发创新的大服务等特征的跨媒体知识服务阶段。以跨媒体资源收集和整合为起点,跨媒体知识获取和融合为基础,跨媒体知识图谱构建和管理为核心,跨媒体知识发现和创新为关键,跨媒体知识赋能和服务为目标,构建图书馆跨媒体知识服务实现路径。跨媒体知识服务包括集成性跨媒体知识检索、全景式跨媒体知识导航、情境化跨媒体知识推荐、深度嵌入式跨媒体知识咨询、个性化跨媒体知识推送、自动化跨媒体知识问答等多种创新模式。通过创新服务,用户需求驱动、以知识创新为中心的知识服务目标得以实现,图书馆将在助力国家科技创新和人才培养中发挥重要作用。