孙倩
[摘要]计算机科学领域的信息可视化技术正在被图书馆资源整合与知识服务所需要,国内外将可视化技术投入到馆藏资源揭示与知识服务中的实践已越来越多。通过科学的信息组织模式与技术手段的结合,可视化应用可以提高资源发布和关联关系的揭示程度,并大幅提升用户体验的满意度。
[关键词]信息可视化;资源揭示;知识服务
[中图分类号]G25076[KG22mm][文献标志码]A[文章编号]1005-6041(2017)02-0053-05
近年來网络技术的提升和进步对数字内容的存储和运算提供了重要的技术保障,人们获取信息和阅读的方式也向多元化拓展。庞大的信息数据来源也为大众从中获取精准有效的信息带来了困扰,面对无处不在的信息洪流,要让大型数据集变得亲切和易于理解,可视化无疑是最有效的途径。信息可视化作为一门涉及多个领域的综合性学科,是对海量信息或数据中知识的高度压缩,依托计算机技术借助人脑的视觉思维能力,帮助人们从大量的数据信息中发现数据隐藏的规律,从而提高数据的使用效率。
可视化强调生动性与准确性兼得,目的在于对信息或数据的深度挖掘与利用。在数字图书馆领域,海量数据与资源之间以不同维度形成纵横交错的网状集合,利用信息可视化做好数据与资源的揭示工作,不仅能够发挥现有资源的服务价值,也能在挖掘、分析和展现数据的关联关系时,为用户提供更有用、有效的信息渠道,更加精准地满足用户信息需求。
1信息可视化概念及范围
11 信息可视化概念
信息可视化来源于早期的数据图形学,即人们希望通过抽象信息的视觉表达来揭示数据及其他隐藏关系的一门科学。20世纪90年代开始普及计算机以及互联网带来的爆炸式信息流,使人们直接使用可视化信息的愿望变得迫切,从而造就和带动了信息可视化研究。关于信息可视化的概念界定,在不同的文献中有不同的说法。1999年卡德等人在早期将信息可视化引入视线的著作中,对其给出的定义是:“使用计算机支撑的、交互性的、对抽象数据的可视表示法,以增强人们对抽象信息的认知。”著名的信息可视化实践者Manuel Lima提到,信息可视化主要用于解释数据,“换句话说,就是归纳数据内在的模式、关联和结构”,“它既涉及科学也有关设计:信息可视化设计师和平面设计师一样,不仅要能够迅速、准确地呈现信息,而且需要掌握准确表达数据的技巧和视觉表达能力,呈现数据背后的观点,唤起读者的内心情感”[1]。
可视化技术是将数据库中的数据集构成数据图像,然后以数据的各个属性为展示维度进行表示,从而获得不同的维度的观察结果,实现对数据深入的观察和分析。
12 信息可视化范围
信息可视化包括数据可视化、信息图形、知识可视化、科学可视化以及视觉设计等多方面。广义的信息可视化,囊括了以信息可视化和科学可视化为基础衍生出的数据可视化以及知识可视化。
科学可视化比信息可视化的概念出现得更早[2]。1987年美国国家科学基金会报告《Visualization in Scientific Computing》“科学计算之中的可视化”就是后来“Scientific Visualization”
即科学可视化的始源,主要指科学实践中对计算机建模和模拟的运用。随着来自商业、数字媒体、信息管理等行业大型异质数据集的密集出现,数据可视化成为涵盖科学可视化与信息可视化的新生术语。
知识可视化又是从信息可视化的领域中分支出来的又一独立概念。知识可视化指的是用来解构复杂知识的图形化展现手段。其目标更侧重于传达主观性的见解、观点和预测等,并以这种方式帮助他人正确地重构、记忆和应用这些知识。
在我们讨论的信息可视化领域,涉及数据、信息与知识三者的关系。三者关联性十分密切,数据是信息的载体,信息是数据的含义,知识是由信息加工和提炼而成的结晶。而可视化,就是把三者转化为可视的表示形式的过程[3]。实际上,我们所谈及的信息可视化,就包含了数据可视化和知识的可视化。
从狭义上来说,信息可视化适用于大规模非数字型信息资源的可视化表达,这里的信息范围主要包括各类抽象的数据集,大致可以概括为异构的文本信息及数据、计算机程序中的运行数据,以及万维网站内容和数据库检索内容等,最后一项集中的应用领域就是在数字图书馆当中。当然除此之外,信息可视化与科学可视化在众多技术和方法上的融合发展,使可视化的范围深入到众多相关领域。
2信息可视化在数字图书馆的应用领域
数字图书馆的出现开始就与数据信息息息相关,如何以崭新的数字信息服务为读者提供友好的知识学习环境,是数字图书馆的核心目标。相对于传统图书馆的资源构成,数字图书馆环境下的数字资源类型变得复杂而多样,既有系统技术资源,也有占据核心作用的数字信息资源,有实体文献数字化资源也有虚拟电子资源,这又包括了馆藏书目数据库,馆藏实体文献数字化后的自建数字资源数据库,由外购或其他渠道获得的商用文献资源数据库,以及解决版权问题的网络资源库等。另外图书馆积累的读者数据,也隐藏着大量有价值的信息,对这些信息的挖掘和利用十分重要。
可视化技术在数字图书馆环境中主要应用于两个领域:一是对数字图书馆服务场景的优化升级,能够为用户提供超越传统的空间认知工具,如最早用于揭示馆藏资源分布的电子地图,随着科技的发展现在又增添了虚拟现实(Virtual Reality)、增强现实(Augmented Reality)等;二是通过强化数据的直接应用改变服务方式、提升用户体验,包括可视化信息资源描述、可视化信息导航、可视化信息检索,以及可视化知识发现和数据挖掘等。具体可以归结为以下5个热点主题:
1)馆藏资源分布的可视化,以直观的图形或图像方式为用户展示出资源分布的情况,可以说是可视化服务于数字图书馆领域的基础性应用;2)信息描述的可视化,信息描述可以以聚类的方式将信息进行可视化,主要通过聚类方法创造主题,同时以图形化方式进行揭示;3)信息检索的可视化,可视化在信息检索中的应用包括检索过程的可视化和检索结果的可视化两方面,当前在图情领域成为重视程度最高的研究主题;4)知识可视化,更注重知识的图解表示以及传播利用,在研究知识可视化的一些学者关于理论基础、知识表征、研究框架的成果基础上,数字图书馆领域关于信息检索可视化的方向已经向知识检索可视化发展;5)用户界面的可视化,用户界面的设计与研究是人机交互领域重要的一部分。现阶段多数是以二维图形为主的用户界面(GUI)和多媒体用户界面,未来的发展则是更广泛的多媒体交互集成,通过人工语音、多维图形、人的动作指令等人工智能技术实现更人性化的人机交互效果。可视化界面设计通常会采取各种界面比拟来表现,如时间轴、拓扑图、热力图等。
3可视化在数字图书馆资源揭示中的应用实践
目前,国内外将可视化技术投入到优化数字图书馆馆藏资源揭示并进行知识服务提供的实践已越来越多。多数集中在特定数据集或数据库的信息检索过程、信息检索结果的揭示效果上,局部试验转换为整体性布局还尚待成熟完善。数字图书馆在资源整合方面发展的理论成果和计算机与信息科技发展带来的技术支撑,为可视化作为一种建设理念深入数字图书馆资源揭示中带来了可能性与实施基础。
31 世界數字图书馆的时间轴、地域轴展示
世界数字图书馆在网站资源展示的可视化效果上已经形成了一定的影响力。
它在馆藏揭示方式上,直观地提供给读者“时间线”和“互动式”地图两种较为通用的可视化选择。围绕“世界历史”“中国书籍、手稿、地图和印刷品”“欧洲的泥金装饰手抄本”以及“美国历史”四个分类文献,网站分别给出时间轴和地域轴两种展示方式。以“时间线”为例,当选择“中国书籍、手稿、地图和印刷品”时,可以看到下方的时间标尺,在时间标尺上对文献类型又进行了细分,分为“地图”“手稿”“图书”“印刷品”,如图1所示:
以带有互操作性的时间标尺加上图文最大限度地简化了文献资源的检索过程,同时为用户提供了文献资源的整体景观,使用户对此类文献收藏布局一目了然,也对历史发展进程有直观了解。
同样以“中国书籍、手稿、地图和印刷品”为例,网站为我们提供了“互动式地图”的区域性资源揭示方式。互动式地图是由美国“Leaflet”基于Javascript的开源交互地图数据库,这种基于GIS(地理信息系统)的可视化应用是由Natural Earth提供了开放的地理数据,该网站提供了全球1∶10 000 000、1∶50 000 000、1∶110 000 000比例尺的矢量和栅格数据下载。这种带有交互性的地域展示方式使世界范围内的文献资源典藏分布更加清晰明了,间接地也对跨区域、跨国家的资源共建共享、资源服务范围扩大带来方便(详见图2)。
值得一提的是,世界数字图书馆网站把时间轴和地图的概念贯彻在了网站各个维度的资源展示中。不论在“专题”“条目类型”还是“典藏单位”分类中,都将地图嵌入其中,充分体现了“世界”区域性的特点。
32 国际虚拟规则文档项目(VIAF)可视化
由OCLC牵头负责的虚拟国际规范文档(Virtual International Authority File,VIAF)项目,建设目的是要为用户提供全球范围内主要名称规范文档的便捷获取服务,从个人名称虚拟规范文档逐步扩展到团体名称和地名规范[4]。每一条规范记录都有分配的唯一标识符,且均可以链接到由合作机构维护的文档。目前VIAF数据已成为关联数据云图中最大的规范名称数据集,也是互联网中各类开放数据项目利用图书馆规范数据的途径和方式,在与各种社会开放性项目的互通共享中自身也得到丰富、增强。VIAF与维基百科、ISNI、SNAC等项目都建立了合作,成为构建关联数据环境的重要内容。VIAF的用户检索界面也是采用了可视化的交互操作形式(见图3),以检索“鲁迅”为例[5],索引选择为所有VIAF,在检索页面上方显示的是标题词、作者姓名在不同规范文档中的形式、VIAF ID(唯一标识符)、永久链接以及ISNI号;检索结果页面下方中包括了其他作者页面信息项,如优选形式、4XX字段中备用名称形式、5XX字段中相关名称、作品、出版国家和地区等。在优选形式中,用户可以看到不同图书馆所贡献的相关记录,并以超链接形式直接链接到相应的记录内容。右下方的拓扑图是通过一定的匹配方式,将不同国家的规范文档进行匹配连接,并显示相应的匹配方式及标识号,如,某相连节点显示“(Match:title)RERO-vtls000107707”,则表示当前节点与标识号为RERO-vtls000107707的节点“名称”匹配,使用户对规范文档有了整体性的感官认知,起到了在用户进行数据选择时的辅助作用。
33 挪威FRBR概念模型可视化
随着RDA(资源描述与检索)规则逐渐在图书馆编目领域的普及和应用,FRBR(书目记录的功能需求)所构建的“实体—关系”模型也逐渐成为书目数据编目中的研究重点。要想把基于FRBR模型的所有潜在的数据关系与实体完整地揭示出来,传统的线性表单式的书目记录组织与展示方式已经无法做到。由斯洛尼亚卢布尔雅那大学的Tanja Mercun、Maja Zumer以及挪威科技大学的Trond Aalberg为主要成员组成的FRBRVIS项目组,将研究焦点落在了旨在更好地在用户界面展现FRBR作品家族的信息可视化上。项目组从广泛的书目数据中选取了不同复杂程度的作品家族样例,每个作品家族中又通过人工选取40—100条记录以囊括实体、关系以及属性中尽可能出现的复杂情况和变化。与大部分FRBR实践探索保持记录样本原样的做法不同的是,项目实验数据按照最新的RDA规则手动改造了原书目记录中不规范的著录项与缺少的关系,以及不支持计算机自动处理的数据。利用FRBR工具,项目建立了XML格式的基于FRBR的实验数据,并确保了其实体准确建立、关系完整。在三种主要关系的基础上,作品记录被分为三层标签:“版本”层用来展示作品的内容表达以及载体表现;“相关作品”层用来展示其他与该作品相关的作品;“作者其他或作者相关作品”层用来展示同作者的其他作品或与该作者相关的作品。
在展示具体标签层时,左侧标签图用来使用户了解文献整体情况,用户可以下拉点击了解更深层的编目内容,并从右侧了解到详细内容(如图4):
34 上海图书馆家谱本体可视化
上海图书馆基于22 000余种的家谱影像资源库建立起的CNMARC格式元数据,在当前互联网环境下文献揭示与使用中面临无法满足需求的现实。家谱中所包含的丰富的人、地、时、事等关系,被认为用MARC这样限定性、专业性较强的格式系统已无法充分描述和揭示,更加灵活的、多维度展示和操控工具成为家谱文献服务的需要[6]。在这种背景下,上海图书馆采用目标为取代并兼容Marc的书目框架模型(BIBFRAME)建立家谱信息本体。根据书目框架的核心模型,家谱被分为作品和实例两部分,依据元数据不同的著录项分别归为作品和实例中,而规范和注释都通过作品和实例各自的属性所定义的关联关系与作品和实例相关联。
上海图书馆家谱知识库在揭示资源的文献特征及内容特征、在各数据实体之间建立起易被理解的关联关系并实现机器处理方面进行了突破性的探索和尝试。目前该系统可视化效果可以在其试验网站设计中看到基于时间轴和地域轴的展示(如图6):[FL)]
图8是以动态热力图的方式,根据宗族迁徙时间、地点,计算出家族的迁徙路线及后代散居地,将家族迁徙的过程演示了出来,对宗族历史深入发掘,跳出了对文献载体本身进行收藏和管理的资源服务范围,讲活了“故事”。
4总结与展望
信息可视化进入图书馆视野已经逐步深入,应用于文献资源揭示与知识组织服务的研究主题也渐渐得到细分。然而囿于针对包括书目数据在内的各类资源数据在聚合、挖掘以及高效管理利用方面的探索尚未定型,
以数字图书馆内部海量资源为基础的信息可视化并没有得到大规模的应用,在互联网环境中数字图书馆的资源信息组织与服务方式面临重构与转变的情况下,国内外很多图书馆机构都在针对某一特定领域进行资源整合以及可视化服务方面的探索,如上文提到的基于FRBR数目模型的可视化实践项目(FRBRVIS项目)和上海图书馆家谱本体知识库建立,也有诸如清华大学图书馆建立的学者知识库等。另一方面,互联网行业蓬勃发展以及大数据给各行各业带来的源源不断的增值驱动,使数据挖掘、数据整合以及相应的数据和信息可视化技术成果不断在数据开放共享的氛围下转化为改变社会信息形态的创新动力,数字图书馆本身就是数据与信息的组织者與提供者,因此在数字图书馆的资源生命周期建设中,随着数据模型结构与数据关系的不断立体化与完善,信息可视化在数字图书馆领域的全面深入利用也成为必然。
今后信息可视化在数字图书馆网站应用方面将会逐步扩展到知识组织与数据挖掘的整体过程中,如按照科学分类体系对数字资源进行深度标引,进一步实现文献层的整合,使之成为物理或逻辑上的整体;基于学科、主题、时间、地域和读者群体等多维度对国家图书馆现有数字化馆藏文献资源重新进行标引和聚类,便于资源的发现与获取,从而推进资源发现与获取的质的飞跃,解决用户资源检索的实际需求。
[参考文献]
[1]Manuel Lima.视觉繁美[M].杜明翰,陈楚君,译.北京:机械工业出版社,2013:6.
[2]Bruce H.McCormick,Thomas A.DeFanti,Maxine D.Brown.Visualization in Scientific Computing[J].IEEE Computer Graphics and Applications,1987(Vol.7,ISSUE 10):69.
[3]周宁,张会平,陈勇跃.信息可视化进展研究[J].数字图书馆论坛,2007(2):2.
[4]崔春,毕强.虚拟国际规范文档(VIAF)项目进展[J].图书情报工作,2014(6):129.
[5]VIAF(Virtual International Authority File).[EB/OL].[2016-07-11].http:∥www.viaf.org/viaf/29537230/#Lu,_Xun,_1881-1936.
[6]夏翠娟,刘炜,张磊,等.基于书目框架(BIBFRAME)的家谱本体设计[J].图书馆论坛,2014(11):6—8.