文/林忠娜
数字人文旨在数字化重构人文资源,以提升其开放性、共享性、共建性和可访问性,在海内外学界引起了广泛关注。国外数字人文实践有70余年历史,2002年国际数字人文组织联盟成立,2005年国际数字人文中心网络成立。对于数字人文的理论探讨、应用研究,数据开发层面已经积累了一定的研究经验,其实践也颇具规模。近十年国内数字人文研究日益受到重视,2011年武汉大学成立第一个数字人文研究中心。数字人文的主要作用是为人文学科领域中长期存在的问题提供新的研究方法。数字人文领域仍存在需要人文学者和技术人员共同攻克的新课题。
在新型数字化技术、语义网以及人工智能等现代信息技术的推动下,内容上融合学科主题词表进行语义描述,技术上结合数据科学、数字人文与知识图谱,诞生了一系列图书档案博物机构主导的高质量数据库。致力于资源保存、文化传承与知识整序的图书馆将会成为主要责任主体。“积淀与超越:数字人文与中华文化”为主题的2020数字人文年会,一方面展现了数字人文对于实施积极的文献抢救性保护、提供公共文化服务和专业学术研究等方面的现实意义;另一方面也加速推动图书馆界数字人文研究。
在数字、网络信息随手可得的新时代,图书馆的核心价值依存于其长期保存并不断绵延发展的文明记忆资源。目前,图书馆的馆藏尤其是数字馆藏趋于同质化,但特藏资源是图书馆在发展历程中产生的兼具学科特色、文化内涵和地域特征的馆藏,是难以被模仿和复制的独一无二的资源,是图书馆最有标志性的资源,是图书馆的独特标签。特藏文献主要分为“特殊馆藏”和“特色馆藏”,优先寻找本馆具有先天优势的专题和目前业界亟待建设的专题,因其特色性和差异性服务会使图书馆馆藏资源建设迈上新的台阶。
受人工智能、可视化、VR等技术的冲击以及关联数据、知识图谱等知识探勘及呈现工具的影响,文献收藏单位对重要性、唯一性、实时性、脆弱性的珍品进行数字典藏,建置数据库,既满足用户的搜寻检索习惯,又提供数据彼此间的可能脉络。国内出现古籍、民国文献、徽州文书等特藏资源整理与分析的探索与研究。
数字人文有三个维度:学科性、专业性、技术性。数字人文是多维度、立体化的网状结构,推动形成各学科领域的数字人文学术共同体。挖掘传统纸质文献在数字人文背景下的全新变化与潜力,深度融合索引与标注等图书馆学科的专业方法,为数字人文的创新提供新资源。数字人文专题强调的是数字资源利用过程中的稀缺性、独特性和关联性,解决的是“如何用”和“用得好”的问题,二者达到理念上的契合。
目前数据和结构化知识已成为必不可少且无处不在的学术输入和一级输出,实现可查找、可访问、可互操作和可重复使用的数据环境目标,促进开放学术。
一是文献资源的优势——研究对象的独特性。“纪鹏文库”系当代著名诗人纪鹏捐赠,其中中外诗集、散文集以及关于诗歌、散文创作理论、创作技法等内容具有较强的系统性和相对的完整性,涵盖了从新中国建立初期到21世纪初的一些重要国内外诗歌作品,从中可以看出这一时期我国诗词作品演进和发展轨迹。
还有冰心、艾青、臧克家、贺敬之等著名作家、诗人亲笔签名的书籍。书中有人的加入,就有了灵魂与温度。中国现当代文学研究比较注重初版本,签名本有可能是初版本。即使不是初版本,其价值和意义仍十分重大。签名本不仅具有历史价值、学术价值,而且还具有很高的文化价值,是研究文学档案的一个新视角。目前,相当比例的签名本都为私人藏品,亦或散落于图书市场,而公共藏品只占很小比例。藏书界重视有创意和价值的早期签名书。一本兼具上下款和作者题词的签名书通常是拍卖会上的热门商品。收藏家通常把重要作家代表作品的签名本作为文物收藏。使签名本图书惠及更多的人,保护传承这种文化现象,能将个人记忆整理为社会记忆,体现数字的人文关怀。
二是数字人文视域下——研究对象的关联性。签名本,包括收藏者本人的签名,是研究文学史的一个新切入口:可以考察作者的文坛交往,了解作者的著书缘起等。程千帆、徐有富先生在《校雠广义·典藏篇》 中指出:“藏书除有益于读书、治学、创作外,也丰富了藏书家的生活内容,使他们获得高层次的精神享受。”这些签名本,曾被著名诗人纪鹏所有、使用并留有印迹。有“一经品题身价十倍”之说。既有纪鹏先生的藏书章、长春市图书馆的馆藏章、还有部分签名人的钤印,有上款、下款和作者题词,是最完善最齐备的签名本。利用关联数据技术建立诗人谱系,立体呈现事件之间的关联性,意味着资源开拓的更多可能。
数字人文背景下,借鉴郑巧英等编著的《国家图书馆图像资源元数据规范和著录规则》、曾子明等提出的一种面向数字人文的图像语义描述模式等,先将签名本诗歌特藏资源尽可能地数字化,包含图像数字化、文本化、结构化和语义化。对诗词签名本信息进行提取、描述、分类、多层次标引,借助于字符识别技术、关联数据技术和检索技术,可以从数字化转向文本化,最终直达本体。深入揭示资源内部知识单元,将数字文献作为“数据”进行处理和加工,进行知识挖掘与探索。构建起典藏体系并配套数据挖掘、数据分析、海量数据存储技术,有效促进人文学者对当代诗歌文献的分析和研究。
研究以收藏、整理当代诗歌签名本和数字化为起点,揭示文献之间、文本之间的关系和语义。馆藏中的资源并不是彼此孤立存在的,资源彼此间有关联。以构建关联数据为目标,数字人文视域下特藏的持续拓展、科学整理和深度研究有待聘请相关领域的专家协助,同多学科背景的研究人员积极展开合作,使之成为精准化学科服务的重要资源,利用关联数据技术建立诗人谱系,辅助和促进收藏,以立体的方式呈现出各事件之间的关联性。
通过数字人文相关技术的应用,揭示某一诗人、某一事件或某一流派研究进展之间的关联,并以可视化的方式呈现,为广大研究人员提供更行之有效的数据检索手段,帮助树立人际网络、学科发展历程以及事件关联图谱。数字人文技术的介入,旨在解决三个主要问题:存储、检索与关联。在此基础上,提供信息检索与文本标注的功能;构建内容数据的关联属性,赋能文本的量化分析能力;多维展现数字内容,创新文本研究范式。依托图书馆对信息的处理和服务能力,以及对信息来源、信息终端用户的把握能力,以重要签名本、历史人物等为线索,采集保存个人记忆,创立集书籍、印刷品、展览、讲座、数据库、专藏书架“五位一体”的全新服务模式,为读者提供一种全方位、立体式的阅读体验。
构建开放、集成、共享的多元信息整合服务平台,有序化整理、深入挖掘并实现数据化,明确创建流程。一是对签名本进行深度、精确的元数据标引;二是签名信息数字化,通过富集数据和数据关联,帮助用户发现新知识、提出新问题;三是以签名本收录为开端,通过运维宣传、查询使用、评论交流,丰富签名本资源信息网络;四是签名信息挖掘,通过对文献类别、读者群体、阅读时间、内容喜好等数据的甄别分析,从以馆员为主到探索与多方合作;五是发掘、搜集、辑录、整理“签名本诗论集”“签名本诗歌作品集”“签名本诗歌文献图像数据库”及网站运行。
按照课题的研究思路、研究方法及规划设计,设计“数字人文视域下馆藏深度挖掘”系统。平台通过对图书书目信息、签名信息及书名页、版权页、签名页图像信息上传,实现信息发布,由读者在网页端自由查看或发表阅读感想书评等,通过读者的行为操作实现“图书-读者-信息”之间关系的深度挖掘。系统的主要特点有:图书信息展示,平台权威发布的专家解读,读者评论发表,读者行为统计等。
对数据进行标记、评论,创建并上传用户原创内容。一是充分利用网站后台进行管理,建立针对用户反馈的及时响应机制;二是设置专题的创作、审稿和维护的流程,读者和馆员共同维护;三是挖掘具有审稿能力的读者,通过管理员获取相应权限,参与到专题的勘误工作,在线修订专题内容;四是定期扩充与更新资源;五是及时优化网站;六是补充网站功能。
初衷是保护、完善、研究和传播,形成签名本诗词专题库,面向专业用户提供开放共享服务。在图书馆网站发布、在线论坛、学术会议上等进行推广,然后发掘潜在受众,并邀请志愿者参与。提升读者的参与度和积极性,扩展资源收集渠道,由读者进行数字馆藏征集与整理的补充,征集更多的影像图片及文本,贡献新资源,或丰富、整合及重新配置现有资源,保障专题的多样性。馆员作为数字化资源OCR、数字资源组织描述及发布主体,完成元数据著录。专题数据经作者创作后,提交审稿人审核并反馈。审核通过后,平台发布与公众共享,开展平台维护和管理工作,保障专题的专业性。
从数据资源、数字技术进而到平台系统都可以是众包之源,众包的志愿群体是实名的,对诗词感兴趣、通晓现代诗词或具备一定信息技术技能的,且对参与价值认可的成员进行筛选并进行操作培训。由我们发起,众包志愿者参与配合,经过相互协作共同保护、传承和创建开放、互联和智能的资源。志愿者实现信息技术水平、诗词素养提升,学到新知识,获得满足感。项目以贡献者排行榜进行激励,对持续参与者进行鼓励。
对图像数据库转录、修订、标记与分类,进行标准化加工、组织和管理,转化成结构化数据。汇集诗歌文献的封面、版权页、目录等出版发行信息,签名信息,作者简介、书摘、诗人纪鹏的标注及藏书章、印章、款识、书中阅读痕迹及馆藏信息等。
关联数据是一种语义知识图谱,注重知识发布与关联。基于图数据库实现的知识图谱是广义上的知识图谱,注重知识挖掘与计算。尝试基于图数据库实现知识图谱和关联数据的结合,对诗词背景、典故、情感及地域特征,展开诗、人、地、掌故关联性推理和交互式查询。最终在图书馆特藏资源建设的基础上,结合数字技术、公众力量和社会资源共同完成签名本诗词专题数据库建设。
专题库建设是从数据采集、加工、组织、存储,到评估、开放、共享、利用的全流程。目前我们对诗词签名本特藏资源进行了比较充分的分析与梳理,推动搭建面向学科的特藏资源研究与开发平台,突出馆藏特色,努力发挥馆藏的数字人文研究价值,但评估、开放、共享、利用及优化思考相对薄弱。
一是数据评估。对项目的平台建设、宣传,任务分发、部署,质量控制及风险管理、经费支持等都要进行评估,需要多部门、多学科、多元服务与多元支持,邀请数字人文学者、计算机专业人才、优秀项目管理者及有关领域的法律顾问等,商议具有指导意义的方案。在评估基础上进一步细化拓展,完成对现代诗词签名本的知识组织和开发利用,注意馆藏中高质量图像的保护,后续研究需建立现代诗文文本标注的语料库。一边建设,一边拓宽交流渠道,了解用户需求与反馈,并及时改进。
二是开源共享。使数据朝着RDF格式转变,重视API标准化或者为不同类型用户设置针对性访问方法。开放的在线专题库和开放数据平台无疑会为研究人员提供随时随地访问的便利,考证文献的真实性、原本性,考证图书版本演变源流等。但是基于版权的开放程度需应对挑战,如提供链接服务过程中产生的侵权风险,在开发图片数据库的过程中的著作权侵权风险,如特定情况下,合理使用及著作权例外并不被法院所认可等。协作和交互技术有待升级,数据安全和数据隐私安全有待保障,数据加密和脱敏技术有待升级。
三是增进流通。签名本专题库承载文化信息的流通功能,实现签名本价值最大程度的体现,达到诗歌文献信息资源共享。共享和反馈环境以及深度交互的渠道有待进一步探索,数字化技术及数据管理技术要不断升级。依照一套完整的技术规范,发挥关联数据的价值,采用url作为唯一能定位的资源标识符,可以实现签名本资源多平台共建共享,提升数字人文资源流动属性。为提升签名本图像内容的实用价值,应利用知识图谱、本体方法论、语义网等技术手段提升文字资源等呈现范式与知识体系构建。
四是提升实用价值。可视化分析、统计分析、关联分析等会为研究带来新的发现,带着情怀的签名本,有人的故事、也有书的故事,是精神思想交流和私人友谊交往的见证。每本藏书都有温度,有态度,有故事。讲好这些故事,数据分析技术及可视化技术要不断升级。利用平台的可视化分析软件功能使众包数据、统一检索与分析数据等功能发现知识发现,实现数据的智慧化使用。
五是资源优化。数字人文研究,图像是重要的研究资料,包括原照和数字化后的图像文献,标准规范地展现诗歌签名本领域图像的特性,有待深入研究。项目选择自建平台,由项目组成员,按照课题思路,创建独立的项目网站。版本略低,结构、流程、功能及测试等有待优化。加强机构之间、作者之间的交流,加强与高校、科研机构、图书馆的交流合作,从实体到数字图像相关技术、图像数字资源的描述、图像语义层次的描述、分类及元数据属性特征、关联关系予以揭示并进行优化。