摘要:山东省古籍文献蕴含深厚的学术价值和现实意义,大数据技术对其保护、传承与创新利用具有重要意义。本文在明确古籍文献活化主体的基础上,重点探讨大数据时代古籍文献活化的技术与路径。研究发现,大数据技术的引入极大提高了古籍文献的整理效率与检索精度,促进了其广泛传播与深度利用。本研究丰富了古籍文献活化的技术路线和方法,为中华优秀传统文化的传承与发展提供了新的思路。
关键词:大数据;山东省;古籍文献;活化;数字化
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)32-0052-03 开放科学(资源服务)标识码(OSID) :
0 引言
古籍文献不仅是中华民族的历史记忆和文化瑰宝,更是研究和传承中华优秀传统文化的重要载体。习近平总书记提出要系统梳理传统文化资源,让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来。“活化[1]”一词源于“Activa⁃tion”,原指从无到有的活性过程,多用于自然科学领域。本文中,“活化”指文化遗产的复兴与再利用,旨在使古籍文献重新焕发活力。西方运用英文词指文化遗产复兴和遗产再利用的实践与研究,中文中“活化”可应用于古籍、文物以及文化遗产等领域的研究,如“中华古籍活化”等。
山东省作为中华文明的重要发源地之一,拥有丰富的古籍文献资源,特别是儒家文化的影响深远。随着大数据技术的不断发展和应用,古籍文献的活化利用迎来了新的机遇,大数据技术以其强大的数据处理和分析能力,为古籍资源的挖掘、整合与利用提供了全新的手段。因此,本文在引入大数据时代独有技术样态的基础上,探究山东省古籍文献活化技术与实现路径,研究框架由古籍文献活化主体、活化技术和活化路径三部分组成,三者相互关联,共同推动古籍文献的数字化与传承创新。本文首先分析山东省古籍文献的活化主体,明确活化工作的核心要素和参与者,随后给出古籍文献活化技术,包括数字化扫描、光学字符识别(Optical Character Recognition, OCR)、文本挖掘、语义分析等技术,最后从技术创新、模式创新、应用创新等多个维度探讨古籍文献活化创新进路。本文的研究思路围绕古籍文献活化主体、活化技术、活化路径三大核心部分展开,通过明确各部分的核心观点与逻辑关系,旨在为山东省乃至全国的古籍文献活化工作提供科学、系统的指导与参考。
1 山东省古籍文献活化主体
1.1 山东省古籍文献的分布与特点
山东省古籍文献数量庞大且种类繁多,不仅具有极高的文物价值,还蕴含着丰富的学术信息和文化内涵。王珂[2]提出山东省古籍的分布呈现出既广泛又集中的特点。从全省范围看,16个市及相关省直单位均收藏有古籍,涵盖了公共文化、文博、教育、档案、党校等多个系统,显示了山东省作为古籍收藏大省的丰富底蕴。然而,这种分布并非均匀,而是呈现NJu5OmQb/8xy0GiZn0QcDATADWF9Th/yj5Q8FkyHAo8=出一定的集中性。省直单位和济南市收藏的古籍数量占全省近六成,而前四大城市(济南、济宁、青岛、烟台)的古籍藏量更是高达全省的82.61%。同时,公共图书馆系统成为古籍收藏的主要力量,特别是山东省图书馆,其古籍藏量占全省的30.44%,与另外四所图书馆共同收藏了全省六成以上的古籍[2]。这些古籍涵盖了经、史、子、集等多个领域,质量上乘,其中不乏珍贵的善本和孤本[3],具有重要的历史、文化和学术价值。
1.2 古籍文献保护工作的现状
山东省高度重视古籍文献的保护工作。自2008 年在山东省图书馆设立“山东省古籍保护中心”以来,便持续推动《山东省珍贵古籍名录》的编纂与更新。至今,已有三批共计7 791部珍贵古籍入选,不仅涵盖了从汉代至宋代的珍贵文献,如汉简《孙膑兵法》和宋刻《万卷菁华》,还包括了唐代及辽代的珍稀古籍[4]。山东省建立了四级珍贵古籍保护体系,包括国家、省、市、县四级珍贵古籍保护单位,为古籍文献的保护提供了有力保障[5]。在传承方面,山东省采取了多种措施。一方面,通过举办古籍展览、讲座等活动,向公众普及古籍知识,提高公众对古籍文献的认知度和保护意识。另一方面,山东省还积极推进古籍数字化工作,通过建设古籍数据库、开发古籍数字化阅读应用程序等方式,让更多人能够方便地获取和利用古籍文献资源[6]。
目前山东省在古籍文献保护与传承方面仍面临挑战。首先,古籍文献的数字化程度还不够高,许多珍贵的古籍文献尚未完成数字化处理。其次,古籍文献的保护与传承工作需要更多的专业人才和技术支持。此外,学术研究对于古籍文献价值的挖掘也显得不足,许多古籍的深层价值尚未被充分揭示和认识[4]。
2 古籍文献活化技术
大数据技术在古籍数字化整合与活化利用中发挥着关键作用。通过数字化处理,全国已有大量古籍文献被转化为数字资源。同时,大数据技术还进一步应用于历史人物画像的构建、历史场景的还原以及古籍故事的叙述,为历史研究提供新的视角和方法。在古籍文献的活化过程中,一系列先进的技术被引入以实现其数字化整合与活化利用。
2.1 数字化技术(OCR、图像处理)
OCR技术和图像处理技术[7]作为古籍数字化的基础,通过扫描古籍图像,将图像中的文字信息转化为可编辑、可搜索的电子文本。这一技术的应用,极大地提高了古籍文献的利用效率和准确性,减少了人工错误和重复劳动。在企业和办公环境中,OCR技术可用于文档管理和自动化,如扫描纸质文件、合同和发票等,将其转换为电子格式,便于存储、检索和共享,促进了数字化转型。国家图书馆采用OCR技术对大量的古籍进行数字化处理,建立了庞大的古籍数据库。例如,国家图书馆中的“《永乐大典》高清影像数据库”通过数字化全文识别和版式还原,使《永乐大典》的风貌、内容、知识在数字条件下实现永续保存和广泛传播。数字化全文识别将影像中的文字转化为可编辑的文本格式,该过程不仅要求高度的识别准确率,还需要对古籍特有的文字风格、排版方式等进行适应性调整。版式还原也采用了多种技术手段。一方面,通过OCR技术识别出的文字信息被精确地定位在原始影像的对应位置上,从而保留了古籍的原始排版和格式。另一方面,数据库还利用3D技术、光影还原等交互手段,进一步增强了版式还原的效果,用户可以360度翻阅大典,直观感受并体验大典的内页纸张、字体版式等细节。在古籍文献活化方面,图像处理技术主要用于古籍图像的修复、增强和展示。通过图像处理技术,可以修复古籍中因磨损、污渍等原因造成的图像损坏,提升古籍图像的清晰度和可读性。对古籍图像进行增强处理,如调整色彩、对比度等,可使古籍图像更加生动、逼真,让读者身临其境地感受古籍的魅力。
2.2 语义分析技术(自然语言处理、文本挖掘)
古籍语义表示技术通过自然语言处理和文本挖掘技术[7],对古籍文献进行语义化表示,使得古籍内容更加易于理解和分析。自然语言处理技术和文本挖掘技术能够自动化地从古籍文本中提取关键信息,如主题、情感、事件等,并进行分类、聚类等处理,从而挖掘出古籍中的深层知识和价值。以北京大学《儒藏》编纂与研究中心的“古文献溯源平台”为例,该平台利用自然语言处理技术和文本挖掘技术实现了对古籍文献的深度挖掘和智能分析。平台能够检索出文本互见关系,通过文本互见关系可以发现文献所反映思想的传承、演变与发展。通过该平台,用户可以更加便捷地获取古籍文献中的知识信息,促进对古籍文化的深入理解和传承,而且为历史研究提供了新的视角和方法。
2.3 可视化与互动展示技术
可视化技术和互动展示技术[8]进一步提升了古籍文献的活化效果。将可视化技术应用于古籍信息的展示,能够以直观、生动的形式呈现古籍文献的内容,提高用户的阅读体验和理解能力。由中南民族大学主持设计的“唐宋文学编年地图”,通过可视化技术展示了唐宋文人的生平行迹和创作情况,读者可以整体浏览唐宋文人的活动轨迹,也可以局部查看他们在某一时一地的活动与创作。互动展示技术使用户更深入了解古籍内容与背景,提升参与度和沉浸感。由上海图书馆历史文献中心与上海戏剧学院合作推出的“阅人·阅城·阅世界”虚拟数字展览,通过虚拟现实(Virtual Reality,VR) 等互动展示技术将古籍文献中的历史场景和文化故事以沉浸式的方式呈现给公众。用户可以在虚拟环境中与古籍文献进行互动,体验古人的生活和创作环境,从而更加深入地了解古籍文化的内涵和价值。
3 古籍文献活化路径
针对山东省古籍文献的丰富历史积淀与当前数字化发展趋势,本文提出以下策略[9]以进一步活化利用这些珍贵的文化遗产,通过这些策略的实施将有效促进山东省古籍文献的保护、传承与创新利用[10]。
3.1 加强古籍文献数字化建设
古籍文献的数字化是传承与利用的基础,它能够将古籍文献转化为数字资源,使之更加易于保存、检索和利用,实施步骤包括资源评估与规划、数字化实施、数据管理与存储等。古籍文献的数字化建设在全球范围内已经取得了显著进展,国内外众多图书馆、研究机构已成功实施古籍数字化项目,积累了丰富的经验和案例,为后续工作提供了可借鉴的模式。“中华古籍资源库”是由中国国家图书馆(国家古籍保护中心)打造的数字化项目,该项目入选了2023年“携手构建网络空间命运共同体精品案例”。该资源库旨在通过数字化手段,将中华古籍的信息进行保存和传播,使珍贵典籍跨越时空“活”起来,在数字世界焕发新的生机。
3.2 构建古籍文献共享平台
古籍文献的共享平台能够打破地域限制,实现古籍数字化资源的广泛共享与交流。通过建立古籍文献共享平台,可以将山东省乃至全球的古籍数字化资源汇聚起来,形成一个庞大的资源库,其实施步骤包括平台架构设计、资源整合与上传、用户服务与优化等。构建共享平台可以实现资源的集中展示与跨机构访问,促进学术交流与合作,提高古籍资源的利用率和社会影响力。中国国家图书馆已与美国哈佛大学哈佛燕京图书馆、日本东京东洋文化研究所、日本永青文库等机构开展了广泛的合作,与美国哈佛大学哈佛燕京图书馆达成协议,对该馆所藏中文善本进行平台化,并发布在“哈佛大学善本特藏”专题库中,包括约1 150部经部和史部善本。同时,日本东京东洋文化研究所和日本永青文库也分别将所藏汉籍无偿提供或以捐赠形式交给中国国家图书馆来构建古籍文献共享平台,并上线了相应的专题库。这些举措不仅构建了古籍文献共享平台,还推动了中华传统文化在全球范围内的广泛传播,促进了海内外汉学研究的发展。
3.3 推广古籍文献创新利用模式
传统古籍利用方式单一,难以满足现代社会的多元化需求。创新利用模式,如数字化展览、互动体验、跨界融合等,能够激发公众对古籍的兴趣,促进古籍文化的活态传承,提升文化遗产的社会价值。其实施步骤包括技术合作与研发、效果评估与反馈、文化传承与教育等。例如,石家庄市图书馆推出了“馆员晒书:古色籍香”系列古籍短视频,以馆藏古籍文献为题材,通过原创文字、古籍书影和融媒体视频的表现形式制作短视频。筛选具有文化底蕴、地方特色、存量稀少、版本上佳的古籍文献作为视频选题,然后配备专业解说和古典音乐背景,提升视频的观赏性和故事感,最后在多个社交媒体平台上发布和传播短视频,构建融媒体矩阵。该新颖形式使读者对古籍产生了前所未有的好奇心和阅读欲望,并主动寻找更多相关资源进行深入学习。该模式有效打破了公众对于古籍“古老、难懂、远离生活”的刻板印象,这不仅让读者意识到古籍并非遥不可及,反而是人类智慧与文化的宝贵遗产,与每个人的精神世界息息相关,从而促进了古籍文化的普及与认同。
4 结束语
本文首先强调了山东省古籍文献资源的丰富性与重要性,探讨了大数据技术在古籍文献活化利用中的关键作用,包括OCR技术和图像处理技术、语义表示技术、可视化技术和互动展示技术等。在路径探析部分,提出了加强古籍文献数字化建设、构建古籍文献共享平台、推广古籍文献创新利用模式等具体策略。这些策略旨在打破信息孤岛,促进资源共享,同时激发社会各界对古籍文化的兴趣与参与度,形成古籍保护与传承的良性循环。总之,大数据时代为山东省古籍文献的活化利用开辟了新的篇章,大数据技术的应用为古籍文献的数字化、智能化处理提供了强大的技术支持和广阔的创新空间,本研究为山东省古籍文献的活化利用开辟了新的途径,为中华文化的传承与发展注入了新的活力。未来应加强跨学科合作,探索更多大数据技术在古籍活化中的应用场景。
参考文献:
[1] 习近平.习近平谈治国理政(第一卷)[M].2版.北京:外文出版社,2018:161.
[2] 王珂.山东省古籍普查“ 大数据”分析[J].人文天下,2020(24):82-86.
[3] 李勇慧.古籍工作[J].山东图书馆季刊,1999(4):54-56.
[4] 郭红娟.山东省公共图书馆古籍地方文献开放获取资源研究[J].图书馆学刊,2015,37(11):68-70.
[5] 丁原基.图书馆作为古籍保护中心基地之天职[J].古籍保护研究,2016:09-24.
[6] 黄银萍.朱墨传香:谈济宁市古籍文献保护整理工作[J].内蒙古科技与经济,2015(6):127,129.
[7] 张丽娟.省级公共图书馆古籍阅读推广研究[D].济南:山东师范大学,2023.
[8] 公瑾.山东省图书馆缩微文献建设研究[J].数字与缩微影像,2019(2):10-12.
[9] 刘显世.公共图书馆在文化传承中的探索与实践:以山东省图书馆为例[J].山东图书馆学刊,2023(6):1-5.
[10] 刘忠宝,赵文娟.古籍信息处理回顾与展望[J].大学图书馆学报,2021,39(6):38-47.
【通联编辑:李雅琪】
基金项目:本文系山东省社科联2024 年度人文社会科学课题“大数据时代山东省古籍文献活化利用研究”(项目编号:24BJX102) 研究成果之一