摘要:目的:文章对比中日古籍数字化情况,聚焦中国国家图书馆中华古籍资源库与日本国立公文书馆内阁文库,探究二者在古籍数字化数量、质量及版权水印方面的情况,旨在为我国古籍数字化发展提供参考。方法:收集两馆公开数据,统计相关数量;依据标准文件对比图像和拍摄规范;从法律视角剖析著作权问题,追溯水印根源。结果:中华古籍资源库公开约10万部(件),种类多且数量增势快,但存在早期数字化精度不高、水印大等问题,2023年新录入有改善。内阁文库汉书数字化任务几近完成,善本多、水印小,具有访问便捷等优势,但语言选择有限。在图像规范上,二者相近,中国国家图书馆部分标准更高,拍摄规范原则近似且实践灵活。在法律层面,古籍数字化各环节著作权归属不同。中国国家图书馆早期水印不佳,后有改进。图书馆经费受财政制约,部分创收手段影响古籍数字化利用。结论:中日古籍数字化各具特色,中国技术细节和移动端适配佳,日本数字化完成度高和服务体验优,双方应相互借鉴。明确著作权归属、平衡机构权益与读者使用、完善经费保障政策,对推动古籍数字化发展意义重大。
关键词:古籍数字化;中华古籍资源库;内阁文库;水印
中图分类号:G255.1;G250.7 文献标识码:A 文章编号:1004-9436(2024)17-0-05
1 中华古籍资源库与内阁文库中文古籍数字化数量比较
1.1 中华古籍资源库与内阁文库介绍
中国国家图书馆中华古籍资源库是“中华古籍保护计划”的重要成果,也是2007年首次由政府主导的国家级重要文化工程的成果之一。于2016年正式上线,采取边建设边服务的方式[1]。
日本国立公文书馆内阁文库是一所收藏汉文与日文古籍的专门图书馆,现为日本国立公文书馆的一部分。明治十七至二十四年(1884—1890年),内阁下属各官厅的藏书都集中到内阁文库。
1.2 两者中文古籍数字化数据分析
1.2.1 中华古籍资源库中文古籍数字化种类与数量
依据国家图书馆官网公示的信息,目前公开的总量约10万部(件),其中包含的数据库有馆内整合的13种和馆外购买内容整合的7种。笔者统计了能公开查阅的数量,详情见表1。
中国国家图书馆(以下简称“国图”)对自己和合作的数据库作了本土化整改,使其规范基本统一。读者使用中华古籍资源库,就像使用互联网搜索引擎一样便捷,并且其支持高级搜索。除了传统的PC端,其还能很好地支持现在的移动端。但其存在两个缺点:一是响应速度很慢,甚至不如服务器在日本的内阁文库;二是部分古籍的数字化并不符合新标准,直接将早期精度较低的微缩胶片上传使用。对国图自有的数字古籍进行统计,因其并没有公开的具体信息,笔者目前只能从过往的论文中分析,并对国图的古籍进行简单统计,见表2。
受限于国图的信息不透明,从总体数据来看,其自有数字化内容正快速增加,2017年到2022年多出了3829件,2022年到2024则增加了惊人的4060件。当然,中国国家图书馆作为亚洲规模最大的图书馆,实际收藏肯定远不止这些,尤其是善本部分的内容还远远不够。其自身的数据库除了上述两个缺点,还有一个问题是2022年前后录入的古籍图片的水印非常大,可以说几乎覆盖了整张图片。对一般的研究者或是希望用图片开展教育工作的使用者来说,这些水印极大的图片达不到理想的展示效果,这是需要改善的一点。值得肯定的是,在2023开始的新一轮数字化工程中,国图优化了备受争议的水印,新录入的古籍数字化体验非常好。
1.2.2 内阁文库中文古籍数字化种类与数量
内阁文库所藏汉书整体数量基本不会变动。从表3可以看出,内阁文库对书目在线化的任务已基本完成。对于那些还没有完成最新高清扫描的书籍,可以利用官方的申请系统收到以前的扫描版;对于那些已经完成高清扫描的书籍,直接在线浏览下载图片即可。
表4为2014年和2022年内阁文库汉书数字化百分比对比。从中可以看出,内阁文库对于所藏书目的汉书古籍数字化即将完成,当然这也有其所藏书目相对较少的缘故。内阁文库目前有几点优势:一是没有“墙”,中文互联网使用者可以直接浏览,无须注册,且打开速度比国图快;二是图片拍摄规范,每册头图均配有色卡和标尺,方便读者参照;三是在线书目多为善本且水印小,方便读者使用。当然,网站只提供英语和日语两种选择,需要额外学习才能更好地使用其功能。
2 中华古籍资源库与内阁文库古籍数字化质量对比
2.1 古籍数字化标准
古籍数字化的呼声由来已久,但各大机构通常有自己的数字化方式。受限于已往各馆的数字化条件,很多古籍的数字化水平参差不齐。如今用相机和扫描仪对古籍进行数字化已成为主流。关于数据格式和媒体记录的指导方针虽然存在,但在实践操作中受限于书目种类品相的不同,不可能完全按照模糊的规范操作。日本于2013年9月出台了《古典籍、古文书、西洋珍本等的数字化指导方针V1.0.0.0》(以下简称《方针》)。此《方针》包括带有具体实践内容的样本为日本各图书馆的数字化提供了参考。国图也于2016年编写了《古籍数字化工作手册》,但由于具体内容未曾对外公开,本文以国图出版的《古籍数字化规范数据采集实践》与日本的《方针》进行简单比对,以期有所增益。中国现行部分古籍数字化标准见表5。
2.2 图像规范和拍摄规范对比
2.2.1 图像规范
在古籍数字化早期,受硬件条件限制,古籍图像数据以二值图像和灰度图像为主,分辨率低于300 dpi。在这一时期,古籍图像的主要用途是文献提供,包括网络浏览、打印件提供(替代复印)、黑白影印出版等。文献提供的目的是传递文献内容,对大部分古籍(插图本、彩绘本等除外)而言就是文字清晰,对图像的品质要求不高[2]。但进入互联网时代以来,随着各项技术的发展,古籍数字化色彩精准和图像清晰度高成为可能。
从表6可以看出,两馆对图像要求差不多,国图得益于后发优势,标准更高。
在图像规范方面,两馆在扫描色彩标准、分辨率、存档和发布格式上存在差异。国图采用RGB 24 bit色彩模式,相比日本的RGB 16 bit,能呈现更丰富的色彩;国图的扫描分辨率为400 dpi,存档格式均为无损压缩TIFF(LZW)格式;国图的发布格式为JP2和PDF(400 dpi),这些格式在行业内广泛应用且各有优势。
值得注意的是,微缩胶片在保存方面具有多个优点:一是长期可靠,在备灾条件下仍有500年的寿命。二是长期保存相对便宜,磁盘或云盘的开销费用往往10年就要数百万元,而微缩胶片的开销主要是仓储费用;三是微缩技术不需要联网,无须担心信息泄露或来自互联网的病毒攻击,更加安全私密。因此,各图书馆往往会额外用微缩胶卷来保存资料,但其在色彩和分辨率的精确度上不够,并不适合作为在线图片的选项之一。
目前,古籍数字化一方面是馆藏单位购置机器,配备专门的工作人员扫描,另一方面是通过外包的方式,优选具备一定资质和能力的单位来扫描。
2.2.2 拍摄规范
在实践操作方面,中日两国的原则近似,在不伤害书籍的情况下,尽可能地追求图像的准确性。下面列举两种装帧形式的拍摄要求。
对卷轴装古籍的拍摄,内阁文库通常不拍摄卷轴的外部容器,从卷首封面开始拍摄。为了准确性,前一页最后一句话作为下一页句首出现在镜头中。为保持连贯性,卷轴的接口处或虫蛀痕迹等也要如此连续出现在前后两个镜头中[3]。而中华古籍资源库拍摄卷轴装前会检查书籍本身情况,对可以扫描的书籍进行数据测量,即对三维进行测量,在至少两人的协同下展开扫描,并在当前页完成后留三列以上切入下一个画面,最后回归原样保存。
对册页装这一形式的拍摄,内阁文库和中华古籍资源库的方案类似,都是不拍摄外部容器,将有字的封面记为第一页,将以厘米为单位的刻度尺和比色表放于纸张外侧进行对比。
当然,在实践操作中,往往会出现残页或破损,这时就需要依据古籍保护和采录的相关原则灵活记录。
2.3 小结
从技术标准看,中国古籍数字化并不比日本落后,甚至得益于后发优势,在很多细节方面做得更好。同时,在实际体验中,中华古籍资源库与手机、平板这类移动端设备的适配性更强,并且对自有的数据库和第三方数据库进行了统一的格式编辑,读者检索起来更方便。
美中不足的是,中华古籍资源库的数字化信息资料并不完全对公众开放,而内阁文库则会定期更新技术标准,并公开下一阶段的书目。
3 古籍数字化中的水印之争
不管是国内还是国外,任何经过劳动产生的图像产品,作者都有权且应该加上水印来保护自己的成果。但古籍数字化的内容主体是前人的创作,机构大多只是进行了简单的扫描,而古籍数字化水印问题的实质是数字化后著作权的归属。在2023年之前,国图往往在图片上加很厚的水印,但2023年开始全部取消了。
3.1 从法律角度看著作权问题
常规的古籍数字化完整流程分为几个环节:采集侧—数字化生产侧—应用侧。这几个环节都涉及著作权的问题。采集侧的关键在于是否有新内容产生,数字化生产侧的关键在于利用何种复制手段,而应用侧的关键在于是否对内容进行二次整理。
3.1.1 采集侧的著作权问题
已经被修复和整理过的纸质书,用拍照或扫描的方式进行电子化保存与流转。其核心问题在于照片和扫描这两种行为会不会产生著作权,以目前通说和过往案例来看,这是不产生著作权的。
著作权的根本在于作品,附加了著作权人创造美感的照片才能上升为作品。而图书馆或者是被授权拍摄的公司对纸质书的拍照,只不过是更换了文学作品的载体,并没有新的作品产生。因此,采集者没有著作权。
在一种情况下,图书馆等机构是拥有著作权的,即原有古籍不完整,采集人不仅采集,还会收集残片、整理修复、批注增删,由于附加了新的创造,考虑到篇幅的比例,在一些情况下是有新的著作权产生的。比如《红楼梦》,多种版本存世,都是有著作权的。因为各个版本之间的不同已经构成实质性的区别。
3.1.2 数字化生产侧的著作权问题
生产侧对图像处理大致有两种方式。第一,AI古籍识别系统,通过单字识别的形式,算法生成单字版本。对于此生成版本,无论是AI本身还是AI系统的开发者,都不享有著作权。当然,该算法本身可申请发明专利,但与古籍本身的著作权毫无关系。第二,靠人力,通过手敲的形式出单字版本。对于此人力版本,或该人力所在公司,都不享有著作权。
总的来说,数字化生产侧就像把一篇文章译为盲文,完全复制只是转换了外在形象,没有著作权。
3.1.3 数字化应用侧的著作权问题
基于现有数字化作品制作的检索系统、字典、知识图谱都有著作权,分别归属于检索系统开发者、字典编纂人、知识图谱绘制人。例如,国图对多本古籍进行了图片拍摄,并进行了数字化扫描,对于拍摄后的图像,国图仍然不具有著作权,但数字化后对于这类书的检索系统和相关文字的识别,国图依法享有著作权。
3.2 从研究者和使用者的角度看水印问题
3.2.1 古籍数字化后向公众开放的必要性
所有可以称为古籍的书,其诞生至今肯定已远远超过50年,其内容早过了法律保护时间,其要成为一个公共性的文化产品,最终目的肯定是促进文化繁荣,加深人们对相关知识的认识。绝大多数古籍因年代久远,都需要专业的保护和修复,这类需求则应由图书馆和博物馆等专业机构来实现。那些在博物馆、图书馆而非在私人藏家手中的古籍,其所有权归根到底属于集体、属于人民。这种承载着中华优秀传统文化的古籍毫无疑问应该被全国乃至全世界人民所欣赏。但遗憾的是,受限于以往各馆发展水平和保护能力的不同,很多应被展现的古籍在库房不见天日,哪怕有学者提出申请要原件或影印本,往往也困难重重。基于社会的实际需求,国家组织力量建成了聚合类平台——中华古籍资源库,其是“中华古籍保护计划”的重要成果。
3.2.2 国内古籍数字化水印的矛盾
水印存在的根本意义是保护创作主体的劳动成果,其应遵循四个基本原则。第一,安全性。在保护图像创作者主体的同时,应对内容发生改变时减少误测。第二,不可感知性。图片水印或多或少都会造成一定的图片信息损失,好的水印算法就是要尽量避免对图片造成干扰,同时放尽量多的身份证明。第三,鲁棒性。图像在分发使用过程中不可避免会受到破坏,但也应尽量保证图片水印的完整性。第四,敏感性。图像在分发后,水印可以保证后来者对那些篡改后的内容有判断。
2023年,国图对这方面的欠缺进行了改善,参考图1、图2。2023年前国图对已经规范了的标准依然执行不到位,图片水印非常大,而且添加的水印并不专业。依据《古籍数字化规范数据采集实践》,国图目前使用的方法是用PS多加一图层,并调整其透明度。目前看来,这种方法不仅对于那些滥用图片的人来说没有什么障碍,反而对那些正常使用图片的人造成了阻碍。其水印虽然覆盖整个图片,但安全性和敏感性依然无法保证。2023年后,新录入的图片取消了水印,虽然依旧不开放下载,但对一般的研究者而言,体验已然有了明显的提升。
作为图片的使用者和受益者,读者应尊重这些机构的劳动成果,在使用这些图片时注明文献来源。
3.2.3 国内图书馆水印问题根源探究
《中华人民共和国公共图书馆法》于2018年1月1日起实施,为图书馆经费来源提供了法律保障。其以第4条为经费保障的主要条款,即“加大对政府设立的公共图书馆的投入,将所需经费列入本级政府预算,并及时、足额拨付”;以第6条的“鼓励捐赠”和第7条的“国家扶持特定地区图书馆发展”作为第4条的补充,主要确立了提供经费的责任主体。但只有责任主体,缺失其他内容,使得经费条款的操作性较弱[4]。
在实际操作中,图书馆受限于各地财政,往往会推出各种创收手段来保证运营。最常见的即出租土地一类固定资产,这种方式往往收益稳定,但不一定符合当地政策。另一种方式则是联合市场推出文创产品,这类项目往往因图书馆不熟悉市场而导致收益不稳定甚至亏损。在这些手段中,有一种特殊手段,即利用图书馆馆藏的珍贵内容,向有需要的人群收费,这种行为会在一定程度上阻碍古籍的数字化及其利用。
应正视图书馆内部的创收需求,但图书馆作为事业单位,其人员编制属于事业编,其根本任务是为国家创造或改善生产条件,增进社会福利,满足群众文化需要。其创收行为不应违反自身宗旨和任务。在市场经济条件下,应鼓励图书馆采取合理合法的创收手段来为自身谋求经费和福利。
4 结语
本文通过对中华古籍资源库和内阁文库公开数据的统计和技术标准的分析,展现了两国古籍数字化的进程,并通过图片和实际使用从法律的角度分析了数字化后的著作权问题。
在新设备新技术的加持下,各国的古籍数字化进程快速推进,如日本内阁文库基本完成了对善本的数字化,中国国家图书馆也在这些年增加了万册内容。两馆数字化的方法与标准有许多可以相互参考和借鉴的地方,虽然它们在细节上尚不能尽善尽美,但取得的进步依然令人欣喜。同时,本文对古籍数字化的著作权问题提出了与以往研究不一样的理解,为古籍数字化著作权提供了法律解释,认为机构在没有深度处理文献的情况下不享有著作权,古籍数字化在保障机构劳动成果的同时,不该对一般的读者和研究者提高使用门槛。相信随着时间的推移,我国的古籍数字化会越来越完善。
参考文献:
[1] 赵文友,林世田.“中华古籍保护计划”成果:以“中华古籍资源库”建设为中心的古籍数字化工作[J].新世纪图书馆,2018(3):12-15.
[2] 肖禹,王昭.论色彩管理在古籍数字化中的应用[J].图书馆学刊,2013,35(9):20-22.
[3] 建欣茹,张文亮.日本《古典籍、古文书、西洋珍本等的数字化指导方针》标准解读[J].图书馆学研究,2015(24):14-20,26.
[4] 张一博.《公共图书馆法》经费条款的立法论评析及改进建议[J].图书馆论坛,2019,39(2):80-85.
作者简介:高山 (1999—) ,男,研究方向:博物馆典藏。
本文引用格式:高山.中国国家图书馆中华古籍资源库与日本国立公文书馆内阁文库古籍数字化比较研究[J].艺术科技,2024,37(17):-.