李倩
摘要:鉴于近现代文献资料的珍贵性及其被忽视的现状,文章以近现代文献资料的数字出版和保护为例,阐述了数字出版内容的开发、管理路径和历史文化承载意义,对于保护近现代文献资料、丰富数字出版内容、促进数字出版产业发展有一定的作用。
关键词:
数字出版产业 内容开发管理 近现代文献资料
内容是数字出版产业的灵魂,价值含量高的出版内容和合理有效的管理方式是数字出版产业健康可持续发展的基本要求和根本动力。我国古代历史、近代革命和现代建设中遗留下来的海量文献资料,是数字出版内容的重要来源之一。
近现代文献资料,指的是自1911年辛亥革命到21世纪初近百年间所创作出的图书、报刊、日记等文献资料。由于近现代文献资料距今时间较短,因此普遍存在不必紧急抢救开发的认识误区;同时,长期以来人们一直认为近现代文献的价值远不如古籍善本,所以它们的安置待遇也就远低于古籍文献。近现代文献资料沦为历史文献中的“亚珍贵文献”,甚至是“弱势群体”。[1]
需要引起人们重视的是,这些资料记录着近代的革命浪潮、百家争鸣的学术思想、抗战时期的跌宕政局和新中国成立后的治国沧桑,其珍贵性并不比古籍善本低。[2]利用数字出版平台来挖掘、开发和管理近现代文献资料,是数字出版产业实现保护、传播人类文化知识遗产这一历史使命的重要方式。
一、历史文化承载:数字化近现代文献资料的必要性
1. 数字化的近现代文献资料可更清晰地重现宏大壮观的历史语境
中国近现代历史是一部政局跌宕、风潮暗涌的革命史,其不同政见和立场的政治实体孕育了各具特色的经济、文化、思想文献载体,如《大公报》《满洲三省志》《蒋中正日记》《论持久战》等等都诞生于此。此外,在新中国成立之后,全国范围内轰轰烈烈开展起来的土地改革、社会主义改造和改革开放等运动,也都留下了大量的私人记录、文学作品、公开发行报刊和政府机构出版物等文献资料。
数字出版产业有责任重现这宏大壮观的历史语境,将其数字化,以保留这些珍贵的资料,从而更加真实地还原历史原貌和历史真相,更加清晰地展示新中国的奋斗及成长历程,为中国解决发展中出现的各种社会问题提供必要的参考。
2. 数字化的近现代文献资料可演绎百家争鸣的文化思潮
中国近现代的政治虽然起伏动荡,文化事业却非常繁荣。近现代的中国思想文化异彩纷呈,图书、报刊、手记、海报、档案、图片等丰富多彩的文献形式,反映出了近现代时期百家争鸣的文化盛况。在民国时期,学术启蒙和思想交锋一度达到顶峰,民国学人以《新青年》杂志为阵地,轰轰烈烈地开展新文化运动,在这段重要的历史时期内,诞生了诸如梁启超的《中国近三百年学术史》、冯友兰的《中国哲学史》、李大钊的《我的马克思主义观》等学术巨著。新中国成立之后,中共中央适时提出了“百花齐放,百家争鸣”的振兴文化事业的方针政策,文化事业得到了迅速的繁荣和发展,产出了大量如《红岩》《蔡文姬》等优秀作品。改革开放之后,我国文化事业再次迎来辉煌发展的春天,涌现并出版了更多的文化精品。
数字出版产业有责任演绎和传播这百家争鸣的文化思潮。近现代涌现出的这些文化精品,是中国近现代学术史上首批具有开创意义的奠基之作,不仅对我国近代新兴学科的创建具有重要的学术价值和参考价值,在全世界范围也被视作第一手研究资料。作为延续民族文化的重要手段,数字化出版这些近现代文献资料可以重新演绎出近现代历史中的文化风采和思想交锋。
3. 数字化的近现代文献资料可为人文科学研究提供资源
海量的近现代文献资料中,相当一部分在中国近现代学术史上占据着重要地位。数字化采集提取和编辑处理过的近现代精品文献,可以完整保存文献资料的文本信息,更能保持文献的初始面目,如原件的印章、墨迹、笔迹、批注等各种原始特征,使当代研究学者可以足不出户地拜读到近现代文献的原始样貌,体会到近现代文献的原始韵味,为研究学者提供更多挖掘原始资料的线索,有助于当代科学研究更广泛和更深入的开展,对当代多种学科的建设有着不可替代的作用。
4. 数字化的近现代文献资料有益于中国文化走向世界
进入互联网时代,网络传播所具有的不受时空限制、信息量大、传播速度快的特点,使数字信息成为最重要的文化资源。数字化手段将使人类的精神文化宝库跨越时空,在全人类面前实现资源共享,可以让神秘的中国文化——尤其是近现代文化历史——借助现代信息技术再现辉煌,让全世界人民感受到东方文化恒久弥新的独特魅力。
二、数字出版产业的内容开发:近现代文献资料的挖掘与优选
源源不断地提供优质内容,是保证数字出版行业健康科学、可持续发展的基本要素。对于近现代文献而言,从浩如烟海的近现代文献史料中挖掘和优选出具备人文、思想、经济、历史价值的优质资源,是数字出版的第一步。然而,海量的文史资料中必然玉石同室,精华与糟粕同在。因此,数字出版前应对这些内容资源进行优选,实现对数字出版内容质量的宏观控制。长期以来,受“片纸只字不得销毁”思想的误导,我国的近现代文献整理和数字化工程一直持有“有文必收”的错误态度,这难免会将内容价值极其一般的事务性、零散性和重复性文件也收录其中,导致数字出版产业“内容庞杂、鱼龙混杂、玉石不分”,也造成了人力、财力和物力的巨大浪费。
对近现代文献资料进行挖掘和优选,除对国家所有的文献资料进行整理外,更要重视民间对文化遗产的容纳力。要通过民间走访和考古发掘进行文献挖掘,然后对散落在民间的文献资料和馆藏文献进行择优鉴选,使投入的人力、财力、物力、时间等要素得以充分、合理和有效的配置,最大限度发挥数字化成果的经济效益和社会效益,提高数字资源的利用率。[3]对数字化对象的鉴选,应当采取历史文化价值优先性原则,从重要文献到次要文献,从亟须文献到一般文献,依次铺开,循序推进,打造优质化和精品化的数字出版产业。
三、数字出版内容管理:近现代文献资料的数字加工与管理
数字出版产业的内容管理,是指在内容上进行包括收集、编辑处理、格式转换、审核、版本控制、内容测试、发布等处理的过程。[4]在大量的内容资源中,绝大部分内容是非结构化的,内容管理的目的是把非结构化的信息,制作成图书、报刊、光盘、网页等产品,供用户以各种媒体形式阅读、检索、查询、分析和共享。以近现代文献资料为来源的出版内容数字化处理,就是指对近现代纸质文献进行数字化提取、格式转换、数字化编辑整理等加工与整合,以及进一步搭建和应用近现代文献数据库。
1. 近现代文献资料的数字化提取
通过数字化手段,把破损的纸质文献当中的文本内容提取出来,是数字化出版近现代文献资料的第一步。从古籍文献的保护经验和国外数字化科技的发展趋势来看,对近现代文献资料可采用以下两种数字化加工技术:(1)通过光学字符识别——OCR软件,把近现代文献资料的内容录入计算机,制成文本文件等。OCR技术可将近现代文献资料转化为文本,并能从图像文件中自动抽取题名、著者、文中插题、文内关键词等检索点,并转化为索引。该技术在古籍数字化处理中已有较为成熟的应用,如电子版《文渊阁四库全书》。(2)通过影像缩微与扫描将文献的内容扫入计算机,制成图像文件。缩微品存储载体的稳定性强,预期寿命可达500年以上,是长期安全保存文献资料的最佳存储介质之一。对于非常珍贵、不可再生的近现代文献资料,非常有必要使用可靠性更强的缩微技术进行处理。随着扫描技术与缩微技术的结合,近现代文献的数字化加工又可分为直接缩微处理和先扫描后缩微处理两种形式。缩微技术在古籍数字化处理中取得的成果,值得借鉴,如广东省立中山图书馆建成的“古籍全文数据库”。
考虑到文献价值和保存状况的不同,笔者建议对文献资料采取差異化数字加工手段:(1)对于价值珍贵且易老化损坏的、或价值一般但老化坏损严重的文献,建议采用缩微技术,将文献的影像记录在缩微胶片上,以实现对文献的抢救和保护。(2)对于价值高且使用频率高的文献,建议首先应用缩微技术制作影像胶片以便保护,在此基础上再将缩微胶片进行数字化转换以便编辑和使用。(3)对于价值一般、保存情况好、使用频率高的文献,可采用OCR光学识别技术将文献数字化以便于传播使用。
2. 近现代文献资料的数字化编辑整理
数字出版绝非简单地将数字内容资源提取出来,还须经过必要的编辑、整理和加工,使用户可以对内容资源进行检索、复制等必需的操作。近年来,信息组织技术方法逐渐被应用于典籍文献的数字化整理工作中,对于近现代文献资料的编辑整理有参考借鉴价值。
数字化编辑整理工作主要包括近现代文献索引的自动编纂和近现代文献电子图书的编纂:(1)近现代文献索引的自动编纂。主要是指借助OCR技术对提取出来的文献原文进行机编索引,可采用的技术手段包括索引之星、Word 索引软件和自编语词索引软件等,此外,在索引排序方法方面可借鉴较为成熟的科学技术。(2)近现代文献电子图书编纂。电子图书就是“以电子的方式储存信息,并以电子的方式进行阅读的图书”。在完成扫描、识别等预处理之后,近现代文献电子图书编纂主要包括电子排版、Word文档拆分、添加模板、制作网页文件等环节,Easy CHM电子图书编辑软件是当前最常用的电子图书编纂软件。
王雅戈等学者以吴觉农先生所著的《中国茶叶问题》为例,对机编索引的方法和索引软件的应用进行了研究,并进一步应用Easy CHM电子图书编辑软件对民国文献电子图书编纂进行了实验。[5]其研究对民国农业文献数字化整理、开展农史研究都有重要的贡献,对其他近现代文献的数字化编辑处理亦有指导借鉴意义。
3. 近现代文献资料的数据库式管理模式
传统的出版方式难以有机综合这些文字、图像和声音等不同载体的内容资源和信息,而计算机数字化处理技术和数据库存储管理技术则可以实现近现代文献声、文、图并茂的多维度展示和传播,改变出版作品单一的出版形式,赋予其更加生动的形象和更加强大的生命力。[6]所以,在对海量的文献资源完成挖掘、开发和编辑处理后,还需要对近现代文献资料进行数据库式的管理。
实际上,随着科技的发展,数据库技术已经成为较为先进的文献数字化管理手段,在近现代文献资料的管理中,文化出版企业和文化管理机构已经逐步采用这一方式。如湖南省青苹果数据中心就走在了行业的前列。中心成立20年来,已经数字化了从清朝至今200多年的400种报刊,建立了拥有4000亿汉字和4亿篇文章的海量历史文献库——“华文报刊文献数据库”,包含了中国革命领导人文库、中国歌曲数据库等数十个分库。
结 语
近现代文献资料涵盖了清末以来中国的政治、经济、军事、外交、科学、技术、教育、文化、宗教等各方面,是历史缔造者留给我们的精神遗产。借助数字出版的形式将近现代文献提取、编辑、整理并用数据库模式予以管理,是弘扬中国历史和文化的重要途径,也是丰富数字出版产业的内容资源、引导数字出版产业科学发展、丰富人民精神文化生活的必然选择。
参考文献:
[1] 王雅戈,王晋玲,常娥. 民国文献整理研究进展[J].图书馆建设,2011(3):15-18.
[2] 刘洪权.民国古籍出版对当代古籍出版的文化贡献[J].编辑之友, 2007(3):91-94.
[3] 孙琴.民国文献数字化建设现状分析研究[J]. 山东图书馆季刊,2008(1):71-73.
[4] 刘争.内容管理系统在数字出版中的应用研究[J].编辑之友,2012(4):20-23.
[5] 王雅戈,朱原谅,何琳.电子图书编纂实验——以民国文献电子图书编纂为例[J].图书馆理论与实践,2009(6):61-63.
[6] 朱琪.民国档案数字化研究与思考[J].北京档案,2010(2):26-27.
(作者单位:湖南第一师范学院)