推进广东文献数字化建设 促进岭南文化传播与研究

2012-08-15 00:42周录祥
文教资料 2012年34期
关键词:岭南文化广东数字化

周录祥

(韩山师范学院 中文系,广东 潮州 521041)

所谓广东文献数字化建设,是指将纸质的广东地方文献通过拍照、扫描、文本化,转换成数字化的电子文献资源(电子图书或数据库)。广东文献的数字化,是时代的趋势,也必将是广东文献建设的主要方向之一,它使广东文献保存更加方便、传播更加便捷、共享更加广泛,必将使岭南文化辐射力更强,影响力更大,也会进一步提升岭南文化研究的水平。

一、广东文献数量众多、特色明显

广东文献从地域上讲,包括广府文献、潮汕文献、客家文献等;从形态上分,包括图书、报纸、期刊,还有地图、图片、传单告示、票据、手稿、墨迹,拓片、唱片等;从时间上看,包括古代文献、近现代文献、当代文献,至于馆藏地,则既包括省内各公立图书馆、博物馆、高校图书馆及其他藏书机构、私人所藏,也包括省外、国外所藏。广东文献不仅数量众多,而特色明显。广东虽偏处南国,历代人文、著述不算丰富,但也有唐张九龄、明湛若水、翁万达、清屈大均等文化名人,他们都留下了丰厚的著述,而自清末、近代起,广东得风气之先,先后涌现出郑观应、康有为、梁启超等政治家、黄遵宪、丘逢甲、吴沃尧等文学家、孙中山、胡汉民、廖仲恺等民国政治家,可谓才俊辈出,群星璀璨,对于中国现代化进程的推动,对中国文化的发扬光大厥功至伟,在全国各省市中也是首屈一指。他们的光辉著述,都是宝贵的人类精神财富,构成了极富特色的广东文献群组,是岭南文化研究乃至于中国文化研究的重要材料。仅广东中山图书馆特藏部(广东地方文献中心)就收藏有广东地方文献、孙中山文献、粤人文库、东南亚华侨史料、南海诸岛资料以及清代史料、民国时期书刊等一大批史料价值高、学术性强的文献资料。其中广东地方文献和孙中山文献著称尤为丰富,现收藏有广东地方志、族谱、广东史料、粤人著述、报纸、期刊、舆图、图片等地方史料8万余种、30余万册,其中图书约6万多种,14万多册,报刊1万多种,舆图2千多种;孙中山著作、传记、评论研究、手迹、图片、唱片及有关辛亥革命资料等4000余册(件)①。这些文献资料,很大一部分都是国内其他馆稀有罕见的,在提倡信息共享的今天,有必要以数字化的形式传播。而散藏于省外的广东文献也为数不少,本省学者借阅不便,也有必要组织力量,进行数字化,以利阅读与研究。

二、广东文献数字化的意义与作用

1.广东文献数字化可有效保护珍贵文献。传统纸质文献的大量阅读必然或多或少造成损伤。许多广东文献年代久远,其状态岌岌可危,即使是民国的图书报刊,也多是或纸质脆化,或断线散页,翻阅稍有不当,便会带来无法挽回的损害,亟需加强保护。而一味地提高借阅条件,设置借阅障碍,以减少借阅带来的损伤,又违背图书馆文献收藏的初衷。怎样才能两全其美?一个最佳的解决方案就是,将这些广东文献数字化,向读者提供数字化的版本,则可减少对原件的借阅,既保护珍贵文献,又不影响读者的阅读和研究,诚为一劳永逸。

2.广东文献数字化便于存储、阅读与共享。数字化文献利用计算机技术进行存储,占用空间很小,一块硬盘,即可存储G级数据、数以万计的书籍。而电子数据的复制、传播非常便捷,较之以往纸质文献的扫描、复印、影印,都方便得多。且可利用网络进行远程传输,提供方便而及时的文献服务(必要时,可以收取适当的费用),这样异地读者可以足不出户,可以获取相关的广东文献资料。文献资源利用更加频繁,充分发挥了其价值,客观上也省去了读者来往交通的时间、金钱,节约了大量的社会成本,同时提高了研究效率。

3.广东文献数字化有利于岭南文化的传播与研究。岭南文化的核心是敢为人先、天下为公、开放多元,广东文献的数字化建设,与岭南文化的理念颇有异曲同工之妙。广东文献研究和文化研究不能光靠省内学者,而是要面向全国乃至世界。数字化后的广东文献,其传播与共享方式突破了空间与传统介质的限制,具有传统文献载体无法企及的便捷性与发散性,直接面向受众,而不是资料独享,有利于打破阅读壁垒,将广东文献迅捷地传播开来,既可使海内外众多研究者快速获得大量文献资料,进一步拓宽研究的范围,提升研究的水平;又可以带动数字化广东文献上所承载的岭南文化、岭南人自信、包容与开放的心态向全国乃至世界辐射传播,扩大岭南文化的影响力,将岭南文化发扬光大,将岭南精神彰显无遗。

三、广东文献数字化所需的条件已经具备

1.文献数字化技术已经成熟。

经过多年的探索与发展,时至今日,文献数字化技术已经相当成熟。电子古籍的扫描与制作方面,“中美百万”可谓其代表。2000年12月中美两国计算机专家共同发起了“中美百万册数字图书馆合作计划(China-US Million Book Digital Library Project)”。该计划由中美两国共建达百万册中英文图书的数字图书馆,以提供便捷的全球可访问的全文图书浏览服务。与中国高等学校文献保障体系(CALIS)一起,构成中国高等教育数字化图书馆的框架。同时项目名称定为“高等学校中英文图书数字化国际合作计划”(英文简称CADAL)。百万册图书规模的数字资源建设主要服务于高校的教学和科研,同时兼顾到民族优秀文化遗产的保存与传承。截至2007年10月,该数据库里有古籍190405册、民国图书114202册、民国期刊6578册、现代图书401550册、学位论文136098册、绘画3427件、视频69种、英文44338册②。 文献数据库建设方面,上海人民出版社和迪志公司出品的文渊阁《四库全书》全文电子版、爱如生公司的《中国基本古籍库》可谓佼佼者。前者可收书3千多种,可实现7亿字的全文检索,后者总计收书约16万卷,版本12800多个,全文约17亿字,影像约1千万页,拥有强大的检索系统、完备的功能平台和灵活的纠错机制,可通过多条路径、采用多种方法进行快速海量检索,可轻松实现古籍浏览、校勘、标注、分类、编辑、下载、打印的全电子化作业,并可随时进行软件升级和数据更新以确保在持续改进中日臻完善③。总之,各种方式的文献数字化技术已经日臻成熟,广东文献的数字化建设在技术上没有太多的难题。

2.广东省财政可为广东文献数字化提供必要资金保障。

文献数字化建设需要必要的资金、经费支持,主要是三个方面:一是购置设备所需费用,如扫描仪、相机等。二是劳务费,从事规划、扫描、制作的工作人员报酬。三是底本费或信息费。使用某些图书馆、博物馆的文献资料,照例会要求付给一定的费用。这个费用应作统一规定,或统筹之后适当减免,或以交换文献的方式抵充。数量众多的广东文献,要全部实现数字化,必须有足够的财政、经费投入作为支撑。广东处于中国改革开放的前沿,三十年来经济持续繁荣,社会各项事业蒸蒸日上。近年广东省国民经济持续、快速、健康发展,综合经济实力连续多年居全国前列,生产总值、社会消费品零售总额、工业增加值、居民储蓄存款、税收、财政收入、全社会固定资产投资额、货运量、科技发明专利申请量等重要经济指标均居全国第一。据《关于广东省2011年度省级预算执行和其他财政收支的审计工作报告》,2011年“省级预算执行和其他财政收支情况总体较好,省级财政收入1220.86亿元……加上上级补助、下级上解、债券收入、上年结余(结转)、调入资金等,省级财政总收入3479.83亿。”④在创建经济强省的同时,广东省也在争创文化大省,不断加大对科教文化方面建设的拨款力度。所以广东文献数字化建设所需的相关资金资金、经费完全可以保证。

3.大型文献数字化项目可提供宝贵经验。

除上述“中美百万”项目外,国内外不少大型文献数字化项目都已成功组织多个部门,汇集各方资料,建设海量文献数据库,可以为广东文献数字化建设提供宝贵经验。如“IDP”(international dunhuang project,国际敦煌项目),“是一个开创性的国际性协作项目,目标是使敦煌及丝绸之路东段其他考古遗址出土的写本、绘画、纺织品以及艺术品的信息与图像能在互联网上自由地获取,并通过教育与研究项目鼓励使用者利用这些资源。”⑤它整合了中、英、法、俄、日、德等多国文献资料,截止2009年10月7日,已存储并开放247712幅图片资料,极大地促进了国际敦煌学的发展。又如爱如生系列数据库·地方文献系列中的《浙江文献》数据库,网罗浙江区域相关之历史文献,包括记述浙江历史地理之史籍志书,以及历代浙江籍贯人之著述和在浙江建功立业人之著述,共计800种。每种皆据善本制成数码全文,附以原版影像,配备可以进行条目检索、全文检索、高级检索的快速检索系统和可以进行版本对照、标点批注、分类收集、编辑下载、原文打印等作业的功能平台,为浙江文献研究提供了重要的资料保证⑥。此外,许多图书馆及高校藏书都已经数字化,如国家图书馆的部分方志、上海图书馆的部分善本古籍,都通过拍照等方式数字化,读者可在其网站浏览阅读,美国哈佛燕京图书馆、日本东京大学、早稻田大学等高校的古籍,都已经制成电子扫描本,发布于网站,可供读者方便获取。以上皆可为广东文献数字化建设提供借鉴。

四、广东文献数字化的具体方式

一是键盘输入,形成文本。将文献内容,逐字通过键盘录入,其优势是以文本方式存储文献信息,一是形成的文本可方便进行复制等操作,二是所需存储空间较小,三是检索非常方便,可以逐字检索,查全率、查准率高,且检索速度快。但此种方式有明显的缺点,一是转换速度较慢,需要大量人力投入,二是录入过程中会有较多的文字错误,需要较大的校对工作量。三是不能保留文献的原貌以及原文献的字体。这种方式比较适合一些部头较小的广东文献,或散见于大部头典籍中的单篇广东文献。

二是图像扫描后制作成电子古籍。将每页纸质文献用扫描仪扫描成图片格式保存,再合并,制作成PDG、PDF或DJVU格式的电子书籍,既可方便复制、传输与阅读,也可保护纸本文献。中美百万等已经大量运作,某些电子文献爱好者个人也可制作,比较方便易行。大量的岭南文献可通过这种方式化身亿万,出现在省内大小图书馆,乃至于供省外、国外机构使用。采用图像格式的优点是可以再现其原貌,制作技术相对简单,制作成本相对低。缺点是占用存贮空间较大,影响传递速度,不过随着存储技术、网络宽带的发展,这些问题将逐步解决。大多数广东文献,尤其是难以识别的手写体文献、图表较多的文献都适合采用图像扫描的方式完成数字化。

三是图像扫描后OCR识别。先以图像格式保存数字化文献,并通过OCR转换成文本形式,并编制自动索引,辅以人工标引。尤其是全息文件技术的发展,以文件格式保存数字化文献,能够较为全面地将印刷型文献的内容、版面版式信息都体现出来,可完成自动标引,并提供读者摘录功能,具有很强的优越性。缺点是制作难度很大,主要原因是各种文献字体不一、大小迥异,扫描后难以识别,且古籍中用字复杂,异体字、繁难字难以纳入普通字库,所以制作过程中非常容易出现讹字,处理不好,文献价值大打折扣。采用铅字印刷的清末、民国广东文献和刻印比较工整、字体比较规范、易于识别的明清刻本,比较适合采用这种方式实现数字化,但后期的校勘复核工作需尤为仔细。

四是将多个文本整合成数据库。通过OCR技术转换大量文献后,精心校勘,可按各种目的,整合成各种数据库,能够实现全数据库的单字检索、组合检索,如陕西师范大学历史文化学院袁林、张宇等开发的《汉籍全文检索系统》,可实现千余种图书的全文检索与组合查询,复制也很方便。而文渊阁《四库全书》全文检索版则更是典范之作,可实现7亿字文献的全文检索,非常便捷。这种方式是文献数字化的最高境界,也应是广东文献资源数字化的方向,目前广东的历代方志可以再全文扫描识别后,制成广东方志数据库;也可以整合部分民国图书、报刊,制成民国文献数据库。

五、广东文献数字化的具体流程和要点

1.摸清家底,拟定目录,避免重复。需将广东文献的具体情况先掌握清楚,具体可以《广东文献综录》⑦为基础,再增加该书未收的报纸、期刊、碑帖等文献。其中有些广东文献,已经有数字化版本的,则不必重复劳动。如收入《四库》系列丛书(《四库全书》、《续修四库全书》、《四库全书存目丛书》、《四库禁毁书丛刊》、《四库未收书辑刊》等)的粤人著述,都已有PDF或DJVU格式的电子版,不必再重新数字化。又如屈大均编《广东文选》、明万历邹守愚刻本翁万达《东涯集》等,已收入《北京图书馆古籍珍本丛刊》,已有电子版,则不必重复劳动。凡此,皆需专人对网络已有传播的广东文献作详细调查,届时可避免重复劳动,这样事半功倍,既能加快速度,又可节约成本。

2.精选内容,分清缓急,按期进行。广东文献数量众多,具体数字化操作时,如果没有统一规划,而是随机扫描、制作,必然杂乱无序,不成体系。所以分清轻重缓急,制定分期规划很有必要。具体原则应有两个,一是重要性原则,二是稀缺度原则。具体说,首先要精选出影响较大的、使用比较频繁的、具有代表性的特色广东文献,优先扫描、制作、数字化,这样短期内即可初显广东文献的概貌。另一方面,部分广东文献非常稀缺,存世量极少,可以同时优先数字化。可先珍稀本、后易见本;先善本,后普本。往往普本存量较大,各地图书馆多有收藏,查阅相对方便。而善本、珍本、稿本、抄本等,存世数量较少,甚至仅有孤本行世,弥足珍贵,读者查阅、研究不便,应优先进行数字化,以便化身亿万,既保护文献原本,又满足读者借阅与研究需要。分清轻重缓急后,根据不同选择,安排数字化的先后次序,制定具体时期,有条不紊地进行,可以充分满足社会需要,既有鲜明的广东文献特色,又能面向全国、全球,有步骤、有计划地建设,可使有限的人力物力发挥最大效果。

3.统筹安排,统一认识,调集书籍。政府文化部分和相关机构要充分认识到广东文献数字化对于保存广东地方文献、促进学术交流、弘扬岭南文化的意义,积极牵头,筹措资金,加大投入,并协调各馆藏单位,统一调集图书。图书馆、博物馆等藏书单位要顾全大局,服从安排,不得垄断资源,而应该革除以往某些图书馆将馆藏的古籍视为本馆私有物品,甚至囤积居奇,或收取高昂阅览费的现象,方不至于妨碍文献流通和学术研究的开展,违背了公共图书馆设立的本意。当然,是调集图书集中数字化,还是分配任务,各收藏单位分别进行,需视具体技术力量和文献数量而定,收藏文献较少较为零散的单位,技术力量不足,可统一集中数字化;而收藏文献较多较集中的单位,有条件的话,可通过培训,在本馆完成,以免大规模调书造成散失与损伤。

4.认真制作,查漏补缺,实现提升。文献逐页扫描与OCR识别过程是艰巨而枯燥的任务,稍一疏忽,就容易造成漏扫缺页、误扫重复的现象,所以在制作过程中,需认真仔细,每件文献扫制完成后,要认真查漏补缺,力求尽善尽美。如人力物力充足,可以投入编辑力量,进行二次文献、三次文献的创作与组合,根据具体需要,将零散的多个文献整合成专题数据库或大型数据库,这样才能够进一步提升纸质文献的利用价值,而不是单纯的把纸质文献转为数字信息。

5.创建平台,提供下载,促进传播。最终数字化形态是电子图书或数码照片格式的广东文献,可存储于服务器中,并建立相应的网站,提供下载,并鼓励下载者发表研究成果,互相讨论、交流。如将部分广东文献制成数据库形式,也应面向互联网开放,提供远程检索功能,最好既能提供文本格式,又能提供对应的图像格式,以便检核。当然也可讲数据库制作成光盘形式,提供给相关的科研机构,以便于广东文献的研究与岭南文化的传播。

总之,广东文献的数字化对于文献的保藏、传播、共享,对于岭南文化的传播、弘扬与研究,都有着积极而深远的意义。作为经济强省、文化大省的广东,完全有能力,也有责任,积极推行广东文献数字化建设,为信息共享工程作出应有的贡献。

注释:

①详见广东省立中山图书馆介绍:http://www.zslib.com.cn/html/lib_jianjie/20081014/67.html.

②详见http://www.cadal.zju.edu.cn/Index.action.

③详见爱如生网站介绍:http://www.er07.com/article/notice.jsp?typeId=23.

④蓝佛安.关于广东省2011年度省级预算执行和其他财政收支的审计工作报告[N].见网页:http://www.rd.gd.cn/rdgz/jdgk/201207/t20120731_125789.html.

⑤详见其网站:http://idp.nlc.gov.cn/.

⑥详见http://www.er07.com/article/notice.jsp?typeId=378.

⑦骆伟.广东文献综录[M].广东:中山大学出版社,2000.

猜你喜欢
岭南文化广东数字化
岭南文化名家
家纺业亟待数字化赋能
不煲“仔”的广东煲仔饭
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
岭南文化在“思想道德修养”课中的应用
数字化制胜
广东舆情
基于岭南文化的生态意识培养策略
我们都是卑微者(组诗)