大数据背景下公共图书馆馆藏地方文献利用的探讨
——以安徽地方戏曲文献为例

2016-06-27 09:34王护宁
大学图书情报学刊 2016年3期
关键词:书目馆藏戏曲

侯 勇,王护宁,徐 俊

(安徽省图书馆, 230001)

大数据背景下公共图书馆馆藏地方文献利用的探讨
——以安徽地方戏曲文献为例

侯勇,王护宁,徐俊

(安徽省图书馆, 230001)

摘要:地方文献是本地历史与文化的重要载体,其中的地方戏曲类文献有较高的利用价值。地方文献开发利用的实践工作以地方文献大数据的收集、存储和处理为核心,在数据库和网络技术的支撑下,兼顾传统读者和网络读者的需要,为读者服务。

关键词:大数据 地方文献 地方戏曲 开发利用

1大数据与馆藏地方文献

1.1大数据背景解读

大数据的容量大到在有限时间内无法利用常用的工具获取、交付、管理及处理,因此需要新的整合技术,以揭示其中蕴涵的重要价值[1]。大数据背景下馆藏地方文献的利用面临着深刻变革。

首先是内容。大数据背景下,图书馆提供的文献信息内容,应减轻读者在面对大量文献信息时获得所需信息花费的成本。同时文献利用工作也面对着与文献有关的大量数据,这就需要对所提供内容有所取舍和整理,同时摈弃繁杂的表现形式。根据读者需求提供全面、系统与整合的内容。

其次是结构。大数据的一大特征是非结构化,文献利用的原材料和成果不仅仅是结构化数据(如书目),还包括非结构化数据(如全文文本、图像、声音、影视、超媒体等信息)。这引起了数据存储、处理和呈现形式的相应变化。

最后是技术。文献利用原材料与成果的变化,需要相应技术支撑。网络技术、云存储与云计算技术的进步,使得收集、存储、处理数据的过程进一步被分散,满足了之前通过现有设备无法满足的存储与计算需求,同时可保证较高的安全性。

1.2地方文献大数据的特征

地方文献是公共图书馆馆藏和服务的重要组成部分。其特征包括:(1)地域性。杜定友先生在1957年指出:“地方文献是指有关本地方的一切资料”,即本地的“史料、人物、出版”。(2)分布零散。仅从文献的题名、内容简介中很难辨认。如《中国史话:民居建筑史话》一书中,只有部分章节涉及皖南徽派民居。对此杜定友先生指出“凡有历史价值的,即‘断简另篇’,‘片纸只字’,也在收集之列”。这就要我们在收集地方文献工作中不能流于文献

表面。⑶地方文献品种多样,类型丰富。既有纸质文献,又有非纸质文献。这增加了地方文献开发利用的难度。

地方文献大数据是伴随图书馆对地方文献的搜集、存储、利用与服务过程产生的数据,包括与文献自身相关的文献数据,与文献服务过程相关的读者数据两大类。其特征有:(1)文献大数据集群化:由于地方文献内容的集群化,地方文献大数据呈现“大量集群、少量零散”的分布状态。所谓大量是关于本地著名人物及其著述、风景名胜、重大历史事件等内容的,其余少量数据零散分布在其他领域。对安徽省图书馆(以下简称“省馆”)2012年度至今入藏地方文献数据分析表明:在6641条地方文献记录中,人物传记624条,著作或相关评注、解读2317条,可见仅地方人物内容就占地方文献总量的44%左右。这种集群特性,利于通过大数据技术进行挖掘、整合,从而提炼出更有价值的信息。(2)读者服务大数据量少,但专业性强:地方文献读者,是具有明确阅读目的或兴趣范围的读者。根据2014年省馆地方文献研究室读者调查,全年研究室接待读者975人次,但专业研究或课题论文类读者大约占总量的83%。研究读者大数据意义在于:描绘地方文献范围内读者关注、研究的热点,可为地方文献馆藏建设提供参考,将文献入藏、管理与读者关注点挂钩,更好地为读者提供专业的地方文献服务。

2大数据背景下地方文献利用的策略与现状

2.1利用策略

2.1.1注重用户行为信息的收集与分析

应注重读者搜索、流通记录与近期借阅热点的收集,并对其进行分析。例如:近期读者对某地历史文献的搜索量明显增加,则应注意编制此主题的书目数据提供读者使用。或大量读者对某主题文献只存在兴趣而非研究目的,那么馆藏建设中可以购入此主题的概述、入门类文献。

2.1.2收集内容不再局限于文献信息

在大数据时代,图书馆服务并不仅有文献数据,还应利用身处信息集散地的优势,收集与本地经济、生活、文化、政治等有关的其他媒体信息。再通过去伪存真、数据挖掘、可视化分析等形成具有情报价值和决策参考价值的地方知识库,以便用户通过图书馆获得准确、及时、有效的地方知识。在大数据时代,非文献信息不再是文献信息的补充,而是和文献信息一同构成图书馆的知识库。

2.1.3重视大数据的共建共享

在大数据背景下,对地方文献数据的管理仅凭一家之力难以完成。各地的地方志办公室、档案馆等机构也会开展地方文献工作,或者是保存了很多地方文献资源。要整合这些数据资源,就需要进行整体规划协调。建立统一的数据收集平台,规范各地数据的格式与标准。只有集合了各个方面的资源,才能进一步提高地方文献的开发利用效益。

2.1.4数据与产品开发相互独立策略

数据与产品的相互独立,是指采用标准、通用的数据格式记录数据,而不用考虑数据产品开发所采用的具体技术。这样可以:(1)搜集数据时保证数据格式的统一;(2)可以保证数据质量与产品质量不会互相影响,在出现问题时利于定位和解决;(3)在针对不同读者进行不同产品开发时,保证数据可被多次利用而不用重复录入。

2.2利用现状

根据对国家图书馆、17家省级和3家市级公共图书馆地方文献开发现状的调查表明:目前地方文献开发的内容,集中在地方文化、馆藏书目信息与本地历史事件上。地方戏曲内容或构成地方文化数据的一个模块,或独立进行开发,在各馆地方文化类开发中占有一席之地:如南京市图书馆的江苏文化数据库中,包括戏曲家、戏曲作品、共享工程戏曲视频;浙江省图书馆的越剧专题,内容涵盖越剧发展史、越剧剧目、流派唱腔、越剧表演、越剧演员、越剧舞美等。这些地方戏曲数据库多以图文介绍、音视频类内容为主;形式以简单排列、分类导航为主。

安徽省图书馆保存该类文献共计140万余册,其中整理出的安徽地方戏曲类文献总计约400册,包含剧目10922篇。剧种方面,安徽四大传统戏曲,如徽剧、庐剧、黄梅戏和泗州戏合计6614篇,占总数的61%,另有梆剧、花鼓戏、傩剧、嗨子戏、坠子、含弓戏等剧种。文献出版年代跨越上世纪50年代至今。丰富的安徽地方戏曲类文献,构成了省馆在该领域独一无二的馆藏优势,尤其是50余册珍贵的手稿。

在文献利用上,“特色馆藏”栏目中有“安徽戏曲”专题,内容以戏曲视频资源为主,并提供视频资源的剧名、剧种、演出单位等内容,数据量213条。尚未针对馆藏地方戏曲文献编制二、三次文献,读者由于只能通过通用书目检索系统进行查询。

3安徽省地方戏曲文献利用实例

3.1安徽地方戏曲类文献利用的价值

(1)地方戏曲的价值。以徽州为例,地方戏曲是徽州文化极为重要的组成部分,它直观地反映了徽州文化乃至中国传统文化的许多特点与风格。戏曲内容大量涉及普通劳动人民生活及民俗风情,由此可以看到徽州丰富的文化和多彩的风情,对研究地方文化和历史有一定价值。

(2)馆藏地方戏曲文献的价值。当文献载体不可再生时,载体本身亦存在价值。例如省图书馆地方戏曲类文献的最早出版时间为1952年,大量上世纪六、七十年代的戏曲剧本、曲谱由于年代久远而纸质变差,且一直未有再版,更有未正式出版的手稿、油印本和钢板刻印本50余册。由于是非正式印刷,纸质和字迹退化更为明显,且不会再版,保存价值更高。

(3)为读者提供的大数据整合服务。作为对文献的再加工,开发利用过程除了对原始文献信息的忠实记录,还有整合、提炼以及内容间联系的构建。读者得到的不仅是原始文献信息,如黄梅戏主题页面,包括剧种简介、剧目、唱腔和表演者等内容,据此读者可全面了解黄梅戏,由于构建了数据间联系,也可以此为起点查阅相关书目、表演者的详细信息。

3.2地方戏曲文献开发的目标

地方戏曲文献开发的短期目标为建立数据库:收集、整理馆藏地方戏曲相关文献,创建安徽地方戏曲馆藏剧目数据库,并以此为基础,根据读者需求进一步开发纸质或数字产品。中期目标为扩充数据:不断增加内容,逐步添加全文、手稿扫描件、戏曲音视频、表演剧照等内容,构建以书目、剧目数据为核心,多样信息集成的综合性地方戏曲大数据。长期目标是统一地方戏曲类开发涉及的数据标准与格式,如字段类型、长度。建立全省统一的地方戏曲数据收集平台,实现全省范围的地方戏曲类数据共享。

3.3大数据的内容保障

馆藏文献大数据的利用,需将内容第一的理念贯彻始终,不宜因追求花哨形式而影响内容的呈现。文献利用工作以具体文献为核心内容,再针对剧种、剧作者、表演者等编写附加内容,如剧作者、表演者简介与代表作,剧种介绍、代表剧目等,与检索结果整合显示。文献信息与附加信息集成,使读者所得到的不仅仅是文献信息,而是珍贵手稿和其他不再版文献的收录全文或扫描件的编制数据。

在内容制作时,需要对原始数据规范化。以不改变原始数据所传递的信息为原则,规范数据、方便读者使用。例如:(1)存在同一剧种多种名称的情况。例如:庐剧文献中存在“小庐剧”“现代庐剧”“庐剧音乐”等不同表述,统一以“庐剧”进行著录;(2)存在同一剧目多个剧名。如:经典剧《天仙配》又名《七星配》;更复杂的是庐剧《红梅惊疯》,在黄梅戏中称《牌环记》,在皖南花鼓戏中称《打红梅》,此类情况在“剧名字段”中录“又名”,或是在“备注字段”中录“其他名称”,在避免漏检的同时给读者提供更完整的信息。

3.4大数据的结构保障

如上所述,虽存在书目、剧目等结构化信息,但也存在视频、扫描件等需要扩充,数据结构需要变化的非结构化数据。为深度揭示剧目、书目之间的联系,和以书目剧目信息为核心、相关信息汇总显示的需求,同时还要考虑非结构化数据内容扩展的可能,就需要有相应的数据结构来支撑。数据结构如下(斜体字为主键或表间联系字段)。

表1 数据结构

本例将文献、具体篇目、特定剧种和作者等都作为实体来处理。实体间联系通过索取号、剧作者名称等联接字段实现。读者既可通过题名、出版社等信息检索书目后查看本书所包含的戏曲篇章,也可通过剧种、表演者等信息检索剧目后查看来源文献。

通过剧种、剧作者、音视频等主题表,读者可通过分类浏览的形式浏览所有剧种、剧作者等信息。通过对主题表的扩充,可以不断增加新的主题维度,如后续增加音视频数据、扫描件数据等。

3.5大数据共享技术与开发技术保障

大数据的共建共享需要数据库与互联网技术的支撑。在数据收集上,可结合使用Access和SharePoint(以下简称“SP”)技术搭建数据协作平台。数据收集者在服务器端部署SP平台,配合IIS技术,数据提供者和用户通过多种设备来存储、整理、共享和访问平台信息,所需的只是Web浏览器。目前SP最新版本为2016,并作为Office365商业版组件,提供按月订阅服务。通过SP与后端数据库的连接,只需将数据收集网址和用户账号提供给数据提供者。数据提供者通过账号登录网页,即可进行数据填写,同时也可查看数据。作为开放的共建平台,SP可承载Excel表格、Access数据库等多种通用数据库,SP与数据之间通过ADO.NET方式连接,用户无需了解数据结构等细节。在技术条件不佳的地点,可采用直接发送Excel表格方式收集数据,结合使用数据填报说明、数据验证等功能保证收集数据的质量。

产品开发方面,传统纸质目录可直接通过Access报表方式编辑后输出。电子版本制作,可采用手工制作网页方式,在服务器上发布,供读者检索。

3.6开发成果

省馆共挑选地方戏曲类文献近400册,珍贵手稿50余册,整理、录入剧目数据一万余条、书目数据378条,扫描封面300余幅,数据总容量近800MB。新加的文献信息,会定时进行增量补充。

针对传统需求,编写纸质版书目。纸质书目分正文和索引两部分。正文提供按索取号顺序排列的文献索取号、题名、出版社等信息,同时提供所含剧目。索引部分提供按题名首字和按剧种排列两种途径。

针对数字需求,网站制作和改进工作同步进行,每个版本会根据读者反馈进行改善,目前网站内容以文字图片为主,保证正确显示的同时,注重在低配终端上的运行效率。网站总容量约153MB。读者可分别通过书目字段、剧目字段、主题浏览等检索信息进行链接互访,其中主题浏览按剧名、表演者、剧种等提供整合信息显示。

4总结

大数据技术的出现,将影响或革新图书馆的方方面面,用户的需求也将出现大数据时代应有的特点,从巨量数据中分析内在的关联和潜在的价值将成为大数据时代图书馆的重要业务。地方文献的利用是一项长期、系统的工作,运用大数据挖掘及语义分析的强大技术手段,整合地方文献信息与其他有关的地方数据,将会给用户带来智能、高效、全面的服务体验。

参考文献:

[1] Big data.[EB/OL].[2015-10-27].https://en.wikipedia.org/wiki/Big_data.

[2] 黄祖祥,俞仲英.地方文献的文化价值及其开发利用[J].图书馆,2010(2):77-79.

[3] 陈萍.地方文献的集藏和开发利用[J].图书情报论坛,2013(1):62-64.

[4] 王子舟.杜定友和中国图书馆学[M].北京:北京图书馆出版社,2002.

[5] 罗铿.地方高校图书馆专题特色数据库建设实践探讨——以“梅州客家山歌文化专题数据库”建设为例[J].河南图书馆学刊,2015(3):43-45.

[6] 杨雁.公共图书馆应用大数据的理性思考[J].图书馆学刊,2014(7):5-20.

[7] 容春琳.公共图书馆应用大数据的策略研究[J].图书馆建设,2013(7):91-95.

[8] 胡海鹰.大数据背景下地方文献数字化探讨[J].图书情报论坛,2014(6):31-33.

(责任编辑:傅正)

Reflection on the Utilization of Local Literature Collection in

Public Library under the Background of Big Data ——A Case of Anhui Local Opera Literature

HOU Yong, WANG Hu-ning, XU Jun

(Anhui Provincial Library, Hefei230001, China)

Abstract:Local literature is an important carrier of history and culture. Local opera literature has a high value. The practice of development and utilization of local literature is focusing on collecting, storing and processing of local literature under the background of big data. The combination of network and database technologies makes it possible to meet both traditional and eager demands of readers.

Key words:big data; local literature; local opera; development and utilization

作者简介:侯勇,女,副研究馆员。

收稿日期:2015-11-10

基金项目:2015年安徽省社会科学创新发展研究课题非资助项目(B2015010)

中图分类号:G252

文献标识码:A

文章编号:1006-1525(2016)03-0084-04

猜你喜欢
书目馆藏戏曲
馆藏
推荐书目《初春之城》
戏曲其实真的挺帅的
博物馆的生存之道:馆藏能否变卖?
用一生诠释对戏曲的爱
知还印馆藏印选——古印篇
论戏曲批评的“非戏曲化”倾向
戏曲的发生学述见
介绍两件馆藏青铜器
本刊邮购书目