苏小雨(深圳市非物质文化遗产保护中心 广东 深圳 518000)
大数据时代下的非遗数字化建设初探
苏小雨
(深圳市非物质文化遗产保护中心广东深圳518000)
随着大数据时代的到来,非物质文化遗产(以下简称"非遗")的信息来源、数据量以及传播渠道正发生着深刻的变化,大数据技术的成熟使得挖掘非遗更深层次的价值成为可能;同时在大数据时代下,更广泛的挖掘非遗的价值和内涵也是非遗工作者义不容辞的责任;本文针对当前非遗数字化工作的现状进行了分析,以及大数据对当今社会信息化进程的巨大影响,并从三方面对大数据背景下的非遗数字化建设进行探讨。
大数据非遗数字化信息
所谓大数据其实就是用数学建模的方法对海量数据进行建模、挖掘和分析,从而发现事物的潜在发展规律以及和其他事物之间的相互关系,并对未来进行预测的方法。
大数据时代正在催生的最大技术和社会变革,是重新构造互联网,现有的互联网将从网页连接发展到数据“联接”,互联网将发展成为数据网。在互联网时代,互联网上每天都产生出海量的数据,一方面极大的拓展了人们获取信息的广度和深度,而另一方面,面对海量的数据,人们基本还是靠检索再筛选的方式来获取信息,在信息迅速膨胀的今天这种方式越来越不合时宜了,因此信息的采集、处理、传播以及展现方式必须向更高层次演变;信息共享、交流互动已经不再是目前最迫切的需求,数据的分析和整合,以及让数据更加智能,才是最大的挑战。下面通过一个非常著名的大数据分析的案例来了解什么是大数据:
2009年上半年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播时间甚至可以具体到特定的地区和州。
使用传统的信息处理方法,人们无法从数据库中检索到未来流感爆发的任何数据,但是通过对这些数据进行大数据分析,并和其他数据进行关联就能准确的推导出流感爆发的时间和地点,这只有大数据能做到,发现数据下面所暗含的本质规律,才是大数据真正的魔力所在。
(一)非遗数据的迅速增加
现代信息化技术可将非遗档案,如现场演出、历史照片、历史影像、艺术图片等编辑转化为数字化格式完整保存,甚至是鼓声、吟唱、音乐等非语言类或者某种技能和手艺等,都可用多媒体技术记录和表达。和文物档案管理不同,非遗的活态流变性决定了非遗档案的持续更新性,因此随着非遗工作的不断深入发展,会不断产生大量数据。
信息化社会的今天,人们的每项日常活动都会产生大量数据,例如在深圳,每年都会有各级非遗名录申报、传承人认定,更有非遗各类常态性宣传活动、督查及普查调研等,这些繁琐的非遗事项都会产生大量数据,如何将这些数据安全且有效的存储、管理、提取,将是摆在非遗工作者面前的一个重要工作。随着时间的积累,预计3-5年之后,非遗数据的规模将是海量级的,而且数据形态、业务模型也是多种多样的,倘若没有建立起有效的海量数据管理平台,那么将来发掘非遗数据就犹如大海捞针。
(二)非遗数据挖掘能力不足,难以发现更多有价值的内容
目前,非遗信息包括文图、音视频等数据都能够按目录完整保存,但这些数据是静止孤立的,数据与数据之间缺乏关联性,就如同一个个“信息孤岛”,很难发现其共同特征和内在联系。
例如,深圳目前建立的59个市级以上非遗代表性名录,有很大一部分都与客家文化息息相关,证明客家文化对深圳非遗有着极为重要的意义,如舞狮、舞麒麟、山歌、凉帽制作、传统食品制作、祭祀等有关项目都体现了客家文化在深圳以非遗的形态续存;但是这些非遗历史文化的共通性,传衍的规律,传承人的祖籍分布特征、性格特征,深圳非遗的客家文化和外地非遗客家文化之间的差异,以及行成这些差异的原因和其背后的政治、经济、社会等起作用的因素等,都无法分析,也难以对深圳非遗的客家文化缺失部分进行推理和修补,以及对未来非遗保护提供积极的指导意见。
(三)非遗数据互动性不足
非遗档案不同于传统档案,传统档案有着一定的保密性,而绝大多数非遗档案,其信息话建设的最终目的是保护、展现、共享、传播和传承珍贵的非遗资源。有效的将非遗数据传播出去,展现出来,并和热衷于非遗文化的群众产生良好的互动,是非遗保护工作的核心之一;近年来,非遗档案的社会需求越来越旺盛,需求者的来源也越来越广泛,既有文化遗产爱好者,也有科研学者,甚至普通群众,都渴望近距离了解非遗;同时,民众的个人素质和鉴赏力也在不断提高,他们已不再满足接收静态的图文信息,更希望欣赏音视频等多媒体资源;虽然目前非遗信息都可用文字以及多媒体形式保存,但对外提供服务的能力却很有限,一些非遗档案还处于“隐蔽”状态,不仅不为外界所知,更无法和群众产生互动。这些珍贵的非遗数据静静的躺在档案室就是极大的浪费。充分利用现有的非遗档案,对外提供丰富多彩的服务,并与群众产生良好的互动,只有这样,非遗才能得到更好的弘扬。
互联网信息化尤其是大数据的发展,为我们解决非遗信息化建设过程中遇到的难题提供了契机。大数据环境下的非遗数据建设,要以非遗相关信息的数字化处理为前提,通过揭示海量信息资源的内容和特征以及信息的相互关系体系构建规范、开放的信息资源系统,为非遗的传播、保护、研究提供强大的信息资源支撑。
(一) 充分了解非遗的信息属性
大数据环境中,非遗的数据信息应当以即时更新、海量、复杂关系模式的信息数据形式存在;非遗资源非常丰富,分为民间文学、传统音乐、曲艺、传统技艺、传统医药、民俗等十类;而描述每一个具体非遗的方式也是多方面的,包括:非遗项目的产生、发展、演变的历史过程;非遗项目标识性载体和表现形式,非遗传承人情况;非遗的实物档案,如工艺品、媒介、工具等实物;非遗的记忆档案,反映非遗活动的档案资料、文献资料;以及在网络媒介中存在的资源信息的总和。这些数据都是以信息的形式传输并汇聚在各个节点中,并且这些信息可以被搜集、分析、挖掘、检索、加工、传播。如果充分利用好非遗的信息属性,并将这些属性进行标准化描述,那么非遗将会以更清晰的形态存在。
(二) 建立统一的非遗信息描述技术标准——语义描述
由于非遗数据的多样性、复杂性,因此建立统一、标准化的规范来描述非遗信息,可极大提高海量信息的处理能力、资源共享能力以及资源被搜索、传播的能力。
为非遗建立统一的信息描述技术标准就是对非遗数据进行语义化,所谓语义,就是遵循一个统一的标准,给每一片信息赋予一个计算机都能理解的意义,这个标准的意义,用术语说就是“元数据”,也可以形象的理解为给信息贴上各种标准化的“标签”。这样数据将像网页一样,成为资源组织的单位。一个数据可以获得一个地址,还有统一的语义对它进行描述。
这样语义上的数据,就不再是一个冰冷的数字,而是一个活的“细胞”,它可以被定位,还拥有和其他数据语义一致的标签,这意味着它可以和其他数据相联,之所以称为相“联”,而不是相“连”,是因为,它们并不是像网页一样通过一个链接简单连在一起,而是通过数据之间内在的关系挂起钩来,“联”在一起。这种关系是基于数据的含义和属性产生的。对用户而言,这意味着可以从一片数据跳转到其他数据,这个跳转,依靠的不是人为的链接,而是本质关系上的联接。
当然,对非遗语义的建设并非一日之功,首先大量关于元数据的标准需要统一制定,只有通过这些计算机能够理解的语义标记,每一个数据才能和其他数据自动发生联系,整合成联接关系。因此,非遗大数据的建设,制定元数据是前提。
(三) 重视大数据时代非遗数据库和网络建设
数据库是数据汇聚、分析和分发的基础和核心,非遗数据库的建设对于非遗信息化的建设至关重要,在大数据时代,非遗信息的汇聚、处理、传播方式正发生着深刻的变化,因此也要求非遗数据库一定能够支撑上层的大数据服务;在大数据时代,数据的存储不再是单一的关系型数据表,而是关系型数据和非关系型数据并存,灵活的信息存储方式就意味着灵活的业务模型,丰富的业务展现方式以及交互式的信息。可以预计,随着数据的海量级增长,很多日常工作单靠人工已经不能完成,因此更高一级的数据分析能力,如图片智能识别、视频分析、视频智能检索等都将在非遗产业中展开。
非遗作为一种特殊的信息存在方式,其信息属性决定了非遗的保护和传承的核心就是如何充分利用各种手段对数据进行记录、处理和传播;而在大数据时代,新的思维和技术为非物质文化遗产提供了更广阔的展现平台,改变了传统信息传播的途径和方式,不仅能够使得汇聚海量数据成为可能,还能够为非遗项目和其他文化特征之间建立广泛的联系,进一步挖掘非遗潜在的尚不为人知的价值,并以丰富多彩的形式和广大群众产生互动,真正实现“人人都是文化遗产的主人”。
〔1〕宋俊华 王明月.我国非物质文化遗产数字化保护的现状与问题分析.文化遗产,2015(6):P1-9;
〔2〕维克托·迈尔-舍恩伯格 肯尼思·库克耶.大数据时代.浙江人民出版社,2013(1):P135-169。
苏小雨(1982--),女,本科,馆员,研究方向:非物质文化遗产保护,现任职深圳博物馆(深圳市非物质文化遗产保护中心)。