嵇 婷 吴 政 (南京图书馆 江苏 南京 210018)
公共文化服务大数据的来源、采集与分析研究*
嵇婷吴政(南京图书馆 江苏 南京 210018)
2015年国务院《关于加快构建现代公共文化服务体系的意见》中提出了加快推进公共文化服务数字化建设与现代传播能力的要求,并明确提出加强公共文化大数据采集、存储和分析处理的意见。以公共图书馆、博物馆、文化馆、科技馆等为代表的公共文化服务机构,通过信息化系统与数字服务平台产生了包括业务数据、网络数据、管理数据在内的公共文化大数据。确定公共文化服务大数据的来源与采集方案,挖掘大数据在公共文化服务中的应用价值是十分值得研究的课题。
公共文化服务大数据来源大数据分析
1.1大数据的概念与理解
2012年,《纽约时报》称“大数据”时代已经来临,庞大的数据资源使得各个领域开始了量化进程,并带来了人类“生活、工作与思维的大变革”[1]。大数据目前没有统一的定义,维基百科从数据处理的角度将大数据定义为“难以用现有的数据库管理工具处理的兼具海量特征和复杂性特征的数据集成”[2]。麦肯锡咨询报告将TB级以上的数据集视为大数据,而舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中认为PB以上的数据才能被称为大数据[1]。
大数据具有公认的“3v”特征——数据量大(volume)、类型多(variety)、速度快(velocity),在这之后,越来越多的人提出更多的“v”来补充大数据的特征,如价值密度低(value)、真实性高(veracity)等。当前,相关学者提出了大数据的又一个重要特征:在线(online)——指大数据是在线的、随时能调用和计算的“活的数据”[3]。数据只有共享、与其他数据产生连接才有意义和价值。因此,大数据不等于“数据大”,“数据大”可能是堆砌的“数据孤岛”,是未被激活的数据;故而,也有专家认为,数量达到TB级或PB级不是大数据的必要条件[4]。
大数据的来源包括三个方面:一是人类活动,即由人直接产生,如电子商务、通讯通信、银行交易、社交网络中的数据。二是物理世界,即物理信息数字化后产生的数据,如传感节点采集的数据、PM2.5数据、视频监控数据等。三是数据本身,如在数据的存储、加工过程中,对数据的压缩、规则适用、智能衍生等自动产生的数据[4]。
1.2公共文化服务机构及信息化概况
2015年,国务院《关于加快构建现代公共文化服务体系的意见》中明确提出“加快推进公共文化服务数字化建设与现代传播能力”和“加强公共文化大数据采集、存储和分析处理”的要求[5]。“公共文化大数据的采集与分析”作为重点课题,被国家文化部列为制定公共文化“十三五”规划的重要参考依据。
公共文化服务是指以政府部门为主导的公共部门提供的以保障公民的基本文化权益为目的、向公民提供公共文化产品与服务的制度和系统的总称[6]。我国公共文化服务的机构和场所主要有图书馆、博物馆、美术馆、纪念馆、非物质文化遗产馆、科技馆、群艺馆、文化馆(站、室)、文物保护单位等。这些机构在服务运营中,通过信息化系统不断产生数据。
公共图书馆目前信息化程度较高,对于新技术的应用相对比较及时。图书馆在20世纪九十年代就已经实现了业务管理自动化,并自建、购买各类数字资源,提供多种信息服务平台,将读者服务延伸至计算机、手持阅读器、电子触摸屏、数字电视、平板电脑、手机等多种服务终端,形成了数字图书馆服务体系。此外,图书馆还建立了一系列面向管理的信息化系统,包括自动化办公、项目管理、人流量监控、舆情监测等,保障了图书馆的高效运行。
博物馆、美术馆、纪念馆、非物质文化遗产馆、科技馆是收藏、保护和展示人类活动与自然环境的公众服务机构[7],信息化建设已经成为该类型机构发展不可或缺的内容。电子导览讲解系统、网络展览展示系统、网上数字服务平台等向公众提供多形态的展览服务。藏品管理系统、票务管理系统、观众分流和指挥调度系统、观众租用设备管理系统、自动化办公系统等实现了各机构的信息化管理。
群众艺术馆、文化中心、文化馆(站)主要负责组织开展各类文艺活动,举办培训、展览、公益性讲座等。这类文化机构信息化水平落后于图书馆和博物馆。目前,数字文化馆的建立打破了传统服务的概念,基于互联网平台为群众提供数字文化产品与服务,拓展了文化馆的服务空间。
此外,文化共享工程汇聚了图书馆、文化馆、博物馆、非物质文化遗产馆等所有公共文化系统的大中型、普及型和实用型数字资源,通过国家、省、市、县(区)、乡(街道)五级网络,传输到全国各地。数字图书馆推广工程搭建以各级公共图书馆为节点的数字图书馆虚拟网,建设了海量分布式数字资源库群以及全国性的图书馆业务工作与服务的数字平台。公共电子阅览室建设依托共享工程网络,面向基层,为广大群众提供公共数字服务[8]。
2.1按不同服务系统区分
按机构类型与服务系统的不同,公共文化服务大数据可分为:图书馆大数据、博物馆大数据、文化馆大数据、科技馆大数据、美术馆大数据、文化共享工程大数据等。
2.2按服务平台区分
按服务平台的不同,公共文化服务大数据可分为:传统服务大数据及数字文化服务大数据。传统服务大数据是指在传统服务中所产生的大数据,主要来源于传统服务的业务系统与信息系统,也包括关于机构基本情况与其他相关统计数据。数字文化服务大数据特指在数字服务中所产生的大数据,如公共文化服务网站、数字图书馆、数字体验产品、微博等平台所产生的数据。
2.3按信息类型区分
按信息类型区分,公共文化服务大数据可分为:资源数据、用户数据、运行服务数据和用户行为数据。其中,资源与用户数据是基础,当两者发生服务或使用关系时,产生运行服务数据与用户行为数据。资源数据包括机构设施基本数据,以及各类实体资源、数字资源和服务资源的数据。用户数据是指性别、年龄、学历、地区等反映用户基本特征的数据。运行服务数据指各类软硬件资源在服务时所产生的数据,如机构服务时间与服务人次、图书流通情况、各类培训和展览的开展情况等。用户行为数据指用户在接受服务时各种行为所产生的数据,如用户图书借阅、活动参与的数据,访问数字资源的行为数据等。
2.4按数据结构区分
按数据结构区分,所有行业的大数据都可以分为结构化数据、半结构化数据、非结构化数据。结构化数据是指可以用二维表结构来逻辑表达实现的数据,如关系型数据库。非结构化数据指像全文文本、各类报表、图像、声音、影视、超媒体等不方便用数据库二维逻辑表来表现的数据。半结构化数据就是介于结构化数据和非结构化数据之间的数据,如HTML文档数据。
公共文化服务大数据来源于机构信息化系统与数字服务平台,主要包括业务数据、网络数据、管理数据。
3.1业务数据
业务数据是机构内部与业务相关的信息系统所产生的数据,包括:(1)面向业务操作与流程的业务系统数据,如博物馆藏品管理系统、图书馆信息自动化系统等所产生的数据。藏品管理系统记录了每个藏品的基本信息、位置信息、参展情况、专家鉴定信息等,是业务分析的第一手数据,数据量庞大。这些数据还可以发挥更高的数据价值,如将藏品信息网络化,融合物联网技术走出信息孤岛。(2)面向用户的系统所产生的数据,如科技馆、博物馆的网络展览展示系统所产生的数据;公共文化服务机、大屏读报系统数据,等等。(3)来自公共文化服务的数据集市或数据仓库的统计或明细数据。例如,图书馆馆情数据统计系统采集了区域内所有公共图书馆的硬件设备、经费使用、人员情况、服务资源等指标数据,汇集了分散的数据源,形成区域性的数据中心。
3.2网络数据
网络数据是公共文化服务机构互联网服务平台所产生的数据,来源于电脑、手机、数字机顶盒、阅读器、触摸大屏等终端设备,包括了如官方网站、共享工程网站、数字图书馆(博物馆、文化馆)、移动图书馆(博物馆、文化馆)、官方微博微信平台、馆际互借平台、参考咨询平台、政府公开信息服务平台、公共电子阅览室平台等公共文化网络服务平台产生的所有数据。其中,共享工程、数字图书馆(博物馆、文化馆)数据量庞大,包含了各类商业数据库、自建数据库的使用数据,数据形式也比较复杂。
3.3管理数据
管理数据是维护文化服务机构正常运营的各种管理信息系统所产生的数据。财务系统、自动化办公系统产生的数据由于是孤岛信息,难以与其他数据发生关联,因此较难进行大数据应用。人流量分析系统能记录文化服务场所庞大的客流量信息,并能够利用视频分析技术、红外技术、门禁刷卡等技术分析场所内具体位置(如阅览室、展厅)的人流量甚至停留时间,是十分具有价值的数据源。此外,如博物馆商店系统、设备租借管理系统等记录了用户文化消费行为,也可用作大数据分析。
除上述三类数据外,还有一部分大数据来源于公共文化机构外部,如帖子、微博、微信等自媒体数据以及与公共文化服务相关的网站数据、市场文化服务数据。例如,用户在网络中对文化机构的舆论点评数据,都是可分析研究的大数据。需要注意的是,由于外部数据的所有权掌握在网站企业手中,因此其在实际应用中存在一定难度。
4.1数据接口
1.实验动物及分组:健康成年新西兰家兔40只,雌雄不限,空腹体质量2.0~3.5 kg,由兰州大学实验动物中心提供。按随机数字表法将40只新西兰家兔分为手术组30只和假手术组10只,其中手术组30只按治疗方法再分为高压氧脑缺血组15只和脑缺血组15只。
数据来源于不同的数字化服务平台,因此,对于不同的系统需研究不同的接口与采集方式:对于直接开放数据库接口的平台采用数据库直接采集的方式;对于开放程序接口的平台利用其API进行数据获取;对于无开放接口的平台则需进行网络爬虫技术、网页抓取策略及网页分析算法的研究。基于抓取的数据来自于不同的平台,因此需要对数据进行整合集成。
4.2数据抽取与清洗
数据抽取是从数据源中抽取数据的过程,是大数据采集研究的重点,在数据项目的实施中占有很大比重,是一切后续工作的基础。Web数据抽取、非结构化数据抽取是大数据抽取研究的一项重要内容。此后,数据还需进行包括转换、清洗、拆分、汇总、加载等一系列处理过程,以保证数据按需要采集到本地。其中,传统的数据清洗算法在面对海量数据时表现性能较低,可采用基于Hadoop的分布式数据清洗方案,进行并行清洗。
4.3数据存储方案
目前,公共文化服务行业各类型数据急剧增长,仅国家图书馆一个单位数字资源总量就达到874.5T[9],这对存储容量提出了要求。大数据形式复杂,数量庞大,且大部分数据缺乏索引,传统关系型数据库难以在合理的时间内进行存储与运算,新兴的数据存储与管理系统如各类NOSQL数据库产品,则可有效解决这一难题。当前大数据存储技术的研究重点有:针对结构化的大数据进行MPP架构的新型数据库集群研究;针对非结构化、半结构化大数据进行分层存储管理机制的研究,以及分布式文件系统、Hadoop技术的研究等[10]。
5.1数据分析技术
概括来看,公共文化服务的大数据分析可以从以下几个方向进行:
大数据的分析技术包括数据预处理技术、数据统计与分析挖掘技术。数据预处理技术主要在分析使用前,将数据进行降维、标准化、噪声去除等预处理。数据统计与分析挖掘技术指的是利用统计、回归、趋势分析、关联规则分析、决策树建模等方法,实现数据向价值的转变,是大数据分析的核心。
5.2分析方向研究
(1)人群对某个公共文化服务产品的需求倾向研究。“人群”的划分变量可以是年龄、地区、学历等易获取变量,也可以是兴趣、性格、文化场所拜访率等复杂变量,还可以是上述多种变量的非线性函数关系组合。“某个公共文化服务产品”可以泛指行业、机构,也可以特指具体的某种活动、某类数字资源等。例如,对网站上讲座资源的点击量、观看时间进行分析,分类出不同主题的讲座对大众的吸引力,进一步分析观看不同主题讲座的用户群体特征,以用于未来讲座选题及活动人数预测。
(2) 文化活动关系研究。该类研究包括两方面的内容:①关联因素研究。研究进行某项文化活动受什么因素影响及如何受影响。例如,研究访问、留言至图书馆微博公众号这一行为具体与哪些可度量因素相关,这对指导图书馆如何进行社交平台宣传具有指导作用。②行为关联关系研究。研究不同文化活动、文化行为之间是否存在某类不易察觉的隐性关系。例如,南京博物院发现,到访量超过1次的本地游客,有更大的兴趣担任文化志愿者,这就是一个关联发现,为文化志愿者招募提供了新渠道。
(3)辅助行政决策研究。大数据的信息价值除了体现在与文化产品相关的服务上,还对单位的行政决策起到支撑作用。例如,2014年,南京博物院采集了超过141万名游客的具体访问信息,分析了人流趋势,游客年龄、性别、来自省份等信息,并将分析结果用在了人流预测、服务配给决策中。此外,大数据还可以反映人群文化活动的地址分布特征,为政府文化场所选址提供决策建议。
(4)服务考评研究。某地区或某个系统的公共文化服务的影响力及社会效益如何,一直无法进行有效的定量研究。在大数据环境下,文化服务到底影响力如何、社会舆论如何、某个活动到底收益怎样,可以通过人流量数据、网络行为数据、自媒体行为反映并衡量出来。例如,南京图书馆就通过舆情监测系统,捕获所设定敏感词汇的相关网络信息,以进行服务改善。除此之外,还可以进行舆情报告、应对处置对策、舆情预警等大数据舆情服务。
5.3分析结果应用形式
一切的分析都是为了应用,所有的应用都是为了更好地提供公共文化服务。大数据分析结果的应用主要涵盖以下方面:(1)数据报表与数据可视化。包括基本的数据报表、图形报表、指标分析、趋势图表、数据图像显示等。(2)在线应用。将分析结果应用到信息系统中,提供智能检索、个性化推荐与智慧服务。智能检索,即结合分析的元数据及词表、词典等资源,对检索系统进行改进,并辅以环境信息(包括访问者的地址、访问时间等),从而改善传统检索的相关性。个性化推荐即通过分析用户兴趣,进行在线资源与活动的推送。以智慧服务为例,对用户在参观展览过程中,通过地理位置信息、行为信息、体验数据分析,为公众提供参观路线指导、展品推荐、其他展览推荐、导览内容移动下载等服务[11]。(3)离线应用。辅助各类业务决策、行政决策、服务考评,并参与到规划、开发、宣传某个公共文化服务产品的全过程。
大数据研究是一项复杂的课题,有人提出,从大数据集中熟练提取真正的知识,还需再经历十年的时间[12]。公共文化服务行业的数据基础较为薄弱,很多系统对已积累的数据的分析与应用仍未开始。未来,大数据的研究首先应当从厘清可行的数据分析需求开始,以数据建设为基础,逐步完成并实现大数据的采集与分析应用的宏图。
[1]舍恩伯格, 库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕, 周 涛, 译. 杭州:浙江人民出版社, 2012:1-8.
[2]Big Data[EB/OL]. [2015-08-30]. https://en.wikipedia.org/wiki/ Big_data#Definition.
[3]傅志华. 大数据的前世今生:大数据特征与发展历程[EB/OL]. [2014-10-08]. http://www.itongji.cn/article/100S6022014.html.
[4]IDKW图解中心. 玩转大数据[M]. 北京:人民邮电出版社,2015:7-8.
[5]中共中央办公厅、国务院办公厅.关于加快构建现代公共文化服务体系的意见[EB/OL].[2015-01-14]. http://news.hexun.com/ 2015-01-14/172381949.html.
[6]方标军, 魏大威. 公共数字文化服务体系建设研究[R], 南京:江苏省文化厅, 2014:2.
[7]文化部财务司.中华人民共和国文化部2014年文化发展统计公报 [EB/OL]. [2015-05-19]. http://www.cssn.cn/zx/yw/201505/ t20150519_1939724.shtml.
[8]李晓明, 姜晓曦, 韩萌. 数字图书馆推广工程数字资源共建共享模式探析[J]. 国家图书馆学刊, 2012(5):20-26.
[9]李雪. 数字图书馆迎大数据时代:将整合资源 提供深度服务[EB/OL]. [2014-11-05]. http://culture.people.com.cn/n/2014/ 1105/c172318-25981395.html.
[10]杨巨龙.大数据技术全解[M]. 北京:电子工业出版社, 2014:40-112.
[11]仇岩. 大数据时代博物馆动态观众服务体系浅析[J]. 中国博物馆, 2014(4):68-71.
[12]张文彦, 武瑞原, 于洁. 大数据时代的图书馆初探[J]. 图书与情报, 2012(6):15-21.
嵇 婷 女,1982年生,现工作于南京图书馆业务管理部,馆员。
吴 政 男,1963年生,南京图书馆业务管理部主任,研究馆员。
Research on Resource, Acquisition and Analysis of Big Data of Public Cultural Service
In 2015, the document "Opinions on Accelerating the Construction of a Modern Public Cultural Service System" issued by the State Council illustrates the claim to accelerate the ability of digital construction and modern communication of public cultural service, and clearly puts forward opinrions on reinforcing big data acquisition, storage and analysis of public cultural service. Public libraries, museums, cultural centers, science and technology center and other public cultural service institutions get public culture big datas including work data, network data and management data via information system and digital service. It is worth to study on making clear the resource and acquisition scheme, and mining the application value of big data in the public cultural service.
Public cultural service; Big data resource; Big data analysis
G250
A
*本文系全国文化信息资源共享工程“十三五”发展规划重点方向研究课题“公共文化服务大数据的采集与分析研究”阶段性成果之一,项目编号:WHGXFZGH-2015-0303。
2015-07-13 ]