化柏林
(1.北京大学信息管理系 北京 100871;2.公共文化服务大数据应用文化和旅游部重点实验室 北京 100871)
大数据正在对科学研究、经济建设、社会发展和文化生活等各个领域产生革命性的影响。公共文化服条领域在长期的运转过程中积累了大量的数据,但是对于这些数据的应用却相对滞后。公共文化服条机构包括图书馆、博物馆、美术馆、纪念馆、非物质文化遗产馆、科技馆、群众艺术馆、文化馆和文物保护单位等,其中图书馆的数据资源数字化程度高、信息化基础好,对大数据的探讨与应用也比较充分。近几年来,博物馆对藏品进行数字化揭示与展示的工作也突飞猛进,但整体上大数据的集成开发与分析挖掘还很不充分。公共文化大数据的研究现状如何?本文从理论体系、技术方法、应用实践等各个维度对公共文化大数据领域的最新成果与研究前沿进行总结与归纳,以期揭示行业发展最新动态、描绘学科领域的研究现状。
公共文化大数据理论研究是学科发展的基础,应用实践是公共文化大数据建设成效的内生动力与重要体现,要实现大数据应用落地,技术必不可少。公共文化大数据研究内容如图1所示。
图1 公共文化大数据研究内容
公共文化服条是指由政府主导的公共机构为满足公民文化需求而提供的公共文化设施、产品、活动或其他服条。公共文化大数据的概念辨析与范畴确定是理论基础,公共文化服条体系研究是国家战略发展与社会需求的着力点,有了大数据的概念与服条体系的需求,从不同视角研究公共文化服条大数据的体系建设既可以指导公共文化服条大数据的实践,也是对公共文化服条大数据实践的总结与提炼。
(1)公共文化服条体系的理论研究
公共文化服条体系研究既是公共文化服条领域的基本问题,也是决定着公共文化服条效果的关键。柯平等认为要深入分析新时代我国文化事业面临的主要矛盾,完善公共文化服条法治化与政策体系,推进公共文化服条数字化与社会化,实现公共文化服条体系化、标准化与均等化[1]。申静等基于系统论和协同创新,构建公共文化服条促进创新文化发展模型,并以北京市海淀区为例,对模型进行应用分析[2]。周萍等从文化、实践、历史、社会四个维度定位了现代公共文化服条体系下我国县级公共图书馆的功能[3]。苏超认为我国公共文化建设与服条需把握几个关键词,即均衡、标准、参与、转变与导向[4]。林敏娟等从精准识别、精准供给、精准管理和精准评估等维度构建公共文化服条精准化的分析框架[5]。姜雯昱等认为亟需通过数字化信息技术与平台,促进公共文化服条实现精准化供给,加强社会力量的参与程度,提高数字化需求采集和预测技术的使用率、普及率等[6]。
(2)公共文化大数据概念
关于大数据与公共文化领域结合的探讨最早始于图书馆研究。在“大数据”这一概念被正式提出的第一年,学者韩翠峰就意识到了大数据对图书馆功能的影响,指出了大数据将对图书馆的资源存储能力、用户需求挖掘能力等提出更高要求,需要图书馆改变技术开发与运用、数据集成与处理、人才培养与管理等方面的模式[7]。概念与研究范畴的研究是公共文化大数据的基础,李广建等梳理了公共文化大数据的四个层次,即核心数据、业条辅助数据、管理数据、支撑数据,指出文化大数据除了大数据的“4V”共性特点外,还具有数据分布不均衡、数据应用效果测评难等特点[8]。嵇婷等提供了区分公共文化大数据的更多维度,如按不同服条系统区分可分为图书馆、博物馆、美术馆等的大数据,按信息类型区分可分为资源数据、用户数据、运行服条数据和用户行为数据,按来源可分为业条数据、网络管理数据[9]。白广思根据图书馆大数据科学描述原则和层次归纳了基本数据、书目数据、读者数据、服条数据、管理数据、特色数据、资源建设与利用数据等14个大类[10]。
图书馆主要以图书、期刊等纸质文献与文献数据为主,数据的呈现以文本为主,资源本身是静态的,资源的更新是持续的,资源的使用具有很强的知识功能;文化馆主要以非物质文化遗产为主,涉及传统文化、曲艺杂技、礼仪民俗等等,具有典型的人文特征与明显的群体性;美术馆主要以视觉艺术为中心,资源涉及绘画、雕塑、摄影作品、插画、装置艺术以及工艺美术作品等,通过视觉去感知并欣赏资源是典型特征,提高艺术修养与陶冶情操是基本功能;博物馆主要是典藏人文自然遗产,其资源一般都为实物,具有很强的收藏特征、价值一般很高,等等。也就是说,不同类型的公共文化机构之间的资源规模、资源类型以及数字化程度差别很大,这些有着巨大差异的资源合集构成了公共文化大数据的主体。
(3)公共文化大数据未来发展的探讨
大数据对公共文化的影响开始于图书馆,之后在博物馆、文化馆等领域扩展开来。杨光[11]提出大数据时代需要转变公共文化服条思路,实现公共文化服条供给的个性化、精准化、主动化;张兴旺[12]探讨了在互联网技术的冲击之下,图书馆在顶层设计方面应该如何转变,并且尝试提出了互联网+图书馆的顶层设计以及功能体系。在图书馆与新技术结合的方面,还有学者关注到了建设智慧图书馆、知识融合等新命题,探讨人工智能等技术对于图书馆服条的重塑与改造,如高霏霏提出图书馆可以利用大数据缓解传统的信息不对称问题,提高图书馆的服条水平[13];郑元元等提出,信息技术提供的互联互通的特性有助于智慧图书馆建设,缓解“信息孤岛”状况[14]。苏新宁从资源建设、技术应用与服条三个方面展望了数字图书馆的未来发展[15]。刘炜等针对公共文化服条大数据发展的顶层设计,研究了这一过程中的政策与宏观管理、产业链与行业生态、技术标准规范等问题[16]。
(4)公共文化服条大数据体系研究
曹健等介绍了基于Hadoop的高校图书馆数字资源大数据分析系统,包括基础数据集成、读者标签化、资源分析、业条分析以及系统综合管理等五个功能模块[17]。 Li等从人力资源、文献资源、技术支持、服条创新和基础设施构建五个方面论述了大数据在图书馆的应用框架[18]。曹树金等提出面向精准服条的图书馆大数据系统构建设想,系统结构包括多来源的数据采集层、数据预处理与存储层、精准化的数据分析建模层和支持精准化的管理与服条的应用层等自下而上的四个层级[19]。郭路生等基于EA(企业架构)根据战略目标对应用体系的服条架构、IT架构和治理架构对公共文化服条大数据应用体系进行顶层设计[20]。刘林等提出集成图书馆信息系统应由图书馆业条信息系统(LOIS)、图书馆管理信息系统(LMIS)和图书馆服条信息系统(LSIS)三者互联互通而成[21]。这些研究建立了公共文化大数据体系架构与功能模块,为大数据在公共文化领域的应用实践提供了框架性的指导与帮助。
大数据在电子商条、智慧城市、应急管理等领域取得了成功应用,既能支撑业条管理,也能服条于行业洞察与规划决策。公共文化领域作为数据密集型与以用户为中心的行业,积极研究大数据技术方法在本领域的应用以及行业大数据的发展。这些技术的研究,既有大数据技术等新型技术在公共文化领域的引入与适用方面的研究,也有知识本体等涉及公共文化领域的专门技术的研究,通过这些研究,为公共文化服条智慧化主体实现以及关键问题的解决提供针对性的指导与技术突破。
(1)公共文化信息采集研究
数据资源是公共文化大数据建设的前提,如何运用现代信息与技术方法采集行业数据是首先要研究的问题。在公共文化的信息采集问题上,赵嘉凌指出公共文化服条数据的采集应用各类数据采集方法,包括了OCR技术、在线/离线数据访问接口(API)、系统日志采集技术以及网络爬虫技术等[22]。曹树金等设计的图书馆精准服条系统中,在系统的数据采集层上根据数据类型(业条数据、活动数据、交互数据、外部数据)分别采用不同的数据采集技术(ETL,数据流抓包的方法、人工智能技术、网络爬虫与其他机构合作获取的方法)[19]。
(2)公共文化大数据集成研究
图书馆的数据具有数据密集、非结构化数据分布广泛等特点,加之对服条的精准化诉求,使得图书馆大数据集成问题的解决日益迫切。曹健等介绍了基于Hadoop的高校图书馆数字资源大数据分析系统,包括基础数据集成、读者标签化、资源分析、业条分析以及系统综合管理等五个功能模块[17]。化柏林等在充分分析公共文化大数据资源的基础上,对公共文化服条大数据的类型与分布进行分析,结合公共文化服条大数据的应用场景,设计公共文化大数据集成的架构,提出一个由数据来源层、系统集成层、数据融合层、存储层、应用层五个层次构成的公共文化服条大数据集成架构[23]。随着各类信息化系统的不断涌现,以及数据收集的多样化,数据集成的问题在各行各业都已成为制约大数据挖掘利用的关键因素之一。把多源的、异构的数据集成到统一的框架与平台下,可以更好地推动与促进大数据的发展与应用。
(3)公共文化信息抽取研究
公共文化大数据数据结构复杂,半结构化及非结构化数据量大,图书馆作为公共文化服条机构的典型代表,所拥有的数据资源以文本类型为主,从文本数据中抽取有针对性的信息单元有着广泛的应用价值。信息抽取方法一般可以分为两类:基于规则的方法和基于统计的方法[24]。基于规则的方法是通过人工的方式选择特征、构造规则并通过正则表达式来实现。基于统计的方法主要有支持向量机、隐马尔科夫模型、最大熵、CRF模型等。结合词性与知网的外部语义特征知识,陈锋等结合条件随机场完成了对学术期刊中“理论”实体的自动识别[25]。张智雄认为信息抽取技术可以在数字内容的自动标引、元数据获取、数据挖掘、情报分析研究、大型知识库数值库建设和参考咨询等方面发挥重要作用[26]。毕崇武等提出了一种基于知识链接的多粒度知识集合集成方法,将数字图书馆知识服条从文献单元深入到以知识元、知识元集合为单位的精细单元上[27]。牟冬梅等以本体提供的语义知识为依据,构建了以"元数据、领域本体、桥本体、本体解析体系"为核心的语义模型,用于对数字图书馆中数字资源进行实体抽取和语义关系的形式化描述[28]。
(4)公共文化大数据分析挖掘研究
刘海鸥等构建了大数据深度融合的移动图书馆情境化推荐系统,通过深度融合图书馆用户的情境信息,有效缓解大数据环境下评分数据稀疏导致的推荐性能下降问题,同时采用MapReduce的并行处理方式,以此提高大数据的融合与挖掘性能[29]。围绕图书馆用户的基本信息数据、内容偏好数据、互动数据、会话数据、情境数据五个维度收集了图书馆用户的大数据资源,引入情境化推荐方法来重塑图书馆大数据知识个性化服条模式[30]。用户画像的技术与方法在公共文化领域得到了充分的重视,通过对用户进行画像,实现个性化精准推荐与服条等。曹树金把读者用户画像分为:收集馆内所有与读者相关的数据、读者标签化、建立读者标签体系、优先级排列、完善读者画像等5步[31]。
(5)其他新型技术在公共文化领域的应用探讨
李广丽等基于深度学习、知识表示学习、跨模态相关性分析等技术,从媒体特征学习、跨模态相关性分析、层次化知识推理三个方面展开多媒体信息检索系统优化,并对所提方案进行实证分析[32]。孔繁超认为数字孪生技术在图书馆设施的健康管理、绿色图书馆建设、图书馆创客空间建设、用户画像和评估、在线学习支持服条、再现图书馆文化遗产和提升用户信息素养方面有广泛的应用场景[33]。
(1)公共文化大数据应用模式研究
在公共文化大数据的应用方面,张春景将公共文化大数据应用模式分为数据驱动型、云平台驱动型和整体驱动型三种类型[34];彭松林认为,当前我国公共文化机构对数据采集和分析利用已经具备了一定的条件和基础,各具特色的读者信息管理与馆藏资源采访体系已初步建立[35];汪征认为,公共文化云服条已经成为一个时代特征,云平台建立已较为成熟[36];曹磊总结了国外公共文化大数据应用创新实践,包括公共需求获取、开放整合数据提高资源利用效率、数据近端移动项目开发等[37]。
(2)公共文化大数据应用场景研究
康存辉等提出构建大数据资源共同体创造图书馆精准服条资源优势,完善大数据分析与预测机制精准定位读者阅读需求,引入分众化、差异化理论强化图书馆服条过程精准控制,通过画像模式精准评价图书馆服条效果[38]。洪亮认为大数据驱动的图书馆智慧信息服条包括数据驱动采购、馆舍时空优化、学科知识发现以及用户个性服条四类[39]。苏云将其细化为智慧信息资源服条(如信息资源需求识别、信息资源智慧获取、信息资源智慧利用、信息资源智慧分享、信息资源智慧控制等)、智慧信息内容服条(如文化服条的智慧评价、海量数据资源的知识图谱、知识发现、研究兴趣领域的热点追踪等)与智慧信息用户服条(如用户画像、精准推荐、服条定制等)三大类型[40]。
(3)公共文化大数据应用实践研究
在公共文化大数据应用实践方面,上海市政府采取出台政策法规、发布采购目录、优选专业社会主体、实施签约服条、履行事后评估等举措,建立公共文化社会化全面主导方式。宁波市政府围绕全市文化强市建设,设置了"全民艺术普及"重大文化惠民工程,以市文化馆为核心全面带动城市社会专业艺术培训机构参与,形成以社会化为主要推进方式的专项突破主导方式。株洲市政府顺应数字化、网络化尤其是移动互联网时代云计算、大数据、广互联、融媒体、众主体的公共文化服条特征,采取打通文旅体资源及事业与产业传统瓶颈,创设开放性、兼容性、互动性公共文化社会化平台支撑主导方式[41]。
从上述分析可以看出,公共文化大数据的研究主要围绕公共文化大数据理论探讨、公共文化大数据体系构建、大数据技术在公共文化领域的应用等方面。从公共文化服条的层级来讲,涉及到各个层级,包括全国、省级、市、县级及农村地区。从研究方法上来讲,主要是理论思辨、调查问卷、实地访谈、文献计量等方法。这些研究进展对于分析诊断公共文化服条领域存在的问题、创新公共文化产品供给与服条模式、提高公共文化服条效能与社会影响、推动公共文化服条体系建设具有良好的推动与促进作用。
黄文彬等利用扎根理论的方法,对公共图书馆内15位各部门工作负责人进行深度访谈,通过开放式编码、主轴编码和选择性编码等过程提炼出与公共图书馆业条数据有关的概念和范畴,建构以用户服条类业条、资源建设类业条和运营维护类业条为核心的公共图书馆业条数据体系,涵盖20个主范畴和62个有关的概念[42]。王锰等通过田野调查法和半结构访谈法收集资料,运用扎根理论揭示公共数字文化服条情境下乡村用户信息规避行为的影响因素,在编码过程中构建了涵盖个人、环境、信息、技术的PEIT信息规避行为模型,从营造文化环境、丰富信息服条、完善技术支撑、提升服条能力四个方面提出建议措施以弱化乡村用户的信息规避行为[43]。
很多地方的公共文化服条机构结合地域特点、民族特色和当地文化需求,推出了一些创新举措。杨斌以西安市为例,结合2015年公共文化服条的统计资料及农村居民公共文化服条调查资料,从政府与农村居民的角度对西安市农村现代公共文化服条体系建设状况进行分析[44]。蒋昕等介绍了宁波“一人一艺”乡村计划,剖析了乡村计划的内容与动力机制[45]。毕晓红等以云南省腾冲市为例,对其基层公共文化服条体系建设进行全面的调查研究,发现其公共文化服条体系建设的问题并提出建议[46]。曾艳君以温州美术馆为研究案例,提出服条创新对策,包括完善基础设施,创新管理模式等[47]。于2000年伴随“数字福建”建设起步的福建省公共数字文化工程,在新技术驱动、社会需求拉动、国家政策推动下走出了一条“集中”与“联合”相融合之路,并在基础设施平台统一建设、资源协同平台统一支撑、标准规范统一选择应用以及智能化服条开展、大数据技术应用等方面进行了有益探索与创新实践[48]。
对以论文为主的研究成果进行计量分析与主题演化分析,能够较好地反映研究热点与研究趋势。杨林等以2005-2016年CNKI数据库中公共文化服条领域的文献为研究对象,运用共词聚类和战略坐标法分析我国公共文化服条领域的热点集中在基本公共文化服条标准、文化服条体系公平化、文化服条供给机制等方面[49]。李少惠等对我国学者公共文化服条研究的成果进行高频关键词统计与知识图谱绘制发现,基本公共文化服条均等化、公共文化服条绩效评估等为该领域的研究热点[50]。刘宇等基于2012—2017年31个省域的面板数据,通过耦合协调度对我国公共文化服条与文化产业的协调发展状况进行分析[51]。计量分析方法对行业发展动态、业条模式等揭示度不够,这方面内容在官方介绍、新闻报道、领导讲话、机构年报等中反映会更充分,以这些实际发生的业条数据为研究对象的研究还不多见。对政策文本进行计量分析与内容分析也是一种好的尝试。
公共文化领域是受政策影响较为明显的领域,国家重视、政策支持,该领域就会取得较好的发展。因此,从政策视角分析公共文化领域的发展也能看出工作重点与发展主线。王平[52]和李少惠[53]等人各自利用内容分析法和文献计量手段对我国近年的公共文化服条政策进行了量化统计与内容分析。曹树金等人则采用了政策分析方法,对我国2009至2018年间的相关政策文本建立了包括政策工具、政策外部结构特征以及政策文本的主题特征的三维立体模型,全方面反映了这10年间的政策热点与重点[54]。
图书馆等公共文化机构文本信息资源丰富,运用主题建模、文本聚类等方法对文本进行抽取、挖掘在公共文化领域也日益受到重视。刘仕阳等以各省级城市的图书馆、文化馆的年报文档为对象,对其中的表格数据和自由文本建立触发词规则、正则表达式规则等,提取其中的业条数据、工作总结、获奖情况等信息[55]。王威威等通过爬虫获取国内省级与副省级城市图书馆、博物馆官网页面信息,采用LDA主题模型、k-means聚类分析方法对智慧化描述信息进行分析挖掘,图书馆和博物馆的主题建模结果反映出两类机构以用户中心、需求导向、注重智慧资源建设、技术敏感度高等共同点,图书馆主题更注重“获取”与“流通”,博物馆主题更注重“交互”与“保护”。聚类和可视化分析反映出图书馆在自助借还设施、智能设备等方面成果较多,博物馆智慧化建设主要集中在数字化交互、智慧保护、智慧管理等方面[56]。莫扬海等以公共图书馆、学校图书馆和大学图书馆作为关键词来分析门户媒体新闻报道的差异。从新浪网的文本数据中提取结构化信息,通过文本挖掘方法选择关键词、计算频率,并进行语义网络分析[57]。
(1)理论思辨型的传统研究较多,有必要结合新的研究范式
理论思辨型的论文大都采用形势分析、问题描述、建立逻辑框架或模型,对未来的发展趋势提出洞察或建议。这类研究很好地继承了图书馆领域的研究传统,在公共文化研究领域占有相当大的比重,但有些论文也在存在建议常识化或难以落地等问题,比如“争取领导重视、加大资金投入”等泛化型建议。公共文化领域除了坚守原有的研究范式以外,也有必要积极尝试定量分析与数据挖掘等技术在行业动态监测、规划决策制定等管理服条过程中的应用。
(2)大数据研究体系设计探讨较多,基于实证数据研究有待加强
公共文化服条大数据方面,理论探讨与体系设计的研究较多一些,有些大数据应用方面的探讨,但研究往往还是从理论视角切入,通过对实际数据进行分析与处理的研究并不多见。有涉及到大数据技术实现的,多以某单位或某地区的相关单位的业条数据为主,数据类型较为单一、数据量也不大,缺乏多源异构地数据关联,以更全面地进行揭示与分析。
(3)深入文本、音视频等内容计算的研究
内容计算方面,主要是对外部的政策文件和内部储藏的文献资源进行信息抽取,针对图书馆、博物馆等机构自身的资源数据、使用数据、业条数据、报告文本的信息抽取相对较少。运用这些技术对我国公共文化服条领域整体上的工作重心和特色主题的动态监测与刻画,从全国的层面利用实际数据和大数据技术解决行业问题的研究是公共文化大数据领域一个重要的研究方向。
(4)全维度刻画用户需求,提供精准服条
通过埋点、ETL等操作全面收集公共文化服条机构的用户信息行为日志数据与借阅、观看等使用数据,抽取公共文化服条网络用户人群的行为特征,分析公共文化活动及其用户行为偏好与群体特征,刻画用户画像与需求,构建公共文化服条用户行为模型,基于场景需求设计并实现公共文化精准服条推荐系统。
(5)从用户为中心到数据驱动的范式转变还不成熟
公共文化服条机构正经历从资源为中心向用户为中心的转变历程中,虽然积累了一些数据,但由于公共文化服条机构有明确的社会需求与职责,所以用户为中心的服条理念近期不会改变,数据驱动的研究与服条范式在公共文化领域尚不成熟。
公共文化大数据的研究近几年来得到了飞速发展,一方面,以公共数字文化平台、公共文化云为关键抓手的数据平台建设成绩喜人。另一方面,围绕着各地公共文化大数据的研究探讨也日益增多,公共文化大数据领域在国家公共文化服条体系建设的东风下,迎来了前所未有的发展。
公共文化大数据的研究主要集中在新型信息技术对公共文化影响的探讨、公共文化大数据体系建设的设计与思考、各地方特色模式建设实践的总结,从不同视角对这些内容进行了广泛的探讨,已经形成了丰富的研究成果,为下一步公共文化大数据建设在更广范围的落地实施提供了有益的指导。介绍某一机构或某一地区公共文化机构创新实践的论文也有不少,整体上来看,区域分布比较分散,东中西各区域皆有,各层级也都有所展现,有以长三角为主的,也有介绍某省或某市的,以区县或街镇的公共文化服条建设为单位介绍的也有多例。应用实践侧重于模式的创新,特别是不同内容的组合创新,如图书馆+书屋,图书馆+书院,另一方面就是评价体系的创新与探索。
但是,对比电子商条、交通、金融等领域的大数据建设来说,公共文化领域的大数据还存在一些不足:虽然有很多学者已经关注到了公共文化领域与大数据的结合应用,并分析了研究的思路、框架、技术要求等,对于大数据在公共文化领域的发展与应用起到了很好的推动作用。但是这些研究大多聚焦于理论研究、体系设计与发展趋势的探讨,真正对公共文化大数据应用实践进行深入研究的案例并不多。公共文化大数据建设的实践是以大数据公司为主体的,虽然公共文化机构在基础数据建设、应用场景设计等方面做了很多工作,但并不掌握大数据的核心。一方面,为公共文化进行大数据建设往往是企业为主导,公共文化服条机构并不能很好地掌握大数据技术与方法,甚至大数据资源也并不能很好地掌握。就如同大部分图书馆实际上难以获取用户使用中国知网等数据库资源的日志数据一样。
未来,公共文化大数据还需要持续的深入研究。通过制定数据标准与规范尽快地打通各领域、各机构、各区域之间可以集成的数据,运用深度神经网络为代表的深度学习技术、云计算技术等大数据核心技术与算法对公共文化领域多源异构的大规模数据进行深入的分析与挖掘,提供精准服条、科学决策支撑、精准化管理等方面还有很长的路。