化柏林 刘佳颖 王英泽
(1.北京大学信息管理系 北京 100871;2.公共文化服务大数据应用文化和旅游部重点实验室 北京 100871)
随着大数据时代的到来,云计算、人工智能、移动互联网等新技术掀起了全球经济、科技等方面的巨大变革,也对公共文化服条机构产生了不容小觑的影响。一方面,大数据技术为公共文化服条机构的海量数据采集与存储提供了可能,扩大了机构的资源存储容量;另一方面,大数据分析技术也提供用户数据的深入分析与挖掘,推动了公共文化服条的个性化、智能化进程。
在这样的趋势之下,国内一些公共文化服条机构已经在大数据的利用和挖掘方面进行了探索,出现了个性化书目推荐、大数据智慧墙、文化地图等新型服条方式;但是从整个公共文化服条领域来看,这些服条机构对大数据与机构业条的融合方式探索依然呈现出零散、模糊的特点,尚未形成系统、明确的应用方向。大数据对公共文化领域究竟有哪些影响,具体的应用场景包括哪些方面,这一问题需要进一步归纳总结,梳理出大数据在公共文化领域的应用场景。
为了对大数据的应用场景进行较为全面的研究分析,本研究通过阅读已有的相关文献以及分析自主采集整理的公共文化数据集合两种途径,从定性分析和文本分析两个角度入手,分别对公共文化领域的现存问题和大数据应用方向进行研究,将二者结合,归纳出公共文化服条大数据的应用场景,具体的研究思路如图1所示。
图1 公共文化服务大数据应用场景分析研究思路
一方面,通过文献调研的方式定性分析,总结并归纳公共文化机构存在的问题和已经出现的应用场景;另一方面,通过文本分析从公共文化数据中抽取“问题”、“大数据”的相关内容,并进行同义词扩展,再经过数据标引和统计分析,归纳问题类型和大数据应用场景的类型。最后,将通过两种方式得到的问题和应用场景分别整合,从中析取出适合用大数据解决的问题及对应的方式,最终形成公共文化服条大数据应用场景。
(1)公共文化服条大数据理论研究
关于大数据与公共文化领域结合的探讨最早始于图书馆研究。在“大数据”这一概念被正式提出伊始,韩翠峰指出了大数据将对图书馆的资源存储能力、用户需求挖掘能力等提出更高要求,需要图书馆改变技术开发与运用、数据集成与处理、人才培养与管理等方面的模式[1]。随后,越来越多的学者将大数据对图书馆的影响扩展到对整个公共文化服条领域的影响。刘炜等人则针对公共文化服条大数据发展的顶层设计,研究了这一过程中的政策与宏观管理、产业链与行业生态、技术标准规范等问题[2]。李广建等构建了公共文化服条大数据的研究体系,指出该体系应该包含理论、方法、技术、用户、应用等五个核心要素,应着重关注公共文化服条大数据的概念与边界研究、方法研究、数据集成整合研究、用户画像建模研究、精准服条研究以及发展战略研究[3]。这些研究论证了大数据与公共文化服条结合的必要性,建立了公共文化服条大数据应用的初步理论和框架,为公共文化服条大数据应用方式的挖掘提供了理论支撑。
(2)公共文化服条大数据体系研究
Li Jun等从人力资源、文献资源、技术支持、服条创新和基础设施构建五个方面论述了大数据在图书馆的应用框架[4]。曹树金等提出面向精准服条的图书馆大数据系统构建设想,系统结构包括多来源的数据采集层、数据预处理与存储层、精准化的数据分析建模层和支持精准化的管理与服条的应用层等自下而上的四个层级[5]。郭路生等基于EA(企业架构)根据战略目标对应用体系的服条架构、IT架构和治理架构对公共文化服条大数据应用体系进行顶层设计[6]。张春景将公共文化服条大数据应用模式分为三种驱动类型,包括数据驱动型、云平台驱动型和整体驱动型[7]。嵇婷等把公共文化服条大数据分为业条数据、网络数据、管理数据,探讨了公共文化服条大数据的采集、存储、分析方式[8]。苏新宁从资源建设、技术应用与服条三个方面展望了数字图书馆的未来发展[9]。
(3)公共文化服条大数据应用实践研究
康存辉等提出构建大数据资源共同体创造图书馆精准服条资源优势,完善大数据分析与预测机制精准定位读者阅读需求,引入分众化、差异化理论强化图书馆服条过程精准控制,通过画像模式精准评价图书馆服条效果[10]。曹磊总结了国外公共文化服条大数据应用创新实践,包括公共需求获取、开放整合数据提高资源利用效率、数据近端移动项目开发等[11]。刘海鸥等构建了大数据深度融合的移动图书馆情境化推荐系统,通过深度融合图书馆用户的情境信息,有效缓解大数据环境下评分数据稀疏导致的推荐性能下降问题,同时采用MapReduce的并行处理方式,以此提高大数据的融合与挖掘性能[12]。
因此可以看出,虽然有很多学者已经关注到了公共文化领域与大数据的结合应用,并分析了研究的思路、框架、技术要求等,对于大数据在公共文化领域的发展与应用起到了很好的推动作用。但是这些研究大多聚焦于理论研究、体系设计与发展趋势的探讨,对公共文化服条大数据的研究也多采用定性分析。公共文化服条大数据究竟有哪些应用场景,如何更好地分类与归纳这些场景,需要进一步探讨。
本文在借鉴前人研究成果的基础上,根据公共文化服条大数据的研究体系,参照公共文化服条大数据的采集、分析经验,收集主要公共文化机构——图书馆和文化馆的官网数据,选择数据驱动型的应用模式,抽取公共文化领域适合大数据解决的问题,并借鉴其他领域大数据的应用场景进行甄选,从而分析归纳出公共文化服条大数据的应用场景。
公共文化机构涉及图书馆、文化馆、博物馆等多种类型的实体,这些实体隶属于不同的部门,有着不同的服条对象,各层级、各区域之间的同类型机构服条水平与能力也会有较大差异。因此,对公共文化机构当前存在的问题特别是那些能够通过大数据来解决的问题,值得深入分析与探讨。总体来看,公共文化服条机构除存在传统问题之外,还面临互联网时代对其职能的新要求,产生了转型过程中的新问题。
传统问题主要包含资源、管理等方面的问题。在硬件设施方面,不少学者也注意到了在新技术应用过程中的一些现存问题,如江波等就研究了图书馆由于对RFID技术的了解不全面导致的在应用方面存在的问题,比较了多种定位方法的原理和优缺点[13]。白云超[14]、田磊[15]等探讨了在学习型社会构建的背景下,图书馆对阅读推广的职能定位以及推广体系构建等理论问题。随着图书馆服务能力的提升,文献传递、文献提供等能力进一步增强,不少学者重新对著作权保护与图书馆功能的关系进行了深入探讨。
新问题主要包含新型服条体系构建、新功能探索等。张兴旺探讨了在互联网技术的冲击之下,图书馆在顶层设计方面应该以什么样的方式转变,并且尝试提出了互联网+图书馆的顶层设计纲领以及功能体系[16]。在图书馆与新技术结合的方面,还有学者关注到了建设智慧图书馆、知识融合等新命题,探讨人工智能等技术对于图书馆服条的重塑与改造,如高霏霏提出图书馆可以利用大数据缓解传统的信息不对称问题,提高图书馆的服条水平[17]。郑元元提出,信息技术提供的互联互通的特性有助于智慧图书馆建设,缓解“信息孤岛”状况[18]。
2.2.1 数据来源
本研究抓取了省一级(31个省、自治区、直辖市,以及15个副省级城市)公共图书馆与文化馆的官网信息,并从这些信息中提取“问题”相关的数据,共得到2 851条数据,其中来自于活动信息的共2 388条,来自年报的数据有463条。范围上涵盖了省级、副省级城市的图书馆、文化馆有关“问题”描述的数据,是公共文化服条机构具体实践过程中遇到的困难与问题,对于描述全国公共文化服条领域现状及问题具有较强的代表性。
2.2.2 数据清洗与同义扩展
在数据提取的过程中,直接筛选包含“问题”语词的数据,这种语词层面的简单匹配寻找到的相当一部分数据并不是公共文化机构真实存在的问题。经过浏览和分析之后,归纳出以下出现“问题”词语的情境,将这些情境依据是否属于公共文化服条机构的现存问题,分为两类,并且在不同的情境中分析出典型的特征词作为分类依据。在分类过程中,存在两种方式:选取文字中包含属于本文情境的特征词的数据,即正向筛选方式;剔除文字中包含不属于本文情境的特征词的数据,即逆向排除方式。利用VBA编程,同时采取正向筛选和逆向排除两种方式进行清洗。经观察后发现,通过逆向排除得到的321条数据准确率更高,因此使用该方式清洗后的数据进行标引分析。
公共文化机构的现存问题还可能体现在“问题”同义词出现的数据中,利用word2vec神经网络模型得到8个同义词,分别为:不足、缺乏、短板、严重、改进、优点、整改、困难。再次进行数据抽取之后,共得到129条年报数据以及2 188条新闻数据,最终得到368条数据。
2.2.3 问题分析与归纳
人工排除不相关数据以后,从以上818条数据(年报数据326,服条数据492)中得到468条相关数据。根据前期的文献调研,公共文化机构的现存问题可以初步分为六大类,分别为:资源、服条、硬件、人才、管理以及其他,根据这六大类问题确定基础标引词,在浏览过程中根据数据内容拓展标引词,如文化创新的具体形式“文化礼堂”可以提取出来作为拓展标引词。通过总结梳理这些高频率出现的问题,将公共文化机构主要存在的问题整理,如表1所示。
表1 公共文化机构存在的主要问题
(1)资源方面:资源的采集、存储、管理效率较低
目前公共文化服条领域下的数据存在着总量庞大、种类丰富但分布不均、地域差距显著等特点,在部分公共文化发展相对欠缺的文化机构中仍存在着馆藏资源的结构性短缺,数字资源不足的问题。馆藏的累积也导致了资源管理混乱、更新不及时等问题。各文化机构仍将重点放在机构内部功能性平台建设上,在机构间资源互通平台建设方面仍有发展空间。
(2)服条方面:文化活动的吸引力、参考咨询的专业性不足
公共文化服条机构当前在内容推荐、活动举办、参考咨询等多方面都存在着个性化不足的问题,用户管理水平仍多限于用户群体分类,难以实现对每位用户的细致刻画。同时,图书馆专业咨询服条水平落后于行业咨询机构,忽视网络咨询服条的重要性,对实时咨询服条的关注力度不够,不利于提升用户体验。
(3)管理方面:经费利用模式有待提高
公共文化服条机构的管理观念落后,经费效能难以评估,大量政府投资得不到高效利用。现有管理系统对文化活动的监测、评估不足,缺乏成体系的量化评估指标。同时,经费管理没有与用户评价结合,造成供需不对口,群众喜欢的项目得不到充足的支持,而一些成效不佳的项目依旧占用资金,阻碍了公共文化机构优秀文化活动的培育和推广。
大数据时代的技术革新与管理革新为许多传统行业注入了发展的新动力,也催生出了以电子商条为代表的新领域。大数据在政府管理、电子商条、在线教育、医疗、金融等领域都有诸多成功应用,如图2所示。
图2 大数据在典型领域的应用
数据已经成为互联网电商企业的核心资产,在用户分群画像、精准营销、个性化推荐、物流快送达优化、供应链成本控制、运营数据监测、竞争环境监测等方面展现出了强大的生命力,有着诸多成功应用的案例。大数据技术对金融保险、医疗卫生等数据密集型行业也产生了较大的影响。大数据技术在金融产品与服条的精准营销、ATM投放选址、交易量化、金融产品设计、风险识别与防控、征信系统建设等方面取得显著成效。在医疗行业,大数据技术广泛地应用于实时健康监测、临床诊断辅助决策、远程患者监控、新药品研发、医保产品与风控、公共卫生管理等方向。在COVID-19全球传播时,各大数据研究所与大数据企业纷纷推出疫情地图,利用大数据实时监测疫情的动态与发展趋势。
电子商条、快递物流、智能交通、智慧管网、智能电网、智慧感知、数字化智慧社区等构成了智慧城市的重要内容。大数据在政府管理与服条的应用除了智慧城市建设以外,还包括政条流程优化,通过数据打通与流程优化实现“一站式服条、只跑一趟”,在网络舆情监控、社会问题发现、应急管理、决策方案制定、科学规划支持等方面也开始不断尝试与完善,大数据在政府管理与社会服条方面的应用越来越普遍,已经展现出了大数据的魅力。
为了提高这些应用方式的可移植性,总结出大数据技术普遍适用的应用场景,对应用场景中具有明显领域特色的内容进行剔除,把不同领域中具有相同功能或模式的大数据应用进行合并归纳,形成对领域依赖性不强的大数据应用场景,见表2。
表2 大数据应用场景归纳
从表2可以看出,大数据的应用场景包含三类:以用户为中心,具体包括要素连接、实时反馈与服条、用户画像与精准推荐等;精细化管理主要包括总体现状刻画、资源共享与整合、远程监控与实时监测、效果测评与优化等;数据化决策主要包括大数据选址、规范标准辅助制定、风险预警与防控、问题诊断分析、机会洞察发现、决策支持参考、趋势分析与局势研判等。这样的场景描述对领域的依赖程度较弱,可以应用于多个领域。比如用户画像与精准推荐既可以用在公安情报、电子商条领域,也可以应用于社会管理、图书情报等领域。远程监控既可以在工业制造、环境监测等领域应用,也可以用于远程医疗,公共文化和旅游设备的监控等。抽象出这些应用场景,再根据公共文化领域的实际特点,分析哪些应用可以在公共文化领域落地,哪些应用当前在公共文化领域实施还有困难,最终选择一些可以在公共文化领域进行大数据应用的场景。
在公共文化服条领域,部分公共文化服条机构已经在大数据应用上取得了一定的成效,如从读者荐购到“你选书、我买单”,从借书排行榜、到馆统计到大数据智慧墙展示。为了把握公共文化服条机构目前的大数据应用状况,发现应用热点,找出应用短板,更加全面地分析与归纳公共文化服条大数据的应用场景,通过对公共文化数据的文本分析,定量化概括公共文化服条领域现有的大数据应用状况。
3.3.1 抽词结果分析
首先从公共文化数据集合中提取出包含有“大数据”的文本,经过与2.2.2部分同样的处理方式,得到标引词及统计结果见表3。
表3 公共文化服务大数据应用场景
3.3.2 应用状况总结
结合文献调研和文本分析这两种方法的处理结果,发现大数据在公共文化服条领域内的应用已形成初步的思路。目前公共文化服条机构的大数据应用多处于以数据为中心的阶段,文化服条机构从自身拥有的数据出发,整合线上、线下资源,建立共享功能性平台,利用平台驱动服条升级;同时,机构对用户数据进行整合分析,提取群体文化需求特征及发展态势,作为文献采编的依据。但是整体上来说,公共文化服条机构对于大数据的应用存在范围较小、深度不足的问题。比如说,虽然机构能够根据整体数据分析公众需求,但是机构以用户为中心,提供个性化服条的能力仍存在较大的提升空间。此外,大数据应用的具体形式也比较有限,出现很多雷同,公共文化服条机构还需要继续拓宽、加深对大数据资源的挖掘与应用。
公共文化属于典型的数据密集型行业,处于从资源为中心向用户为中心转变的关键阶段,因此用户为中心的相关应用成为大数据在公共文化领域应用先行开展的尝试与示范。公共文化服条主要以政府为主导、社会力量参与的方式开展,如何运用大数据技术实现精细化管理,成为公共文化服条大数据落地的关键所在。公共文化服条体系建设是一项系统工程,已初步建立起跨部门、多层级的公共文化服条体系,如何统筹各个层面运用大数据进行科学决策,决定着公共文化服条大数据应用的制高点。公共文化服条大数据的应用场景如图3所示。
图3 公共文化服务大数据的应用场景
(1)用户、资源与场馆之间的有效连接
利用大数据技术在用户与资源之间快速的形成有效连接,在资源与场馆之间、用户与场馆之间进行快速有效连接,使得用户可以方便地快速找到相应场馆与图书、展览、文化活动等资源。通过“用户选书我买单”、网络众筹、馆配一体化等方式满足用户“所需即所得”。
(2)实时反馈与服条
通过大数据分析实现资源与用户在空间位置的高度匹配,满足用户随时随地的公共文化需求。用户通过手机APP或微信公众号里的“文化地图”,既可以在场馆内选择最佳浏览路线,避开人流密集区域,也可以查阅从当前位置到达各文化场地的最佳行进路线,实现“离我最近的美术馆在某处”等位置服条,为民众的文化需求进行导航,使百姓能够随时、随地、高效地获得公共文化服条,真正实现“无处不在,无时不在”。
(3)基于用户画像推进服条个性化、精准化
通过分析沉淀的数字资源、活动和场馆利用与参与数据,打造大数据分析挖掘和可视化平台,通过用户画像分析公众对公共文化服条的偏好、需求、使用习惯等,通过数据挖掘、分析读者的阅读历史和爱好后,结合图书馆的资源状态、服条内容进行推送。实现公共文化服条的智能匹配和个性化精准推送。
(4)设计新产品与新模式
通过对政府网站上的用户咨询、公共文化服条机构网站上的用户评论、所辖区域的社区台账、本地新闻等数据进行文本分析与挖掘,发现民众关心的热点问题与话题,探测其兴趣与需求,设计新的产品,开发新的服条模式等。同时对活动举办的反馈类数据,如报名人数、参与人数、用户评价等形成反馈矫正,根据反馈效果大致把握主体用户的文化需求水平与方向,并及时调整服条提供及活动举办的策略,提高活动举办水平,以提升用户对活动的满意程度。
(1)城市阅读分析报告
通过数据分析周期性(每周、每月、每年等)为城市出具阅读分析报告,有效引导市民阅读、对高借阅量的图书提高采购量,根据热门图书举办专家讲座或原作者分享会,举办主题相关的展览、文艺活动等;根据阅读主题分析城市科技、经济、文化创新等领域的人才分布,为用人单位提供推荐。
(2)公共文化服条现状描述
通过各地方各机构相关数据的汇总、整合与集成,对公共文化资源总量、活动主题分布与频度、用户活跃数等情况进行统计分析,总结各地方模式与特色,实时掌握全国公共文化发展最新动态,分析当前热点问题与关键问题,全面总结公共文化服条现状,探测全国公共文化发展规律。
(3)资源共享与统筹
通过总分馆、上下游等数据资源的打通与共享,加强资源的统一采购、调配与管理,减少资源的重复建设。实现资源数据、用户数据的互联互通,支持协同工作、优势互补、区域联动协同。通过资源与服条下沉到分馆或门店也使得服条更加便民化、精准化。
(4)远程监控与实时监测
大数据智慧墙展示系统,通过整合、聚类、重组、挖掘并充分揭示公共文化机构各类异构数据资源,将资源数据、用户数据、活动开展情况等在大屏幕液晶拼接屏上以时间轴、地域轴等多种可视化展示方式,将馆内的运行情况和服条效能数据呈现给管理者,供管理者实时做出管理决策。发现热点区域,分析人员密集程度,通过远程监控与实时监测,掌握最新动态并进行有效疏导。
(5)资源使用效度管理
分析并识别利用率低的资源,对图书主题、出版社、写作风格等进行分析,适当减少同类书籍的续订。分析文艺演出、展览、讲座等参与人数与时间、地点、主办机构、主题之间的关系,探寻广受欢迎的资源与活动具有哪些特征。分析资源活动的投入产出效应,加强资金管理与使用效率,提高资源使用效度。
(6)基于非填报数据进行测评定级
目前对公共文化服条机构进行测评定级主要依靠地方填报数据,填报数据会存在计算口径与统计方法的问题,某些机构会存在一些略夸大于事实的填报,另一方面,基层工作人员每次填报工作量很大。而有些数据是可以通过某些业条系统或管理系统进行直采,这样既为基层工作人员减负,也能提高数据的客观性,从而使得测评定级更加客观公正。
(1)大数据选址服条
根据借阅记录分析热点区域,根据热点区域进行城市书房选址、自助借还设备配置等规划工作,使得选址更加科学、设备投放更加合理。根据市民公共文化活动来源地分布,在参与度较高的区域增办相应的文艺演出、展览等活动,让更多的民众用最小的出行半径享受便利的公共文化服条。
(2)规范标准制定
公共文化涉及到图书馆、文化馆、博物馆等多种类型的服条机构,资源类型、用户群体、服条方式都有所不同,各类馆有各类馆的标准。对公共文化服条行业的资源建设、业条流程、服条标准等进行文本分析,抽取行业共性问题与关键技术,为专家提供更加全面的行业描述,辅助专家快速撰写全面规范、动态可调的标准,提高整体运行效率,促进行业发展。
(3)问题诊断分析
基于测评数据、各文化机构官网数据、业条系统集成数据进行分析与数据比对,对行业发展的共性问题进行抽取,对个别区域或机构的问题进行分析,挖掘数据所揭示的现象及背后的原因,对于不同机构同类问题的解决方案与成功经验进行相互推荐,借助群体智慧快速解决短板问题,提高行业整体发展水平。
(4)行业发展趋势分析
通过论文、报告、新闻、著作、测评数据等多源异构数据的融合,运用文献计量、文本挖掘等方法,分析学科最新前沿、行业发展动态,揭示学科与行业的发展脉络与最新特点,结合政策引领与社会需求分析行业发展的趋势走向。
(5)循证决策支持
通过灵活组合各层面各渠道的数据,依靠大数据分析技术发现公共文化服条的运行规律,辅助政府部门进行科学决策,实现从“拍脑袋决策”到“循数治理”的转变。为构建国家公共文化服条体系提供顶层设计、决策参考、指导实践、总结提升等服条,为公共文化服条宏观政策制定提供数据支撑、案例分析与决策参考。
通过总结领域通用的大数据应用场景并移植到公共文化领域,结合公共文化领域快速发展过程中出现的问题与大数据应用现状,总结出公共文化领域大数据的3大类15个具体应用场景。这些场景的总结与归纳对于公共文化服条领域大数据的全面落地与实现具有一定的指导与参考价值。
公共文化服条大数据只是公共文化服条机构用以优化自身服条的工具,能够极大地在技术方面提高资源、服条的质量、可获取性等,但是它并不能解决公共文化领域的所有问题,在人才、社会职能和管理制度这些更加宏观的层面上,公共文化服条大数据的应用是十分有限的。另外,公共文化服条受重视程度在各地是不一样的,公共文化服条大数据的应用场景也不是一成不变的,随着技术的发展、数据的累积与职能的转变,应用场景也需要适时调整、不断优化。