吴迎春
(南京图书馆,江苏 南京 210018)
2011年6月,美国麦肯锡全球研究院发布《大数据:下一个创新、竞争和生产力的前沿》,“大数据”成为近十年各领域研究的热点[1]。对图书馆行业而言,从图书馆集成系统到电子馆藏再到图书馆新形态的进程,见证了图书馆行业的整体发展和协同进步,表明了图书馆对大数据等信息技术与时俱进的依附性和敏感性。尤其是互联网+大环境下,公共文化事业和文化产业产生了庞大复杂的大数据,大数据正在成为推动文化服务转型的新动力,对社会治理、人民生活将产生重大影响。赋能革新的江苏省公共图书馆大数据服务平台(以下简称平台),通过自主研发和创新,有望为图书馆智慧化服务和高质量发展提供决策支撑,为资源建设做出最优化管理,为读者服务转型提供精准化和智慧化方案,力争为图书馆及文旅行业在数据开放共享和数据资源开发方面提供借鉴和思考。
我国先后出台了大数据应用的相关政策性文件。2015年,国务院印发《促进大数据发展行动纲要》,将大数据的战略意义提升到国家层面;2016年,江苏省印发《江苏省大数据发展行动计划》,推动省域内大数据开发应用;2017年,《江苏省文化厅“十三五”文化发展规划》提出“加强公共文化大数据采集、存储和分析处理”,以推动公共数字文化服务向现代化、科技化、智慧化转型;2019年,文化和旅游部办公厅印发《公共数字文化工程融合创新发展实施方案》,对建设公共文化大数据平台和文化大数据体系建设提出明确要求[2];这些文件的印发对公共图书馆大数据应用建设提供了强有力的政策保障。
江苏省公共图书馆大数据服务平台能够实现数据开放共享目标,主要分三个子系统:江苏省公共图书馆大数据馆情指标填报系统、江苏省公共图书馆业务数据采集系统和江苏省公共图书馆服务实时数据分析及展示系统。馆情指标填报系统:已填报江苏省115家公共图书馆馆情指标数据,以及115家公共图书馆下属的分馆、流通服务点和基层文化服务中心的指标数据。江苏省公共图书馆业务数据采集系统:采集Aleph500图书管理系统、力博图书管理系统、汇文图书管理系统和图创集群图书管理系统等其他系统数据,采集图书馆业务及第六次全国公共图书馆评估定级标准(省级馆、市级馆、县级馆和少儿馆)指标,采集国家共享工程、推广工程、公共电子阅览室建设工程以及江苏省级公共数字文化工程项目的建设和运行服务数据。实时数据分析及展示系统:通过大数据分析挖掘、可视化展示与接口服务,为全省各级文化主管部门提供图书馆事业发展分析与智慧决策服务,为全省公共图书馆提供读者、资源、馆情等多维度分析挖掘,以及为各馆开展精准服务、智慧服务提供数据支持与应用。如全省公共图书馆年度阅读报告、全省公共图书馆年度读者流量报告、全省公共图书馆公共文化服务年度报告。数据的资源开发和数据的开放共享也为将来供给侧、需求侧、行政管理和监督数据池的实现,进而对深层次文旅融合提供便利。
平台基础设施架构于云端,通过阿里云实施整体安全保障。采用最先进的大数据分布式集群技术架构,应用Hadoop技术作为基础的数据计算平台体系。通过数据ETL处理工具对采集的数据进行DES、MD5等加密技术后分析、清洗、转换、加载与集成,并对各资源、读者、行为等各类数据信息进行数据计算与分析[3]。最终实现大数据统计分析可视化展现,为全省各级文化主管部门提供图书馆事业发展分析与智慧决策服务。
大数据实验室平台架构组成包括基础设施层、数据采集层、数据计算平台、数据应用及展示层。
基础设施层:包含服务器、网络设备和基础物理设施等。为保障江苏省公共图书馆服务大数据平台正常运行,将主机、存储、备份、网络和系统软件等方面均构架于云计算服务上,利用云服务的稳定性强、响应速度快、安全可靠、存储方便、升级便捷等优势,为大数据项目提供最为全面的基础设施服务。
数据采集层:通过访问数据库或开放接口的方式,系统配置与不同数据来源、不同存储形式接口的资源和管理数据访问适配方式,运用ETL工具进行数据的抽取、数据质量的净化、转换以及最后的数据加载处理,此过程中需要对系统涉及的基础元数据内容进行事先的整理与维护,为后续数据管理与转换等工作奠定基础。
数据计算平台:数据采集后,会在数据仓库工具Hive中为每个图书馆创建一个与其提供的数据库表结构完全相同的Hive库,和原始库形成一个镜像。把原始库的数据导入到相对应的镜像Hive库后,在脚本中通过SQL查询出需要的字段数据,并将查询的结果存入Hbase的一个临时文件中。然后提取临时文件进行清洗,并对各类数据信息进行数据计算与分析。将清洗完成的数据保存到每个图书馆原始库相对应的中间库中,最后将所有图书馆中间库数据汇总到大数据汇总库。对存储的大数据汇总库内容以及填报系统数据内容,根据业务主题等进行多维度数据分析与挖掘。
数据应用及页面展示层:系统对数据挖掘采用数据推荐与挖掘算法进行优化调整,对用户群体属性、读者行为和业务主题进行多维度考虑,实现对资源、读者、流通等数据以及馆情指标数据进行关联分析、个性化分析和多维数据分析与挖掘。利用可视化的界面交互方式,提供数据分析结果和查询内容的展现。包括面向Web、移动展示以及大屏幕多种呈现方式的结果内容展示。
公共图书馆在运营过程中产生各种各样的复杂数据,主要有以下三种:一是管理数据,除了实名认证的读者数据,还有微信、微博、微视以及客户端的用户数据,图书馆内各端口采集到的人流数据,公共图书馆整体运营、服务、发展数据等;二是资源数据,馆藏资源(纸本图书报刊、音像制品、电子资源和其他资源)、自建资源、外购资源、国家专项资源等;三是业务及服务数据,包括图书馆在日常中产生的各类业务统计数据,馆内外举办的读者活动数据,读者访问、检索、借阅服务以及各服务端口产生的服务数据等[4]。
采集全省公共图书馆及基层服务点的基本数据、馆情数据、业务及服务数据,而现实中这些数据依附于不同的平台、存储在不同地方、归属不同部门,导致数据汇集困难,通过建立省级公共图书馆大数据中心有效解决这个问题[5]。首先,开发支持抓取系统数据的软件工具,支持实时或定时、全量或增量采集数据;数据采集对原数据库、原始数据不作任何改动且不得影响原系统的运行性能、安全性和稳定性;其次,在数据采集传输的过程中,需要保证数据的安全性、完整性,不可篡改性,而且高效到达大数据中心。除了行业数据,也要对公众社交数据、互联网舆情数据,产品反馈数据以及市场监管等数据进行采集分析评价;最后,根据目标要求,对采集的数据进行综合性处理。
依据业务需求进行针对性的开发处理:一是开发业务统计分析系统。支持分级分主题统计权限控制,能针对单个图书馆、指定区域内的图书馆群进行统计分析,满足各级文化主管部门、各级图书馆管辖范围内的统计分析需求;支持通过可视化界面定制和展示统计分析结果,统计至少包括保障、读者、资源、服务等几大主题指标体系;支持统计结果的移动端、大屏端、HTML5等可视化展示;二是提供第三方应用开发所需的各类标准数据接口(API)服务平台,满足全省读者认证服务、全省文献馆藏(书目)数据服务、全省服务大数据分析等应用服务的开发需求。数据接口支持敏感数据(照片、身份证、手机号、密码等)的加密传输和模糊化处理,以保护个人隐私和数据安全;三是对接江苏省智慧文旅平台,以数据为支撑,推动文旅的深度融合,丰富文化内容,创新文化产品,满足大众对文旅的新需求。
依托平台建设,充分利用图书馆大数据的挖掘、分析、展示和服务,驱动图书馆服务转型发展。
转变服务主客形态,将服务由被动转为主动。一方面提供公共图书馆大数据分析及展示服务:一是发布实时数据,实时提供全省公共图书馆运行服务数据,供各级主管部门、图书馆在大屛、移动终端、门户上进行大数据发布,如客流量、外借量、办证量等数据;二是事业发展报告,按月、季、半年、年发布江苏省公共图书馆主要业务指标统计分析报告,主要业务指标包括面积、人员、经费、馆藏文献、读者数量、到馆人次、文献流通和读者活动等;三是业务分析报告,提供全省文献资源、读者和服务的多维度深度分析报告,包括全省、单个地区和单个图书馆为对象的总量分析和趋势分析报告,多个地区之间、多个同等级或同类型图书馆之间比较分析报告。借助大数据分析报告,助力文化主管部门和图书馆对事业发展作出科学决策。目前,上述的实时数据、事业发展报告、业务分析报告都已开发完成,成果已提交给文化主管部门和相关机构。后续将根据反馈的意见或要求,实时调整,及时满足服务需求。另一方面大数据是文化发展的资源,是创新驱动的底层器件。要真正实现在政府、图书馆、社会公众之间的共享。需要通过权威平台发布相关的数据成果,建立标准的评价体系,推广应用成果,用大数据重构文化事业、文化产业新格局。
党的十九届五中全会明确指出要坚定不移建设“制造强国、质量强国、网络强国、数字中国”,这为图书馆高质量发展创造新环境和新机遇。柯平教授《公共图书馆高质量发展的十个新主题》文章中提出数据管理和大数据服务作为主题之一,数据机遇就是图书馆转型发展的新机遇。实验室的建设基于大数据统计分析结果、读者画像、资源画像和整体画像,为图书馆提出具体的业务改进方案,为广大读者提供个性化、精准化、智慧化服务,为文化主管部门提供决策支撑服务,助推图书馆高质量发展。主要表现成果如下:一是依据评估定级标准、现代公共文化服务体系建设等标准,帮助对应图书馆进行指标分析,寻找差距,并制定相应整改方案;二是帮助对应图书馆进行馆藏结构和读者需求分析,为完善馆藏结构和文献采购提供科学方案,包括各类图书的种、册数量比例,期刊的种、册数量比例,复本数建议,数字资源荐购方案等;三是帮助对应图书馆进行服务效能分析,寻找影响服务效能的主要因素,并提出改进方案和措施;四是为文化传播搭建高效、快捷的平台。能够弘扬优秀传统文化,创新服务方式,推动全民阅读,更好地满足人民美好生活的需求。
开放共享图书馆数据价值,为政策制定、公共服务、文化传播、社会治理等提供强有力的数据支撑,成为文旅深度融合最可靠的底层器件。一是突出区域文化旅游资源特色,打破政府、文旅企业的数据壁垒,实现对文旅产业的高效管理、对游客的高质量公共服务;二是构建文化旅游身份的认同,旅游通过数据溯源,强化文化的身份符号。文旅深度结合通俗说就是讲好故事,将文化记忆根植于旅游的行程中,使文化和旅游交融。
大数据构建是一项体系庞大、结构复杂、动态调整、多方协作的系统性工程。一方面公共图书馆在大数据建设时要依托国家政策,做好顶层设计,把握引领方向。一是响应“一带一路”政策引领,公共图书馆要勇于担当社会职能,助力“一带一路”人类命运共同体建设,发挥智治和特色资源支撑作用;二是贯彻“创新、协调、绿色、开放、共享”的新发展理念,满足群众日益增长的多层次多方面多样化美好生活需求,作为公共图书馆发展的方向和着力点。另一方面依托国家政策,加大专项经费的投入。大数据构建是一项系统性工程,基础层面投入非常大,需要专业的技术人员、多方的协同合作和大量的专项资金支持。
既采集行业数据,也要对公众社交数据、互联网舆情数据,产品反馈数据以及市场监管等数据进行采集评价。一般来说平台会结合自身的业务要求采用不同的技术组件来满足不同业务场景且具备以下能力:①多样化的数据采集能力,无论是管理数据、资源数据、业务数据,还是图片、文件、表格等多种类型数据的实时或定时、全量或增量数据采集;②支持可视化界面定制,提供开发应用所需的各类标准数据接口服务;③能够快速调整和适应不同业务场景,具备科学、合理的基础架构;④具有科学的管理体系和高效的评价反馈机制,形成可持续发展体系,保障建设维护和生命力。
公共图书馆大数据的应用,从表象上看是技术决定结局,但从深层分析,面临的挑战不仅仅是技术,而是人才和管理。人才是基础、技术是关键、管理是保障。公共图书馆中的数据来自不同平台、不同部门和不同机构,他们之间属于业务上的指导与被指导关系,不存在行政级别的上下级关系。所以就需要各相关机构、各部门树立共建共享的意识,达成规范的标准体系,形成权责清晰的管理机制。大数据项目实施要夯实配套设施如设备、环境等,提高人才要求(除了IT人才,还需要人工智能、统计分析等),提升管理者的专业水准和能力。
大数据应用越来越广泛,公共图书馆行业要结合国内外的相关规范标准,可参考《中华人民共和国计算机信息系统安全保护条例》《通信网络安全防护管理办法》和《信息安全技术大数据安全管理指南》(GB/T37973—2019)等,建立适合自身发展的安全体系,做好大数据安全管理、风险评估,有效安全地使用大数据[6]。同时在公共图书馆发展过程中,不断借鉴最新的制度标准,合理合规地调整更新,从人员、设备和制度“三位一体”确保数据信息安全。
大数据已经参与到人们生活、工作和学习的方方面面,江苏省公共图书馆大数据服务平台服务效能初显。二期项目会从跨层级、跨区域、跨行业横向和纵向业务的协同管理和服务转型,同时考虑诸如地理、气象,商业信息的融合,提升图书馆服务效能,进一步满足读者对美好阅读服务尤其是对图书馆大数据服务的需要和向往。图书馆大数据应用研究任重道远,争取实现有价值的数据开放和服务转型,提高大数据转化和使用能力,推动公共图书馆新时期高质量发展。