刘金哲(国家图书馆)
2013年被许多媒体和专家称为“大数据元年”,互联网公司和其他各个行业开始纷纷投入资金和技术开展大数据的研究和应用。2015年,国务院印发了《促进大数据发展行动纲要》(国发〔2015〕50号)将大数据的战略意义提升到政府层面。目前,应用大数据进行分析预测和辅助决策较多的领域包括公共服务、商业分析、企业管理、金融、娱乐和个人服务等。[1]大数据在各行业的应用,促进了行业的融合发展和模式创新。目前,除了互联网、电商等领域有比较成功的大数据应用案例外,其他行业仍处于探索的初级阶段,实际落地还存在显著的瓶颈。因此,图书馆应从战略层面认识大数据,促进大数据与实际业务的深度结合,推动图书馆决策、管理、服务、创新能力的不断提升。
对大数据理念的认识不深入、数据基础的缺失以及管理方式无法迅速向适应大数据需求的方式转换等原因导致当前大数据解决方案很难和具体行业的实际应用深度结合。
笔者在招标与采购网以“大数据”为关键词进行搜索,仅2019年1月1日至8月21日,发布的招标信息就有8,045项,但大数据项目的实施结果却不容乐观:2016年,Gartner估算约60%的大数据项目都会失败;一年后,Gartner分析师Nick表示,实际大数据项目失败率接近85%。[2]当前,大多数大数据项目只实现了数据采集和数据呈现,如对指定数据源的数据进行抓取、汇总,再进一步根据某个场景或者主题计算变化曲线,有些基于大数据的聚合平台也只是将网络上的相关信息整合成一个新的信息源,然后以推送或者订阅的方式提供给用户。同时,目前兴建的大数据中心更多地还停留在“建机房、上设备、堆数据”的阶段,[3]很多数据中心因为缺乏运营经验而处于闲置状态,但又有很多城市仍在斥巨资投建数据中心,而无法做到真正将数据应用于服务。
丰富的数据源是大数据项目实施的基本前提。大数据项目80%的时间和经费都花在数据的准备工作上,其中多源数据的融合是最耗费资源的任务之一。随着各行各业信息化程度越来越高,理论上来说会有很多数据,但真正进行数据调研和分析时会发现数据的收集和利用、特别是高质量数据的获取是非常困难的。① 早期建设的信息化系统缺乏对过程数据的记录,或者系统管理人员缺乏对过往日志信息、数据的保存,因此,获取到的数据都是项目开始之后的数据,导致“海量”只停留在理论。② 数据增长的速度过快,保存和管理数据都超出一般运维管理的范畴,这是影响大数据项目实施成效的关键因素。③ 数据时效性差,许多业务统计数据汇集频率低,有些需要人工填写表单或者导入报表,导致大数据项目的实施效果不尽人意。
数据孤岛是大数据发展过程中面临的共性问题。不同来源的数据依附于不同的平台、存储在不同地方、归属不同部门,导致数据汇集困难、无法有效流通。首先,数据来源比较杂。一个机构通常会建设或者购买多套系统来满足不同的业务需求,这些系统一般各自独立或者以松耦合的方式存在,系统平台架构各异、功能也不尽相同,多数系统都设置了访问权限和保护措施,形成了一个个的孤岛,为数据交互共享带来了很大障碍,直接影响大数据项目实施的效率和效果。其次,收集数据标准问题。收集到的数据原始记录的格式和载体不同,导致很多数据无法直接利用,需要转化或者清洗。再者,数据归属问题。大数据项目不单是信息技术部门的职责,人事、财务等各部门都是数据的生产者和持有者,都在大数据的运筹体系中,但目前国内机构管理体系呈现条块化,数据持有者之间很难完全进行数据开放和共享。
(1)技术方面。当前数据处理的技术和工具已经落地,但数据分析尚且不成熟。数据分析以产生决策智能为目标,提取、融合、梳理多种数据源中的相关数据,将其整合成分析数据集,数据集可随数据源的变化重组、调整和更新。这些环节需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科进行交叉研究,是当前大数据项目的实施机构和服务提供方都面临的一个瓶颈。
(2)市场方面。近年来,Hadoop等大数据处理软件平台发展比较成熟且在很多项目中得到了应用,相关产业已经在美国初步形成。随着数据总量的飞速增长及市场对数据分析利用的需求,又出现了以Spark为代表的新型大数据计算平台,使大规模的数据挖掘与机器学习可以更加高效地执行。我国大数据产品市场基础薄弱,总体上以跟随为主,难以满足大规模应用的需求。部分大型互联网公司提供的产品或者解决方案相对比较落地,如阿里云的一站式大数据平台,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,可以提供数据采集、数据深度融合、计算和挖掘服务,并通过可视化工具进行个性化的数据分析和展现,但是需要捆绑阿里云并具备一定的技术基础才能使用,且这类大数据平台或者产品的价格不菲,还要根据实际业务需求进行集成和二次开发服务。
大数据项目实施过程中,面临数据存储和访问安全的挑战,可以通过建立大数据使用规范和安全标准、在数据提供访问时做好访问权限控制等措施应对。同时,大数据项目也不可避免地会面临用户隐私泄露问题。通过大数据挖掘分析用户需求,就必须要跟踪、分析、挖掘用户访问行为、使用倾向等信息,导致暴露用户自身不为“外人”所知的信息,这也是实施大数据项目时所面临的共同问题。
大数据与图书馆的结合是必然的。一是因为图书馆行业对信息技术有着其他行业不可比的敏感性和依赖性。从图书馆集成系统到电子馆藏到图书馆新形态,都是图书馆不断与新技术深度结合的产物。二是因为数字图书馆本身就是一个庞大的数据源。除了图书馆本身大量的馆藏和流通信息外,用户在访问和使用数字图书馆时会不断产生大量信息资源。
图书馆中的数据主要有以下4种类型。① 资源数据。图书馆拥有大量的由纸质图书转换的数字资源、数据库资源、声/图/视频影像资源,这些资源以及描述这些资源的元数据是图书馆大数据的重要组成部分,且增长速度较快。② 业务数据,即图书馆在常规运行过程中产生的各类业务统计数据。对这类数据进行对比分析可以了解图书馆整体服务情况和发展水平、运营状态,为制定科学、可持续发展的政策提供支撑。③ 用户数据。随着图书馆服务方式的多样化,除了常规的到馆读者和办卡读者外,还增加了实名读者、互联网用户、手机用户等服务对象,以及这些服务对象的属性特征、群体特征、社会特征等信息。④ 服务数据,主要指读者使用图书馆资源和服务的过程中产生的大量行为记录,如浏览历史、借阅数据、网站点击数据、馆藏使用情况等。
笔者在中国知网学术期刊全文数据库中以“图书馆”“大数据”为检索词进行主题搜索,截至2019年7月,共检索出3,409篇文献(见下表)。
表 2013-2019年我国图书馆和大数据相关文献
由表可知,我国有关图书馆大数据的研究成果自2013年开始增多,研究内容主要集中在大数据时代图书馆进行服务创新的必要性、大数据应用于图书馆可以改进的服务以及改进方式等,关于大数据分析技术和应用实践的研究仍然比较粗浅。综合这些研究成果,大数据在图书馆中主要有以下应用场景。① 资源整合和开放。支持结构化数据与非结构化数据的统一管理,支持跨平台、异质文档的整合,进而开放集成网络环境下的各类数字内容。② 提供决策支撑。通过大数据对业务发展趋势和水平进行分析,进而优化图书馆的业务流程,为图书馆发展规划、服务政策调整提供决策支持。③ 建立更加良好的用户体验。对读者行为信息进行分析挖掘,了解读者对资源和服务的偏好及其变化规律,进而指导图书馆提供个性化、特色化服务。④ 开展深层次的知识服务:利用大数据分析挖掘各类资源间的关联关系,形成知识网络,为读者提供可视化的知识网络服务。
受益于数字图书馆的建设成果,图书馆界形成了大数据应用的数据基础。① 开放馆藏资源并提供关联数据服务。美国各类公共图书馆、行业协会等非营利机构利用大数据开展了“数据无边界运动”等一系列的社会公共服务。如哈佛大学公布了由73家图书馆分馆提供的1,200多万种资料,并在美国数字公共图书馆中提供下载服务;[4]德国数字图书馆以1,842家图书馆、档案馆和博物馆机构为支撑,开放在线资源560万件,并通过API提供元数据的自由和免费再利用等。[5]② 开发更多符合读者需求的服务。如韩国文化体育观光部从2014年开始推动建设图书馆大数据收集、存储、共享平台,并帮助各大图书馆开发更多符合读者需求的服务。[6]
国内各大图书馆和其他信息机构已展开了大数据应用的探索与尝试。深圳“图书馆之城”基本实现了深圳市文献资源的共享和大流通,从文献外借、读者群体、阅读喜好等方面深入分析市民阅读状况,并有针对性地加强阅读引导。[7]上海图书馆基于大量流通数据和日志建设了数据仓库,在此基础上为读者制作个人阅读账单,提供个性化的年度阅读总结和指引,形成流通数据白皮书和流通分析报告等。[8]
(1)海量数据与高质量数据获取困难的矛盾。虽然图书馆的信息数据化程度较高,但仍然缺乏基础数据的规划、管理和保存机制,数据分析困难。① 图书馆早年建设的信息系统以实用和满足业务需求为主,缺乏周全的统计模块和日志记录功能,缺乏对必要数据的维护和目的性保存。② 图书馆购买的部分外文数据库由于仅能购买其检索和文献下载权限,而无法获取可利用、分析的有效访问数据信息。③ 图书馆的服务一直朝着简洁化和人性化的方向发展,因此,很难对用户的行为进行完整和精准的记录。④数据质量问题。图书馆的许多业务数据汇集频率低,而大数据项目需要对数据进行实时更新,数据收集特别是高质量数据的完整获取存在困难。
(2)图书馆的公共性与大数据强调个性化的矛盾。大数据时代的信息服务开始向个性化、去中心化、实时化、智慧化方向发展,[9]注重根据用户需求提供个性化定制或者推荐服务。然而,图书馆的服务在本质上仍是一种“公共品”,公共性、普遍性、均等性是其主要特点。大数据所注重的对用户个性化信息服务的满足与图书馆信息服务的公共性在一定程度上是相悖的。检索能力较高或经常访问这一网站的用户需求和行为规律被记录下来,大数据则依据用户行为数据的“结果预判”来提供相应的信息服务,久而久之,那些信息检索能力较低或偶尔访问这一网站的用户其需求则会被忽略,进而影响图书馆信息服务的公共性。
大数据建设是一项体系复杂、动态调整、多头并进的系统工程,大数据项目在实施之前,应做好顶层规划,设定长期建设目标和阶段性目标,并确定每个阶段需要收集的数据内容和类型。以数据为基础、以应用为导向,使相互融通、相互支持的数据形成聚合效应,以推动应用层的拓展和创新。大数据技术是辅助性工具,而不是决定性工具,因此,图书馆应审慎推进大数据项目。此外,要深度调研能否获得足够的基础数据支持。如,图书馆资源分析需获取图书馆实体资源、数字资源等相关系统中的资源建设、发布和使用情况等数据作为支持;用户满意度分析需获取用户的需求、行为及用户在网站、自媒体平台、反馈问卷等渠道的评价等。同时,还要考量当前是否具备大数据落地的基础条件,如配套的技术、数据基础、人才储备等。
大数据平台一般根据数据的流向自底向上共包括五层,分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。在同一层次,不同的平台会采用不同的技术组件来满足不同的业务场景,因此,选择大数据平台时应结合自己的业务需求。一般来说,大数据平台要具备以下能力:① 多样化数据采集能力,支持对表格、文件、消息等多种类型数据的实时增量数据采集和批量数据分布式采集;② 可视化快速配置能力,提供图形化的开发和维护界面,支持图形化拖拽式开发和快速接口配置;③ 高效的管理能力,包括应用管理和系统管理,能够实现对各类技术组件的透明访问,并满足调度管理、元数据管理、质量管理等需求;④ 灵活适应不同应用类型和数据场景,具备合理的基础架构,具有恰当的建设维护成本和生命周期。
图书馆的数据存在于不同的平台,依附于不同的业务流程,数据的标准、格式、类型、表现形式和存储结构千差万别。在现有技术条件下,完全收集、整理和处理这些数据是一件非常困难的事情。因此,需要制定合理的数据价值评估标准,按照数据重要性进行排序与分类,这样不仅有利于收集核心数据,更有利于了解数据价值分布情况,方便数据的后续收集保存与使用。一般来说,图书馆的大数据采集要涵盖资源、用户、服务等主题,每个主题要有不同的属性特征。每个属性特征下有不同的指标集,如用户属性包括用户的性别、年龄、职业、生活地域、文化程度等,每个指标项都要有固定的采集频率、采集方式等。此外,数据收集工作除了要采集数据外,还要对数据进行培养,即从大数据的角度出发,深入调研需要哪些数据、缺少哪些数据、哪些数据现阶段的精度还不符合实施的需求,从而主动地要求数据提供方来补充和生产这些数据,形成一个循环可持续发展的数据体系。
大数据项目能否顺利实施、充分发挥作用,深层次看,面临的主要挑战不是技术,而是组织和管理。图书馆中的数据隶属于不同的组织部门,要想整合这些数据,就需要各相关部门统一树立开放、共享基础设施与数据资源的意识,形成标准统一、权责清晰的数据体系和管理机制。此外,大数据项目的实施和运营对图书馆的人才队伍提出了更高的要求,不仅要有系统架构、数据仓储等传统IT领域的人才,还要有数据分析、数据挖掘、人工智能、统计学、数学等方面的精英。