图书馆大数据分析：挑战、设计和展望

2016-11-22 05:55陈臣马晓亭

新世纪图书馆 2016年3期

陈臣马晓亭

图书馆大数据分析：挑战、设计和展望

陈臣马晓亭

大数据分析始终是图书馆服务的重要环节，与传统的图书馆数据分析相比，大数据分析具有数据海量、多样、快速、真实的特点。论文提出了图书馆大数据分析领域数据存储、弱可用性、数据建模、资源调度和个人隐私保护等五大关键性挑战问题，最后，设计了一种大数据分析模型。该大数据分析模型明显提高图书馆对海量数据的处理能力，能够发现大数据之间存在的关系和规则，可有效预测图书馆服务未来的发展趋势，从而增强图书馆服务决策的准确性和科学性。

图书馆大数据分析设计

DOI 10.16810/j.cnki.1672-514x.2016.03.011

0 前言

当前，随着图书馆服务模式的变革与发展，图书馆数据环境呈现出海量（Volume）、多样性（Variety）、快速（Velocity）、真实性（Veracity）的大数据4“V”特征，图书馆已跨入大数据时代。

大数据分析是图书馆在海量数据环境下，对复杂数据关系的重新定义和深度价值挖掘，是通过对海量、多类型、快速增长和高价值的数据进行分析，从中发现可以指导图书馆进行发展变革、服务模式构建、服务系统运行和读者QOS（服务质量）保障等决策活动所需的数据隐藏知识、相关关系和其他有用信息的过程。大数据分析在有效提示图书馆内部各要素之间相互关系、个体差异和隐藏知识的同时，也存在着数据采集与处理误差、数据产生的异母体性、高计算成本、噪音干扰累积叠加、假相关性、外生性等问题[1]。因此，如何基于图书馆复杂数据环境和大数据决策需求实际，探索科学、高效、精确和经济的大数据分析方法，是关系图书馆运用大数据进行决策，以及将大数据分析结果有效转化为图书馆服务决策的重要步骤。

1 图书馆大数据分析面临的难点与挑战

1.1 大数据呈现较强的弱可用性

大数据可用性通常由数据一致性、准确性、完成性、时效性、可控性和开放性等六个部分组成，是有效评估大数据可用性的重要标准。大数据时代，图书馆大数据呈现多数据采集源、多类型、结构复杂和低价值密度的特性，大数据经采集、处理、传输和存储后，通常以杂乱无序的方式呈现给图书馆，给图书馆的大数据分析师带来极大的不便和挑战，因此，大数据的可用性成为决定图书馆大数据分析有效性的一个重要因素[2]。

为了保证大数据具有较强的可用性，要求图书馆在海量复杂数据环境下，能够实现对数据源大数据采集真实性、时效性的自动检测与修复，保证大数据采集真实、准确、客观和有效。此外，还需要对所采集、存储的大数据进行噪声过滤、数据整合、价值提取等操作，保证大数据具有较高的价值属性和密度，并具有全面、可控、准确和易操作的特性。其次，还应通过翔实的大数据描述框架和数据日志，对重要大数据源、大数据采集的方法和内容、大数据的结构及语义复杂性、大数据时限和数据完整性进行准确描述，大幅提升关键大数据的价值、可控性和可用性。第三，图书馆在大数据分析中，如何对海量和在时间序列上离散、不相关的大数据进行聚合、多层次、多维度的分析，并准确发现不相关大数据之间隐匿的关联性和知识，是图书馆进一步挖掘大数据隐藏价值和规律，确保大数据分析科学、实时、精确和可用的关键[3]。第四，图书馆还应通过对底层大数据的抽象、凝炼，以及对海量、多源碎片化大数据的整合，提升图书馆大数据分析过程中数据挖掘的精度和深度，并将大数据分析结果以可视化的模式表现出来，不断提升大数据分析结果的决策支持力。

1.2 图书馆大数据分析环境复杂

图书馆大数据具有较强的复杂性和不稳定性。当前，图书馆大数据采集源、采集方法和采集内容呈现多样化特点，且数据的类型与模式繁多、结构不稳定、关联关系繁杂、质量参差不齐，导致图书馆在大数据检索、知识发现、语义和情感分析上变得异常复杂、困难。因此，如何定量、定性地对图书馆大数据复杂性、产生机理、价值本质、度量标准准确定义，是图书馆简化大数据复杂性和获得数据知识，构建科学大数据计算、分析模型和算法的前提。其次，图书馆大数据具有较强的计算、分析复杂性[4]。图书馆大数据资源具有海量、多源异构、不稳定、价值密度分布不均衡和可控性低的特点，传统的机器学习、信息检索、数据挖掘和数据分析算法，不能有效支持复杂大数据环境下数据的处理、计算、分析和决策活动。因此，图书馆需要对大数据的复杂性、可计算性、算法科学性和计算可控性重新研究、定义，通过广泛采集海量大数据、过滤数据噪声、简化数据关系，以及坚持以大数据价值为驱动的新型数据计算、分析模式，不断提高大数据计算、分析的安全性和效率。第三，海量、异构、低价值密度和快速计算的大数据4“V”特点，对图书馆大数据计算、分析系统的系统架构、计算框架、处理方法、运行效率和系统能耗提出了新的要求。要求大数据计算、分析系统具有较高的大数据计算能力、数据吞吐率、内部网络传输效率、数据并行处理能力和计算精度，并有较低的系统结构复杂度、作业单位能耗和实际负载，可满足图书馆大数据实时计算、分析和决策的需求[5]。

1.3 图书馆大数据的存储、建模与分析难度快速增长

随着读者服务模式与保障方法的变革，图书馆大数据总量快速增长（从TB级快速上升到PB、EB'级），数据存储任务也从传统简单的系统管理与运行数据、读者服务数据、服务器监控数据等存储，转变为以图书馆服务系统管理与运行数据、读者服务数据、读者阅读内容与行为数据、读者特征数据与社会关系数据、图书馆监控等其它相关大数据为中心的，包含数据噪声过滤、数据价值发现与提取、数据整合、数据存储分析等在内的大数据存储活动。此外，数据存储也从传统的静态存储，转变为以大数据生命周期规律为依据的动态大数据存储、增减、删除和修改等操作，要求大数据存储具有海量的存储能力、高度容错性、支持异构环境、可开放性和可扩展性，并具有较低的存储分析与写入延迟[6]。

大数据分析建模是图书馆科学分析大数据统计和语义特征，精确发现数据之间的关系和价值，并将大数据价值与数据关系转化为客观知识的数据分析模式，是为数据分析提供科学依据的重要步骤。当前，随着大数据环境复杂度的增大和可控性的降低，图书馆数据分析模式已从若干个简单分析模型组合，转变为由大量分析模型组成综合分析模型库的方式，统一完成复杂大数据的分析与决策。大数据环境下，读者阅读行为具有较强的突发性，且读者的阅读习惯和需求也在快速变化，对大数据分析系统的实时性、准确性、自主学习能力和自动数据修正提出了较高要求。要求分析系统能够通过大数据分析，快速找到图书馆服务模式和保障方式存在的瓶颈问题，通过优化服务策略和资源二次分配，来满足读者阅读的个性化差异需求。

图书馆在大数据分析中，对内部不同部门的服务业务、读者个性化内容需求、读者阅读行为和社会关系、图书馆服务与市场竞争发展趋势等不同的分析算法具有不同的复杂度、效率和分析成本。因此，要求图书馆建立基于大数据分析效率与成本的计算资源弹性调度策略，并通过分析效率与成本的评估结果，反馈控制完成对计算资源的动态组合和优化，确保大数据分析过程安全、高效、准确和经济。

1.4 大数据分析要求构建安全、高效的云数据中心

与传统数据环境相比较，图书馆大数据环境具有数据海量、处理快速、多类型、难辨识、高价值、低价值密度和不可预测的特点。此外，大数据分析结果的可视化表现、数据挖掘算法的科学性、预测性分析能力、对语义知识的准确发现、大数据价值管理的有效性等，是关系大数据分析科学、准确、高价值和可用的几个关键要素。因此，海量、级速增长的大数据对图书馆数据中心的数据计算、存储、高速传输和快速响应能力提出了较高的需求，要求数据中心的构建必须坚持IaaS（基础设施即服务）的原则，不断完善、优化系统结构，保证数据中心的功能、资源可随图书馆大数据分析需求进行二次调整。同时，在保证大数据分析资源需求的前提下，大数据分析系统具有较高的可用性、可控性和较低运营成本，具有最优化的云计算资源使用效率和大数据分析投资收益率[7]。其次，图书馆大数据分析要求对客户和市场有清晰、准确的洞察，能够对读者个性化阅读需求、读者群价值属性、阅读模式转变、精准营销、产品推荐、服务风险和欺诈、服务市场竞争环境变化等有准确、实时、快速和全方位的分析、判断。此外，要求图书馆可根据读者群分布和数据分析负荷，建立多个位于不同地域的子数据中心，保证数据中心和子数据中心间具有T级的高速网络互联。可在降低云数据中心系统结构复杂度和不确定性的前提下，实现大数据分析过程中云计算架构、云资源和大数据分析负载的最优化匹配。

2 图书馆大数据分析平台的系统架构与分析、应用策略

2.1 图书馆大数据分析平台的系统架构

图书馆大数据环境除具有数据海量、类型多样、处理快速和高价值的4“V”特征外，还存在着大数据采集来源广泛、非结构化数据为主体、数据价值密度低、数据噪声大、实时性要求高和可控性不强等问题。因此，要求图书馆大数据分析平台必须坚持系统分层和功能化模块构建的原则，在保证每一层中的组件保持内聚性的同时，与相临各层间保持较松散的耦合性，确保大数据分析平台安全、高效、开放、经济和可控。

本文设计的图书馆大数据分析平台系统架构如图1所示。

该大数据分析系统主要由大数据采集层、大数据存储层、大数据分析层、大数据分析控制层、大数据分析结果表现层5个部分组成。（1）大数据采集层主要由图书馆视频采集设备、系统监控服务器、传感器网络、读者管理信息系统、阅读终端和第三方大数据库组成，负责图书馆相关大数据的采集、噪声初级过滤、存储和传输等任务。（2）大数据存储层负责将由大数据采集层传输来的数据，经过分布式缓存设备的一级缓存后存储入大数据库，通过对数据存储过程的监控、存储优化、存储资源调度和反馈控制，确保存储过程安全、高效、经济和便捷。（3）大数据分析层基于大数据存储层的支持，完成大数据的挖掘、价值发现、关联分析、联机分析处理、分析层系统的自主学习等。（4）大数据分析控制层负责对大数据分析过程进行监控、管理与安全预警、系统资源调度、系统分析的优化和实时分析管理等操作，并通过反馈控制来保证大数据分析层整体效率和分析结果最优。（5）大数据分析结果表现层基于底层服务的支持，完成图书馆大数据分析结果的处理与统计、可视化表现建模、可视化表现、分析结果的有效性评估，以及通过评估结果完成对分析控制层的反馈控制，实现大数据分析平台系统运行的资源投入收益与评估结果整体最优化[8]。

2.2 图书馆大数据分析平台系统的应用策略

2.2.1 确保图书馆大数据资源分析结果高价值和可用

图书馆大数据的内容除了传统的读者特征数据、用户服务数据、服务器日志和服务器监控数据外，还包含了读者阅读行为的监控数据、读者社会关系数据、读者个体地理位置信息、阅读终端配置与运行数据、图书馆管理与服务系统运营日志、用户身份与访问数据、应用系统数据、业务信息和外部市场竞争环境数据等，这些大数据具有不稳定、快速流动、相互关系复杂和可控性差的特点，严重影响了图书馆大数据资源的价值发现、提取和应用。

为了确保图书馆大数据资源具有较高的价值属性和可用性，大数据采集终端首先应对所采集的数据进行初级筛选、标准化处理和整合等操作，然后按照数据采集对象、类型和作用对象进行划分，将数据传输至大数据采集端初级数据库，进行简单的预存储、查询、处理和噪声过滤工作，在降低数据采集端负载和减少采集端大数据总量的前提下，提升图书馆大数据的价值密度和可用性[9]。其次，应将由多个数据采集端采集、处理后的大数据传输至图书馆大数据存储库。大数据存储库应具备海量数据存储能力和分布式集群运行的工作方式，可对大数据进行存储优化、快速清洗和预处理等操作，具备复杂大数据的快速查询、调度和计算能力，可有效保障图书馆管理与服务的适时分析、决策需求。第三，图书馆还应利用大数据的分析程序，对存储的大数据进行类型分析、分类汇总、分类存储等操作，在大数据存储库中完成大数据的初级预测、分类、价值挖掘和数据融合。

2.2.2 大数据分析应以读者阅读需求和QOS保证为中心

大数据时代，图书馆大数据分析面临着管理与服务系统体系架构日趋复杂、分析数据海量多样、传统的分析平台与方法不可用、数据关系复杂和知识发现困难等问题。为了确保大数据分析科学、可用、经济和可控，图书馆必须以读者阅读需求和QOS保证为中心，不断提升大数据分析对图书馆服务模式与方法变革的支持力。

行为大数据是图书馆分析读者行为随机模式、挖掘行为价值和明确读者需求的基础数据。读者行为大数据主要有个性化阅读内容定制、搜索、浏览、点评、取消、移动阅读路径、个体地理位置、阅读社交活动、服务评价等，以及在第三方服务平台上开展的与阅读活动相关的行为数据。图书馆必须对读者行为数据的类型、格式进行准确的规范性定义，并实施即时、动态、快速和便捷的大数据价值提取、分析和决策策略，才能确保图书馆服务决策随着读者阅读需求的变化而动态变化，才能保证具有较高的读者阅读满意度[10]。其次，图书馆应基于读者阅读活动质量与满意度评估结果，对图书馆的业务流程进行修改和完善。在可视化分析技术的支持下，帮助管理员查找出关系图书馆业务流程效率的关键因素，发现业务流程与读者阅读忠诚度之间的关系，通过提升关系图书馆服务有效性的关键业务收益和应用系统效率，来提高图书馆服务的综合收益率和读者满意度。第三，图书馆应依据对读者阅读需求和QOS保障有效性的分析结果，科学预测出图书馆服务理念转化、服务模式变革、读者阅读需求变化、管理与服务系统IT基础设施架构发展的趋势，确保图书馆在发展战略决策制定、服务模式变革、管理与服务的IT系统建设和市场竞争环境分析中，具有安全、科学、开放、低风险和低投入的优势。并可根据大数据的决策支持，对未来用户服务模式变革和读者服务需求科学、任意和可控地扩展。

2.2.3 图书馆大数据分析应基于多维度动态的分析方法

非结构化数据占据图书馆数据总量的85%以上，主要由视频监控数据、服务器运行日志数据、服务器与阅读终端配置数据、读者阅读行为数据、读者阅读社交数据、读者个体位置信息，以及来自设备或者其它数据库的流数据等组成。如何制定科学的大数据分析机制，把非结构化数据统一标准、类型和分析流程，是图书馆多角度挖掘非结构化数据的价值和发现相关知识的前提。

当前，传统的OLAP（联机分析处理）方式存在的最主要问题是伴随服务模式、业务的发展与变革，所构造的图书馆业务模型和数据分析模式也经常发生变化。数据分析师在依据图书馆业务维度和度量的变化对分析多维立方体重新定义和生成时，会导致数据分析的稳定性、可靠性和可用性下降。因此，图书馆可利用诸如Hadoop分布式系统基础架构，在不需了解分布式底层细节的情况下，支持大数据分析师充分利用高速运算和存储集群，将图书馆采集的大量冗余维度信息整合到事实表中，确保在冗余维度下灵活地改变大数据分析的角度。此外，还可利用Hadoop的强大并行化处理能力，保证大数据OLAP分析的开销不随分析维度的增加而大幅增长。大数据分析师通过对维度和度量精确定义后，可根据图书馆各部门的业务需求和变化将维度任意地划分和重组，将业务的维度和度量直接翻译成MapReduce运行并生成报表，为不同部门、层次的人员在图书馆发展变革、管理和服务过程中，提供大数据的分析与决策支持[11]。

图书馆基于多维度动态的大数据分析，还应注重提升将大数据汇聚成单一的信息逻辑集和可视化处理的能力，在分析时通过对结构化或非结构化物理数据的底层结构进行去耦合，来提高大数据分析的灵活性。特别要满足大数据分析师、各部门业务人员、业务流程分析程序、关键性应用程序对重要大数据的实时获取、更新需求，并利用图书馆获得的第三方相关数据，对大数据的分析方法、分析流程和结果进行修正、完善后，将大数据分析结果与图书馆相关部门、人员的决策流程进行绑定，提高图书馆大数据分析、决策和结果修正的智能自动化水平。

2.2.4 确保大数据分析模型和方法科学、高效

图书馆在大数据分析中，大数据质量、管理有效性、数据挖掘算法科学性、分析结果可预测性、语义分析引擎可用性、分析结果可视化表现等因素，是大数据分析模型运行和分析结果呈现科学性应重点关注的几个问题。

《信号与噪声》的作者Nate Silver在书中描述道：“更多的数据意味着更多的噪声。信号是真相，而噪声却使我们离真相越来越远。”指出大数据只是数据分析的基础和前提，而如何构建科学的大数据分析模型和采用有效的数据分析算法，则是决定大数据分析科学、可用的关键因素[12]。在现实的图书馆大数据分析中，数据分析师会习惯性地采用传统的固定分析方式，对大数据进行分析、价值挖掘、解释和预测，这些方式难以将噪声信号从大数据中有效地分离出来，会影响大数据分析结果的真实性和可用性。因此，大数据分析模型应利用层次化的架构描述，明确大数据在不同层次上的表达，帮助图书馆挖掘出复杂数据关系中蕴涵的价值和决策过程中复杂抽象的问题。此外，图书馆还应对大数据分析所依赖的知识库动态地添加、修改、删除和更新，重点关注关系知识库可用性的知识概念、实例、属性和关系等。

大数据分析结果的可视化表现，是关系图书馆能否全面、有效地获取大数据分析结果中的隐含知识，以及依据分析知识做出正确决策的重要问题。图书馆大数据可视化分析面临的挑战是分析对象的海量、高维度、多来源和动态变化，以及分析结果的真实、即时和全面可视化表现等问题。因此，图书馆对分析结果的可视化表现，应重点加强对大数据流的压缩和冗余信息的删除，以此降低大数据计算、分析和表现的复杂度，从多尺度、多层次和多方向上实现分析结果的科学表现和知识的可视化展示。

3 结语

目前，图书馆已进入大数据时代，如何有效地采集、处理、存储和挖掘大数据，并安全、科学、经济和可视化地分析大数据，成为影响图书馆发展决策科学性、服务模式变革有效、QOS保证和读者阅读满意度的重要问题。为了保证大数据分析过程科学、可用、可控和经济，大数据分析结果能够有效地支持图书馆管理层决策和各业务部门的读者日常服务工作，图书馆必须将大数据分析全面融入到图书馆的变革、管理和服务全程，改变图书馆管理层与馆员传统的直觉、经验分析决策模式，并在大数据分析中重点关注可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和管理、用户隐私保护等六个方面的问题，才能确保图书馆大数据分析科学、可用，才能为图书馆变革与服务提供可靠的大数据分析、决策支持[13]。

[1]何非，何克清.大数据及其科学问题与方法的探讨[J].武汉大学学报（理学版），2014，60（1）：1-12.

[2]官思发，孟玺，李宗洁，等.大数据分析研究现状、问题与对策[J].情报杂志，2015，34（5）：98-104.

[3]张春磊，杨小牛．大数据分析（BDA）及其在情报领域的应用[J].中国电子科学研究院学报，2013，8（1）：18－22．

[4]覃雄派，王会举，杜小勇，等．大数据分析：R DBMS与Map R educe的竞争与共生[J].软件学报，2012，23（1）：32－45．

[5]李晨晖，崔建明，陈超泉．大数据知识服务平台构建关键技术研究[J]．情报资料工作，2013（2）：29－34．

[6]BELAUD J，NEGNY S，DUPROS F．Collaborative simulation and scientific big data analysis：Illustration for sustainability in natural hazards management and chemicalprocess engineering[J].Computers in Industry，2014，65（3）：521－535．

[7]王意洁，孙伟东，周松，等．云计算环境下的分布存储关键技术[J].软件学报，2012，23（4）：962－986．

[8]DURSUN D，HALUK D．Data，information and analytics asservices[J].Decision SupportSystems，2013，55（1）：359－363．

[9]李广健，化柏林．大数据分析与情报分析关系辨析[J].中国图书馆学报，2014，40（5）：14－22．

[10]李建中，刘显敏．大数据的一个重要方面[J].计算机研究与发展，2013，50（6）：1147－1162．

[11]IBM accelerators for big data[EB/OL]．[2015－07－02]．http： public.dhe.ibm.com/common/ssi/ecm/en/imd144 14usen/IMD14414USEN.PDF

[12]王珊，王会举，覃雄派，等．架构大数据：挑战、现状与展望[J]．计算机学报，2011，34（10）：1741－1752．

[13]孙大为，张广艳，郑纬民．大数据流式计算：关键技术及系统实例[J].软件学报，2014，25（4）：839－862．

陈臣兰州财经大学信息中心副教授。甘肃兰州，730020。

马晓亭兰州财经大学信息工程学院副教授。甘肃兰州，730020。

Big Data Analysis of Library：Challenges,Designs and Forecasts

Chen Chen，Ma Xiaoting

Big data analysis is always an important part of library services.Compared with traditional data analysis of library, big data analysis is volume,variety,velocity and veracity.This paper comes up with five key challenges in big data analysis of library，such as data storage，weak data usability，data modeling，resource distribution and personal privacy preservation.At last,it designs a big data analytical model which can greatly improve the processing capability of mass data of library,find the relationship and rule between big data,predict the future trend of library services,and improve veracity and scientificity of the decision-making in library services.

Library.Big data analysis.Design.

G250.76

2015-08-06 编校：刘明）