马晓亭 李强
[摘要]图书馆已进入大数据时代,大数据的规模性、高速性和数据来源的多样性,使数据产生不一致和冲突,严重影响了图书馆大数据决策的科学性。本文提出了一种图书馆大数据资源质量评估与整体优化的方法,可为用户提供准确高效的大数据质量评价结果,并能够大幅度提升图书馆大数据决策的科学性。
[关键词]大数据;图书馆;数据资源;评估;优化
Jim Gray的新摩尔定理认为,大数据时代每隔18个月全球新增信息量是计算机有史以来全部信息量的总和。据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番,预计到2020年,全球将拥有35ZB的数据量,并且85%以上的数据以非结构化或半结构化的形式存在。伴随云计算、物联网、大数据等技术的快速发展及其在图书馆服务中的广泛应用,圖书馆的服务模式呈现出复杂、多样化的发展趋势,导致图书馆的数据总量与数据环境复杂度快速增长,并呈现出“4V+1C”的大数据特征(分别是数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)和具有较强的复杂性(Complexity),图书馆已进入大数据时代。
当前,图书馆数据除具备大数据的“4V+1C”特征外,还具有数据来源多样、多维度、突发性、异构性、分布式、动态、实时和不完全等特点,复杂的数据环境在增加大数据处理、分析和科学决策的难度与复杂度同时,也降低了图书馆从数据中发现知识和大数据决策的有效性。例如谷歌公司利用Google搜索日志大数据进行流感监测的方法(Google FlueTrend,GFT,谷歌流感趋势),在2007-2008年的预测结果虽然与官方最终统计数据的相关性高达97%,但在2011-2012的流感季节,随着日志数据复杂度的增长和可用性的下降,它的预测结果竞比实际值高估了50%;而在2012-2013流感季节中,它预测的结果竟然是美国疾控中心(CDC)最终记录结果的两倍。此外,据估算,数据错误每年造成美国工业界经济损失约占GDP的6%,导致98000名患者丧生,大约50%的数据仓库因数据质量的问题而取消或延迟使用嘲。因此,随着图书馆大数据总量、复杂度和价值量的快速增长,如何将数据质量管理贯穿于图书馆大数据采集、传输、存储、共享、维护、应用和消亡的生命周期全程,并通过大数据价值的发现、判定、监控、预警和优化流程,不断提升大数据的准确性、完整性、实时性、价值密度、可控性和可用性,是图书馆全面挖掘大数据价值和提升大数据决策科学性,实现图书馆管理与服务,从馆员“经验决策”向大数据“科学决策”转变的重要保证。
1关系大数据决策科学性的数据质量问题与数据价值保证
1.1数据噪声影响了数据决策的正确性
预测专家纳特·西尔弗在其著作《信号与噪声》中分析到:“如果信息的数量以每天250兆亿字节的速度增长,则其中有用的信息肯定接近于零。大部分信息都只是噪声而已,而且噪声的增长速度要比信号快得多。”由此看来,大数据中的噪声信号随着大数据总量的增长而快速增长,且噪声信号增长的速度要远大于价值数据增长的速度,并最终会将高价值数据淹没于噪声信号中,导致大数据的价值密度和数据决策可用性快速下降,严重干扰和影响大数据决策的科学性与准确性。此外,大数据的结构复杂度和数据价值发现的难度也随着噪声信号的增长而增长,将导致图书馆数据分析与决策过程中的系统资源损耗、算法复杂度和分析成本快速增长,最终会降低图书馆的大数据决策的可用性和收益率。第三,噪声数据总量的快速增长会大幅提升图书馆对大数据库存储、数据处理和网络传输能力的需求,增加了图书馆数据中心IT基础设施系统的运营负荷。
1.2大数据的真实性与准确性保证
为了保证大数据决策的科学性与可用性,图书馆通常利用用户阅读终端、传感器、视频监控设备、监控服务器和第三方共享数据,完成对图书馆IT系统设备运营、读者个性化服务活动、读者阅读行为和图书馆管理等过程的全数据采集。由于图书馆源数据采集设备、采集方法和数据传输网络性能的巨大差异性,导致所采集的大数据中存在着巨大数量的干扰数据、错误数据和低价值数据,因此,如何在大数据的采集、传输、处理和存储过程中执行科学的数据质量管理策略,是图书馆提高大数据准确性和决策科学性应重点关注的问题。此外,图书馆大数据具有多源性和结构多样性的特点,会导致大数据的格式和质量标准不统一,严重影响了大数据在处理、分析和决策过程中的可用性,因此,如何通过对大数据的清洗、滤噪和标准化处理等预处理方法检查数据的准确性与一致性,纠正大数据中的无效值和缺失值,也是图书馆增强大数据真实性、准确性的重要步骤。
1.3大数据的价值因决策对象和方式的不同而动态变化
随着“互联网+”时代的到来,图书馆利用互联网络和计算机技术完成了读者——服务器——物体三者的融化,实现了图书馆服务资源的优化和大数据融合,提升了图书馆的服务创新力和读者个性化服务定制水平。但是,“互联网+”时代在提升图书馆大数据价值总量和可用性的同时,也使大数据的多源特性、开放性和数据关系复杂度进一步增强,大数据的价值也会随着图书馆管理和服务决策的对象、方式不同而动态变化。其次,伴随图书馆大数据总量和数据结构复杂度的增长,大数据中的错误、缺失、冗余和不相关数据会严重影响大数据决策的效率与准确性,因此,如何依据图书馆大数据决策的对象、方式和目标来采集、处理、分析和应用数据,是关系图书馆大数据决策收益率的重要因素。第三,大数据处理的“1秒定律”表明,大数据决策必须在秒级的时间范围内分析出结果并传输出去,如果超过了这个时间大数据就失去了价值。因此,图书馆如何有效结合大数据生命周期发展规律和数据价值在时间轴上的变化趋势,实时、快速和动态地进行大数据决策,是提升图书馆大数据决策相关性和时效性的关键。
1.4数据的完整性与唯一性保证需求endprint
为了保证大数据的高价值性和可用性,图书馆在大数据采集中通常会采用对数据源进行全数据采集的方法。虽然采集的大数据具有较高的价值总量和决策可用性,但也存在着数据低价值密度和信息维度缺失的问题,会导致大数据结构不完整和数据中的知识难以被挖掘。其次,多来源和多途径采集大数据的方式,会导致图书馆大数据的结构类型和数据集合的多样性,数据管理员难以对大数据进行统一的描述、格式规范和标准化编码。第三,由于大数据采集源的多样性和采集过程的不间断性,图书馆采集的大数据中会存在巨量的冗余和重复数据,这不但造成图书馆大数据库的存储成本上升和网络传输效率下降,而且还导致大数据的结构复杂、难以识别、以及低时效性和不准确。因此,如何通过科学、高效的大数据重复检测方法查找重复数据,有效地清除大数据存储系统中重复的冗余文件和数据块,对图书馆大数据的完整性与唯一性保证也有着重要的现实意义。
2大数据质量维度的划分与评估标准的构建
图书馆大数据具有数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)的“4V”特征,并且大数据的“4V”特征随着数据总量的指数增长而快速增强,致使大数据的质量管理复杂性与难度不断增长,严重影响了图书馆大数据决策的科学性和可用性㈣。大数据质量的管理是一个贯穿于数据规范与标准制定、数据采集与处理、分析与决策、管理与使用、质量评估与反馈优化等大数据生命周期全程的活动,结合大数据生命周期全程中对数据的质量和大数据决策科学性影响的最主要因素,本文设计的图书馆大数据质量维度划分与数据质量评估流程如图1所示:
大数据质量主要由大数据的规范与标准化、大数据的表示与可读性、大数据相关技术的科学性、大数据质量的管理因素等4部分组成。大数据的规范与标准化评估指标由数据的规范性与完整性、真实性与准确性、唯一性、时效性、价值总量与密度、可用性与可控性等组成,是图书馆科学、批量、快速和高效处理与决策大数据的关键指标。大数据的表示与可读性评估指标,与大数据存储的模式和位置、元数据描述的准确性、数据度量的标准、数据标准化的定义、数据知识表述的可理解性等组成,与所采集的大数据能否易于被解读、知识发现和决策应用有较强的相关性。大数据应用相关技术的科学性主要涉及数据采集的误差、网络传输干扰、数据存储效率、数据融合有效性、分析与决策科学性、噪声过滤有效性等几部分组成,这些技术与大数据的采集、去噪、价值挖掘、分析与决策过程有强相关性,这些指标的参数将最终影响大数据价值发现过程的效率、成本、收益率和决策可用性。大数据质量管理的评估指标由数据生命周期管理科学性、管理人员的大数据素养、管理制度的科学性、制度执行的有效性、数据的评估与优化等部分组成,涉及图书馆大数据采集、管理和决策人员素质,以及与大数据质量管理机制相关的制度、流程和措施的评估等内容,是大数据生命周期管理流程科学性、管理措施缺陷发现和效率评估质量保证的关键环节。大数据质量维度划分与数据质量评估标准的制定,应随着大数据4“v”特征和数据决策需求的变化而动态调整变化,并依据大数据决策科学性和可用性评估结果而反馈优化,才能确保评估过程科学、高效、动态和可用。
3图书馆大数据质量管理与优化的流程
图书馆大数据质量管理涉及大數据的产生、采集、传输、处理、存储、分析、决策和销毁生命周期全程的多个环节,主要包括数据需求质量控制、数据的定义与规范、集成节点检查数据质量、大数据的清洗、数据质量的评估、数据质量管理流程的反馈优化控制、大数据决策和数据过期销毁等流程,不仅涉及对图书馆大数据质量的管理和改善环节,而且还包括与大数据质量保证相关性较大的系统组织、管理流程、质量评估、质量监督等过程的优化。本文设计的基于数据生命周期理论的图书馆大数据质量管理与优化流程如图2所示。
数据需求管理是图书馆大数据生命周期的起始阶段,数据管理员通过对大数据的需求进行预测、描述和分析,明确图书馆大数据定义与规范的标准、方法与步骤。大数据的定义与规范是图书馆依据大数据决策对数据质量的要求,通过数据模型构建、数据标准的定义与更新、数据语义的识别等操作,使图书馆对内外部采集、传输、交换和使用的大数据能够统一标准,确保所有大数据在数据业务属性、技术属性和质量管理属性上具有较高的一致性。集成节点检查大数据质量是指基于对大数据的准确定义与规范,图书馆通过在数据采集节点、数据传输节点、数据存储节点、大数据存储库等,这些与大数据采集、传输和交换紧密相关的数据集成点上进行基于抽样方式的数据质量检查,来确定途经这些关键节点的大数据是否满足大数据决策对数据质量的区间要求。大数据的清洗是图书馆在相关大数据传输、交换和存储的数据节点上,依据数据节点上大数据质量检测的结果,通过数据清洗操作来提升大数据的一致性、唯一性、完整性和准确性的过程。数据质量的评估是图书馆对已清洗过的大数据进行质量与可用性评估的过程,评估的标准包括大数据的正确性、实时性、规范性、业务逻辑性、完整性、相关性、重复性和可用性等8个方面的内容,大数据质量的评估应坚持智能、实时、动态和自动化的原则,为大数据的质量管理与控制提供科学的决策依据。大数据质量评估后,评估结果如果满足图书馆大数据决策对数据质量的要求,则将合格大数据传输至大数据分析与决策系统,为图书馆的系统管理、用户服务和宏观发展提供科学的数据决策支持,并在数据决策后对过期数据进行销毁。大数据质量评估结果如果不满足图书馆大数据决策对数据质量的要求,则依据评估结果明确大数据在数据的正确性、实时性、规范性与可用性等数据质量维度上存在的问题,并通过数据质量评估结果对数据需求质量控制、数据的定义与规范、集成节点上大数据质量的检查、大数据的清洗等,大数据生命周期相关重要环节的反馈控制、规范和优化,最终提升大数据的价值量和可用性,为图书馆大数据决策提供科学、可靠的大数据质量保证。
4结束语
大数据的质量管理与数据价值保证,是一个关系图书馆大数据可用性和大数据决策科学性的重要问题,与图书馆IT服务系统构建、用户服务模式变革、读者个性化服务定制与推送、个性化服务的质量保证等息息相关。因此,在图书馆大数据质量的管理中,我们应将图书馆员、大数据决策需求、数据质量管理的流程和大数据质量保障的相关技术完美结合,依据图书馆大数据决策对数据质量的要求,科学构建大数据的质量监控、管理、评估和优化体系,并将大数据的质量管理融人大数据的需求分析、定义、采集、清洗、处理、决策和销毁生命周期全程中去,才能确保图书馆大数据安全、高价值、实时和可用,才能为图书馆服务系统构建和读者个性化服务推送提供科学、可靠的大数据决策支持。endprint