基于大数据决策分析需求的图书馆大数据清洗系统设计

2016-05-14 05:42马晓亭

现代情报 2016年9期

马晓亭

〔摘要〕图书馆的大数据时代已经来临，大数据质量问题是影响图书馆大数据应用的重要因素，而大数据清洗则是提高图书馆大数据质量的主要手段。本文介绍了图书馆不清洁数据的类型与产生原因，设计了基于大数据决策分析需求的图书馆大数据清洗系统，该系统不仅可以提高大数据清洗的效率和精确度，而且大幅度降低了图书馆大数据决策分析的复杂度。

〔关键词〕图书馆；决策分析；大数据清洗；系统设计

DOI：10.3969/j.issn.1008-0821.2016.09.018

〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821（2016）09-0107-05

〔Abstract〕The librarys era of big data is coming，data quality issues will result very important influence on big data applications of libraries，big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries，and designed of big data cleaning system for library based on big data decision analysis needs，the system not only improved the efficiency and accuracy of big data cleaning，but also greatly reduced the complexity of big data decision analysis for library.

〔Key words〕library；decision analysis；big data cleaning；system design

当前，图书馆已进入大数据时代。随着移动互联网、云计算和物联网技术在图书馆中的广泛应用，图书馆可通过监控和采集服务器运行数据、读者个体特征、阅读行为数据、阅读关系数据、阅读终端数据等，实现了对图书馆服务模式和读者阅读需求的全面感知与预测，大幅度提升了图书馆的服务能力和读者阅读满意度。但是，随着图书馆服务复杂度和服务模式多样化的发展，其大数据环境呈现出“4V+1C”的特点（分别是数据体量巨大（Volume）、数据类型繁多（Variety）、价值密度低（Value）、处理速度快（Velocity）和具有较强的复杂性（Complexity）），图书馆采集与存储的原始大数据中混杂着许多不完整、错误和重复的“不清洁”数据，导致图书馆大数据存在着不一致、不完整性、低价值密度、不可控和不可用的特性[1]。图书馆如果一味强调提升IT基础设施的大数据处理性能、数据分析方法的科学性、数据分析师的大数据素养，而不通过大数据清洗有效提升数据的质量和可用性，将会导致图书馆大数据应用的收益率和数据决策科学性下降。

据美国普化永道会计事务所（Price Waterhouse Coopers Consulting，PWC）的研究表明，75%的被调查公司存在着因不清洁数据问题而导致经济损失的现象，只有35%的被调查公司对自己的数据质量充满信心；在很多涉及数据仓库的项目中，数据清洗在开发时间和整体预算方面所占的比例大概在30%～80%，而将不同数据源的数据进行抽取和整合时，可能会产生一些新的不清洁数据[2]。因此，如何制定和执行安全、高效的数据清洗策略，实现对图书馆大数据资源的检测、校验、修正、整合与分解，及时发现并纠正大数据中存在的错误、缺失、异常和可疑数据，确保图书馆大数据资源结构完整、正确和无重复，是关系图书馆大数据应用与决策安全、科学、高效、经济和可控的重要问题。

1图书馆大数据清洗的需求与挑战

11大数据环境下数据清洗的需求发生变化

大数据时代，图书馆数据的结构、类型、规模和复杂度发生了巨大变化，其大数据内容主要由IT服务系统运营日志与参数数据、用户服务数据、读者个体特征数据、读者行为监测与社会关系数据、阅读终端运行数据、视频监测数据和传感器网络数据等组成，这些数据具有海量、多类型、高价值和处理速度快的大数据“4V”特点，因此，与“小数据”时代图书馆的数据清洗需求有本质区别。

大数据时代，非结构化、半结构化数据占据图书馆大数据总量的85%以上，图书馆数据清洗的重点已从“小数据”时代的标准化文本、数字、符号等结构化数据为主，转变为以全文文本、图像、声音、影视、超媒体等非结构化复杂数据为核心[3]。其次，“小数据”时代图书馆数据清洗的主要对象是实例层的数据，依据函数依赖等完整性约束条件对数据记录进行处理，而“大数据”时代则重点关注处理模式中数据属性之间的语义关系。第三，图书馆数据清洗工具的效率、互操作性和可扩展性，以及数据清洗工具描述性语言能否满足数据清理中关键词大致匹配的需要，是关系图书馆大数据清洗科学、高效、精确和经济的关键。

12图书馆大数据采集方式多样性易导致数据结构不完整当前，为了提升读者服务的科学性、实时性、可预测性和个性化水平，图书馆大数据应用采取了全面采集、实时分析、动态决策和评估反馈的原则，有效提升了图书馆大数据资源的价值密度、分析科学性和服务可靠性。图书馆大数据来源主要包括Web服务器日志数据、视频监控数据、用户管理系统数据、传感器网络数据和读者满意度反馈数据等，这些数据的数据采集来源、采集方式和数据模式标准不同，导致所采集的元数据存在着字段缺失、字段名和数据结构前后不一致、数据被异常破坏等现象，严重影响了图书馆大数据结构的完整性。其次，这些不完整大数据如涉及读者的个体ID标示、数据价值关键字段、信息集成模式的匹配，则会导致数据资源不可用或者大数据决策错误。因此，如何科学、高效和准确地发现图书馆大数据中的缺失字段，并在规定的时间内对缺失字段进行修复，是图书馆确保大数据结构完整的重要措施[4]。第三，图书馆对大数据资源库查询请求的科学、完整和可控性，是关系数据查询结果清洁性的关键。因此，如何完善、修补不同来源和不同类型的缺失数据字段，并有效挖掘其中蕴含的知识，是关系图书馆从不完整大数据中发现数据价值信息和保障知识服务效率的重要问题。

13海量、重复的大数据严重降低了数据决策效率

为了提升大数据的价值总量，图书馆会利用多数据采集源多方位、多角度和不间断地进行相关大数据的采集。读者个体特征和行为数据，是图书馆进行读者阅读需求预测、服务模式制定、服务满意度评估和服务过程优化的关键数据，为了保证相关大数据采集的全面性、完整性、可用性和可靠性，图书馆会通过视频监控设备、服务器日志、传感器网络、移动基站监测设备、阅读终端监测设备等，尽可能全面地采集读者相关大数据，并描绘一幅完整、精确的读者阅读行为自画像。多个不同类型终端设备全方位、不间断地采集同一读者的个体大数据，会导致读者个体大数据采集过程低效率、重复和识别精度低，这大幅度增加了图书馆大数据处理、分析和决策的复杂度与系统资源损耗。因此，如何删除图书馆采集的海量、重复大数据，是关系图书馆大数据决策可用性和经济性的关键。

其次，随着图书馆服务智能化和个性化水平的提升，机器人等人工智能技术已广泛运用到图书馆的管理与读者服务中去。机器人通过深度学习技术，可为读者提供诸如阅读导航、服务推荐、问题解答、微博更新和聊天等服务，实现了机器人与读者的实时互动与交流。但是，这些机器人产生的数据除具有动态生成、海量、多类型和低相关性的特点外，还存在着数据重复采集、标示多样和部分错误的现象，因此，如何有效区分、清洗机器人产生的大数据，将对图书馆在服务中实施读者阅读行为跟踪、读者阅读需求分析、用户精确画像和科学服务决策产生极大影响[5]。

14图书馆对错误大数据的识别与修正需求

图书馆大数据主要由数据中心IT服务系统配置参数与运营数据、用户与服务管理数据、读者个体行为与阅读数据、传感器网络数据、服务资源数据、读者阅读反馈与满意度评估数据等组成，这些数据的产生具有多数据来源、多采集模式、编码与存储复杂、数据清洗难度大的特点，大幅增加了图书馆对错误大数据识别与修正的难度。

随着图书馆组织结构和内部业务关系复杂度的增长，图书馆员在向业务系统录入元数据时，可能存在着滥用缩写词与惯用语、数据录入错误、数据中内嵌信息错误、重复记录、丢失数据字段、拼写错误、计量单位错误和过时的数字编码等问题。同时，图书馆当前业务管理系统数据纠错的智能水平较低，不能完全识别与纠错数据录入中存在的数据错输成全角数字字符、字符串数据后面存在空格符、日期格式错误与日期越界等。其次，OCR（光学字符识别）软件在对印刷体文字转换成为黑白点阵的图像文件，以及通过识别软件将图像中的文字转换成文本格式时，OCR软件的拒识率、误识率、识别速度、用户界面友好性、产品稳定性和易用性等，也是关系图书馆数字化文献资源加工正确率的重要因素。第三，近年来，射频识别（RFID）技术因其快速扫描、体积小、可重复使用、无线穿透性和无屏障阅读等优势，已广泛应用到智慧图书馆的构建和读者智慧服务中，有效实现了图书馆无线门禁的进出管理、人员精确定位、区域定位管理、安全防卫和图书智能化存取等功能。由于RFID硬件设备易受数据传输距离、环境噪声、地理环境、无线干扰等影响，导致RFID阅读器存在着漏读、多读和不清洁读等现象，如何识别与纠正RFID阅读器在大数据采集过程中丢失、重复、模糊和错误的数据，已成为关系RFID应用有效的关键[6]。

15图书馆大数据清洗需制定科学的行业规范和标准图书馆大数据具有海量、多类型、高价值和处理快速的4“V”特征，据统计，其结构化与非结构化数据占据大数据总量的85%以上，且随着图书馆服务模式多样化和数据环境复杂度的不断增长，其非结构化数据占据大数据的总比例将快速上升，因此，大数据海量、多类型和结构复杂的特点给图书馆的数据管理带来了很大困难。

不同类型的图书馆在大数据采集源的结构和数据库类型上差别巨大，导致不同图书馆在大数据的采集方式、组织结构、存取方法和数据库构建类型上有较大区别，即使是同一种数据的存储也存在着多种不同标准和数据库关系结构。因此，制定统一的数据库建设和数据管理、存取标准，提升数据清洗工具与数据库系统在数据端口、清洗规则和配置参数上的兼容性，是关系图书馆大数据高效清洗和多用户共享的前提。

在实际的工程操作中，数据清洗通常会占据数据分析全过程50%～80%的时间，因此，依据国家标准构建图书馆界的数据行业规范，是关系图书馆大数据开放性和降低大数据决策成本的重要问题。图书馆内部不同部门之间也存在着大数据重复采集和数据标准、类型不统一的问题，我国图书馆界与其它行业或第三方运营商，在数据库建设规范、数据传输接口、相关应用程序上也存在较大差异，给大数据的清洗、共享和分析带来了额外的负担[7]。此外，图书馆对所属大数据的安全性管理、读者隐私大数据保护、大数据价值和可用性保证等，也大幅增加了图书馆大数据清洗过程的复杂度和成本投入。

2图书馆大数据清洗平台的构建与大数据清洗关键问题21图书馆大数据清洗平台的构建

图书馆数据除具备大数据的4“V”特性外，还存在着诸如不清洁数据来源多元化、随机产生、隐匿性强和噪声过滤难度大的特点。因此，在图书馆大数据清洗系统的设计中，作者依据图书馆业务导向和大数据的信息流程，重点突出了大数据源分类存储、不清洁数据识别与发现、不清洁数据清洗和数据清洗流程控制等4个系统功能与流程的设计，实现了从数据产生与存储、不清洁数据发现与清洗、清洗有效性评估、评估结果对清洗流程的反馈控制等4个过程的大数据生命周期质量管理[8]。所设计的图书馆大数据清洗系统功能结构如图1所示：图1图书馆大数据清洗系统功能结构图

为了保证图书馆大数据存储系统安全、高效、经济和可控，系统底层的大数据存储库依据大数据的来源、类型、应用对象和不清洁数据特点，划分为客户管理元数据库、系统配置与运行数据库、读者服务数据库和主数据库等，这些数据库的不清洁数据主要存在结构不完整、数据重复、错误和不一致的问题。

不清洁数据发现系统平台主要由大数据的获取、数据完整性检测、数据重复性检测和错误数据检测4个功能模块组成，通过对大数据变量的取值范围、相关性、无效性、缺失值和重复值的判定，将从大数据源中发现、提取出的不清洁数据传输至不清洁数据清洗模块。

不清洁数据清洗系统平台是大数据清洗系统的核心，数据管理员在对不清洁数据产生的原因、存在形式和数据结构复杂度进行分析后，制定出科学的不清洁数据定义、评估、清洗和规则反馈优化程序，依据数据清洗的实时性需求，控制系统实现不清洁数据的离线清洗和在线清洗，并对清洗后数据的完整性、有效性、一致性、准确性和相关性等进行判定，如果清洗结果不达标则进行不清洁数据的二次清洗[9]。

不清洁数据清洗管理平台由图书馆元数据管理、大数据清洗模型管理、数据清洗安全性管理和质量管理4个模块组成，负责元数据存取、大数据清洗流程控制、数据清洗过程的数据安全性和不清洁数据清洗质量的管理，可有效保证不清洁数据清洗过程安全、高效、经济、高价值和可用。

22关系图书馆大数据清洗质量和数据可用性的关键问题221有针对性地选取图书馆大数据的清洗对象

大数据是图书馆IT系统构建、读者管理和服务模式变革的直接决策依据，大数据的价值总量、密度和清洁度等，直接关系图书馆大数据决策的科学性、效率、经济性和可用性。图书馆大数据具有海量和总量级数递增的特点，但是，不同类型的大数据在数据价值总量、价值密度、分析可用性和与决策对象的相关性上差异较大，导致不同大数据在图书馆决策的科学性、精确度、可靠性和经济性上的影响度不同。因此，图书馆应根据大数据决策的对象、内容、精确度和经济性需求，有选择地开展大数据的清洗活动。

个性化智慧服务是未来图书馆读者服务的重要目标，而精确地判定读者需求、图书馆未来服务资源总量和读者阅读情景，则是确保图书馆读者个性化智慧服务内容实时、精准投放的前提。因此，图书馆对大数据清洗对象的选择上，在保证大数据获取难度可控、数据覆盖率广泛和具备一定的数据规模前提下，应选取与读者个性化智慧服务决策相关性较大的数据，并重点清洗与读者个性化智慧服务决策相关性较大的诸如读者个体特征、阅读历史行为、阅读实时兴趣、个体移动路径、阅读终端模式、读者服务评价与满意度反馈、系统未来服务资源总量与服务负载等数据，才能在较小大数据清洗成本投入和降低清洗复杂度的前提下，大幅度提升图书馆大数据的价值密度与数据可用性。

222依据大数据决策实时性需求制定数据清洗策略

图书馆大数据决策可划分为实时决策和离线决策两部分。实时决策主要应用于图书馆安全与服务即时管理、读者在线服务需求实时判定、实时服务策略制定与服务推送、服务系统的实时评估与优化等方面，要求大数据应用平台在较短的时间内获取、清洗和分析实时数据，为大数据实时、动态决策提供科学数据支持。实时决策对大数据获取、传输、清洗、分析和决策过程的时效性要求较高，数据总量偏小、低清洁度和价值有限的实时大数据可能会影响图书馆实时决策的科学性和可用性。离线决策主要应用于图书馆的宏观战略方案制定、用户服务模式变革、服务有效性评估和服务市场竞争环境分析等方面，这些离线决策虽然因为海量大数据的复杂分析而降低了决策的时效性，但决策结果具有较高的科学性、准确度和可靠性。因此，图书馆必须依据大数据决策实时性需求制定相关的大数据清洗策略。

大数据清洗策略的制定应以图书馆服务效率的提升和读者阅读满意度为依据，结合图书馆数据中心大数据应用系统的资源总量和大数据清洗的负载量，依据决策内容实现大数据清洗实时性、算法复杂度、精确度和可靠性的完美结合。大数据在线清洗对实时性的要求较强，因此，图书馆应完全记录用户服务流程线上的实际数据，依据决策对象的重要性、实时性、相关性和服务收益需求，对需要清洗的数据进行优先级别划分和系统资源分配，确保在线清洗结果的时效性、准确性、可用性和可靠性综合评估最优。在离线大数据清洗策略的制定中，图书馆对数据清洗优先级别的划分，重点应放在决策对象的重要性、服务的收益率、系统资源的损耗和实时性需求上，科学分配二级子指标的权重比例，并依据读者需求和图书馆服务模式变革进行动态反馈调控，不断提升宏观决策的科学性和可行性。

223图书馆大数据清洗质量评估标准的几个重要维度

图书馆对不清洁数据清洗质量评估的科学性，既是关系图书馆数据价值保证和大数据决策可用性的关键，也是图书馆对数据清洗系统进行反馈控制、优化和完善的重要依据，因此，必须选择科学、全面、完整和可操作的大数据清洗质量评估维度，才能确保大数据清洗过程高效、优质、快捷、经济和可控。

图书馆大数据清洗质量评估体系的构建应坚持评估指标覆盖面广泛、指标因子权重分配合理、评估系统开放和易于操作的原则，所设计的图书馆大数据清洗质量评估维度如表1所示：表1图书馆大数据清洗质量评估维度表

编号维度内容大数据清洗评估维度的描述1规范性数据的存在性、质量及存储标准2完整性与准确性数据结构完整度、准确性和可用性3重复性数据在字段、记录内容或数据集外重复4一致性和同步性在不同数据库、应用和系统中的一致和同步5及时性和可用性非实时数据的清洗和价值可用性测量6可识别和相关性数据可理解、价值可测量和可相融程度7易用性和可维护性数据可访问、使用、更新、维护和管理的程度8数据价值覆盖度数据在决策中的价值、对象和内容覆盖程度

此外，对图书馆大数据清洗质量的评估，应根据大数据决策过程对数据清洁度、价值密度和可用性的需求，动态调整大数据清洗质量评估维度表中各指标的权重因子，增强大数据评估结果对大数据清洗系统的反馈控制与优化功能，才能确保大数据清洗过程安全、高效、经济和可控。

224图书馆大数据清洗流程的设计

大数据清洗流程的科学性、数据流可控性和评估标准有效性，是关系图书馆大数据清洗流程安全、高效、快速和经济的重要问题。因此，本文在图书馆大数据清洗流程的设计中，坚持在保持大数据价值总量不变的前提下，以提升大数据的价值密度、可用性、决策实时性和降低大数据应用成本为根本目标，有效保证了大数据决策的科学性、可靠性、实时性和经济性。图书馆大数据清洗流程如图2所示：

图书馆大数据清洗系统首先对所接收的大数据进行预处理，并将拟清洗的大数据导入数据清洗系统，检查元数据诸如字段解释、数据来源、代码表等内容描述是否正确，初步统计拟清洗数据的类型、结构、实时性需求和存在模式问题[10]。其次，在大数据的清洗中，应根据大数据清洗的复杂度、大数据总量多少和流程相关性，按照去除和修补缺失大数据、去除重复和逻辑错误大数据、异常大数据的检测与处理、非需求大数据清洗、大数据的关联性验证等步骤进行，最后对已清洗大数据的质量和可用性进行评估，并将不符合大数据决策需求的不清洁数据传输至数据清洗输入接口进行二次清洗。

3结语

图书馆大数据具有多数据来源、多维度、多采集方法和多存储模式的特点，导致大数据中不可避免地存在着错误、粗糙和不合时宜的非清洁数据。这些非清洁数据的存在，增加了图书馆大数据应用的复杂度和数据决策成本，降低了图书馆对读者阅读需求的感知和对未来服务发展趋势的预测能力，严重影响了图书馆服务决策从主观经验主义向大数据决策的转变。因此，如何通过科学、高效、经济和实时的数据清洗，将非清洁数据转化为高质量的干净数据，是图书馆增强大数据可用性、提升大数据决策效率和提升知识服务水平的关键。

图书馆大数据清洗是一个涉及面广泛和影响力深远的工程，不科学的清洗流程和方法会导致数据清洗收益率下降，甚至产生新的不清洁数据而影响图书馆大数据决策科学性。因此，图书馆在大数据的采集、传输、存储、标准化处理、分析和决策中，首先应将数据质量管理和数据清洁引入图书馆大数据生命周期的不同阶段，从制度上规划保证数据质量管理有效和防止不清洁数据的产生。其次，应加强对大数据融合、集成和演化流程的监控与检测，防止因为大数据的产生、流入或数据更改而产生新的不清洁数据。第三，数据清洗过程会消耗大量的系统资源和大数据应用成本，因此，图书馆数据清洗目标的制定应以大数据决策需求为依据，不能人为制定过高的数据清洗清洁度目标而导致大数据决策综合收益下降。

参考文献

[1]王曰芬，章成志，张蓓蓓，等.数据清洗研究综述[J].现代图书情报技术，2007，（12）：50-56.

[2]吴向军，姜云飞，凌应标.基于STRIPS的领域知识提取策略[J].软件学报，2007，18（3）：490-504.

[3]刘喜文，郑昌兴，王文龙，等.构建数据仓库过程中的数据清洗研究[J].图书与情报，2013，（5）：22-28.

[4]蒋勋，刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报，2013，（5）：16-21.

[5]王永红.定量专利分析的样本选取与数据清洗[J].情报理论与实践，2007，30（1）：93-96.

[6]The Economist.Data，data，everywhere-A special report on managing information[EB/OL].http：∥www.economist.com/node/15557443，2016-05-16.

[7]黄沈滨，王海洁，朱振华.大数据云清洗系统的设计与实现[J].智能计算机与应用，2015，5（3）：88-90.

[8]FAN W，LI J，MA S，et al.Yu.CerFix：A system for cleaning data with certain fixes[J].PVLDB，2011，4（12）：1375-1378.

[9]燕彩蓉，孙圭宁，高念高.基于扩展树状知识库的海量数据清洗算法[J].计算机工程与应用，2010，46（28）：146-148.

[10]张建中.数字资源整合与个性化服务中关键技术研究[D].长沙：中南大学信息科学与工程学院，2008：43-45.

（本文责任编辑：郭沫含）