杨利军 高军
〔摘 要〕随着计算机软硬件的快速发展和网络普及,图书馆中的大数据量呈现爆炸式增长。本文介绍了大数据的定义,阐述了图书馆个性化服务中的大数据可视化分析的重要意义。为保证图书馆员更好地对海量、复杂大数据进行有效分析,本文设计了一种图书馆大数据可视化分析系统框架。该系统可有效提升大数据挖掘的效能,帮助用户更好地理解数据,并具有较为完善的可视化分析功能。
〔关键词〕图书馆;个性化服务;大数据;可视化分析
DOI:10.3969/j.issn.1008-0821.2015.07.013
〔中图分类号〕G25076 〔文献标识码〕A 〔文章编号〕1008-0821(2015)07-0068-05
〔Abstract〕With the rapid development of computer hardware,software and network technology,the size of large data in library is growing exponentially.This paper introduced the definition of big data,the significance of large data visualization analysis in library personalized service.In order to analyze the massive and complex large data effectively,this paper designed a large data visualized analysis frame structure for library.The system frame structure can effectively improve the efficiency of large data mining,help users to better understand data,and contain perfect visualized analysis function.
〔Key words〕library;personalized service;big data;visualization analysis
目前,图书馆已进入大数据时代。大数据时代,数据和文献、设备、馆员一起成为图书馆服务生产资源和生产力的重要组成部分,为图书馆的服务系统构建、服务模式变革和服务质量保证提供安全、可靠、经济、便捷的大数据决策支持。图书馆大数据环境呈现海量(Volume)激增、多类型(Variety)、快速处理(Velocity)和高价值(Value) 的大数据4V特征[1]。随着云计算、传感器网络、高速数据传输网络和大数据技术在图书馆中应用的不断深入,图书馆在提高自身服务能力和读者阅读满意度的同时,其数据总量和数据类型将呈现快速增长态势。如何在复杂、多变的数据环境中有效发现和挖掘大数据价值,为图书馆提供全面、精确、可视和可靠的大数据决策支持,成为关系图书馆服务模式科学、服务方式有效和读者阅读满意的重要因素。
图书馆大数据环境具有信息分散、数据结构不统一的特点,传统的人工分析方式因其本身存在的分析过程非结构性、不确定性和分析流程不可控等问题,难以将大数据调入应用系统中进行数据价值的有效发现、挖掘和客观表现,不能为图书馆的系统管理、运营和读者服务提供可靠的大数据决策支持。数据可视化分析是有效适应图书馆大数据复杂环境和满足大数据分析需求行之有效的方法。维基百科对数据可视化的定义为“数据可视化是技术上较为高级的技术方法。这些技术方法允许利用图形、图像处理、计算机视觉和用户界面,通过表达、建模方式实现对立体、表面、属性和变量的显示,并对数据加以可视化解释”[2]。因此,如何借助图形化的手段,清晰、准确和可视地表现出大数据之间的关系和从知识中获取的价值,是图书馆增强大数据价值发现有效性和将数据价值转换为服务生产力的重要途径。
1 图书馆大数据可视化分析的需求与挑战
11 图书馆大数据可视化分析的应用现状
图书馆大数据分析与可视化展示二者相辅相成。一方面大数据分析赋予可视化展示价值与意义;另一方面可视化展示帮助图书馆从数据中提取价值和知识。据调查现示,目前我国图书馆界大数据可视化分析应用还不普及,仅在少部分国家级和国家最高学术机构图书馆部署,绝大部分图书馆仅制定了相应的部署、应用计划。从大数据可视化分析产品的选择看,绝大多数图书馆偏向于应用免费、开源的可视化分析平台,仅有少数高级别图书馆与第三方共同研发了相应的大数据可视化分析平台。其中,功能强大、系统开源、兼容性强和易操作,是图书馆在大数据可视化分析系统构建中最关注的4个问题。其次,图书馆可视化分析重点关注的方向是数据空间的分布、大数据的定量计算、数据的多维分析、分析结果的可视化展示,以及如何通过大数据可视化分析来有效支持图书馆建设、管理与服务的科学决策等问题。第三,图书馆大数据资源主要以半结构化和非结构化数据方式存在。图书馆大数据可视化分析的对象主要涉及服务系统日志文件、图书馆运营与CRM(Customer Relationship Management,客户关系管理)数据、读者阅读终端和模式数据、读者阅读反馈数据、读者阅读行为和社会关系数据、服务市场竞争环境数据等,且其可控性和可用性将随着大数据总量、数据类型的快速递增而呈现快速下降趋势[3]。第四,随着大数据资源采集深度和广度的不断增长,可视化分析过程将更多地涉及图书馆保密与读者隐私数据。因此,如何加强大数据的安全管理和访问权限控制,是图书馆大数据可视化分析需要重点关注的问题。
12 可视化分析应以大数据价值发现为目的
图书馆大数据环境具有数据海量、数据结构多样、数据价值分布不均匀和数据价值密度低的特点,数据分析过程难以控制和不能形成统一的分析流程。因此,如何有效发现大数据价值和数据间隐匿的关系,并以可视化图表方式展示供图书馆员决策参考,是图书馆大数据可视化分析的根本目的。其次,可视化分析系统服务对象应由图书馆管理层转换为普通馆员,服务模式也应由数据分析员的主动式服务转变为普通馆员的自助式服务。支持不同部门员工通过身份与权限认证,快速获得直观、可视、互动和高价值的图形与报表,有效洞察相关数据中隐藏的价值和数据关系。支持图书馆员通过网络和移动设备,实现与其它用户可视化分析结果的共享。第三,大数据可视化分析系统应具有良好的数据环境和硬件平台适应能力,支持用户根据图书馆数据规模分别部署于公有云、私有云和普通IT硬件环境中,有效实现大数据的多类型图表可视化展示、高效关联分析和人机决策交互[4]。第四,大数据可视化分析系统应以数据价值的全面发现和可视化精准展示为目的。因此,数据分析员应控制好可视化分析系统在价值发现和可视化展示间的平衡点,不能过于强调数据价值发现而忽视可视化展示的有效性,也不能片面强调大数据的可视化展示形式而影响大数据的价值发现。endprint
13 图书馆数据中心系统运营管理的可视化分析需求 图书馆数据中心系统运营管理具有系统结构复杂、服务负载突发、故障定位困难和问题描述不准确的特点。如何通过可视化分析技术实现数据中心运营复杂数据的分析,并以可视化形式全面、完整、准确和清晰地展示出来,是图书馆有效发现数据中心运营数据中隐藏的价值、明确服务系统运营状况、准确定位系统故障和优化系统综合服务能力的关键。
首先,图书馆数据中心系统可视化分析应加强运营数据的采集与处理、数据可视化分析和数据价值可视化表现3个方面的内容。须将大数据统计、计算机图形学和计算机仿真学等技术结合,全面、准确和实时地以视觉图形的方式,表现出数据中心系统运营大数据中隐含的知识,为图书馆系统管理员和服务系统平台交互,提供可视化的数据决策、交互和反馈控制支持。其次,读者群阅读需求具有极强的突发性和不可控性,庞大的读者群在同一时段突发的阅读需求,会导致图书馆服务数据传输网络负荷快速增长,使服务数据传输网络拥塞和运营成本急剧攀升。因此,图书馆应通过部署可视化分析工具实现对服务网络的监控、分析、评估和预测,支持管理员通过提前决策、快速部署来避免未来服务高峰网络拥塞。第三,数据中心系统自身存在的安全漏洞和运营风险是图书馆应关注的另一个重要问题。随着数据中心系统功能和结构复杂度的不断增长,其系统漏洞、安全威胁和运营风险可控性等问题越来越突出,如何通过可视化分析系统来发现漏洞、识别漏洞、定位漏洞和评估风险,是图书馆提高数据中心系统安全性和保证读者个人隐私的关键[5]。
14 图书馆读者个性化服务的大数据可视化分析需求 读者阅读个性化需求的发现和个性化服务QOS保证,是图书馆读者个性化服务应重点关注的两个问题。通过视频监控系统、传感器网络设备、阅读终端运营数据和读者阅读满意度反馈等数据,图书馆能够有效获得读者阅读的内容、阅读群体关系、阅读习惯和移动阅读路径,以及读者对关注内容的有效访问次数、回访者与新访问者数量、不同读者群关注度、间隔访问天数等,最终可准确判断个体读者和不同读者群的阅读需求。其次,随着个性化服务的深入和读者个体数据的激增,传统的依据读者服务需求建模、提前汇总数据和提取数据分析结果的作法,因可视化图表静态、建模方法预先设置、报表内容不可实时调整、分析员不能动态修改和完善模型,而不能满足读者个性化服务高效、实时、定制和快捷的需求[6]。第三,可视化分析系统还应满足图书馆管理员即时、简单和交互式分析的需求,而不需要图书馆馆员具有专业的可视化数据分析知识,系统能够自动生成支持馆员自主决策的可视化分析报告和图表。第四,面对读者个体特征数据海量、快速递增、动态变化和低价值密度的特点,可视化分析系统应采取轻量建模和构建N个视图的方法,确保系统能够随着读者个体数据的导入而实现即时分析与可视化展示,支持使用者根据分析需求实时调整大数据分析的维度和度量计算方式,保证分析结果系统、准确、实时和直观。
15 图书馆对大数据可视化分析系统的功能需求
百度百科对数据可视化思想的定义是“将数据库中每一个数据项作为单个图元元素,通过抽取的数据集构成数据图像,同时将数据的各个属性值加以组合,并以多维数据的形式通过图表、三维等方式用以展现数据之间的关联信息,使用户能从不同的维度以及不同的组合对数据库中的数据进行观察,从而对数据进行更深入的分析和挖掘”。因此,图书馆大数据可视化工具应以服务图书馆员的用户服务决策需求为核心,具有可视化分析过程数据实时更新、系统易于操作、数据知识多维度展示、支持多数据源和数据库的特点。其次,大数据可视化分析结果展示应具有多视图整合、所有数据视图交互联动和强大的主屏显示功能,可根据数据价值展示需求,实现主从屏联动、多屏联动、自动翻屏,以及展现内容的快速查询、缩放、切换功能。第三,可视化分析系统应具备高性能内存分析架构,可根据图书馆员的工作特点、决策任务和分析需求定制系统工作界面,有效实现图书馆智能管理和分析能力的完美结合[7]。此外,还应支持图书馆员通过个人移动数据终端完成移动可视化分析,实现图书馆内不同部门间的可视化决策共享和联动。
2 图书馆大数据可视化分析的流程与应用策略
21 图书馆大数据可视化分析的流程
图书馆大数据可视化平台应支持绝大多数主流操作系统平台和多种开发语言,可以无缝嵌入到相关的应用系统之中,能够根据可视化分析的内容、对象和结果需求,帮助图书馆员采用不同的大数据分析模式和方法开展可视化分析,并以多种展现方式实现大数据价值和大数据关系的表现。
图书馆大数据可视化分析流程如图1所示。
图书馆通过视频监控器、传感设备、服务器监控设备和阅读终端等大数据采集设备,完成对用户服务系统运营、读者阅读需求和行为、阅读终端运行状况、服务市场竞争环境大数据资源的采集。其次,可通过大数据处理系统实现图书馆结构化数据及非结构化数据的准备、噪声过滤和标准化模式转换,在有效提高大数据价值密度、数据可用性和可控性的前提下,传输至大数据库进行数据存储。第三,大数据可视化分析系统可通过身身的API(Application Programming Interface,应用程序编程接口)与其他应用系统实现紧耦合或松耦合。依据分析对象的数据总量、类型和决策需求,通过关联分析、时序分析、列表分析、路径分析和群组分析等方法,科学、准确、快速和经济地挖掘图书馆大数据价值和发现大数据之间的关系[8]。可视化展示系统应具有较强的可操作性、交互性和表现多样性,能够辅助图书馆员完成各种图表的操作和静态、动态图形展示。此外,还应支持不同部门的图书馆员和第三方服务商在获得相应数据库访问权后,通过简单的网络参数配置完成数据库的连接、模型定义和分析结果的可视化共享展示。
22 图书馆员可视化分析的知识发现与获取过程
图书馆员可视化分析知识的发现与获取过程,是由计算机可视化分析系统与图书馆员对大数据的共同作用、交互和分析而产生。计算机负责大数据的处理、分析和可视化展示,而图书馆员则负责大数据知识的获取、识别、修改和完善,具体过程如图2所示。endprint
计算机可视化分析系统负责对所采集的大数据进行处理、分析系统建模和分析结果的可视化输出。知识通常隐匿在图书馆大数据库存储的结构化、半结构化和非结构化数据中,图书馆员通过构建科学、高效和简单的分析系统模式,实现大数据的快速处理、分析和价值挖掘,并以人机交互可视化展现的方式传输给图书馆员,通过图书馆员对大数据可视化展示信息的识别而最终形成知识。由于图书馆员的认知能力具有主面性、片面性和不确定性,因此,必须通过知识验证过程对所发现的知识进行证明、分析和总结。同时,依据知识验证的结果提出新的科学假设,经过若干次验证循环和后知识产生循环,进而获取科学、正确、可靠和易用的新知识[9]。随后,通过数据传输接口将获取的知识反馈给计算机可视化分析系统,最终提升可视化分析系统的数据处理、分析建模和可视化展示的科学性与准确性。
23 图书馆大数据可视化分析的应用策略
231 大数据可视化分析系统平台的功能构建
可视化分析平台应满足图书馆决策层、数据分析员和管理员的大数据分析、决策需求,具有平台界面可定制、操作简单、无缝对接任何数据源和分析结果直观可视化展现的特点,能够帮助图书馆完成服务市场环境数据、读者阅读需求与变化趋势、服务风险控制与预警、QOS和读者满意度保证、KPI(关键绩效指标)分析、服务系统运营效率、CRM、精准营销和业务流程等多业务领域的可视化分析服务,可为图书馆提供覆盖所有业务领域、员工层次和工作流程的可视化决策支持。其次,分析系统应具备先进的内存分析引擎,支持大数据的动态整合和直观的数据分段、分层划分,操作人员可通过简单的拖放而建立数据关系和过滤喊声。此外,系统还应根据用户可视化分析的实时性和复杂性特点,支持大数据的动态和静态可视化分析。分析员可根据实时大数据可视化分析结果,满足图书馆服务对读者QOS保障、系统运营安全与效率管理、读者阅读需求变化等应用的时限需求[10]。第三,可视化分析系统应具有较强的语义分析、地理空间分析、关联分析、时序分析、列表分析、路径分析和群组分析能力,可为用户提供管理层决策界面、自助智能分析与查询、电子报表、多维分析、移动商业智能应用、大数据分析报告、数据价值挖掘、ETL(Extract-Transform-Load,数据的萃取、转置、加载至目的端的过程)和数据调度等服务。
232 可视化分析系统平台应坚持技术开放的原则
可视化分析系统平台应坚持技术开放、系统集成、统一平台和统一管理的原则。首先,可视化分析系统平台部署应支持UNIX、Linux和Windows等世界主流系统平台、应用服务器和中间件。可在不同的操作系统和应用平台间移植,支持用户通过浏览器、应用程序和显示终端访问,具有较强的系统独立性和软、硬件兼容性。其次,由于图书馆大数据库存储海量、多类型的特点,可视化分析系统应支持对国内外主流关系数据库(Oracle、DB2、Teradata、SQL Server、Sybase等)的配置、访问、查询、下载和存储等操作[11]。此外,还可根据分析对象的数据复杂度、类型和维度,支持对多维数据库的多维OLAP(联机分析处理),确保大数据可视化分析和数据价值表现的多维性。第三,分析系统平台应坚持SOA(面向服务的体系结构)构建,并给图书馆服务管理系统、CRM系统、第三方大数据库和其它应用平台预留足够的API(应用程序编程接口)接口,保证可视化分析系统平台易于和第三方平台、应用程序集成[12]。第四,可视化分析系统平台应支持分析员的个性化定制操作,有效降低分析系统在特殊环境下对硬件资源的性能需求,支持图书馆员通过移动PC等设备,实现大数据的移动分析与可视化展示、数据共享和数据查询等功能。
233 大数据可视化分析平台功能构建应坚持高效、智能的原则
图书馆大数据可视化分析平台应坚持高效、智能和自动化的构建原则,才能有效提高分析平台对数据价值的发现效率的同时,大幅降低图书馆数据分析员的工作量和大数据分析成本的投入,为图书馆管理和决策活动提供精确、实时、经济和便捷的可视化大数据决策支持。
可视化分析平台与大数据库安全、高效、快速和直接的连接,是图书馆大数据分析平台有效融合数据结构差异、精确发现数据关系和实时开展可视化分析的关键。因此,图书馆大数据可视化分析平台应通过统一的数据接口,实现与大数据库、多维数据集、文件和电子表格的直接连接,确保可视化分析系统无需编程和预先参数设置,即可实时、动态地发现大数据库数据的内容、结构和关系变化,通过有效下载、整合大数据而完成动态变化的可视化分析结果。其次,当拟分析大数据资源总量有限、静态和结构简单时,图书馆员可通过在馆员个人终端电脑上安装可视化分析平台的客户端程序,实现大数据的可视化移动分析。而当大数据资源海量、结构复杂和动态变化时,可视化分析平台应支持图书馆员将大数据传输到可视化分析共享服务器上,由高性能可视化分析服务器或者多台用户端设备,共同完成复杂大数据的可视化分析,并将分析结果传输到图书馆员客户端上显示。第三,可视化分析平台还应具备较强的人机交互性。可视化分析平台通过对服务器运行日志、系统安全漏洞和风险监测数据、数据中心硬件设备运行效率数据、服务器负载变化等大数据的分析,将结果以动态的图形、表格等方式展示出来,管理员依据分析结果对服务与安全管理系统的参数进行设置和修正,最终通过智能化反馈控制有效保证服务系统性能最优化[13]。
234 可视化分析应以图书馆读者个性化服务为中心
满足读者阅读和服务保障任务需求,是图书馆大数据可视化分析系统构建、运营的中心工作。首先,图书馆应利用视频监控设备、读者阅读行为监控服务器、传感器网络和第三方运营商API接口,全面、准确、即时和便捷地采集与读者阅读活动相关的数据。通过对所采集的读者相关数据的选择、噪声过滤和价值发现,为每一名读者构建属于自己的小数据库,依靠小数据全面、准确地展示读者的个体特征和阅读活动信息[14]。其次,对读者个体的可视化分析应基于图书馆小数据库资源,实现从经验分析到定量分析的转变。分析系统通过对读者行为的可视化描述和过去行为的回溯、分析与判断,在有效过滤噪声行为数据后,准确、清晰地表述出读者内在的个体阅读需求和所处阅读群体的阅读意愿。有助于图书馆将具有相似特征和需求的读者划分为一个大的读者群,通过采用为用户群整体定制的服务方式而有效降低成本。同时,在严格控制服务成本的前提下,以个性化服务保障模式来满足个体读者的个性化阅读服务需求。第三,读者个性化阅读服务具有个性化、持续性、多样化和需求快速增长的特点。因此,图书馆对读者个性化服务需求的分析,应坚持实时数据和历史数据相结合、静态数据和动态数据相结合的原则,准确、实时地发现读者新需求的产生和需求变化的总发展趋势,以便更科学地做出大数据服务决策和提供服务。第四,读者行为大数据可视化分析过程应以有效保护读者隐私安全为前提,不能片面强调可视化分析科学性和准确度而侵犯读者隐私,由读者决定自身相关数据的采集、存储、分析和应用决策。endprint
3 结束语
大数据环境下,数据已成为图书馆生产资料组成和服务生产力发展的重要因素。如何安全、高效、经济和快速地挖掘大数据价值,并将所获得的知识运用到图书馆基础设施构建、读者个性化阅读保障、客户关系管理和服务模式变革中,成为关系图书馆服务能力建设和读者QOS保障有效的关键。当前,大数据可视化分析系统是图书馆精确发现数据价值,将所发现的数据价值转化为知识和决策依据,并以可视化形式直观展示的有效途径。图书馆在大数据可视化分析系统建设、应用中,应从自身大数据应用的实际状况、读者服务保障的内容和标准、IT基础设施建设水平和大数据分析需求出发,和第三方共同开发出符合自身环境特点和大数据应用模式的可视化分析平台,才能真正实现大数据与图书馆员、大数据与读者、大数据与图书馆之间的“零距离”,才能为读者服务全程提供安全、精确、经济和便捷的大数据可视化决策支持[4]。
参考文献
[1]代双凤,董继阳,薛健.科学计算中大数据可视化分析与应用[J].工程研究——跨学科视野中的工程,2014,6(3):275-281.
[2]王宇灿,李一飞,袁勤俭.国际大数据研究热点及前沿演化可视化分析[J].工程研究——跨学科视野中的工程,2014,6(3):282-293.
[3]游进国,杨卓荦,胡建华,等.一种支持大规模数据的多维可视化分析框架[J].计算机工程,2011,37(19):26-31.
[4]何非,何克清.大数据及其科学问题与方法的探讨[J].武汉大学学报:理学版,2014,60(1):1-12.
[5]牛春华,李慧佳.基于WOS数据的活动理论研究现状可视化分析[J].图书与情报,2014,(2):99-104.
[6]张志强,何文春,朱江,等.基于B/S架构的雾霾专题数据可视化服务系统设计与实现[J].计算机应用,2014,32(s2):140-142.
[7]孙宁伟,赵瑜,刘勇,等.TVBRT:一种基于Radial Tree的具有度量属性的多变元时态数据可视化方法[J].计算机科学,2014,41(6):5-11,17.
[8]李久松,常晓峰,田丰林,等.海洋和大气数据多模式动态可视化系统的设计和实现[J].海洋科学,2014,38(1):10-14.
[9]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
[10]周晓分,黄国彬,白雅楠.科学计量可视化软件的对比与数据预处理研究[J].图书与情报,2013,57(23):64-72.
[11]郑伟连,杨敏洁,刘睿,等.基于MBD的检测数据和三维模型关联与可视化技术[J].航空精密制造技术,2014,50(6):11-14,35.
[12]刘金硕,程力,王丽娜,等.利用CUDA的剪切波数据三维可视化[J].武汉大学学报:信息科学版,2013,38(11):1271-1275.
[13]Jiang D,Chen G,Ooi B C,et al.epiC:an Extensible and Scalable System for Processing Big Data[J].Proceedings of the VLDB Endowment,2014,7(7):1-12.
[14]杨良斌.关于科学计量学与可视化的若干问题探讨[J].情报杂志,2012,31(4):2-3.
(本文责任编辑:郭沫含)endprint