(兰州商学院信息工程学院 甘肃兰州 730020)
随着大数据时代的到来,图书馆用户服务的内容、模式和方法产生了巨大的变革,大数据资源已成为关系图书馆资产结构科学性和服务平台运营效率的关键因素。“人们将会分析更多的数据,而不再依赖于随机采样;人们将不再沉迷于对数据分析精确度的追求,转而关注对趋势的把握;人们不会再习惯性地追问事情的因果,而是寻找事物之间的相关关系。”〔1〕因此,大数据时代图书馆数据资源的质量,以及对数据质量管理与保障的有效性,是关系图书馆正确把握自身系统结构特点、准确分析读者需求、制定科学的管理与服务策略、有效防范运营与服务风险的关键。大数据环境下,图书馆通过对大数据资源的价值挖掘和发现,可明确读者需求、图书馆管理、服务风险、服务市场竞争的优势和用户服务模式的变化趋势,为用户提供更加安全、高效、便捷、经济和个性化的大数据阅读服务。
随着科技的发展与网络繁荣,图书馆用户服务的模式、环境、方法与内容发生了根本性变革,用户阅读活动具有服务数据海量、高速传输、多媒体阅读和即时服务的特点。
首先,图书馆用户服务模式与服务能力的评估标准有了深刻变革,用户服务能力建设重点已由以数据中心功能建设为核心,向以满足用户需求为中心的个性化服务推送能力建设转变。因此,图书馆在用户服务过程中,能否全面、准确地掌握读者的阅读行为、阅读社会关系、阅读需求和阅读方式变化趋势等数据,已成为关系图书馆个性化服务安全、高效、准确和经济地开展的关键。此外,图书馆所采集、存储的用户行为与关系数据激增,大幅度降低了大数据资源的价值密度。其次,读者个性化阅读活动需求和图书馆服务的内容,已由传统环境下以数字化文字为主体,向以音频、图片和视频为主体的多媒体服务信息转变,导致服务数据总量和服务负载激增。第三,随着科技的发展,图书馆可满足读者在任何时间、地点,选择任意的阅读终端开展所需模式与内容的阅读,这极大地满足了读者自由阅读的需求。但是,这种多模式、多终端的阅读方式使数据不断增长和沉淀,导致数据资源的复杂性和多样性不断增长,大数据呈现价值密度低、污染重和价值提取难度大的特点。第四,大数据环境下,数据已成为图书馆一种新的生产要素,具有较强的空间性、时间性、多维性和关系复杂性,是关系图书馆管理与服务效率、用户个性化服务推荐精确度、客户满意度、风险预测与规避有效性的关键因素。〔2〕
传统IT环境下,图书馆数据主要由系统管理数据、服务系统运营数据和用户服务数据组成,数据组织结构具有标准化和结构化的特点。大数据环境下,图书馆数据主要由社交网络、移动计算、监控设备和传感器等信息源产生,包括用户多媒体服务数据、服务系统监控与管理数据、用户行为和阅读关系数据、服务市场环境和客户关系等数据,这些数据主要由半结构化和非结构化数据组成,占据大数据资源的85%以上。
首先,图书馆为了加强自身的洞察力和管理决策的科学性,会多途径、全方位地采集海量数据,并通过价值提取来提高大数据资源之间、大数据资源和用户业务服务之间的数据相关性与融合性。因此,大数据资源具有海量和组织结构复杂的特点。其次,图书馆可通过大数据资源的数据过滤和价值提取,来提高数据的全面性、真实性、准确性、时效性和开放性,保证大数据资源易于采集、存储、加工、整合和数据模式转换,具有高价值、高密度、高聚合和结构化的特征。第三,随着图书馆读者个性化服务的深入,大数据资源的结构复杂度和数据噪声不断增加,增加了数据清洗难度与价值挖掘的盲目性。此外,在大数据资源采集、存储与管理中,数据的安全性、用户隐私保护和数据挖掘结果的可视化需求,也给数据挖掘算法的科学性和效率提出了较高要求。
图书馆在系统运营管理与用户服务过程中,会结合读者的性别、年龄、知识层次、地域和阅读需求等特点,对多数据源采集的结构化、半结构化和非结构化数据进行处理、分析与整合,实现了图书馆系统运营、资源分配和用户服务过程的准确分析、预测和评估。同时,也完成了读者个性化阅读服务的精准营销和客户体验优化。
图书馆可通过对大数据资源的价值挖掘和分析,准确掌握读者的阅读社会关系、个体特征、阅读兴趣与需求、阅读行为和阅读情绪波动等数据。通过对所采集数据的价值挖掘和分析,可定制符合用户个性化需求的服务模式和内容,并对个性化服务的有效性进行评估。其次,大数据平台存储着真实的读者群资源、阅读行为、阅读模式、阅读终端类型、阅读社会关系和读者位置等数据信息,图书馆可依据大数据分析的结果,对所有用户实现面向客户感知的阅读需求精确预测和服务质量保障。同时,也可利用大数据平台中系统的运营、服务和监测数据,实现图书馆运营、管理和服务过程的智慧全景分析与决策。第三,图书馆可利用大数据平台的实时分析和即时决策支持,通过电子邮件、短信、广告和服务模式的个性化定制,实现读者个性化服务的精准营销和自动推荐。可在大幅提高系统运营效率和客户体验质量的前提下,不断降低系统运营、管理和服务的成本。〔3〕
随着图书馆服务模式与用户需求的发展,图书馆对大数据资源的质量管理提出了新的要求。一方面,读者阅读需求的增长对图书馆大数据资源的数量、价值密度和可用性提出了更高要求。另一方面,大数据资源总量的激增大幅增加了数据环境的复杂度,导致数据存储和管理复杂度呈现指数级增长。其次,图书馆大数据资源具有较强的多类型数据混杂性特征,管理员需要从全局层面发现数据之间的因果关系,才能确保图书馆管理与用户服务决策模式实现由数据到信息、信息到知识、知识到智慧的自动转变。第三,图书馆应加强读者阅读行为、阅读关系和阅读社交舆情等大数据资源的质量管理,通过精确的数据分析、评估和决策过程,明确读者的阅读需求、阅读模式变化趋势、服务市场竞争环境和个人爱好,不断提高用户个性化服务的满意度。第四,为了提高大数据决策的科学性和可靠性,图书馆会对服务系统运营数据、管理效率和安全性监控数据、用户个性化阅读行为数据、读者服务市场环境数据、用户浏览与阅读需求数据进行全面的采集。对此类数据的质量管理有效性,会直接关系大数据模式分析结果的科学性,并最终在图书馆管理与用户应用层面表现出来,表现出图书馆系统整体管理的智能化水平和服务风险控制能力。
图书馆大数据价值的管理与保障过程,是一个以读者需求和服务保障为中心,以元数据存储为基础,覆盖大数据资源的质量管理、数据生命周期全过程管理、数据安全性管理、数据可用性和可控性管理的复杂过程。因此,图书馆应从维护读者利益和隐私权角度出发,保证读者拥有对自己关系数据和隐私信息的所有权、隐私权和使用知情权。
首先,大数据环境下读者的个体特征和行为数据已成为机构、企业和社会群体生产力构成的重要要素,机构、企业和社会群体会通过极大限度地对读者个人数据全面的采集、分析、挖掘和共享而获取价值。而这种过度、多源头和全方位的用户数据采集、分析、挖掘和共享过程,可能会造成个人隐私泄露和用户信息安全问题。其次,大数据环境下,我国对个人信息安全和隐私保护方面的法律研究和法规制定相对薄弱,读者隐私保护缺乏科学、详细、可靠和易执行的法律依据。第三,图书馆大数据平台具有数据存储海量、结构复杂、安全威胁多和安全防范难度大的特点,要求对用户大数据资源的采集、传输、存储、处理和评估过程既具有较高的效率,又能够满足读者隐私保护所需要的安全等级。〔4〕
图书馆大数据资源按类型,可分为系统管理与运营数据、读者服务数据、用户阅读行为数据、读者关系数据、读者阅读模式与位置数据、用户阅读过程产生的数据(包括论坛、博客和评价等信息)。这些数据是图书馆明确读者需求、理解用户行为、挖掘服务潜力和提高自身市场竞争力的关键。
首先,图书馆在大数据的管理与应用中,不应仅仅将重点放在提高大数据资源的存储、组织、管理和处理能力建设上,应重点关注图书馆对大数据资源的分析、判断、评估、决策和应用能力,以及如何依靠大数据资源来提高图书馆的管理能力和用户服务保障力。其次,大数据资源的流动性、融合性、关联性和可共享性,关系着大数据挖掘和价值发现过程的广度与深度。图书馆应防止系统内部不同部门之间、不同服务平台之间、不同用户之间和不同大数据应用之间发生数据割裂情形,确保大数据资源具有高度的流动性、共享性、连续性和开放性。第三,大数据资源价值过滤、挖掘、分析和发现的有效性,关系着图书馆系统管理和用户服务的安全性、效率性、可靠性和经济性。图书馆大数据的价值转化途径主要可分为“数据——信息——知识——智慧”四个层面,而智慧管理和智慧服务则是图书馆大数据应用过程的最高层次。因此,图书馆应通过对大数据的挖掘和价值发现,完成传统IT环境下的系统被动管理与用户索取式服务,向大数据环境下的智慧管理和智慧服务转变。〔5〕
传统数据环境下,由于受数据采集的对象、内容、方法、范围和成本等因素限制,图书馆通常以最小量的样本观测来获取数据价值与关系规律。而在大数据时代,由于数据采集、处理、分析和决策科学技术的发展,以及大数据处理与应用成本的大幅下降,图书馆可通过对海量数据进行大数据的分析、决策与应用,而获取读者个性化服务所需的经验、知识和智慧。
大数据的价值在于对数据的高效、精细化过滤。用户服务内容、模式、对象和方法的多样性,是大数据时代图书馆用户服务的一个显著特征。图书馆大数据环境与用户服务过程的复杂性,导致大数据资源存在较强的数据噪声和较低价值密度。因此,图书馆应通过对大数据的精细化过滤和价值提取,来提升数据价值获取的效率、易用性和个性化水平,并降低数据挖掘、分析和决策的成本。其次,图书馆应根据用户需求、阅读行为、阅读群体特征、情绪脉动、阅读习惯和服务产品定位,实现读者个性化定制服务的单项过滤和价值发现,为读者提供安全、高效、互动和较好阅读体验的大数据阅读服务。同时,可通过读者阅读反馈和阅读行为数据,来判断、评估和优化图书馆用户个性化服务内容和模式的有效性。第三,在精细化过滤过程中,对大数据的数据可用性、过滤深度、精确性和实时性具有较高要求。因此,管理员应准确判断上述四要素对不同大数据应用有效性的影响度,并在大数据价值过滤时有针对性地选择和突出。〔6〕
大数据专家维克托在其著作《大数据时代》中阐述:“大数据挖掘的核心特点是‘全量数据、相关关系、预测预判’”。因此,图书馆只有从海量、杂乱的管理数据、服务数据、用户阅读行为与关系数据中寻找隐藏其间的数据相关性,才能更深层次的发现读者阅读需求、服务系统运营特征和服务风险,才能对图书馆未来的运营模式、服务方法、读者需求和发展方向进行准确预测。
首先,随着图书馆用户服务模式与内容的发展与变革,大数据结构组成快速从结构化数据向非结构化数据演变,且非结构化数据占据数据总量的85%以上。图书馆应依据读者阅读服务的模式、内容和结构特征,将采集的大数据资源分类存储在云空间。同时,可通过科学的处理、分析和应用,准确分析读者的阅读需求和阅读行为,并构建面向读者需求的360°用户阅读行为视图和兴趣图谱,不断提高图书馆对读者认识和服务的广度、深度及关联度。其次,对读者阅读行为、用户需求和服务友好性的准确评估,是图书馆制定、完善和优化服务策略的关键。因此,图书馆应构建大数据资源、服务和分析三位一体的闭环循环系统,为读者阅读服务策略的制定、内容选取、质量保证和有效性评估提供决策依据。第三,以用户个性化需求为中心的数据价值发现过程,必须重点关注数据采集与传输的效率、数据的质量与可用性、数据价值发现与挖掘算法的科学性、大数据应用的时限要求,才能保证数据价值发现过程科学、高效、实时和经济。〔7〕
有专家断言,现在每18个月新增的数据量等于有史以来的数据量之和。近年来,随着数据采集、存储、计算和分析技术的发展,从复杂的大数据环境中获取信息和存储、处理、分析数据,已不是制约图书馆大数据应用的主要矛盾。而如何提高图书馆大数据平台结构的科学性和应用效率,确保在复杂、混乱和低价值密度的大数据资源中发现无关数据中蕴涵的相关性和知识,为图书馆管理和用户服务提供可靠的数据支持,则是图书馆大数据应用重点关注的问题。
首先,图书馆应构建安全、集中、高效和开放的大数据应用平台,真正实现数据、平台和应用的统一结合,确保大数据平台可准确反映用户的服务模式、读者需求、服务内容和营销方式。此外,还需避免发生数据分散、割裂和无法共享的现象,保证图书馆在大数据平台上自主、灵活、可控和经济地按照读者需求开展形式多样的大数据应用服务。其次,大数据平台可根据读者群行为特征和需求,定向垂直采集相关用户群的阅读模式、内容、方法、环境、途径和满意度大数据信息,实现读者群的精细划分与精准营销。并进一步按照读者群的阅读模式、服务方式、个人爱好、地理位置和阅读终端设备参数,建立用户群分类标签和读者大数据分析视图化,不断提高服务平台保障力和读者的忠诚度,保证服务内容更加全面、清晰、个性化和与读者需求自动匹配。第三,信息的对称度关系大数据平台决策的科学性和准确性。因此,图书馆应加强大数据平台数据挖掘、价值过滤和数据关系整理过程的有效性,确保大数据资源全面、完整、实时、动态、开放和可共享,可通过大数据科学决策实现图书馆界的社会价值、服务价值、竞争环境和竞争规则,向有利于用户服务和图书馆未来发展的方向转变。〔8〕
大数据时代,服务信息交换已由数据从图书馆向读者的单向传递,转变为图书馆与读者间的双向交流和反馈。读者在阅读活动中的行为、思想、喜好、情感和情绪变化,已成为图书馆圈定用户、与用户建立关联和进行个性化定制服务的重要依据。
首先,借助大数据的分析与预测,图书馆在用户关系管理中可以明确读者的特性(个体特征与自然属性),能够全面、深层次地分析读者的属性和服务需求,制定智慧的管理策略来提高服务满意度和客户忠诚度,并在降低客户流失率的前提下提升读者群数量。其次,图书馆可利用大数据来整合服务系统资源,准确发现图书馆服务模式适用性、阅读需求发展趋势和与读者群的关系图谱。此外,还可为读者提供个性化服务定制、广告的精准投放、读者阅读满意度反馈的分析与判断等,来加强读者阅读活动的针对性和有效性。第三,图书馆可利用大数据资源和技术,和其他互联网服务商以服务联盟和资源共享的方式来提高核心竞争力,为读者提供智慧化服务。诸如谷歌公司于2012年4月发布了一款“拓展现实”眼镜,它具有和智能手机一样的功能,可以通过声音控制拍照、视频通话和辨明方向,以及上网冲浪、处理文字信息和电子邮件等。图书馆可与谷歌公司实现大数据平台技术与服务共享,为读者提供一个可自我感知、反馈、分析和预测的大数据阅读服务。〔9〕
大数据时代,随着大数据海量化、多样化、快速化和价值化特征的逐步显现,数据已成为关系图书馆用户服务能力和市场竞争力的关键资产。图书馆只有依靠大数据处理平台和数据资源支持,才能实现对系统管理和用户服务的准确预测、判断和智能化决策,重新定义自己的核心价值和服务竞争力。
在图书馆大数据的管理与应用过程中,数据的质量问题与服务能力保障,是数据间关系准确定义、价值高效提取、质量管理科学和应用过程经济的关键。因此,图书馆应加强大数据资源采集、传输、存储、处理和分析过程的数据价值管理。在确保大数据资源真实、可用的前提下,以海量结构化与非结构化数据的融合和应用为依托,将大数据的质量管理融入到元数据采集、读者隐私保护、数据可用性管理、信息生命周期管理和专业技术人员管理过程中,才能保证大数据资源具备较高的安全性、价值密度、可用性和应用经济性,才能为图书馆管理和读者服务提供可靠的价值发现、决策分析和QOS(服务质量保证)支持。〔10〕
1,3.(英)维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代.盛杨燕,周涛,译.杭州:浙江人民出版社,2013:1-15
2.孟小峰,慈祥.大数据管理:概念、技术与挑战.计算机研究与发展,2013,50(1):146-169
4.沈来信,王伟.基于Tree-Lib的大数据实时分析研究.计算机科学,2013,40(6):192-196
5.王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考.中国电子科学研究院学报,2013,8(1):8-17
6.唐杰,杨洋.移动社交网络中的用户行为预测模型.中国计算机学会通讯,2012,8(5):21-25
7.罗恩韬,胡志刚,林华.一种大数据时代海量数据抽取的开发模型研究.计算机应用研究,2013,30(11):3269-3275
8.刘立潮.数据质量管控智能化在运营支撑系统中的价值和实现.电信科学,2011(11):128-134
9.陈臣.基于大数据的图书馆个性化智慧服务体系构建.情报资料工作,2013(6):75-79
10.漆晨曦.电信企业大数据分析、应用及管理发展策略.电信科学,2013(3):12-16