田 青
在互联网快速发展的推动下,数据量和数据类型也在不断地激增,麦肯锡首次在咨询报告中提及“大数据”,并指出“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。”[1]更有学者指出“大数据是组织内外网页数据的集合”。可见,在互联网的推动下,数据在数量、类型、速度、格式、价值等方面都发生着巨大的变化,由大数据构成的新产业环境正在加速发展,并不断对各行各业甚至是国家与政府发挥着巨大的牵引力。由于整个信息生态环境的变化,直接对图书馆产生着影响,图书馆外部的数据源不断增多,充实着图书馆的馆藏资源,并因其动态发展不断增加与改变着图书馆的数据结构,这成为图书馆大数据的主要构成部分;同时,由于图书馆需要对这些数据进行管理,由此会产生管理数据、流通数据、分析数据、关联数据等,这对数据的应用与开发、馆藏结构的建设与调整,以及分析用户需求变化等及其重要,也是图书馆大数据的构成部分;此外,图书馆内部的用户因自身工作、学习与生活受大数据的影响,用户的信息需求行为与知识需求也在不断地发生着变化,图书馆为了能在第一时间了解用户的需求与变化趋势,重点深入地开展用户行为分析,包括用户的个人信息、借阅信息、知识服务过程、知识解决方案记录、社会网络信息、即时信息等,即用户的动态行为数据也成为图书馆大数据的构成部分。而在每类数据构成中又都存在着比以往任何时候都多的形式、类型与不同价值的数据内容,因此,当外部信息环境进入到大数据时代时,图书馆等信息机构受其影响将最为明显,图书馆应积极应对大数据时代对自身的冲击,重新思考现行的数据存储方法、数据管理模式与知识服务模式,充分利用大数据为图书馆提供的机遇,将大数据内嵌于图书馆的知识服务中,更好地服务于用户。
一个完整的数据生命周期包括数据加工和知识抽取两个层次,而数据加工又包括初次加工与高级加工,数据存储隶属于数据初次加工的范畴,而高级加工与知识抽取等都要基于数据存储来进行。与此同理,知识管理也是在知识库的基础上,实现组织内员工的知识共享与交流,不断提升知识创新能力,以增强组织的应变能力与市场竞争力。在知识管理的过程中,知识库的建立正是知识存储的集中体现,借助于数据转换为知识的过程,将有价值的知识有目的地存入机构库或数据仓库中,以备知识共享、知识交流与知识创新所用。因此,知识存储成为知识服务的前提,知识存储的数量、种类、格式、知识元、标引方法等直接影响知识服务的内容、方法、模式、平台等[2]。
图书馆的知识服务观是信息社会发展下的必然产物,图书馆因其对知识的专业性与技能性,能够从用户的需求出发,分析用户的知识需求,基于内外知识的储备与融合能够向用户提供问题的解决方案。虽然在知识服务的过程中,图书馆员的专业性占据了较大的比例,但是“巧妇难为无米之炊”,知识服务的基础是每一个有意义的知识单元,馆员正是从这些有价值的知识元出发,发现蕴含其中的联系与机理,不断地剖析推理,才能为用户提供优质的知识服务。因此,知识存储的数量与质量决定着知识服务的范围、深度与质量水平,图书馆要想在知识服务的领域中争得一席之地,必须扎扎实实地搞好知识存储的工作。
知识管理就是要通过对确定有效的知识单元进行处理(包括知识标引、知识表达、知识存储、知识检索、知识计量、知识评价等) 以达到知识服务、知识发现和知识创新的目的[3]。由此可见,知识存储与知识服务共同隶属于知识管理过程,经过数据转换为知识的处理后,知识元成为知识的基本单位,不仅可成为知识存储的特征点,同时也可成为知识服务时的检索点,提高知识服务的响应速度和效率,而且知识服务的结果与过程也可成为新的知识点进入知识存储阶段,不断增加与更新知识的容量与质量,二者互为依存、互为进退,共同内嵌于知识管理的情境中,既统一于知识管理的统一战略,又具有各自的独特性,共同服务于用户实现知识创新的目标。
图书馆在大数据的背景下,面临着数据来源繁多、形式多样、格式多元等特点,只有对大数据进行有序的规划与处理,才能为知识服务提供夯实的基础。图书馆的知识存储规划分为数据转换、知识评估、知识分类、知识存储4个过程 (见图1) ,在用户需求的导向下,将大数据转换为有价值的知识,利用数据生命周期、价值性、更新频率、使用频率等指标对知识进行重要性评估,对知识进行重要性排序,基于此进行知识分类,形成从高到低的知识层次,对应不同重要级别的知识进行分级分层存储,同时需要预防各种可能的数据存储灾难,保证知识数据的实时、同步与可用性。
图1 图书馆大数据的知识存储规划过程
大数据的“大”为图书馆的知识服务提供了丰富的数据源,从数据类型上看,有结构化数据、半结构化数据与非结构化数据;从数据类型来看,有音频、文本、视频、URL、图像、即时通信、电子商务等;从数据来源看,有图书馆外部的信息机构、网络等数据和图书馆内部的馆藏目录数据、图书、论文、专利、标准、电子数据库及动态的RFID数据、用户信息行为记等,但这些数据都是对客观事物的属性、特点、位置及相互关系的抽象表述,是客观社会中的原始资料,适合人们进行保存、传播与加工处理。而知识是对数据处理后形成的信息再进行定量与定性的归纳、演绎的逻辑推理后形成的、经过实践检验的、有价值的、被人消化吸收的结果。因此,知识是对数据处理后的高级产物,而知识恰恰是图书用户利用的对象,不能与用户需求联系的任何数据都是没有价值的。因此,在知识存储的过程中,首先要对大数据进行知识转换与处理,基于用户需求角度,对数据进行数据过滤、数据清洗、数据格式处理、知识元分解等处理过程,将数量庞大的大数据升级为用户可用的、有价值的知识元对象。
对知识进行存储的前提是将知识按照重要性将其进行分类,以重要程度的不同来进行分类存储。因此,需要对知识进行评价,知识分类可选择的指标较多,如按照数据的生命周期、数据的价值性、数据存储成本、数据在线与离线、知识的使用频率、知识的可重复性等。如以用户的使用频率与知识的可重复性两个属性来对知识进行分类,可形成UF-KR二维图,如图2所示。用户的使用频率可用知识服务引擎或者图书馆服务管理系统自动进行搜集与记录,将用户在不同时间、不同地点、不同知识需求及其知识查询结果等知识行为记录下来,根据不同知识使用频率的排序,将知识分为3类,分别为高使用频率知识、中使用频率知识与低使用频率知识;知识的可重复性这一指标的确定比较容易,如实时观测的数据难以进行重复,这些数据就需要进行长期保存。如美国航空航天局 (NASA) 建设的DAAC's计划,涉及数据筛选与清洗、定义与保存元数据、定义文件格式、确定需要保存的数据等各项长期保存计划,目的就是保存实时的卫星观测数据,做好存档与再利用的准备工作。同样,将知识的可重复性也划分为高、中、低3个层次,这样,具体知识因其使用频率域可重复性的不同特点落在相应的象限中,据此我们将知识进行分类。依据此原理,我们也可以增加分类的维度,形成更为综合的知识矩阵,知识存储系统可依据知识排序后的划分与计算方法进行知识归类,然后自动存储在相应的存储空间中,并支持动态的知识调整与维护。
将知识进行分类的方法很多,如迈克尔·波拉尼根据知识的编码程度分为显性知识与隐性知识,日本学者野中郁次郎在此基础上,认识到显性知识与隐性知识之间的相互转换关系,提出二者之间的动态转换模型,以期为知识创新提供基础。我们借鉴此思想,将知识与知识服务、知识创新的关系引进来,知识的分类必须考虑最终用户的使用情况与价值效果,结合用户使用知识的实际情况,如知识访问频率、响应速度要求、安全性能等,如前所述,根据知识评估的重要性排序,确定划分标准,可形成高、中、低3类,这是基本的类别,图2应用用户使用频率与知识可重复性两个维度形成4种知识类型,对应不同的象限选择对应的知识存储类型。如果图书馆的存储预算、成本、存储设备与技术支持允许知识多层存储,可以再多设置知识类别,前提是二者之间必须协调统一,相互之间能够支持与匹配,充分调动图书馆内部各种资源的最大潜力,实现资源的最优化配置。
图2 UF-KR二维知识评估范例
国外某些图书馆逐渐认识到资源的不同级别重要程度,对资源进行分级处理,如人文数据服务机构 (AHDS) 将网络资源分为档案级、服务级、代理级、链接级与检索工具5个级别分别采集;伯克利数字图书馆分为档案级、服务级、镜像级、链接级4个级别;加拿大国家图书馆则分为档案级、服务级与链接级[4]3个级别……表明国外实体机构与研究人员不仅认识到网络资源的重要性,同时对资源的价值性、获取的级别性与维护成本进行了多方位考虑,使其资源的获取与存储变得更为高效。同理,根据知识的3个分类级别,应该设置相对应的存储层次,一是快速存储区,可使用低成本或是高端磁盘阵列,其特点是容错性高、在线访问速度快、数据可靠性高 (可保护由硬盘故障导致的数据丢失) 等,主要适用于知识访问频率高、技术支持速度快、数量小、价格昂贵的知识类型,包括重要性知识、使用频率高的知识等;二是备份级存储区,主要是离线存储方式,使用光盘、磁带、容灾备份磁盘阵列、跨地域数据复制等手段,其特点是成本低、容量大、访问少,主要适用于对在线数据的存储、需要长期保存不可重复的知识数据以及知识数据在不同阶段及非常时期可能遇到的雪崩式灾难等。三是介于快速存储与备份存储之间的中级存储区,其知识价值性、使用频率、存储成本、安全要求等指标处于中级水平,可使用Hadoop开源分布式计算平台,集成多个知识节点的存储功能,实现知识数据有效结合与分布,而每个知识节点的数量可以是有限的;也可使用Cloudera、微软、Amazon等提供的云形式的存储方案[5]。四是存储知识的动态调整,知识存储系统能够自动根据知识的分类级别设置相应的存储类别,实现知识与存储空间的对等性,并随着用户知识需求的变化、知识老化周期的发展,知识存储系统应具备知识迁移功能,将访问频率下降到一定程度的知识调出本存储区,并动态地从其他存储区调入新出现的热数据,始终保持不同存储层的知识对等,这样才能兼顾知识的使用频率、存储成本、运行速度、安全、预算等相关因素。
大数据对图书馆资源收集、组织、存储、检索与利用都存在着不同程度的作用效果。相关学者从云平台、分布式、协同体系、知识推荐等角度对知识存储进行了相关研究。本研究深入数据与知识内部,区别大数据与知识的不同,将大数据转换为图书馆所用的知识;并根据知识存储的目标设置用户使用频率与知识可重复性两个指标,形成知识评估矩阵,分析不同知识的重要程度,这对于精准存储与加速存储具有重要意义。现阶段,学者研究的重点在于如何有效把握用户的知识需求,如何将用户的情景资源有效地进行挖掘和利用,刘海鸥等研究新型的过滤与评价机制[5];杨俊生、刘江玲、陈臣、张兴旺、官思发等从云计算MapReduce方法、发现系统、分布式、关键要素、数据耕耘理论、社会化标签等理论与方法,探索更为精准与加速的大数据挖掘与存储[6-7],这表明精准存储式的知识服务将成为今后的研究方向,笔者将在数据转换知识工具开发、知识评估模型、精准推荐模型等领域进一步展开研究。
[1]化柏林,李广建.大数据环境下的多源融合型竞争情报研究[J].情报理论与实践,2015,(4) :1-5.
[2]丁宁,马浩琴.国外高校科学数据生命周期管理模型比较研究及借鉴[J].图书情报工作,2013,(6) :18-22.
[3]姜春林,张立伟,谷丽,等.知识单元视角下学术论文评价研究[J].情报杂志,2014,(4) :29-34.
[4]谢剑敏.泛在知识环境下高校数字图书馆发展的困境与对策[J].情报理论与实践,2015,(3) :45-48.
[5]刘海鸥.面向云计算的大数据知识服务情景化推荐[J].图书馆建设,2014,(7) :31-35.
[6]陈臣.一种基于新型存储的数字图书馆分布式大数据存储架构[J].现代情报,2015,(1) :100-103.
[7]官思发.大数据知识服务关键要素与实现模型研究[J].图书馆论坛,2015,(6) :87-93.