文/郑州工业应用技术学院图书馆 宇婷
高校图书馆学科服务嵌入式大数据知识服务研究
——以几种辩证关系及认识误区为例
文/郑州工业应用技术学院图书馆宇婷
高校图书馆学科服务嵌入式大数据知识服务已成为高校图书馆创新服务模式类型。为进一步提高其服务质量和水平,以几种辩证关系及认识误区为例,对高校图书馆学科服务嵌入式大数据知识服务进行了研究。
高校图书馆;学科服务;大数据;嵌入式知识服务
高校图书馆学科服务中的嵌入式知识服务是学科服务的延伸和深化,它是以在学科专业中嵌入知识元素为研究对象的学科服务中更深层次的用户服务。而其中的高校图书馆学科服务嵌入式大数据知识服务,则是更进一步将学科专业服务的层次和内容深入到大数据知识层面的各种要素中,并由此产生了嵌入式大数据知识服务模式。对高校图书馆学科服务嵌入式大数据知识服务中的相关辩证关系及认识误区进行研究,可以有效地提升高校图书馆学科服务的质量和水平。
(一)头部大数据与长尾大数据的辩证关系。从大数据的整体状况看,它同样符合二八律的规律,也就是占据所谓“头部”地位的20%的数据,实际具有或创造了80%的数据价值;而另外占据所谓“长尾”地位的80%的数据,则仅仅具有或创造了20%的数据价值。所以,在高校图书馆学科服务嵌入式大数据知识服务中,要注意正确地处理头部大数据和长尾大数之间的辩证关系。若从优先度方面考虑,应当首先照顾20%的头部数据,而若从全面性方面考虑,则也要对80%的长尾数据予以关注。关于两者之间的这种辩证关系,在高校图书馆开展互联网金融信息延伸服务中表现得尤为突出。因为传统的银行金融机构主要是为20%的头部用户服务的,而互联网金融则与之相反,把服务的重点客户群体瞄向了80%的长尾客户。尽管他们每个单独个体的资金数量并不大,但由于客户群体的人数众多,最终聚集起来的资金数量则是一笔不可小觑的巨大金额。正是由于过去几年中向来以财大气粗著称的传统银行金融机构忽视了互联网金融长尾客户群体的存在,往往对他们的金融投融资需求采取金融排斥的态度,客观上将他们拒之门外,主动推向了自己的竞争对手——互联网金融领域,使得互联网金融取得了突飞猛进的发展。如到2015年10月互联网金融交易总额达到第1个万亿,用时为7年多。而2016年5月完成第2个万亿,仅仅用时7个月,体现了近年来互联网金融行业飞速发展的事实。正因如此,银行的大量资金外流进入互联网金融领域,最终对传统银行业的主要存款业务造成了巨大冲击。传统银行业的失误就在于没有正确地认识和处理20%的头部客户人数与资金数据和80%的长尾客户人数和资金数据之间的辩证关系所致。如今,传统银行已经开始意识到其中的问题所在,以中国工商银行为首,开始虚心向互联网金融的长处学习,充分利用自己所具有的信誉优势,开始关注和接纳80%的长尾客户群体,也开始增加类似余额宝之类的活期货币基金理财产品。
(二)最新大数据与历史大数据的辩证关系。在一般情况下,用户总是喜欢最新的大数据资源,因为它们可以为用户带来最新的信息与最高的利用价值。而对于那些陈旧过时的大数据资源,则会随着时间的流逝而逐渐失去其应有的使用价值,逐渐淡出用户关注的视线。然而,世界上的事情总不会是绝对的,总是会遵循辩证法的。有相当比例的一些大数据,在随着时间的流逝逐渐失去使用价值达到一定程度的最低点后,往往会发生意想不到的历史性转折,其使用价值往往又会随着时间的延长而重新获得研究与利用的价值。例如,高校图书馆文献型数据资源中的古籍文献资源就具有这样的特征。现在来看,越是距离今天年代久远的古籍文献,其利用和研究价值就越高。以目前实际存世的古籍文献资源情况看,宋代的古籍文献利用价值已经非常高,其中的各种文献内容和数据内容,正是今天用户研究的重要依据和线索。这就是历史大数据与最新大数据知名的辩证关系。再如,大家都对新创建的大学充满兴趣与期待。然而,随着时间和岁月的流逝,那些成立百年以上的古老大学,反而会焕发出勃勃生机,它们之所以能够历尽百年沧桑而不衰,正是其存世的魅力所在。
(三)实时大数据与延时大数据的辩证关系。实时大数据是指大数据具有随时体现数据变化的实时性特征的大数据类型。由于它可以实时反映事物的动态变化情况,用户利用借助这种实时大数据实现许多非实时大数据所无法完成的工作和任务。例如,用户可以利用互联网摄像头在线直播实时视频数据,实时了解国内外各地此时此刻正在实时发生的现场实况。其中包括交通类的航空、铁路、公路、水运等交通状况,教育类的各级各类学校课内外教育教学状况,电台直播类的电台和电视台的新闻、经济、旅游、交通、娱乐、音乐、故事等直播状况,旅游类的各地旅游景点的实时游客流量状况等。实时科学大数据则可以动态反映相关大数据的实时状况,如世界或某国人口的出生与死亡数据,电子文献的出版与发行数据,电子邮件的发送和接收数据等。其他诸如某种特定事物的实时数据状况,如“火币网”和“okcoin”网站中作为世界数字虚拟货币的比特币和莱特币的实时交易数据等。而延时大数据则是相对于实时大数据而言的,正是由于它们不具有实时性,所以,数据的内容往往更加具有稳定性和确定性,成为有此类需求用户使用的大数据资源。
(一)大数据认识及其样本选取范围的误区。大数据的客观性让它成为发掘问题本质和寻找事物规律所需要的最有效手段之一。人们经常说要用事实和数据说话。但数据虽然是客观,由于使用数据用户的认识不同,同样的大数据有时也会产生欺骗人的假象。因此,当用户在与大数据打交道的过程中需要谨慎对待,防止一些可能会出现的数据认识错误,从而导致数据分析结论出现较大的偏颇。这就是在高校图书馆学科服务大数据嵌入式知识服务中进行数据文献分析时,需要警惕一些认识方面的误区。由于大数据样本选取的范围不同以及代表性不同,可能会出现不同的数据分析结果。例如,在2008年奥运会上,姚明的三分投篮命中率为100%,而科比的三分投篮命中率仅为32%。如果单从这两个数据的对比角度看,显然姚明的三分投篮命中率要比科比高得多,然而实际情况则并非如此。因为在那届奥运会上,姚明只投了一个三分球命中,科比则投了53个三分球,其中命中了17个。由于两者数据统计样本选取的数量不同,所以会得出不正确的分析结论。这个例子说明,在做数据对比分析时,对于样本范围的选取,需要制定相同的抽样统计数据规则,以此来减少或消除由于数据样本选取范围不同而造成出现分析结果和结论的偏差。
(二)大数据单方面认识的误区。自从数字化电子文献出现以后,它就在不断地对用户传统的阅读习惯发出挑战。尽管开始大多数用户出于长期以来养成的纸质文献阅读习惯,对于电子文献的数字化阅读普遍采取抵制、挑战和轻视的态度,并且纷纷发表文章,认为电子文献的数字化阅读属于浅阅读、碎片化阅读,难以与纸质文献的经典阅读和深阅读。而且,随着纸质文献阅读率的逐渐下降,尤其是高校图书馆纸质文献借阅量数据显示的跳水式下跌,似乎可以铁定得出文献阅读率下降的结论。然而,真实的阅读情况却是在纸质文献阅读率逐渐下降的同时,电子文献数字化阅读率出现了明显上升。2016年4月第13次全国国民阅读调查结果发布的数据显示,在我国成年国民图书阅读率上升0.4个百分点的情况下,数字化阅读率则上升了5.9个百分点,后者是前者的14.75倍。调查大数据还显示,从2009年以来,我国成年国民数字化阅读方式的接触率连续7年持续上升,首次超过了60%,其中手机数字化阅读率连续两年超过网络在线阅读率。因此,结合传统纸质文献阅读率下降和数字化文献阅读率上升两方面的大数据,可以得出总体阅读率是保持上升的态势。
(三)过度依赖大数据的误区。世界上的任何事物都是具有关联性的,不存在没有任何关联性的纯粹独立的事物,区别仅仅在于事物之间关联性的大小、强弱、远近而已,大数据也同样如此。在高校图书馆学科服务嵌入式大数据知识服务过程中,既要充分有效地利用大数据,同时又不能过度依赖大数据。否则,如果对于大数据过度依赖,一方面,会让我们浪费大量的时间和精力做许多没有价值的大数据分析;另一方面,也会限制人们那些来自于大数据之外的、本来应该具有和产生的灵感和创意。例如,如果科研人员一味地分析和研究普通轮轨式火车的大数据,就很可能得出旅客需要更快速度的轮轨式火车,从而限制和抹杀了取消火车的轮轨,实现无轮轨的磁悬浮式高速火车的创新理念。也就是说,如果过度依赖大数据本身,往往就会使我们的思维囿于已有的局限,也就不会有时速400公里磁悬浮火车的诞生,更不会有时速高达4000公里真空管道磁悬浮高速火车新思维的出现。再如,如果囿于南水北调的大数据,就不会产生引渤济新和引渤济锡,将深入内地540公里的渤海水经过淡化引入灌溉中国8个沙漠的大胆科学设想。因为许多优秀甚至伟大的决策,并非都是通过大数据发现的,而是人类头脑风暴和综合智慧的结晶与体现。当然,一旦确定新的科学设想后,却是离不开利用大数据进行详细周密的科学论证,为科学设想提供大数据证据的,这点是毋庸置疑的。所以,对于大数据的依赖要适度,找到其中的平衡点,不可过分依赖,也不可不依赖,这才是正确对待大数据的科学态度。
[1]李婴.大数据环境下图书馆知识服务和管理模式研究[J].农业图书情报学刊,2016,28(5):168-170.
[2]邓凤仪,邓海荣.大数据时代数字出版的“长尾效应”[J].出版发行研究,2014(10):27-29.
[3]李红梅.大数据时代对历史研究影响刍议[J].北方论丛,2016(2):77-79.
[4]吕明新,刘兆惠,孙婷婷等.基于大数据的道路拥堵对实时交通安全的影响研究[J].山东交通科技,2016(2):12-15.
[5]解明明.政府统计视角下的大数据样本与总体关系探讨[J].中国统计,2014(12):54-55.
[6]第十三次全国国民阅读调查结果发布:数字化阅读迅猛增长,微信阅读人数过半[EB/OL].[2016-06-22].http://news. xinhuanet.com/politics/2016-04/18/c_1118659452.htm.
[7]戴明锋,刘展.大数据理解误区解读[J].中国卫生信息管理杂志,2015,12(1):61-63;70.