大数据时代高校图书馆服务功能新探

2016-06-21 17:20王黎
中国高新技术企业 2016年17期
关键词:结构化馆藏数据挖掘

摘要:大数据的诞生给高校图书馆工作带来了机遇与挑战。高校图书馆要勇于面对,提高图书馆的技术水平,组建专业的馆员团队,建立馆藏文献分类数据库,运用数据挖掘技术,分析在校读者层次,预测读者的信息需求,建立读者需求数据库,用数据推送的方式,对读者进行阅读推广,高校图书馆利用大数据的新价值,开展创新性服务。

关键词:大数据;数据分析;数据挖掘;精准推送;读者需求;高校图书馆 文献标识码:A

中图分类号:G258 文章编号:1009-2374(2016)17-0191-02 DOI:10.13535/j.cnki.11-4406/n.2016.17.093

随着科技与电子信息技术的日益进步,数据挖掘与分析技术形成,沃尔玛的“啤酒+尿布”案例,被公认为是商业领域内数据挖掘的诞生。从大量的非结构化数据中,分析并得到两种不相干客户行为之间的内在联系,即大数据时代的数据分析与数据挖掘技术。大数据被誉为是未来的石油与黄金,美国政府也于2012年3月29日拨款2亿美元推行“大数据的研究和发展计划”,这开启了世界的大数据时代。2013年5月9日,奥巴马签署行政命令《政府信息的默认形式就是开放并且机器可读》,大数据时代冲击着各行各业,它正在撬动中国的制度创新、科技创新。高校图书馆作为学校的文献信息中心,搜集、分析并挖掘用户的行为与信息需求,预测用户的需求导向,引导读者向专业化的深阅读方向发展;拓宽图书馆的服务方式,寻求馆藏资源建设与用户信息需求的完美结合,是大数据时代,高校图书馆服务创新亟需解决的问题。

1 大数据时代高校图书馆面临的机遇与挑战

1.1 大数据的内涵

2011年5月,麦肯锡在《大数据:创新、竞争和生产力的下一个前沿领域》报告中首次提出了大数据概念,报告指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波胜利率增长和消费者盈余浪潮的到来”。大数据是结构化数据、半结构化数据与非结构化数据的总和;大数据的“数据”不是数据存储,而是数据获取与数据应用。大数据的“大”意义具有多样性。IBM认为大数据具有“3V”特点,即种类(Variety)多、速度(Velocity)快、容量(Volume)大。综合大数据的诸多特点,在数据深度分析之后,新数据的价值会翻倍,数据的处理会形成新的产业,大数据将改变目前的IT构架。图书馆作为知识、信息的服务中心,在全球大数据时代将面临机遇与挑战。

1.2 高校图书馆面临的机遇与挑战

高校图书馆作为学校的知识、信息中心,为师生提供快捷、满意的信息服务,图书馆如何运用数据挖掘与分析技术,提升图书馆的信息服务水平,是当前亟待解决的问题。高校图书馆拥有丰富的信息资源与人力资源,在大数据时代如何不被市场边缘化,为用户开展大数据分析服务是其发展趋势。

首先,高校图书馆的数据挖掘与分析技术要与时俱进。大数据时代,将会出现诸多的数据分析公司,印度班加罗尔已有超过100家以数据分析为主要业务的新型数据公司,如Analytic Edge、Zinnov以及自称是全球最大的专业性数据分析公司的Mu Sigma。高校图书馆在馆藏资源建设、读者信息服务和工作方式上将受到大数据的冲击,要开拓创新、勇于挑战,建立高质量的信息服务技术团队,达到信息资源即时获取、精确分析、深度挖掘、精准推送的目标。

其次,图书馆的技术与工具要符合数据挖掘的要求,图书馆要了解自身的数据收集、存贮、分析和挖掘现状,还必须掌握用户对图书馆的信息利用与需求度,在知己知彼的前提下,开展数据分析服务。目前,图书情报界所熟知的聚类分析、数据挖掘、关联规则、网络分析、可视化分析、数据融合与数据集成等,这只是针对结构化数据和有限数量的关键词进行聚类分析、共现分析等,并不能真正挖掘非结构化数据和半结构化化数据,更不能通过数据预测未来的发展趋势。一些学者开始思考去采集和利用网络社交等信息行为产生的大量非结构化数据、半结构化数据,如苏玉照等人就认为如果能够采集到Web日志的数据,就能很好地满足发现关联规则、内容分类和用户聚类的需求,从而能提高个性化推荐的精度,进而对定制Web日志的数据模型、过程及方法进行探索。大数据时代,高校图书馆的信息搜集、存贮、非结构化与半结构化数据的挖掘也是攻克难关。

2 大数据时代高校图书馆的应对措施

大数据时代,图书馆的馆藏资源都将以数字化和网络化形式存在,即馆藏资源经过数据挖掘与分析后,将以不同的形式按照用户的阅读需求推送,用户的个性化需求可以通过修改数据包来实现。数据分析与数据挖掘技术会尽可能让馆藏资源与读者需求达到无缝契合,图书馆读者服务工作上升到理想境界。

2.1 将数据分析技术运用到图书馆文献资源建设

大数据时代,数据搜集与存贮是必备条件,在商业市场中,数据分析被运用得淋漓尽致。如奈飞公司利用客户的网上点击记录,预测其消费需求,进行客户针对性精准营销。高校图书馆亦可参考这一做法,根据读者对馆藏资源的点击率,利用图书馆自动化系统,对馆藏资源进行分类与排行,预测读者喜好,在校园局域网平台上,对读者进行文献信息分类,实现信息精准推送。

首先,建立馆藏资源大数据,对馆藏资源进行精细化分类。利用自动化系统,分析、归类馆藏纸质资源,以学科、出版年、文献借阅率等不同的标准对馆藏文献进行划分重组,按照不同的知识体系,以专业性、时效性和读者喜好度等标准归类,建立馆藏资源的网状结构系统,使每类馆藏文献体系都有相对应的读者群,反过来,每类读者群都有相对应的馆藏分类体系,二者一一对应。

其次,尽可能使馆藏资源体系全面而不失个性化。在文献采访过程中,挖掘出馆藏数据的价值与隐藏在读者背后的阅读需求,预测读者阅读趋势。目前,市场上的图书采集器只能进行馆藏文献查重,无法实现按读者需求采购,结合国外读者主导式采购系统(简称PDA),利用书商提供的电子书单,通过图书馆网络平台,积极引导读者参与图书采购。按读者的网上浏览记录,对其行为进行跟踪、分析、预测,对其读者进行阅读推送,结合淘宝网顾客浏览记录,向读者提供馆藏或订单已有的、与读者需求倾向一致的相关图书。

2.2 数据挖掘技术应用到图书馆自动化系统

图书馆可以运用网络数据对读者进行数据挖掘与分析,这种基于网络的数据挖掘,不需要制定问卷,也不需要逐一调查,成本低廉。数据挖掘将成为越来越重要的分析预测工具,它将给读者以导向,根据读者的文献借阅史、借阅方式、行为爱好、读者借阅排行榜、读者的电子图书点击率等行为,网上浏览记录等,分析读者潜在的信息需求,为读者制定个性化的文献推荐系统。2013年5月,加拿大蒙特利尔交通局宣布,将利用SAP(思爱普)公司的大数据处理平台,对所有顾客的消费历史和个人信息进行分析,然后按照其偏好、习惯和需要,对每位顾客定制专门的消费计划和个性化票价。此外,2014年1月,美国的电子零售巨头亚马逊宣布了一项新的专利:“预判发货”(Anticipatory Shipping),即在网购时,顾客还没有下单,亚马逊就将包裹寄出。亚马逊锁定固定的群体,他们对某些消费有固定的预算。亚马逊有1亿客户,他们的消费日积月累,可以说是海量数据,亚马逊靠数据挖掘来完成预判发货工作。图书馆也可以为读者推荐新书目数据,当读者在某本书的简介上停留时间较长时,我们可以通过网络软件自动将这本书生成订单,发给书商或出版社。同时运用关联数据的方法,将与此书相关的图书推送给读者,进行数据推送服务。

收集读者阅读行为数据,包括读者的基本信息、文献借阅史、阅读习惯、到馆时间、阅读兴趣、考试时间、网上浏览历史等,对这些数据进行分析与挖掘,提前预知读者的信息需求,图书馆利用现有馆藏,及时开展针对性服务,分类对读者进行资源推荐与介绍,急读者之所急,变被动服务为主动。值得注意的是,这类服务具有时效性与针对性,开学与期末、期中,各类考试、节日等,读者的阅读需求是动态的,图书馆要随时关注他们的阅读心理变化,为读者制定不同的阅读方案。

对读者进行阅读推广,在大数据时代,挖掘读者的借阅数据与习惯,对读者提供个性化的服务。挖掘整合馆藏资源,分类对读者进行文献推送服务。利用校园局域网、学校公告、宣传栏、图书馆网站、图书馆信息咨询处、图书馆读者服务平台等渠道进行新书阅读推广,策划不同的阅读专题,宣传、介绍图书馆的馆藏资源。举办图书阅读讲座,让读者深入了解图书馆馆藏与图书馆功能,引导读者参与到图书采访工作中,提高图书馆的信息服务水平。

2.3 建立大数据服务专业团队

数据分析作为一种技术,与之匹配的管理制度就需出炉。大数据对技术要求极高,如人工智能、商业智能、数学算法、电子信息技术、物联网等跨学科交互实现的技术。因为社交媒体的出现,全世界的网民都能成为数据的生产者。而数据挖掘,是指通过特定的算法对大量的数据进行自动分析,从而揭示隐藏在数据之后的规律和趋势,即在大数据当中发现新知识,为决策者提供参考。

图书馆要善于抓住市场信息,紧跟图书馆发展趋势,建立具备数据挖掘与分析的技术团队,划拨相应的经费,搭建信息获取与推送的网络平台,制定基于读者阅读需求的数据挖掘方针、计划,合理、有序地开展读者需求信息挖掘与分析工作。结合图书馆实际,最大限度地满足读者需求,引导馆藏建设与读者需求趋于一致。

2.4 提高图书馆的读者服务方式

大数据时代,图书馆对读者行为进行分析,是提高其服务方式的主要手段。

读者的所有阅读行为都是有迹可循的,反过来,在读者的阅读过程中,我们也可以为读者推送他们感兴趣的文献信息。如淘宝网的推荐页面,当你在哪些商品上浏览时间过长或已购买该商品时,之后你看其他网页时它会给你推荐类似商品。图书馆可以借用淘宝的这一功能,运用数据关联技术使图书馆的自动化系统与图书馆网页联合,在读者在进入图书馆网页或书目查询界面时推送读者感兴趣的书目。

3 大数据时代图书馆面临的问题

大数据时代,图书馆有能力且有条件开展数据挖掘分析工作,图书馆的硬件设施、人力资源、技术支持、经费运算和管理体制等均受到大数据时代的挑战。图书馆的资源优势在大数据时代如何展现,图书馆关联数据集成管理研究,即如何将现有的数据资源创建成关联数据并在网上发布,将是当前急需解决的问题之一。

参考文献

[1] 韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5).

[2] 韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013,(1).

[3] 涂子沛.数据之巅[M].北京:中信出版社,2014.

作者简介:王黎(1985-),女,甘肃兰州人,咸阳师范学院图书馆助理馆员。

(责任编辑:周 琼)

猜你喜欢
结构化馆藏数据挖掘
馆藏
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
博物馆的生存之道:馆藏能否变卖?
知还印馆藏印选——古印篇
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于图模型的通用半结构化数据检索
基于软信息的结构化转换
基于GPGPU的离散数据挖掘研究