郭明环,古江华
(西安科技大学 图书馆,陕西 西安 710054)
大数据(Big Data),最早是由美国数据科学家维克托·迈尔·舍恩伯格提出的,他认为,大数据时代最大的变化是放弃对因果关系的渴望,转而关注相关关系[1]。研究机构高德纳(Gartner)定义“大数据”是一种信息资产,它需要一种新的处理模型,以具有更大的决策、洞察力和过程优化能力,以适应大规模、高增长率和多样化。而研究机构IDC与IBM均把大数据的特征概括为:大量化(Volume)、多样化(Variety)、快速化(Velocity)及价值化(Value)[2]。
大数据和人力资源、自然资源一样都是非常重要的宝贵资源,它对一个个体、一个行业和一个国家的发展都具有非常深远的意义和价值。譬如,根据大数据的分析结果,可以为一个人提供精准的医疗服务,可以在教育中真正做到“因材施教”;大数据可以使企业细化市场并充分挖掘市场商机,推动行业创新,也可以为企业管理者提供决策的科学依据,进而提高决策水平和效率;一个国家可以使用大数据手段提升社会治理水平,维护社会的和谐稳定。近年来,在国内,“智慧城市”的建设就是依托大数据的智慧。总之,大数据极大地改变了人们的生活。
在大数据背景下,高校图书馆读者的信息获取方式发生了很大改变,阅读方式由纸质阅读为主变为纸质阅读和电子阅读并存的方式,电子阅读和大数据信息时刻吸引着读者的视线,海量又迅速,容易使读者养成“浅阅读”和“快餐式”的阅读习惯,这样会导致读者逐渐远离图书馆,放弃深层次的研究式、经典式的阅读。图书馆现在运营的服务模式面临着较大风险。任何事物都具有两面性,带来风险的同时,大数据也给图书馆带来了巨大的潜在价值。图书馆界同仁应该具有大数据的核心思维,让数字图书馆和大数据思维紧密结合起来应对挑战。
高校图书馆的大数据从来源上分为系统数据、传感器数据和社交媒体数据;从生成类型上可分为馆藏知识数据、图书馆员工的工作数据和用户使用图书馆的信息数据。
当下的高校图书馆馆藏资源是传统的纸本资源和数字化资源并存,除了纸本图书和期刊外,占比例较大的数字化资源有各类数据库、电子书、纸质图书转换的数字资源,另外还有各类的视频、音频和图片等资源。
工作数据则主要包括图书馆工作人员在各自的相关工作过程中产生并留存的数据信息,其中有一部分是用户和图书馆工作人员的交互信息:借阅信息中人工操作的委托借阅、预约借阅、馆际互借;咨询信息中图书馆工作人员对互动的信息记录,咨询交互数据,电子邮件、基于Web的表单、留言板、即时消息或实时聊天等都是图书馆大数据的一部分。
用户使用图书馆过程中产生的数据包括:①传感器数据,如门禁系统,其保留有大量用户的进馆与出馆信息,用户的到馆学习、参观及参与图书馆组织的各种比赛的行为记录,还有图书馆不同位放置的传感器,长时间对所在的环境与资源采集到的巨大的数据量。②用户的网络行为数据,如社交网络服务SNS、搜索、网站和点击流是典型的大数据源,这些数据源产生的数据高速增长。自2000年初期以来,许多Web2.0的应用,从在线社交网络,如论坛、博客、社交媒体网站中产生了大量的用户交互内容,参与人数众多,且交互的内容非常丰富,有用户情感的倾诉,其中包含很多对图书馆服务的评价,这是值得图书馆重视的一个大数据来源。随着高校移动图书馆的普及,平板电脑、智能手机、iPad、移动App,校内用户都可以直接在手机等移动网络设备上,登录校内的网络智能图书馆系统,图书馆利用移动互联技术,可以获取大量用户的访问数据。另外,像联机公共目录查询系统(OPAC)里也包含着用户丰富的信息内容,如用户的检索记录、对数据库的访问记录、下载记录等,这也是图书馆大数据的重要来源。③科学研究数据,科研数据是指高校的不同学院,不同课题组的研究人员在科研过程中产生的能够存储在计算机上的任何数据,其中也包括调研和实验数据、来自传感器或遥感勘测数据、模型测试的仿真数据、神经图像等可以转换成数字形式的非数字形式数据。也是图书馆需要重点收集的一个大数据来源[3]。
在大数据时代,图书馆的信息记录已经成为最重要的资源,大数据的价值有描述价值、时间价值和预测价值等特征,图书馆的大数据具有生产要素性、数据恒温性、价值潜在性等几个主要属性。数据的价值具体表现为:用户个性化、精准化及集知识、能力、资源、过程融合一体的智慧化服务产品的生产提供和推送;图书馆运行风险的预测与规避及服务模式的变革等方面[4]。如何存储、管理数据并利用大数据技术分析挖掘这些数据的潜在价值,已经成为图书馆界同仁们必须面对的问题。
图书馆需要利用大数据技术对用户群体进行类别划分,对其感兴趣和关注的主题类型进行标签化处理,通过智能化标签判定不同用户的动态需求,把馆藏信息和推荐材料发给特定群体,为不同的图书馆用户群体,提供针对性和个性化的服务产品,并及时获取用户的反馈信息,不断补全和更新最受用户关注的信息和借阅率较高的图书资料,通过为不同用户进行的探测性推荐服务,逐步提高推送服务的针对性和精确度。
图书馆通过数据流聚类算法对学科进行聚类分析,预测学科研究的热点,寻找学科之间的交叉和关联,运用引文分析、神经网络分析和可视化分析等手段,构建学科的知识网络。为高校学生的选修、选课、毕业论文的撰写方向等提供有价值的参考信息;为硕士生和博士生的研究提供指导,可以让他们节约文献查阅的时间,尽早确定自己的选题方向,准确把握研究领域的研究进展;也可以与其他数据来源方通过合作协商的方式,采集高校科研人员通过调查、实验、观测、探测等科学手段积累的大量科学数据,这些数据不仅具有研究价值,而且对同行的科研人员有分享价值,图书馆有义务为他们搜集并提供共享科研数据,构建虚拟社区,形成学术交流圈[4]。
通过分析用户对图书馆资源使用的数据记录,如图书借阅、数据库访问及下载历史等,可以有效评估图书馆各种馆藏资源的利用效率。预测读者关注的热门图书和热点内容,进而为图书馆准确采购信息资源提供决策依据,避免有限的资金浪费。
总之,大数据可能使图书馆节省资金,提供更合适的程序,满足更多用户的信息需求,意识到其收藏的差距和优势,并成为用户更有效的信息来源;大数据可以为图书馆管理者必须做出的决策和资金要求提供基于数据的理由;大数据可以提供知识管理的过程和产品,这些过程和产品在高校图书馆中变得越来越重要。
随着技术的进步,图书馆大数据的数据呈现更加多样化,有知识数据、交互数据、传感数据,从数据格式上有文本、图片、音频、视频、光谱等,像社交网络呈现的多是短文本数据信息,由于信息量少给文本挖掘带来很大的困难。从数据结构上有结构化、半结构化和非结构化数据,像传感器、社交网络、移动计算等产生的非结构化数据已成为大数据的主流形式,相对组织凌乱,数据价值密度低,且这类数据所占的比重日益增多,这给数据的存储能力和处理分析能力都提出了更高的要求。因此,图书馆对复杂繁多的大数据存储必须提高其可靠性、扩展性和规范性。
大数据的数据本身的不确定性,原始数据的不准确,数据采集处理的程度有别等因素都会给数据分析带来困难,数据分析需要从繁杂无序的庞大数据中发现规律,预先人工建立模型,这是数据价值挖掘的关键。其不确定性就会导致很难建立与这些非结构化,多源异构的网络数据相匹配的显性数学模型,这样就会导致数据的利用价值降低。如果要建立新的模型,也很难把握模型的表达与数据复杂程度之间的平衡,由于涉及模型参数的学习,在很多情况下,很难找到模型的最优解,都是采取近似的方法来寻找一个相对不错的解,但是这种传统近似的方法需要面对规模与时效的挑战[5]。所以,如何构建强大的计算平台,通过深度学习和高级分析,发展更加智能化的数据挖掘技术快速完成数据价值的挖掘,依然是企业和高校图书馆亟待解决的难题。
目前,大部分高校图书馆的个性化服务都是浅层次的,大多只是根据一些咨询信息、面对面提出的服务诉求,或师生的专业特长推送信息,去完成一些差异化服务。但是大数据是要求图书馆通过动态数据挖掘,可视化手段,智能化标签等去判断现在用户需要什么样的服务,挖掘出图书馆当下的服务关系中正在发生什么、预测并分析将来会发生什么,以便图书馆管理者能够做出正确的决策,规避运营风险,找到更好的服务模式[6]。
大数据时代,高校图书馆要想能够稳定地生存发展下去,核心竞争力不只是拥有大数据的规模,更为重要的是对大数据的采集、存储、管理并挖掘分析其潜在的价值。而这些专业工作都需要大数据的专业人员进行操作。目前,大部分高校图书馆的所谓专业人才都是有情报专业背景而数学基础薄弱的文科毕业生,或是有计算机基础仅可以排除电脑故障的工作人员,大数据方面的专业人才匮乏。人才关乎图书馆的生存,而高校图书馆通常没有引进人才的自主权,又没有学校的政策支持,只有对在职人员进行专业培训来满足图书馆对大数据人才的需求。培训内容涉及机器深度学习和数据挖掘技术等方面的知识。只有努力培养一批懂数学软件和数学算法、懂数据采集和数据管理、懂数据分析预测和市场应用的复合型“数据型”人才,才能支撑未来图书馆的发展和信息服务模式的变革。当信息化服务占据主要内容时,技术人员的作用是非常重要的。传统的高校图书馆管理人员比较多,这种状况已经不能满足用户多元化和个性化的需求,引进或培养大数据技术人才,及时处理各种供需矛盾势在必行。
大数据时代,数据带来效益和价值的同时也存在丢失和信息泄露的风险,图书馆必须保护其用户不被滥用个人可识别的数据记录,如电话、邮箱、社交网络信息等;必须在用户信息保护与创新服务(如个性化功能)之间找到平衡。既要保障信息的完整性,又要保障数据存储的安全性。因此,高校图书馆对数据的管理应该从人力和技术两方面加强,首先,应该严格控制不同用户的授权权限;其次,将数据结构化,方便数据加密;使用纯数据模式,防止人为故意破坏;建立防火墙,加入内部监控功能等措施。