陆祝政 宓永迪
(浙江图书馆 浙江 杭州 310007)
随着移动互联网、物联网、云计算等信息技术的飞速发展,人类进入了大数据时代。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。图书馆拥有的数据可以大致分为用户行为数据、海量资源数据、自身业务流程数据,范围包括用户和流通大数据,无线上网数据,电子阅览室数据,数字资源访问数据,人流、车辆数据,RFID、环境控制、IT和设备运维、视频监控等数据,以及这些数据关联融合、重组再造之后产生的新生数据,这些数据都将构成图书馆的大数据,几乎涉及图书馆各个业务环节,具有读者行为识别与串联、图书馆运行状态描述、读者信息与服务需求预判等功能。如何管理、控制大数据资源,利用大数据对图书馆资源进行整合、挖掘与利用,同时避免大数据带来的负面风险,对于图书馆的建设和发展,提高服务水平,开拓创新都必不可少。
传统图书馆的决策经常是凭借领导和工作人员对事物发展的假设和过去的经验进行,难免出现主观、随意、思维固化,与现实脱节的现象,同时缺乏有效的反馈和监督手段。运用大数据技术手段,建立科学决策机制,充分利用数字化关联分析、数学建模、虚拟仿真及人工智能等技术,基于海量数据进行模块化分析和模拟,建立各类风险控制模型,为决策提供更为系统、精确、科学的参考依据,同时提供更为全面、可靠的实时跟踪,推动决策向数据分析型转变。应用大数据,对执行过程中产生的数据进行全程记录、挖掘分析,还能有效防止执行过程中的随意性和弄虚作假行为。大数据强调资料整合、数据输出、数据分析必须在瞬间完成,这有助于对问题情境进行即时判断,可以及时发现和处理新产生的各类问题[1]。如编目人员编目定额、图书流通工作人员工作量确定等都可以通过对相关数据进行统计分析,并结合新书到馆与预加工情况、读者整体借阅情况等进行核定[2]。
在大数据时代,数据信息成了一种新资源,这种资源与传统资源不同,不会因为使用而被消耗,而是越被使用越能体现其隐藏价值。大数据只有在社会中开放、流动才能充分发挥作用,从而获得保值、增值。运用大数据,可以打破图书馆与图书馆、图书馆与社会、图书馆与企业之间存在的信息孤岛,通过整合数据资源,建立快速、精准、高效、一站式的服务模式。首先,通过有效利用各图书馆的数据资源,充分发挥大数据汇聚的倍增潜力和迭代价值。例如,浙江图书馆正在建设的全省数据中心以及全省通借通还系统,全面覆盖不同图书馆、不同系统的数据采集和数据接口,实现全省公共图书馆流通数据、用户数据、书目数据的互联互通,为用户提供跨区域无缝连接的图书馆服务,并完成全省用户行为、图书馆业务的实时分析和智能推送。其次,将不同领域、不同部门的数据资源开放互联,是充分发挥大数据技术优势的重要基础。一些互联网平台,如支付宝、微信、百度等对自身海量数据进行了大规模的收集、存储和积累,并建立了大数据汇聚和处理平台。因此,建立“企业+图书馆”的合作模式,加强同第三方平台的合作,可以使图书馆能够使用更大范围的数据资源深化服务,同时也贡献自身的数据服务社会。如国内多个图书馆与芝麻信用合作,推出信用借阅服务,利用用户的芝麻信用数据作为图书馆免除押金的根据,反过来用户良好的借阅记录也将增加自己的信用积分[3]。这一大数据的开放融合案例充分发挥图书馆与第三方平台各自的数据和服务特长,使用户感受到极为便利的服务体验,还利用文化的力量助推诚信社会的建设。
以公共服务为宗旨的图书馆,核心目标是使服务覆盖更多的用户,使资源获得更高效的利用,因此传统意义上采用粗放的以尽量满足用户基本需求的普适服务,随着公共文化的服务实现全民覆盖,在用户物质生活水平与文化水平均有显著提升的环境下,逐步转变到满足用户的个性化需求的精准服务,而大数据为建立以用户问题为导向的精准服务提供了有效手段。一方面,基于图书馆收集的各类数据及公共服务系统数据、移动终端数据、第三方平台数据等社会化数据形成大数据,分析图书馆主要用户群的特征,并据此进行包括书刊采购、空间布局等在内的资源建设成效评估,实现资源配置优化。另一方面,从用户终端、图书馆系统记录、第三方平台日志等分析个别用户的流通、到馆时间、馆内停留位置、检索等数据,把用户与图书馆有关的行为串联起来,通过对用户显性行为和隐性行为的分析挖掘,探寻其数据模式及特征,发现个人和某个群体的兴趣和行为规律,建立用户个人知识体系,进而准确定位其使用图书馆的行为及特定的需求、习惯、偏好,从而为用户提供个性化的高质量服务,如新书推荐、活动预告等[4]。
人工智能(AI)是研究使计算机来模拟人的某些思维过程和智能行为,主要包括视觉内容识别/视频分析、语音识别/语音翻译、深度计算/机器学习、自然语言理解等领域。作为最有发展潜力的新技术,人工智能已经逐步在各行各业进入实用阶段。人工智能在图书馆也有广泛前景,人工智能将深刻融入到图书馆整个生态系统之中,实现图书馆从线上到线下、从物理到虚拟的全面智能化[5],为用户提供全新的服务模式。目前,人工智能已经开始在图书馆获得实际应用,例如人脸识别技术,不但将到馆人流的统计精确到人,极大提升客流统计的价值,更可以使得工作人员在读者一进门就立即识别,主动提供一对一服务。智能机器人代替馆员开展咨询服务也成为现实,如清华大学图书馆开发的“小图”聊天、咨询机器人早已上线,还一度引起轰动。一些研究人员还利用智能机器人进行上架、导引[6]。人工智能最核心的是需要有大量的数据支持,数据资源是机器学习训练的基本素材,通过对于大量数据的学习,机器能不断积累经验并优化决策参数,从而获得人工智能。同样,大数据也是图书馆智能化程度升级和进化的前提条件,拥有高质量的大数据,才能够不间断地进行图书馆各种服务、决策等场景模拟演练,逐渐向着智能化服务靠拢。因此,图书馆积累的各种大数据,是未来智能图书馆最重要的数据基础。
在以流式方式产生数据的时代,从海量数据中获取有价值的部分是成败的关键。很多图书馆开展大数据建设时,存在盲目收集数据并进行分析的情况,而更多数据不意味着就可以转化为有意义的结果。首先,需要有明确的目标。大数据技术要服务于公共价值导向,具体到图书馆就是提高决策水平,创新服务。这是大数据应用的出发点和目标实现的前提之一,也是大数据功能实现的重要保障。图书馆利用大数据实现什么样的目标在开展大数据应用前就应该明确,这样才有利于选择合适的数据源和数据分析方法,从而得到准确可靠的基于大数据的解决方案。在明确目标后,需要制定相应数据的抽取和清洗方法,根据原始数据所在系统的特点采取不同方式,如对于直接开放数据库接口的平台采用数据库直接采集的方式;对于开放程序接口的平台利用其 API 进行数据获取;对于无开放接口的平台则需进行网络爬虫技术、网页抓取策略及网页分析算法的研究。此外,Web数据抽取、非结构化数据抽取也是大数据抽取研究的一项重要内容。此后,数据还需进行包括转换、清洗、归类编码和数字编码、拆分、汇总、加载等一系列处理过程,保证数据采集的有效性、真实性、稳定性。大数据分析是大数据理念与方法的核心,是指对海量类型多样、增长快速、内容真实的大数据进行分析,从中找出可以帮助决策的隐藏模式,未知的相关关系以及其他有用信息的过程,分析方法的优劣将决定分析结果的有效与否。大数据的分析技术包括数据预处理技术、数据统计与分析挖掘技术。数据预处理技术主要在分析使用前,将数据进行降维、标准化、噪声去除等预处理。数据统计与分析挖掘技术指的是利用统计、回归、趋势分析、关联规则分析、决策树建模等方法,实现数据向价值的转变。数据分析一般步骤包括探索性数据分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型,最后使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。
大数据的作用在于对实践的指导,只有通过“目标、设想、试验、应用”,最后再反馈到第一步,形成一个数据分析的闭环,才能体现出数据的价值。首先,需要明确目标,创造性地提出达到目标的假设或者设想,然后利用大数据进行试验,如果成功则进行实际应用,并制定下一步的目标;如果失败,返回第一步修正目标。通过不断的闭环循环,满足用户需求。
目前,图书馆各类数据数量大、类型复杂、关联性强,使用传统手段难以清晰地呈现,更难以从中发现问题和解决方法。数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。数据可视化作为大数据的最后一个环节,将分析处理出来的大数据,再次进行整理,通过二维、三维图表的形式呈现出来,以可视、实时、交互的方式表达复杂数据蕴含的信息和规律,让用户和管理者可以更加直观地看到数据的变化以及趋势,明晰各种数据之间的联系,对图书馆各方面服务情况能快速了解,便于管理者及时处理出现的异常状况,并为图书馆的后期业务调整、决策提供支持。例如,一些图书馆的阅读报告就是利用大数据可视化工具对图书馆上年度的各项借阅指标进行解读,而图书馆实时数据展示则用图表动态反映当前图书馆业务数据,如到馆人数、借还数量等的变化情况。
当前,欧美等国家与地区均在探索建立数据产权与流动规则,如早在1992年,欧盟委员会通过《数据库指令草案(Commission Proposal for a Council Directive on the Legal)》确立了数据库权(database right)。数据库权赋予数据库控制者对抗他人对数据库内容提取的排他权利,并存在着若干平衡性安排,如对合法利用人的非实质性部分的提取或再利用行为进行限制性排除,并规定了若干“法定许可”[7]。图书馆的大数据无疑具有公益性质,如何维护图书馆的数据权,特别是在与数据厂商合作开发数据时,如何划出相关的界线,保护利用好这些数据,使其为社会大众服务,是值得探讨的新问题。
大数据技术通过分类、聚类、回归分析、关联规则等算法,可以从海量不完整、非确定性信息资源中挖掘出有价值的实用信息和知识,但这种技术运用也会带来信息安全问题。大数据时代信息安全的威胁主要来自大数据抓取过程中的信息泄漏。大数据与云计算、物联网等技术的深度融合应用可以把设备、人、服务等各种元素关联起来,通过计算、分析、生成等方法,在看似无关的事物之间建立起联系,在此基础上预测人们的生活状态和行为方式[8]。图书馆大数据可以归入大数据长尾的尾部,一般图书馆往往更加强调开放而忽略安全,其实图书馆大数据中也包含大量读者个人数据,其中不乏身份证号、学号、手机号、电子邮箱、地址、读者借阅信息等较为敏感数据。而大数据的应用过程中必然导致数据的流动和集中,使得原来敏感度不高的大量长尾尾部数据变得敏感起来,用户的隐私数据更容易泄露。
为防止大数据产生的隐私泄露风险,首先要完善立法。例如,何种数据可以被何种机构所搜集,数据在何时、何地可以通过何种形式披露、留存和使用,数据使用的期限应该是多长等应有明确规定,在法律层面加强对个人信息采集、存储、使用的规范和监管。我国已颁布数十部法律法规来保护公民个人信息安全,相比欧盟、美国和日本等国家,没有制定专门的法律来规范个人数据的使用,2018年开始实施的《信息安全技术个人信息安全规范》作为国家标准,明确了个人信息的收集、保存、使用、共享的合规要求。在国家已有相关非强制性标准、个人对隐私安全又不够重视的情况下,图书馆业界的自觉自律显得更为重要。图书馆需要按照国家标准,在网络隐私认证规则、技术保护规范等方面形成行业规约,约束自身行为,同时谨慎对待和第三方的数据合作,尽量在事先制定出相关的隐私保护准则,防止敏感数据的非法扩散导致不良后果。为了在大数据的开放流动和保护用户隐私之间保持平衡,需要制定数据流通管理机制、定价机制、隐私保护机制、数据交换标准等一系列制度规定。国外一些图书馆使用定期清除读者借阅记录的方法,在读者归还图书和清还欠费之后,及时清除读者的借阅记录,达到保护读者隐私的目的[9]。但是残缺不全的数据又会给大数据的应用带来很大障碍,如何平衡利用与保护的关系,既鼓励大数据的自由流动,又防止隐私泄露、数据盗用,是关系到大数据利用的一个关键问题。
由数据驱动的决策过程包括个人信息的收集、管理、分析、保留、公开与使用等环节,每一个环节都有可能出现不准确、不合法或不公平的因素。例如,因收集不当而形成具有偏见的历史数据,以及大数据的算法背后可能包含着人的主观意志等,都会内嵌到系统层面,并可能会被放大、扭曲,产生各种歧视现象。这些数据如果被输入给人工智能系统进行训练,则人工智能也将先天就带上偏见,而现在以深度学习为基础的机器学习系统存在的工作原理上的黑箱,更使得分析、纠正问题变得困难。一些反映个人某些心理、生理或者偏好的阅读数据,如被开放整合到第三方系统中,可能会使其在工作、社会上受到歧视对待,限制他们自由选择的权力。在小数据时代,遗忘是常态。由于网络技术和云技术的发展,信息一旦被上传存储,则立即被永久性地保存下来。于是,在大数据时代,记忆成了新常态,而遗忘则成了例外,以致产生某些伦理困惑。例如一个人因为偶尔忘交罚款或者超期未还图书,导致其留下长期信用污点或者受到就业歧视是否合适。如何控制数据的时效性,用户是否有自主删除其个人借阅记录的权力,在什么范围内可以对自身保留在图书馆的数据进行使用权的设置,成为需要探讨的问题。国内有图书馆在开展信用服务时,对于用户的超期现象会上传至信用平台,罚扣用户的信用分,但是此信用扣分在用户还书后只保留12个月[10],这种方法既有助于帮助用户培养诚信意识,也不至于使得用户在此行为改正后仍然长期背负信用污点,是一种较为折中的解决数据歧视方案。
大数据并非完全精确无误,要避免盲目崇拜。客观上大数据的信息来源非常广泛,且往往以动态数据流的形式产生,这样致使大数据中常常包含各种形成的噪声数据和冗余数据。许多大数据本身就是模糊的,其中含有大量虚假和有害的内容,这将造成数据的整体质量下降,数据存储成本增加。如已经有人发现可以通过人工智能大规模编写以假乱真的点评信息来影响人们的判断,这对大数据的真实性构成新的重大挑战[11]。图书馆大数据具有多数据来源、多维度、多采集方法和多存储模式的特点,导致大数据中不可避免地存在着错误、粗糙和不合时宜的非清洁数据[12],更兼受各种利益驱使,可能产生的人为虚假数据。真实性成疑的数据,增加了图书馆大数据应用的复杂度和数据决策成本,这些数据质量问题使得后续的分析、挖掘、展现都产生偏差,甚至还可能误导用户、产生歧视偏见,降低了图书馆对用户实际阅读需求的感知和对未来服务发展趋势的预测能力,严重的还会误导决策。
因此,必须从源头保证数据的质量,包括建立完善的数据质量控制体系,制定数据的统一标准,采取数据清洗等技术手段来尽量提高数据的真实性、可靠性。具体在进行数据的初始收集和整理时,应该对所收集整理数据的真实性和可信度进行严格的监测和细致的过滤、清洗,通过严格鉴别数据的出处和来源,并进行对比,正确识别并剔除掉虚假甚至恶意的数据信息,收集整理出真实有用的数据信息。另外,在分析过程中,分析者必须保持客观公正的态度,对于所分析的领域要有深入了解,能够精准掌握与运用数据分析技术、方法和手段,才能得出正确可信的结论[13]。
大数据的应用创新,人才和算法是其中的核心部分。大数据平台的构建,大数据的加工、处理、分析是一个包括多个领域的系统工程,需要IT、数据挖掘统计、所在行业等几方面的专业知识和人员,根据实际情况,提出相关的算法并逐步完善。目前图书馆普遍缺乏大数据方面的技术人员,包括数据收集、管理和分析人才,特别是中小图书馆缺少既掌握图书馆业务,又具备大数据技术的专业人员,容易产生新的“数据鸿沟”。掌握了数据资源,并不等于实现了大数据应用,大数据能否创造价值,既与其本身属性和特征有关,也涉及开发利用大数据的算法,如果没有发挥关键作用的正确算法,数据量再大也不能发挥应有的作用[14]。另外,众多大数据分析得出的结论往往只能在一定的范围内,附加上相关的限制条件才有参考价值。将其盲目扩大适用领域,会导致其失去意义并产生误导。只有掌握正确的分析方法,理解分析结果的适用性,才能避免诸如辛普森悖论和安斯库姆四重奏之类的数据分析陷阱,防止大数据的欺骗性[15]。因此,图书馆的大数据事业不是光靠图书馆一家可以完全胜任的,需要借助多方力量走商业化算法软件结合定制的路线。
随着人工智能的广泛应用,以大数据、云计算、物联网、移动互联网为技术支撑的智慧图书馆将向以人工智能为核心、整合上述多种技术的智能化图书馆、或称为“人工智能+图书馆”转变。有关研究机构的报告指出,中国在人工智能领域的细分指标上,唯一占据绝对优势的是大数据,具备绝对的数量优势和较宽松的隐私限制[16]。因此,充分发挥大数据的应用价值,防范可能存在的风险,不仅对图书馆当前的发展有利,更对未来的转型升级有着重要的作用。