马 坤
大数据技术、信息可视化技术、人工智能技术在图书馆的应用显著提升了图书馆信息化水平,为智慧图书馆发展蓄势赋能。当前,图书馆广泛使用的业务管理系统、门禁系统、预约系统、数字资源访问系统、电子借阅系统、建筑智能化系统等积累了大量的业务数据、读者数据、资源数据、服务数据和空间环境数据。这些结构化、半结构化和非结构化的数据,从容量、多样性、速度和价值方面已具有大数据的显著特征。通过对图书馆数据进行综合分析、利用,可以看到大数据分析技术可应用在诸如年度数据报告、数据画像,信息可视化展示平台、决策支持系统、服务预警、知识发现等方面,并对图书馆业务完善、读者分析、资源保障、阅读推广、服务提升等发挥了显著作用,彰显了图书馆数据价值。与此同时,我们也应看到,图书馆数据利用还处于起步探索阶段,被用来进行有效分析利用的数据并不多,把常规的数据统计等同于数据分析的意识问题在图书馆业务工作中依然普遍存在,因此有必要对图书馆数据价值提升策略进行研究,厘清图书馆数据利用的整体思路,为图书馆智慧化发展锚定目标,提供思路。
利用数据进行营销是图书馆营销活动的创新之举,也是新时代图书馆充分应用大数据相关技术,立足于信息网络传播,面向读者群体开展资源和服务推广的重要手段,目前图书馆较为成熟的数据营销实践主要有以下几种。
1.1.1 发布年度数据报告、事业报告
年度数据报告从数据视角系统总结图书馆整体利用情况,已成为图书馆数据推广的重要手段。在公共图书馆领域,上海图书馆于2013年推出“我的阅读2012”和《上海市2012 阅读报告》,成为首个面向社会的公共图书馆阅读年度报告。深圳图书馆也持续推出“图书馆之城阅读报告”,影响力不断提升。随着行业标杆的带动,国内其他公共图书馆也纷纷推出事业发展报告,利用大数据进行展示和营销的优秀案例不断涌现。高校图书馆领域,以厦门大学的“图2013:我和你”年度数据为例,高校图书馆年度数据涵盖的内容广泛,除了常规的阅读数据外,还将图书馆发展的重要事件纳入报告。目前,绝大部分的公共图书馆和高校图书馆均发布过年度报告,并借助网站,微信、微博等社交媒体进行宣传推广。
1.1.2 数据画像
数据画像是图书馆数据利用的创新尝试,目前主要有两种方式。一是用户画像服务。比如基于借阅数据分析读者的阅读行为,建立画像模型对用户行为进行分析研判,结合用户行为需求和个人特征进行个性化文献资源推送服务等。用户画像除用于资源推送服务外,还可以生成读者个人、群体借阅记忆卡,为读者提供一份属于个人的图书馆大数据记忆,系统化呈现个人学习、阅读情况。比如:福州大学图书馆通过挖掘和分析毕业生在校期间使用图书馆的数据,为毕业生打造了个性化悦读账单服务;北京大学图书馆自2013 年起持续开展的“致那些书香为伴的BNU 年华”毕业季主题系列活动;厦门大学以此为案例的系列营销活动获得第十三届IFLA 国际图书馆营销奖第二名;苏州科技大学图书馆为借阅量超过80 本的毕业生定制专属借阅明信片,获得苏州《姑苏晚报》、苏州日报等媒体关注。二是资源画像服务。资源画像和用户画像原理一致,资源画像更侧重于对图书馆各类文献信息资源数据的挖掘,生成的文献资源模型不仅有助于加深图书馆对文献资源的整体把握,同时将资源画像与用户画像有机结合,有助于让用户画像更加精准。通过读者和文献资源画像模型搭建图书馆大数据服务平台,能够针对性地提供个性化、精细化阅读推荐服务。如美国Hiptype 公司通过大数据技术,借助数据画像方法分析读者阅读喜好和兴趣习惯,进行个性化的数字资源推送服务[1]。
1.1.3 信息可视化平台展示
当前,图书馆服务功能不断拓展,早已突破传统意义的图书借还场所定位,通过不断发挥资源积聚,空间拓展效用,已成为重要的学习、交流、分享、阅读中心。新阅读空间不断生长,创客空间、交流空间,数字化学习空间、文化空间、社会实践空间等已成为图书馆服务拓展的重要内容。功能拓展的同时,图书馆开始重视可视化信息平台建设,在馆舍建设和改造中逐步以可视化平台的形式,系统、实时、个性化呈现图书馆数据,这些数据通常包括热门借阅图书,实时在馆人数,各类实时排行榜、空间利用情况、图书馆实时活动等[2]。通过生成图形、图表、图片等形式展示,让读者更直观地了解图书馆,促进读者与图书馆的良性互动。如深圳图书馆开发的智能读者流量系统,可以系统分析读者流动和分布的数据,并实时采集相关数据,形成可视数据报表。常州信息职业技术学院图书馆建设的信息化可视平台,通过统计借阅量,入馆人次,发布排行榜,推荐热门借阅书籍,宣传各类阅读活动等形式,实时呈现图书馆服务,加深与读者的有效互动。
图书馆数据利用的价值对外主要是营销推广服务,对内则是为业务和事业发展提供决策服务。
1.2.1 构建决策支持系统
图书馆决策支持系统离不开数据支撑,从20 世纪70 年代起,图书馆开始探讨决策支持系统,但是由于缺乏大数据的支撑,决策支持系统并没有真正在图书馆落地。伴随着大数据技术在图书馆的应用,一些高校图书馆和公共图书馆开始从数据着手构建决策支持系统。基于数据的决策支持系统可以涵盖图书馆采编、流通、咨询、读者需求调研,经费支出管理等工作环节,比如上海图书馆的流通大数据项目就是公共图书馆数据决策的典型应用,高校图书馆利用数据进行资源采购决策、管理服务提升的案例也有很多[3]。
1.2.2 搭建服务预警机制
一是利用大数据进行服务风险评估。马晓婷基于大数据分析的图书馆风险预警系统设计,从数据分析的视角探讨了图书馆服务风险与危机的科学、精确预测,借助数据可以帮助图书馆建立各类知识服务和业务建设的风险模型[4]。二是可以通过大数据分析图书馆资源状况,及时发现故障和潜在的故障风险。比如可以利用数据分析,找到图书馆设备故障、资源访问故障,发现图书馆空间存在的问题,查缺补漏,优化服务[5]。
1.2.3 知识整合发现
随着5G 服务的不断完善,信息资源市场和知识服务行业加速数字化转型,更加凸显信息资源的跨媒体特性。面对新的机遇和挑战,如何进一步实现资源的融合化、知识化,提供精准嵌入教学、学习、科研、决策等过程和场景的跨媒体学科知识服务,成为5G 时代高校图书馆新型服务能力要求[6]。大数据可以帮助图书馆建立多种媒体形态、多渠道信息的知识引擎服务。知识搜索是图书馆业务服务的重要内容,近年来,知识搜索服务被一些商业公司开发成产品提供给图书馆使用,一些知识图谱挖掘和推理方法开始应用于知识导航、检索、推荐等。如超星公司的发现系统,就是基于大数据的资源整合平台。图书馆自身也在探索开发基于大数据的知识发现系统,如国家图书馆通过系统整合各类自建和外购数据资源近3 亿条元数据,开发文津搜索系统,为读者提供“一站式”联合检索服务。重庆大学联合维普公司开发的弘深搜索系统,清华大学的水木搜索系统等也都是基于大数据的资源整合平台。
数据营销是图书馆数据利用的直观展示,但是在数据营销中,当前还存在着定位不够清晰、品牌辨识度不高、推广机制不健全、推广效果持续性差等状况,概括下来主要存在以下问题。
2.1.1 数据源选择不够丰富
在当前图书馆展示的数据中,更多的是业务数据中的结构化数据,如来自图书借阅系统、座位预约系统、门禁系统等信息化系统的借阅量、预约次数、入馆量等数据,类型不够丰富。大数据时代的到来,半结构化和非结构化数据已逐渐成为图书馆大数据的主体。一方面如文本、传感器数据、地理空间数据、音频、图像、邮件和视频等非结构化数据由于数据本身的复杂性、多样性、异构性和不可控性,在现阶段并没有得到充分的利用;另一方面,由于图书馆很多数据具有较强的时效性,可用周期较短,如读者检索行为数据和日志数据、读者参与图书馆各项活动形成的文本数据等,对这些半结构化和非结构化数据进行数据利用的综合成本较高,这也在一定程度上影响了数据源的选择[7]。
2.1.2 目标对象不够细分
图书馆在开展数据营销时,如制作年度阅读报告数据,其目标对象没有明确的细分,也缺乏面向不同目标对象的数据分层呈现[7]。目标对象细分有助于图书馆有的放矢地开展数据营销服务,对此可以借鉴部分高校在门户网站设计中的用户细分理念,是访客还是教职工,是在校学生还是未来学生等。只有设定目标用户类型,针对不同目标对象提供不同的资源和数据,才能让数据展示的效果更加友好。
2.1.3 数据展示手段相对单一
借助网站和微信、微博等社交媒体进行宣传推广是图书馆数据营销的主阵地,对双一流高校图书馆年度阅读报告推广渠道的相关分析显示[8],大部分高校主要是依靠微信进行宣传推广,方式比较单一。从信息热度上说,通常是发布后一周内浏览量较为集中,一周以后热度基本消失;从实际传播量来看,根据统计,绝大部分的高校年度报告的阅读量都在3000 次以下,最少的只有几百次的浏览量;从实际投入看,数据整理劳力费时,在一定时间内需要图书馆投入大量的人力和财力,但是由于传播渠道相对较窄,导致传播效果不佳,社会影响力不够,没有完全达到预期成效。
2.2.1 极易把数据分析替换成数据统计
数据统计是图书馆各个信息系统提供的常规统计数据功能,而数据分析则需要打破现有的信息孤岛,从常规分析延伸到数据聚类分析、关联判断分析,时间序列分析、大规模图分析、社会网络分析和线性回归等深度分析中来,要对图书馆不同信息系统的数据进行深度挖掘,通过数据了解图书馆在知识服务过程中提供了什么,发生了什么,读者获得了什么,图书馆下一步应该要做什么。相对图书馆不断增多的数据总量,被用来进行数据分析的数据却并不多,大部分高校图书馆的信息化建设如系统软件等都是通过采购获得,不同的系统可能由不同的厂家提供,系统的应用环境各不相同,众多系统没有完全实现异构整合,而图书馆现有的技术开发力量也相对薄弱,导致图书馆数据分析多数仍然依靠现有系统的数据统计功能,对数据挖掘的深度还远远不够。
2.2.2 对关联数据内在关系的挖掘不够深入
数据之间的对比对照不够,比如借阅数据就是借阅数据,借阅数据和入馆数据、活动数据等进行综合对比分析较少,单一数据的统计偏多,数据间相关关系的挖掘不够。
2.2.3 数据分析缺乏连续性
时间序列分析欠缺,一方面图书馆信息化建设是一个渐进的过程,由于信息化系统是项目化建设,基本以采购为主,且随着信息化工作的不断深入,系统升级迭代更替较多,很多数据没有得到很好的迁移保存,数据缺乏连续性,如图书馆管理系统就从原来的单一系统,逐步演变成智慧图书馆管理系统。系统的更替造成图书馆很多的数据统计工作缺乏连续性,在系统更换的时候如果没有深入考虑数据问题,就很容易造成数据断层现象。另一方面,随着图书馆非结构化和半结构化数据的不断增多,对存储和计算的要求也不断提升,现有的软硬件设施设备的不足也使得图书馆在存储大容量、实时性数据方面有所欠缺,造成数据的连续性失去保障[8]。
2.3.1 数据在图书馆日常业务中的使用不足
虽然图书馆逐渐意识到自身数据潜在的价值,但从组织架构和人员队伍上来说,还没有做到很好的配套,在一些图书馆的数据分析工作更像是一个临时性的工作安排,在具体的时间节点通过集中力量突击完成,没有把数据工作作为一项日常工作进行部署谋划,数据工作与图书馆日常业务工作的连接不够紧密,没有很好地利用数据服务去推动图书馆业务完善和创新,存在数据资源与实践应用脱节的现象。实际上,数据可以应用于图书馆很多业务工作,如运用大数据技术整合构建数字资源统一平台,基于信息可视化技术对实时数据收集整理分析,展示、监测图书馆业务,深度挖掘馆藏文献资源利用数据,进一步提升文献资源利用率,为图书馆资源建设、经费使用提供合理化建议等[9]。
2.3.2 数据服务于图书馆战略发展的效用不足
图书馆在事业发展规划中,对数据的效用认识不足,利用欠缺。比如图书馆在制定“十四五”规划等事业发展规划时,未对已有的数据进行深入分析,没有发挥数据驱动作用;高校图书馆在事实数据统计中,也存在不重视数据汇总整理和规范填报工作等问题,数据分析利用主动意识不足。
2.3.3 数据共享程度不足
图书馆数据中心存在信息孤岛现象。如高校图书馆数据与智慧校园数据没有实现充分共享和深度融合,公共图书馆数据与智慧城市的数据共享也没有很好地融合,图书馆数据价值没有得到充分的挖掘。数据分析最终目的是促进图书馆服务增值,但是,当前图书馆数据在服务于专业建设、人才培养或服务于地方文化事业发展等方面的成效没有得到彰显。长远来看,基于区域性协同创新的联盟发展是公共图书馆数据利用的重要方向,但需要打破数据壁垒,充分释放数据潜能。
数据营销要打破当前营销手段较单一的局限,在发布途径和发布形式上要更加多样化,目前图书馆通过社交媒体开展数据营销的渠道主要是微博、微信,对于抖音、B 站、今日头条等新媒体还需要进一步推广。在营销数据选择上,既要发布整体的数据情况,又要有针对性地对个别数据进行重点宣传,要提高宣传的时效性和宣传质量[10]。
数据营销的最终目标是让受众了解图书馆,增加与图书馆的互动,提高图书馆的影响力和利用率,因此,图书馆在进行数据营销的时候,要注意引导读者参与图书馆活动,让读者感受到个体也是数据的组成部分,提高读者对数据的关注度和参与度[11]。图书馆可以在常规的年末发布数据统计信息的基础上,增加在重大节日活动,如世界读书日、全民阅读月、校园读书节、城市读书日、文化活动周等时间节点发布数据的频次,亦可以在图书馆特色品牌活动开展的同时进行相关数据发布,以提高数据的关注度,与活动的融合正是图书馆数据生命力的体现。
对于一些小众数据、个性化数据,一方面要能够体现图书馆服务的特色,另一方面也需注重问题的揭示,比如部分图书馆会设置一些曝光台数据,对失约违章读者进行统计、对异常图书进行统计展示等,还有一些图书馆对读者留言板,微信留言、读者参与图书馆活动、特色资源利用情况及品牌特色活动的读者参与情况进行展示。这些小众数据虽然在数据分析和统计上需要投入一定的成本,但是由于数据特色鲜明,更容易引起受众的关注、思考和共鸣,对于提升图书馆服务往往会发挥意想不到的作用。
数据治理已成为图书馆事业发展的新机遇。一种观点认为数据驱动发现已经成为一种新的科学进步路线,产生了新的知识服务对象,图书馆面对新的知识服务对象要主动作为,通过探讨数据治理工作的体制机制,模型框架,实施路径,不断加强数据治理工作研究,提高对数据治理工作的认知。此外,数据治理可以进一步激活图书馆数据资源,提高数据价值。近年来,《中国人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标》中对公共数据的开放共享提出了明确要求,鼓励深入挖掘公共数据的内在价值,图书馆数据作为公共数据的一部分,应该主动顺应国家公共数据治理的战略需要,积极拓展服务新的知识服务对象,探索提升数据获取、数据共享、数据重用等数据治理能力和水平[12]。
2019 年实施的《信息技术服务基本要求》(GB/T37961-2019 ) 的治理第5 部分的数据治理的总则和框架,规定了数据治理的顶层设计、数据治理环境、数据治理域及数据治理过程的要求。该标准适用于数据治理现状自我评估,数据治理体系的建立;数据治理域和过程的明确,数据治理实施落地的指导;数据治理相关的软件或解决方案的研发、选择和评价;数据治理能力和绩效的内部、外部和第三方评价。图书馆要善于科学分析图书馆公共数据各要素的构成及其逻辑关系,在遵循数据治理规范的基础上,建立数据治理框架体系,主动融入数据治理的标准体系。近年来,学者在研究DRMA 框架、DGI 框架等国际数据治理规范的基础上,针对图书馆公共数据的数据治理问题,不断构建数据治理框架体系,如孙红雷构建的图书馆公共数据治理概念框架就由4 个模块和16 种要素构成[13]。
在探讨框架、标准等问题的过程中,也要关注具体的实践探索。图书馆要借助政府支持、学校支持、行业支持力量,重点采集“读者”和“资源”相关的数据,包括对象描述数据、资源利用数据和读者行为数据等。要致力于改变图书馆各个信息系统之间存在的信息孤岛现象,重视特色数据存储分析,挖掘数据之间关联度,根据数据资源价值的评估和开发利用的实际需要,做好数据源选择和数据清洗。要主动作为,把自身的数据与学校、行业数据进行融合,将图书馆数据与智慧城市、智慧校园大数据对接,发挥数据融合优势等等。江苏省公共图书馆开展的大数据项目就是对省内所有公共图书馆的数据进行汇总、清洗、整理,针对各项数据进行分析和可视化呈现。省内公共图书馆可以通过大数据服务平台了解、查询各类读者数据,如借阅数据,到馆人次等,并进行对照分析,挖掘数据价值,提升服务质量。
高校数据资源管理和数据治理工作的现实需求为数据馆员岗位的设置奠定了基础。近年来,随着国家数据资源战略的倡导、图书馆馆藏资源数据化管理,使得部分传统图书馆服务者、资源推广员角色向数据管理者转变,数据馆员在部分图书馆已经岗位化,但总体还量小力微。高校中设置有数据馆员岗位的,有北京大学、复旦大学、华中农业大学等少数高校。公共图书馆还处于探索和尝试阶段。任何一项工作的开展都离不开制度的有力保障,数据分析工作需要图书馆在体制机制上进行探索,将数据分析工作岗位化,职业化,如可以尝试成立大数据服务部,设置数据馆员等数据分析工作岗位。此外,图书馆还应多方呼吁,争取在《中国人民共和国执业分类大典》中将图书馆相关的专业技术人员工作内容中纳入数据管理相关内容[14]。通过明确工作目标任务,建立岗位业务工作流程,工作职责任务,数据统计分析制度等,完善制度机制保障,提高数据分析工作的认知度和重要性,让全体馆员都能意识到数据的价值,为数据分析工作奠定基础。
要建立和培养一支专兼结合的数据馆员队伍,一方面要着力提升全体馆员的数字素养,另一方面,要结合数据资源利用的实际需要,理顺数据管理服务制度等业务流程制度,为数据馆员的工作提供更多的标准和准则依据。数据馆员是“以提供数据收集、组织、管理和服务为主要职责的馆员”,要求具有数据敏感度,技术感知度,服务认知度,并善于利用各类信息技术,大数据技术发现数据之间的关系,挖掘数据之间的关联,探索数据整理利用的价值和方式。国内众多学者如柯平、许春漫、左志林等都多次在研究成果中提出要“重视数据馆员制度建设”,因此在探索全行业建立数据馆员的从业资格认证制度上可以参照现有的图书馆员职业资格认证、档案管理员资格认证等已有的认证体系,通过明确资格条件、技能要求等,建立数据馆员从业资格认证制度,为数据馆员工作的职业化发展奠定基础。在数据馆员的成长之路上,专业教育渠道的作用也不可或缺,要通过专业教育为数据馆员提供更多的业务学习和职称晋升机会;在兼职数据馆员的培训上,建立科学的考核评价制度及竞争机制[15],激发数据馆员向专职数据馆员转变的动能,为数据馆员提供更好的职业发展和晋升空间。