赵嘉文,杨九龙
随着研究范式的转变和第四范式数据密集型科学时代[1]的到来,大数据科学逐渐成为科学研究的重要手段。研究者可以利用数据分析平台来对图书馆及图书馆学的有关问题进行研究。数字图书馆是学界持续研究的热点[2],通过大数据分析,可以从整体性认知方面了解公众对数字图书馆的关注度和利用情况,以指导数字图书馆的创新管理。
百度指数(Baidu Index)是以百度海量网民行为数据为基础的数据分享平台,能够提供体现我国网民搜索行为的社会调查大数据。本研究在此基础上进行数据挖掘、分析及可视化应用,它包含四个子模块:(1)趋势研究,用以表现“数字图书馆”这一关键词的搜索变化情况,可根据自定义时间段和自定义地域,查询该关键词的搜索指数和媒体指数;可按搜索来源分开查看整体/移动端趋势;(2)需求图谱,用来了解网民对数字图书馆的需求分布信息和关键词热度情况;(3)舆情洞察,用以体现一段时间内的数字图书馆媒体关注度以及该时段内关注度最高的十大热门新闻;(4)人群画像,用以显示搜索数字图书馆的人群在各地的分布及其性别、年龄分布情况。
谷歌趋势(Google Trends)是Google推出的基于搜索日志分析的应用产品,可以分析网民的Google海量搜索结果。在本文中,可用来反映“数字图书馆”这一关键词各个时期在Google被搜索的频率和相关统计数据。在谷歌趋势中可以看到“数字图书馆”搜索量和新闻引用量两部分的趋势记录图形,并直观看到其在Google全球的搜索量和相关新闻的引用情况变化走势,有详细的城市、国家/地区、语言柱状图显示。
可用于小样本数据处理的灰生成方法被广泛运用于科学研究。张凯等[3]提出一种灰生成计算方法,用于了解“图书馆”一词搜索热度的总体趋势。鉴于其方法是将数据分为两组,再运用灰生成方法求得均值来进行大数据的数据比较,运用bootstrap对其进行改良,过程如下:
有一组数据x1,…,xn,…,x2n之前的方法,分成两组x1,…,xn;xn+1…,x2n;求均值
y2-y1=…
y2/y1=… =>变化趋势
用bootstrap重抽样来估算均值y1和y2考虑对x1,…,xn(xn+1,…,x2n同理);随机选择整数i1,…,in(1≤i1,…,in≤n)并进行等概率抽取,为所得bootstrap样本为如此进行B次,即i=1,2,…,B;
根据百度指数界定的搜索时间范围,本文数据包括2011年1月1日至2017年5月7日间“数字图书馆”主题的大数据。
该时段关注“数字图书馆”的人群中,男性占80%,女性占20%,男性是女性的4倍(注:该比例可能是百度账号默认性别为“男”等因素引起)。在年龄分布中,19岁及以下的占1%,20-29岁的占17%,30-39岁的占56%,40-49岁的占24%,50岁及以上的占2%。分析发现,关注数字图书馆的人群中男性占比远大于女性,这与关注图书馆的人群比例相吻合[3];年龄分布呈现出“两头小,中间大”趋势,30-39岁的中青年是最主要群体。
图1-3显示使用百度搜索的人群的地域分布及排名。其中,区域排名依次为西南、华东、华北、华中、华南、东北和西北;省份排名依次为重庆、北京、广东、浙江、江苏、贵州、上海、湖北、河南、山东;城市排名依次为重庆、北京、上海、贵阳、武汉、广州、深圳、天津、南京和郑州,重庆的搜索量约为第二名北京的2倍,后五个城市差别不大。研究发现,搜索热度区域集中在西南和华东;搜索省份及城市热度排名第一的均为重庆,这与重庆推出“重庆市数字图书馆”“重庆中小学数字图书馆”密不可分[4-8]。重庆利用“互联网+阅读”模式,建成43个数字图书馆和586个数字农家书屋,重庆图书馆数字资源达118TB。丰富的数字资源和浓厚的阅读氛围提升了公众对数字图书馆的关注度和利用率,从而在区域及城市搜索排名中遥遥领先。
以谷歌的搜索量为数据基础,分析2011-2017年同一时段国际网民以“digital library”为关键词在谷歌的搜索情况,以了解公众对数字图书馆的关注度。从图4和表1可以看出,全球公众对数字图书馆的关注度总体不高,巴基斯坦、尼日利亚、马来西亚分别位居世界地域搜索指数排名的前三名,发达国家并不如人们想象中那样,对数字图书馆的关注度更高。这和联合国教科文组织致力于鼓励移动阅读,以此帮助欠发达地区的人们缩小马太效应带来的信息劣势密切相关[9]。巴基斯坦推出数字图书馆服务,其中HEC国家数字图书馆(HEC NationalDigitalLibrary)向巴基斯坦公立和私立大学研究人员和非营利性机构提供研发帮助,使其可以访问基于电子(在线)支付的国际学术文献,提高了该国人员的科研水平。这是该国“数字图书馆”搜索量高的主要原因。
图1 搜索区域热图
图2 搜索省份热图
图3 搜索城市热图
图4 世界地域搜索指数排名
表1 世界地域搜索指数排名
将图5-6一一对应后发现,媒体指数和新闻热点报道密切相关。没有新闻报道“数字图书馆”时,媒体指数持续为零,这在2015年中至2016年尤为明显。没有新闻报道意味着数字图书馆在该时间段内处于消费以往影响力的阶段,这是数字图书馆推出后,后继创新不足,导致社会关注度不高,不足以形成新闻影响的局面。由此可见,要让更多的人知晓数字图书馆并利用其服务,新闻媒体宣传必不可少。这也从侧面反映出,在实际工作中,数字图书馆缺乏手段去吸引大众注意力,媒体宣传工作不尽如人意。没有新闻影响还反映了数字图书馆的社会关注度不高,工作创新力度不足。图6尤为明显地反映了:只有图书馆有实际作为,产生了实际价值,才有新闻报道的必要性。因此,需要拓广边界,使图书馆产生与其他组织的联系,提高关注度,从而提高公众对数字图书馆资源及服务的利用率。
图5 数字图书馆新闻监测趋势图
图6 数字图书馆舆情新闻关联图
以我国网民的百度搜索量为数据基础,以关键词“数字图书馆”为统计对象,以2011年1月1日至2017年5月7日为时间段,计算百度网页搜索中相关搜索频次的加权,图7-图9反映了用户对“数字图书馆”搜索的关注度及其持续变化情况。2013年前搜索量呈低迷走势,从2013年开始搜索量明显增长,这与2013年公共图书馆宣传和普及数字图书馆有关。2016年开始搜索量迅猛增长,移动终端增长尤甚,反映了随着智能手机的普及和网络费用的降低,公众可以便利地使用数字图书馆及其提供的免费资源。值得注意的是,在趋势图中,每当临近春节,搜索量有明显的波峰下降。究其原因,人们的搜索习惯和阅读习惯深受“春节效应”影响:一方面人们主要进行拜年、娱乐等活动,减少了搜索;另一方面,许多人回到比较偏远的家乡,网络不太发达,也导致搜索量有所下降。
图7 全国整体趋势(2011-01-01至2017-05-07)
图8 全国PC端趋势(2011-01-01至2017-05-07)
图9 全国移动终端趋势(2011-01-01至2017-05-07)
以国际网民的谷歌搜索量为数据基础,以关键词“digitallibrary”为统计对象,时间段设为2011年1月1日至2017年5月7日,分析世界所有区域的网民对数字图书馆的关注度及其波动趋势。从图10可以看出,近7年全球公众对数字图书馆的关注度总体呈平稳趋势,波动缓和。
图11为2013年11月1日至2017年5月7日间“百度知道”中关于“数字图书馆”的搜索热度排名。其中,和“数字图书馆”有关的前10条提问均有9个回答,搜索内容涉及数字图书馆的特点、个人数字图书馆的使用、数字图书馆的访问权限、下载资源权限等。这说明公众希望通过问答式网络提问或搜索,获取各类数字图书馆免费资料,以满足自己的信息需求。
图10 谷歌数字图书馆关键词热度趋势
图11“百度知道”中数字图书馆的搜索热度排名
图12显示“数字图书馆”与相关词的相关度,从圆心由内向外依次表示相关度的强弱关系。最靠近圆心关键词“数字图书馆”的4个词“超星”“重庆市中小学数字图书馆”“数字图书馆系统”“重庆”为强相关;“重庆数字图书馆”“超星移动图书馆”“中国数字图书馆”“数字图书馆平台”“中小学数字图书馆”“中小学生数字图书馆”“中国数字图书馆网站”“超星数字图书馆”“在线图书馆”9个词为相关;“电子图书馆”等10个词为弱相关。相关性分析发现,公众对超星数字图书馆和重庆中小学数字图书馆抱有强烈的兴趣,这与二者的广泛宣传和自身丰富的功能密不可分。
图12 词汇热图及相关性
表2是通过爬虫软件从百度指数曲线上抓取的网民对“数字图书馆”的周平均搜索指数分布。抓取时长共334周,按照第一行第一列、第二列……,第二行第一列、第二列……,的顺序依次分布,直到表格结束。利用公式(1)计算表2中的数据,可得到y1=153.1,y2=364.4。比较发现y1<y2,且y2-y1=211.3,说明网民每周搜索指数上涨较为猛烈,这与数字时代的进步密不可分。y2/y1=2.38意味着搜索量在近7年内上升238%。研究发现,公众对数字图书馆从基本不关注不了解逐渐转变为部分了解,在特殊时间节点关注度更有较明显的上升。这一结论与2.4中的热词变化趋势分析结果较为一致。
鉴于公众知识和认知水平的影响因素差异,选取“数字图书馆”的相关词“电子图书馆”,收集相同时间段内的数据进行对比分析。其中,“电子图书馆”搜索人群年龄分布比例为:19岁及以下占4%,20-29岁占28%,30-39岁占46%,40-49岁17%,50岁及以上占5%;性别上,男:女为81:19,与“数字图书馆”的男女比例(80:20)基本持平。由此可见,搜索“数字图书馆”和“电子图书馆”的网民总体相同。图13可见,2012年前,公众主要通过搜索“电子图书馆”来获取有关数字图书馆的信息,随着图书馆宣传的加强和公众认知水平的提高,“数字图书馆”概念逐渐取代“电子图书馆”概念,公众逐渐接受数字图书馆这一说法。这与超星数字图书馆等机构的宣传有一定的关联。
(1)利用移动平台延伸数字图书馆服务。移动平台的出现使获取信息资源的成本大幅降低。近7年的调查数据表明:公众通过网络特别是在移动终端上搜索数字图书馆相关信息并利用其资源与服务的趋势显著增长。因此,图书馆要加强公众信息素养教育,尤其是移动环境下数字图书馆资源的检索、利用、保存、分享等技能。比如,微信推出的“小程序”不需要下载安装,只需要在微信内嵌入就可以使用的移动终端应用。数字图书馆可以借助这个平台不断推广优质服务,将用户与服务无缝对接,使用户方便快捷地使用图书馆资源。
表2 每周搜索次数(2011-01-01至2017-05-07)
图13 整体趋势分析对比
(2)注重数字图书馆的宣传报道。调查表明数字图书馆的公众知晓度不够高,影响力不强,利用普及性偏低。比如,国内外公众对关键词“数字图书馆”“digitallibrary”的搜索量均不高;而我国公众对关键词“数字图书馆”的搜索量虽然不断提高,但周平均搜索次数仍未达到1000次。研究发现,在有数字图书馆宣传报道的时间里,搜索量显著增长,这表明宣传报道是推广数字图书馆的有效手段。此外,要注意宣传内容和方法,并推出创新服务。2010年重庆推出重庆市中小学数字图书馆(http://www.cqslib.org),2014年推出“抗战大后方3D数字图书馆”,随之而来的是网民搜索量和关注度的提升。再如,巴基斯坦推出“HEC National Digital Library”后,公众可以在数字图书馆上阅读乌尔都语小说和伊斯兰宗教书籍,科研人员也可以查阅学科文献,使巴基斯坦科研工作者的论文在7年内增加近10倍;在谷歌搜索中,“数字图书馆”这一关键词的搜索量,巴基斯坦位居世界第一。这些数据表明,数字图书馆进行创新服务能得到公众的认可和关注。
(3)数字图书馆的发展重心应是改变公众对数字图书馆的“刻板印象”。长期以来,数字图书馆在公众心中的形象主要是提供电子刊物这类信息资源,公众对搜索引擎的信赖及其搜索惯性使他们并未养成利用数字图书馆获取信息资源的习惯。图书馆提供的数字资源相较于一般的搜索引擎更具准确性、专业性、科学性,数字图书馆是甄别有用信息、避免垃圾信息和有害信息的重要途径。“魏则西事件”爆发后,百度等搜索引擎因竞价排名而提供虚假、错误信息,导致其社会信任度下降[10-11]。图书馆应积极承担社会责任,改变公众的认知和信息寻求习惯,使数字图书馆资源更有效地为公众利用。
本文主要通过百度指数、谷歌趋势的可视化图形结果及相关数据,展示国内外对“数字图书馆”的网络搜索情况,并通过对其中关键数据的挖掘分析,提出数字图书馆发展的针对性建议。不过,文章对国外大数据挖掘和调查不够深入,仅仅进行了世界地域搜索指数排名和关键词热度趋势分析,笔者将在下一步研究中深化国内外热词变化趋势的对比。
[1]HeyT,TansleyS,TolleK.Thefourthparadigm[M].Redmond,Wash.:MicrosoftPress,2009.
[2]苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015(6):4-12.
[3]张凯,郭健栖.图书馆主题大数据调查及前瞻性构想——基于百度指数的分析[J].中国图书馆学报,2016(6):51-66.
[4]黄勇.重庆图书馆特色馆藏建设项目分析——以抗战大后方历史全景数字虚拟化图书馆项目为例[J].内蒙古科技与经济,2016(22):110-111.
[5]周怡悦.数字图书馆推广工程背景下数字资源的共建共享探析——以重庆图书馆为例[J].农业网络信息,2016(10):95-97.
[6]谭玮.新媒体环境下地市级数字图书馆在区域数字文化服务中的探索与实践——以重庆市北碚区数字图书馆为例[C]//中国西部公共图书馆联合会.中国西部公共图书馆联合会第二届(2015)年会暨学术讨论会会议论文集(三).[S.l.]:中国西部公共图书馆联合会,2015:8.
[7]杨勇,张必兰.重庆市高校数字图书馆建设实践[J].重庆工商大学学报(自然科学版),2009(6):571-574.
[8]重庆数字图书馆开通[J].图书馆理论与实践,2009(11):77.
[9]Mark West,Han Ei Chen.移动时代的阅读——发展中国家移动阅读研究[J].沈浠琳,薛玉贞,王晨宇,译.图书馆论坛,2015(9):4-52.
[10]方超,张园.从媒介批评视角看“魏则西”事件中的“百度”[J].传播与版权,2016(8):90-92.
[11]尹丹丹.论网络环境下的媒介批评——以魏则西事件中的百度为例[J].传播与版权,2016(8):104-106.