许天才 冯婷婷 杨新涯
摘 要:大数据分析和云计算技术的发展催生出的智能推荐虽然一定程度给读者的阅读带来了便捷,但计算机信息处理的局限性会导致读者获取信息的范围习惯性受自己短时期内的兴趣引导,以至于获取信息不断收敛,就像蚕茧一般被困于“茧房”之中成为信息孤岛。为破除信息茧房这一困境,文章采用逆向思维提出零数据,以零数据和信息茧房文献调研为基础,分析了零数据破除信息茧房的本质,从零数据的获取、定性运用、交叉领域共享运用、创新推荐运用等方面提出了运用零数据破除信息茧房的策略。
关键词:零数据;信息茧房;推荐运用;数据获取
中图分类号:G252 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2020057
Research on Breaking Information Cocoon with Zero Data
Abstract The development of big data analysis and cloud computing technology has led to intelligent recommendations that have brought convenience to readers to some extent. However, the limitations of computer information processing will cause readers to obtain information guided by their short-term interests habitually, so that they are trapped in the "cocoon room" and becomes an information isolated island. In order to solve the dilemma of information cocoon, the author uses reverse thinking to put forward zero data, and based on zero data and information cocoon literature research, the nature of information cocoon through zero data is analyzed and strategy is put forward to break the information cocoon by zero data acquisition, definition, cross sharing and innovation recommendation.
Key words Zero data; information cocoon; active recommendation; reading promotion
1 引言
1980年著名未来学家阿尔文·托夫勒首次提出大数据这一概念至今,国内外学者从未间断对其研究,自2008年《Nature》推出“big data”专刊后,大数据技术更是融入各行各业成为最为热门的创新研究。新闻传媒、社交媒体、电子商务等行业运用大数据挖掘技术根据用户的行为数据如搜索、点赞、收藏等行为为用户智能推荐相关信息,在用户享受着精准推荐和个性化需求得到极大满足的同时,不少学者也开始质疑算法推荐所带来的弊端,如工具奴隶圈套、信息茧房圈套等。
大数据算法推荐使人们面临算法独裁的风险加大,剥夺自由选择的权利[1]。大数据只注意到人们表现出来的行为,如在新闻客户端上点击过某条新闻,平台会根据读者看过的新闻进行相关新闻资讯的推荐,即使读者已经不再关心该话题,平台依然会反复推送相关类似新闻,从而减少读者接触其他新闻资讯的机会,无形中人们便进入信息茧房这一困境。信息茧房现象不仅存在于新闻媒体,还广泛存在于书籍、文献阅读中,如图书馆通过运用数据挖掘分析并绘制读者画像以追求提供精准服务。图书馆所采集使用的分析数据包括馆藏流通数据、读者活动轨迹数据、交互数据等[2],这些数据虽然都是基于读者行为表现产生的,但是,事实上并不全面。图书馆获得的信息片面,读者接收到的信息重复,从而构成了双向信息茧房的恶性循环。
信息茧房将人们禁锢在与外界信息隔绝的舒适圈里,将自己的内心偏好、价值差异不断放大,造成群体认知差异越来越大,甚至会形成社会群体之间的巨大矛盾[3]。零数据作为逆向思维的全新概念,可以很好地弥补大数据下算法推荐的弊端,打破信息茧房。零数据关注人们行为表现之外的数据,对分析用户行为、图书馆营销和阅读推广有重要价值[4]。零数据常被忽略,却蕴含着最能反映事实的重要价值,是打破信息繭房的重要途径。
2 零数据与信息茧房的研究现状
2.1 零数据
2008年Hugo Larochelle等[5]提出零数据学习在解决训练数据并未完全覆盖的类集区分和宏大任务时具有很大作用。国内学者王彦力等[4]于2019年提出零数据在智慧图书馆中的应用,并将零数据界定为信息系统中应该产生而没有产生的数据、没有达到设计要求的数据以及信息系统中从未被使用的数据。虽然在这之前国内并没有零数据这一概念,但仍然有不少文献涉及到相关理论。如2006年毕艳娜[6]就提出了“零借阅率”这一现象,并探讨了这一现象出现的原因及解决方法,此后诸多学者也先后就“零借阅率”这一现象的成因进行了研究,还有学者针对具体实例利用对“零借阅率”分析研究馆藏流通策略。如马晓亭和陈臣[7]在大数据盛行的状况下,从读者角度出发提出“小数据”这一概念,定义为以人为中心,人的思想、行为、喜好等构成小数据应用于深度读者画像刻画中,将虽然存在但长期被忽视的重要数据带入大家的视野。本文作者也曾在研究阅读推广数据管理应用时提出边缘数据这一概念,边缘数据具有间接获取性、高价值性,但一直未引起重视[8]。不管是零借阅率还是小数据、边缘数据都对图书馆馆藏调整、阅读推广、科研服务等具有不可或缺的重要意义。
2.2 信息茧房
信息茧房最早是由西方学者桑坦斯在《信息乌托邦》一书中提出的,他指出“人们由于习惯性地将自己包裹在由兴趣引导的信息领域, 从而像生活在‘茧房中, 这样一种现象即称之为‘信息茧房”[8]。这里对信息茧房的定义中倾向于是人们主动形成,但在这个大数据时代,智能算法飞速向前发展的状态下,无论是什么行业都崇尚于为用户提供智能化推荐,长此以往用户就被动形成了信息孤岛,被困于信息茧房之中。
当前信息茧房研究主要围绕两个方面,一是聚合类新闻,以今日头条[9]、腾讯新闻[10]、网易新闻[11]等新闻客户端为例;二是社交媒体,以新浪微博[12]、抖音[13]等社交平台为典型案例。不管是在新闻传播还是在社交媒体,基于用户行为数据的算法推荐,将用户群体标签化,迎合用户个人或群体兴趣进行个性化推送,但个性化推送的背后真相是长期让用户处于同质化的信息中,将用户囚禁于信息茧房之中。但信息茧房现象不仅只出现在新闻业和社交媒体,在移动阅读方面也存在,微信阅读以用户主观兴趣为出发点,基于用户行为为用户推送阅读内容[14]。图书馆也在跟随大数据算法、精准个性化推送浪潮的过程中不知不觉中让读者陷于信息茧房之中。
3 零数据与信息茧房
3.1 信息茧房的成因
数字时代下,每一次信息查找、阅读和主观反馈都会留下数据痕迹。在大数据分析和云计算技术的发展下,计算机智能推荐应运而生,虽然一定程度给人们的阅读带来了便捷,但计算机信息处理的局限性会导致人们获取信息的范围习惯性受自己短时期内的兴趣引导,以至于获取信息不断收敛,就像蚕茧一般被困于“茧房”之中成为信息孤岛。
究其原因,主要有以下几个方面:(1)计算机用于分析用户行为的数据不够全面。主要集中在采集用户信息获取过程中行为数据的时间跨度不足,涉及信息的领域比较单一,主要以用户短时间内的兴趣为主,信息种类不够丰富,很难做到文字、图片、音频、视频等全媒体的推荐;(2)由于个人隐私保护,计算机对于用户自身特质属性的信息收集不够全面。如年龄、性别、居住他、职业、文化背景、社交圈等相关资料缺失,使得计算机无法做到对于具有相同属性用户的信息获取进行综合分析实现交叉推荐;(3)信息爆炸的当下用户本身获取信息的目标不清晰。面对呈指数倍激增的海量信息,用户往往容易迷失自我,对于信息的获取目的性越来越容易模糊,噪音信息的干扰更是加剧了这一趋势,导致人们的信息获取倾向跟随计算机推荐越走越窄;(4)计算机无法预测和满足人们对未知信息的求知欲望。人们自身的求知欲和猎奇心理会激发人对新信息的渴望。而计算机做出的智能推荐却始终是基于人们在之前信息获取所产生数据的基础之上,如果基础数据得不到补充和丰富,获取全新信息的可能性就会越来越小。
因此,现阶段基于计算机智能推荐的信息获取形式,一定程度上提高了人们的信息获取能力,但却也悄无声息的将人们一步步封闭进了由相同属性信息编织成的蚕茧之中。
3.2 零数据的成因
首先,信息系统的运行和原定计划通常是有出入的,如图书馆运行管理系统中的门禁和座位预约应用,实际情况却是门禁系统只记录了读者的到馆情况,而没有使用过该系统的读者数据,这种未达到系统设计要求从而使得本该产生的数据没有产生;其次,在进行数据挖掘时,一些被系统或人为清洗、淘汰的异常数据,这些异常数据通常偏差较大、数据量小。但存在异常的数据总会反映一定的问题,找寻异常数据背后的原因,可能会发现系统运行异常、数据采集异常或存在特殊用户群体,因此这部分数据也不可忽视,一样是构成零数据的重要组成;最后,存在却被忽视、零利用率的数据集合。以图书馆领域常见的二八定律为例,80%的文献流通量来自于20%的馆藏资源,剩余80%的馆藏未被利用,也就谈不上大数据利用分析,那么这部分馆藏资源所对应的馆藏总量、增减量、副本数等数据则为零数据。再以图书馆到馆情况为例,图书馆可以轻松对每日到馆人数、学院分布、性别比例等数据进行挖掘分析,而与之对应的那些没有到馆的读者群体也十分庞大,对这部分的读者情况进行收集整合,则构成相应零数据。
3.3 零数据的特征
零数据需要人为进行回溯或找回,其形成的规模并不大,但却分布分散,不易一次性导出,需要系统或人为找寻。相对大数据而言,零数据通常表现为数据量为零或数据量极小,以至类型单一,规模较小。但零数据蕴含的价值不亚于大数据,对检验信息系统的合理性、反映运行管理的效率、人物画像的全面刻画等都有重要价值。零数据并不会出现频繁变化,一旦产生并存在,将十分稳定。现阶段,零数据作为一种反向思维的产物,会被人们习惯性忽视,导致其利用率几乎为零。因此,零数据具备间接获取性、数据量小、类型单一、价值密度高、稳定性高和利用率低等特征。零数据对分析个人行为、企业管理、行业发展都有不可替代的重要意义。
综上所述,零数据是系统中忽视和没有达到设计要求,或存在但未被利用的数据集合,具有数据获取间接、类型单一、价值密度高、稳定性强的特征(具体属性见图1)。
3.4 零数据破除信息茧房的本质
大数据技术或许很“聪明”,为人们推荐他们“想要”关注的信息,但信息雪球越滚越大,将人们囚禁在“猜你喜欢”的信息茧房之中,日渐形成信息孤岛,难以接触吸收孤岛外的信息。而零数据正是打破信息茧房的关键途径,大数据根据人们大量历史行为数据智能关联推荐,而那些本应该产生却没有产生、产生了却被忽视的数据正是将信息孤岛与外界相通的桥梁。一方面,零数据的成因与特征使它正好与导致信息茧房所基于的数据存在本质区别,它可以作为现有计算机智能推荐过程中所运用基础数据的重要补充,在丰富基础数据样本的同时,突破不断收敛的计算机信息推荐范围,将全新的、未知的信息推薦给用户,拓展用户日常获取信息的范围;另一方面,在人们信息获取目标不清晰的前提下,零数据作为一种没有任何使用记录的数据,在满足人们对未知信息的求知欲望时具有独一无二的优势。所以针对用户没有任何使用记录的零数据当仁不让的会成为用户突破固有信息壁垒,获取全新信息,满足无限求知欲的最佳帮手。
4 运用零数据破除信息茧房的策略
4.1 零数据的获取
(1)系统忽视或未达到设计要求的零数据。针对系统忽视或未达到系统设计要求的零数据,应先从系统设计环节入手,增加零数据的采集端口,直接从系统中导出数据量为零或极少的数据,再与信息系统设计计划相对比,找出原本应该产生却被忽视没有产生的数据,以此生成数据集合。
(2)异常数据构成的零数据。针对异常数据所构成的零数据,则需要图书馆逆向找回在数据处理时被清洗或淘汰的数据。在对大数据挖掘分析的数据处理环节中每一步所删除淘汰的数据进行单独保存,从而获取这部分零数据。
(3)存在但未被利用的零数据。针对存在但利用率为零的数据,这部分零数据在系统中本身是存在的,但由于长期未被利用,因此分布较为分散也不易引起注意,需要图书馆制定计划重新统一调取管理。
4.2 零数据的定性运用
运用零数据来破除信息茧房,需要认清信息茧房的形成过程,读者在进行阅读、借阅、访问、下载等行为时,图书馆系统记录下读者的行为大数据,通过挖掘分析向读者推荐图书馆资源,读者在接受推荐后再次进行阅读等行为,图书馆又再次根据读者行为进行推荐,形成一个构成信息茧房的闭环。但除了读者表现出来的行为大数据之外还存在读者行为零数据,图书馆运行、管理过程中本该产生却未能产生、存在却从未利用过的零数据,运用这些零数据可有效打破信息茧房(具体运用思路见图2)。
对读者来说,零数据是相对的,如零阅读、零访问、零使用等,假如一篇文献,甲读者没有阅读过,乙读者阅读过,那这篇文献相对甲读者就是零数据,若甲、乙读者的学科背景相同或属性有所交叉相似之处,这篇文献对甲读者来说是有价值的。图书馆对相对零数据进行深入挖掘分析,补充以往大数据分析的工作内容,不再局限于读者行为表现下的大数据,从不同角度进行更为全面的阅读推广,丰富读者阅读领域,拓宽阅读推广所覆盖的读者面积,将读者从信息茧房中解救出来。
对图书馆来说,零数据是绝对的,如零借阅、零注册和零利用等,如图书馆所购买书籍的借阅次数为零;购买的数据库访问次数为零;开发的系统注册人数为零。图书馆不仅可以通过绝对零数据检验资源建设、系统设计的合理性,还可以根据绝对零数据主动营销图书馆资源,作为试探性推荐弥补智能推荐的局限性,提供给读者接触现有兴趣外信息资源的公平机会,从而打破信息茧房。
4.3 交叉领域下零数据的共享运用
在21世纪已经颁发过的19次诺贝尔化学奖中,除了2016年颁发给了纯化学领域外,基本都与生物学相关,而从诺贝尔化学奖的历史长河来看,诺贝尔化学奖不仅与生物学相关,还与物理学、医学等领域具有千丝万缕的联系。由此不难看出当今世界科学前沿的重大突破和重大原创性成果的产生大多是学科交叉融合的成果。利用文献情报方面的零数据可以很好地促进学科交叉融合,也可以更好地提高文献资源的利用价值。虽然当前重庆[15]、沈阳[16]、广西[17]等部分地方高校实行了低利用率文献联合存储机制,重点却在“藏”而不是“用”,但这为零数据共享创造了可行环境。2018年正式成立的“一带一路”图书馆联盟共有中国、阿尔巴尼亚、捷克、匈牙利等中东欧16国图书馆参与书目数据共享、文献交流互换等方面的多地资源和数据的协作共享[18],地区间、国际间图书馆联盟的建设也为零数据共享提供了联合获取的技术基础。各高校图书馆间零数据共享不仅可以丰富高校文献资源,更能够促进高校学科交流,从而促进学科的交叉融合。除了高校间的零数据共享,高校内学科零数据的交流共享同样重要,各学院各学科建设不应只局限于本学院学科的资源建设和推广,着眼于相对零数据将资源推荐给具有交叉学科背景的读者,破除读者专业壁垒,破除学科信息茧房,促进学科交叉融合。
4.4 零数据的创新推荐运用
打破信息茧房,需要关注茧房以外的信息,这些信息正是由大数据之外的数据也就是“零数据”所形成。图书馆无一例外是对读者大数据进行挖掘分析从而对读者进行资源推荐,这一做法针对的是有过借阅行为的读者和被借阅过的馆藏,而忽略了其余那些从未或很少借书的读者以及那些借阅量极低甚至为零的馆藏。
图书馆通过零借阅图书的分析发现零借阅图书的形成原因有很多,如图书专业性太强、版本过于老旧、宣传不到位和实用价值低等。图书馆不但可以根据这些绝对零数据调整馆藏结构和资源建设计划,还可以利用这一绝对零数据进行反向推荐,拓宽读者接收信息源,作为破除信息茧房的重要途径之一。瑞士报纸 Neue Zürcher Zeitung和谷歌浏览器就在大数据智能推荐之外,专门推荐读者兴趣之外的内容,以反向推荐戳破“过滤气泡”[19],图书馆可以借鉴以上做法,在每次智能推荐中加入10%的零借阅图书推荐作为补充,向读者推荐有价值、易接受的阅读内容,试探性挖掘读者阅读潜力,达到帮助读者打破信息茧房的目的。重庆大学微信图书馆中的“学术头条”功能(见图3)就会在近期热点信息推荐的同时,还会根据词频、借阅浏览等数据凝练“信息冷点”,将鲜为人关注的信息作为推荐,供读者阅读,以此丰富读者的信息获取量,激发读者的求知欲,破除同质化推荐造就的信息茧房。
重庆大学智慧图书馆门户“猜你喜欢”功能模块(见图3),会根据读者的借阅和浏览记录进行数据分析,将关联馆藏资源主动推荐给读者,实现“猜你喜欢”功能模块基础数据。此外,为破除信息茧房,在每次推荐的数据中系统还会按一定比例加入借阅和浏览為零的馆藏资源,作为尝试性推荐供读者参考使用。图书馆还会定期通过相对借阅与浏览量低和高的读者阅读情况的对比分析,将针对不同读者的相对零数据馆藏资源,结合读者性别、年龄、地域、教育背景、专业方向等身份属性数据向读者进行智能推荐,以拓宽读者阅读领域,从而打破信息茧房的高墙。
图书馆除了利用绝对零数据和相对零数据馆藏资源的挖掘分析进行多向推荐来帮助读者破除信息茧房之外,还可以对图书馆零数据的馆藏资源进行可视化分析统计进行展示,并直接推送给读者,让读者了解自己的阅读范围和阅读倾向是否趋于同质化,自己是否身处于信息茧房之中,只有引发读者的警觉性和培养读者的自主意识,才能在外界帮助下更好的打破信息茧房。
5 结语
2020年初面对突如其来的一场疫情,“宅”文化应势而行,在家中通过互联网阅读学习工作成为人们生活主题,各大新闻、短视频、文学阅读等APP针对用户短期浏览痕迹进行的后台分析和主动推荐一定程度为用户的使用带来了便捷,但随着时间的推移机械单一化的信息包围让读者被困其中。大数据技术下的算法推荐固然可以短时抓住人们的“胃口”,但与之形成的信息茧房不能视而不见,作为重要信息传播中心的图书馆更应该主动寻求方法破除信息茧房。零数据往往反映了大数据所看不见的问题,蕴藏着巨大的潜在价值,更是破除信息茧房的利器。只有灵活运用零数据,制定合理策略,才能有效破除信息茧房。
参考文献:
[1] 张森.大数据技术的社会风险及其对策[J].佛山科学技术学院学报(社会科学版),2019,37(5):75-80.
[2] 曹树金,刘慧云,王连喜.大数据驱动的图书馆精准服务研究[J].大学图书馆学报,2019,37(4):54-60.
[3] 申楠.算法时代的信息茧房与信息公平[J/OL].[2020-02-15].http://kns.cnki.net/kcms/detail/61.1329.c.20200213.0804.002.
html.
[4] 王彦力,杨新涯,冉蔚然.零数据理论及其应用模式研究[J].大学图书馆学报,2019,37(6):51-56.
[5] Larochelle H,Erhan D,Bengio Y.Zero-data Learning of New Tasks[C].Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence,AAAI 2008,Chicago,Illinois,USA,July 13-17,2008.DBLP,2008.
[6] 毕艳娜.小议零借阅率现象[J].图书馆工作与研究,2006(2):37-38.
[7] 马晓亭,陈臣.基于可信小数据的图书馆个性化服务研究[J].图书情报工作,2015,59(4):70-75.
[8] 许天才,冯婷婷,潘雨亭,等.高校图书馆阅读推广核心数据及边缘数据的管理与应用[J].大学图书馆学报,2020(1):78-85.
[9] 孙亮.信息时代下的“认知茧房”[J].思想政治工作研究,2010(4):52.
[10] 姚文康.聚合类新闻客户端的“信息茧房”效应及反思——以“今日头条”为例[J].传媒论坛,2020,3(3):151,153.
[11] 陳华珊,王呈伟.茧房效应与新闻消费行为模式——以腾讯新闻客户端用户评论数据为例[J].社会科学,2019(11):73-87.
[12] 孙琳.手机新闻客户端信息“私人定制”的利弊分析——以网易新闻客户端为例[J].现代视听,2014(2):70-72.
[13] 薛子凡.社交媒体个性化推荐机制下“信息茧房”效应研究——以新浪微博为例[J].中北大学学报(社会科学版),2019,35(4):94-96.
[14] 冯子亚.抖音APP的“信息茧房”效应研究[J].视听,2019(12):173-174.
[15] 黄铃,宣建婷.移动阅读的社交特色及改进策略——以“微信读书”为例[J].中国报业,2019(16):10-11.
[16] 彭亚飞.重庆地区高校图书馆低利用率文献共享策略研究——以联合存储的实践及改进为基点[J].图书情报导刊,2018,3(12):1-5.
[17] 王秀红,王丽雅,王丽娜.沈阳市低利用率文献合作存储体系研究[J].图书馆学刊,2019,41(4):62-66.
[18] 王凤翠.广西高校图书馆低利用率文献合作储存运行机制研究[J].图书馆界,2018(3):44-47,54.
[19] 吴绮云.“一带一路”图书馆联盟信息资源建设与服务提升研究[J].图书馆工作与研究,2019(12):17-21.
作者简介:许天才,男,重庆大学图书馆副研究馆员;冯婷婷,女,重庆大学经济与工商学院硕士研究生;杨新涯,男,重庆大学人文社会科学高等研究院、重庆大学图书馆研究馆员。
本文系国家社会科学基金项目“智慧图书馆的零数据模型及应用研究”(项目编号: 19BTQ011)与ISTIC-CLARIVATE ANALYTICS科学计量学联合实验室开放基金(项目编号: IC2019004)研究成果之一。
收稿日期:2020-04-21;责任编辑:柴若熔;通讯作者:许天才(xtc@cqu.edu.cn)