胡志伟 裴 雷
(1. 南京大学数据智能与交叉创新实验室,南京,210023; 2. 南京大学信息管理学院,南京,210023)
为更好地应对理论与实践问题日益复杂化的态势,并面向更加广阔的社会场景输送复合型人才,学科整合是当前科学与教育发展进程中的一大显著特征[1]。20世纪末期,随着信息社会的高速发展,传统图书情报院校在本应迎来机遇时却面临学科发展瓶颈与教育危机[2-3],而这也推动相关团体的进一步探索与规划。经过数年的前期准备,北美地区7所图书情报学院共同发起iSchools运动,并于2005年以联盟的组织形式确定下来。iSchools专注于探究信息、技术和人的关系,旨在跳出图书馆、档案馆等传统机构的既定框架,以更加广泛的信息领域(Information Field,iField)推动相关学科群的深层整合[4]。它拓展了图书情报学的发展路径,也构建了一个体量庞大的多学科社群。截至2021年底,已有13所中国大陆院校加盟,且均具有图书情报学背景,体现了国内对iSchools运动倡导的发展理念与价值的认同。
iSchools推动了图书情报学同其他学科之间的互动和融合,但成员背景多样化的形势、全盘拥抱技术范式的态势和过度追捧品牌化的趋势引发了诸多讨论[5-6]。为探究其发展特征,国内外学者从知识结构、组织形态与演进规律着手,跟踪观察了iSchools的师资结构[7]、科研成果[8]、专业项目[9]和课程体系[10]等要素。然而,已有研究一方面未深度探究iSchools的知识关联结构和集群分布格局,另一方面以偏性样本居多,样本容量较小。此外,从数据源的视角来看,基于学者研究兴趣的实证研究是相关研究中的重要组成部分[11],因为自述研究兴趣展现了学者对所属学科或社群的阅历认知和价值认同,而当前研究对这一数据源的挖掘程度仍有较大提升空间。鉴于此,本文拟通过深度分析iSchools的学者研究兴趣,建构iSchools整体的知识结构,并由此出发挖掘联盟内部不同社群的发展模式,以期为我国信息资源管理语境下的图书情报学科建设工作提供参考。
社群认同(community identity)理论认为,个体对某一社群的认同过程由类化、认同和比较三个阶段组成,即个体选择将自己编入某一社群,努力寻求该社群成员的普遍特征,并探索自身所认同的社群相较于其他社群的优势、地位和声誉[12]。在iSchools的情境下,一所机构若选择主动加入联盟,则可认为其认同联盟的核心理念,且在此基础上有针对性地发展专长领域;一名教师若长期受聘于某一机构,并探索学科问题域中的若干特定方向,则可认为其能够形成对学科和机构的客观认同。iField源于教师和院校的基本社群认同,因而这一知识领域并非漫无边际,可以凝聚成若干个围绕社群核心理念而生的稳定主题。当前,学界普遍就iF-ield是图书情报学的主动转向,相较于传统学科具有更高的立足层次[13]、跨学科水平[14]和技术介入程度[15]这一观点达成了共识,但由于图书情报学本就是图书馆学和情报学一体化发展而得的整合学科,所以当iSchools致力于“library-library &information-information”演变过程的后半阶段时[16],对图书馆要素的取舍态度引发了不少争议。部分学者证实了“去图书馆化”主张的积极意义[17],但这种态度更多地引起了学界的反对[6,18]。iSchools的核心理念是否得到了贯彻与落实,iField是否与图书情报学渐行渐远,仍需进行深入的实证探究。
知识结构指各类知识相互影响而形成的知识框架[19]。由于知识多以文献为载体,知识结构探测进而以文本聚类任务为基础,旨在基于一定规则将文本资料中的零散词汇聚集并划分为若干个可解释的主题[20]。iSchools调研成果中不乏针对学科主题的质性编码研究,例如,Wu等[21]从25所院校教师的履历信息中归纳出46个研究方向,史雅莉等[7]基于词频统计将研究兴趣划分为9个研究领域、48个研究方向。在成员规模扩大、知识多样性程度加深的背景下,iSchools内部的社群分化情况成为另一探究热点。早期研究多从院校名称或学科背景出发对院校进行直接归类[22-23],但其效度正日益减弱,因而后续研究多基于网络分析视角将整体划分为若干个子社群,如杨思洛等[8]从期刊论文跨学科知识产出与流动的角度出发,将36所iSchools院校划分为图书情报、计算机科学、数据科学等六类。
总体来看,相关研究在知识结构探测和社群发现方面取得了丰富成果,但一方面多着眼于碎片化的热点识别和趋势预测,较少深入探索知识主题关联和集群分布格局,另一方面其样本容量普遍较小,在联盟发展态势研判上的说服性较低。因此,本文拟对iSchools全体院校的学者研究兴趣文本开展主题识别,借助社群发现算法探测iSchools的知识结构和院校社群,为国内新时期的学科建设工作提供参考与借鉴。
截至2021年11月,iSchools官网共登记了123所成员院校。本文制定如下样本选取标准:①对于院校,逐一调研官网确定iSchools成员身份所对应的具体系别,以避免同一行政单位下其他院系噪声数据的影响。②对于学者,统一选取教学科研序列的专职教师为样本。综合考虑数据的可获取性,通过三类数据源收集数据,如表1所示。在开展具体工作时,根据优先级对学者的研究兴趣文本进行收集,当优先级高的数据缺失或质量较低时,依次用下一级数据进行补齐。③对于社交平台,依据验证邮箱或工作经历判断其可信度。数据收集时间为2021年11月29日至12月13日,最终数据集包括3311名学者的研究兴趣文本。
数据处理工作主要包括三个方面:①利用Google Translate和Small SEO Tools拼写转换工具[24],将文本统一为美式英文拼写;②在R语言环境中整合Smart英文停用词表[25]和自定义停用词表,去除无实际意义的词语;③基于Porter算法[26]对文本进行词干提取处理,如“organization”“organizes”“organizing”经词干提取过程后将统一表示为“organ”。
3.2.1 基于LDA模型的主题探测方法
式中,D代表文档中所有词的集合,M代表文档的总篇数,wi代表第i篇文档中的词语,P(wi)代表词语wi在第i篇文档中出现的概率,Ni代表第i篇文档中词语的数量。尽管模型效果与困惑度一般呈负相关,但综合考虑计算代价和模型效果,多将K值设定为困惑度不再明显下降时的主题个数。
本文拟基于“主题-词”概率分布中每个主题下显著度(saliency)较高的词语对该主题进行标识。词语w在主题T中的显著度的计算公式为:
式中,P(T|w)表示词语w由潜在主题T产生的条件概率。
此外,根据“文档-主题”概率分布结果可得到主题T在某一文档集合中的强度(strength),反映在文档中的总体比重,计算公式为:
式中,M为文档总篇数,θi为主题T在第i篇文档中的后验概率分布。
3.2.2 网络构建与社群发现方法
式中,ΘIi代表院校Ii的主题分布向量。依次计算两两之间的相似度后,根据院校相似性矩阵构建网络。为保证研究效度,同样仅保留权重较大的x2%的边。
最后,采用Louvain算法[29]展开网络结构探测。该算法是一种基于模块度增益计算的非监督算法,一般认为当模块度Mod满足0.3 本文在R语言环境中对语料库进行3折交叉验证实验,并计算困惑度在不同K值下的变化。如图1所示,当主题数量为25时,困惑度达到较低水平,且此后困惑度随K值增大的下降程度不明显,因此选取K=25。参照推荐值,将主题模型的三个主要参数设为α=2、β=0.04、K=25,文档迭代次数设定为2000。 图1 困惑度随主题个数的变化 依据相关指标对25个主题标识并整理后的结果如表2所示,其特征可归纳为:①“信息-技术-人”核心理念得以充分践行,尽管联盟涉猎广泛,但每一主题均聚焦于单一要素或多要素紧密关联的融合领域;②联盟从不同角度对信息生命周期给予了重要关注,既有专注于具体环节的内容,也有针对不同介质和场景的信息管理研究;③联盟注重信息科学与其他学科的融合,在图书情报学之外明显涉足医学、社会学、经济学、传播学等多个学科;④联盟知识分布呈现技术与人文关怀并举的格局,但“技术”型主题在数量和强度上明显占优。 表2 iSchools联盟知识主题标识、强度与高显著度词语 基于主题在文档中的共现关系所得的知识主题网络如图2所示(x1=20,Mod=0.32)。图中,节点代表主题,大小代表强度,内部标签为主题编号,虚线框代表主题类(TC1-TC4),边代表两个主题之间存在着显著的共现关系。综合考察主题类的内部构成,可以发现: 图2 iSchools联盟知识结构及其探测结果 (1)TC1是iSchools的跨学科前沿阵地,如“健康与医学信息学”(T2)是信息科学方法论引入医学的产物。尽管这些跨学科主题可能在内容上交集较少,但探测结果证实了它们之间具有显著的关联。此外,TC1社群的强度显著较高,拥有强度前7位中的6个主题,可见在iSchools联盟践行核心理念的前提下,多门传统学科的交叉领域已然成为其研究主阵地。 (2)TC2代表着图书情报学的传统研究主题,紧密围绕信息链和信息资源生命周期展开。在iField框架之下,图书情报学的传统知识领域有了进一步的补充与拓展,且仍聚合在同一主题类中。这一集聚现象并不意味着图书情报学的固步自封,如位于社群边缘的“信息行为与素养”(T9)、“信息计量与评价”(T21)和“数字信息管理”(T22)等主题仍和外部主题有着深度互动。 (3)TC3具有深厚的信息技术特色,同计算机院校陆续加盟、信息技术领域学者数量增加的实际情况密不可分。TC3与其他研究领域之间存在相当程度的联系,且不同方向的信息技术常被应用至不同类型的研究场景中,如“信息计量与评价”(T21)研究常使用关于“数据挖掘、分析与可视化”(T14)的方法与技术。 (4)TC4为典型的人文信息学研究方向主题类。主题类内部仅有“公共文化与文化遗产”(T10)与外部主题有较强联系,涉及的主题包括“信息存取与共享”(T3)、“社交媒体与社会议题”(T4)、“图书馆与信息服务”(T5)以及“数字信息管理”(T22),这可能受相关学者规模较小的影响。TC4主题类对图书、档案等传统文献给予了重要关注,并致力于以此提升人类的文化素养,推动人类文化的发展。 综合观察四类知识主题的内涵及其在整体网络中所处的位置,一方面,“信息-技术-人”框架下的研究主题是当前联盟所关注的主体内容。图书情报学的传统研究主题是三个要素交叉领域中的重要组成部分,集聚为TC2主题类;经济学、传播学和教育学等其他学科,或图书情报学深度参与、但需多学科整合的领域,集聚为TC1主题类。另一方面,信息技术和人文学科分居两侧,分别构成了“信息-技术”二元主题类(即TC3)和“信息-人”二元主题类(即TC4)。总体而言,iSchools的知识结构呈现了显著的跨学科特征,而图书情报学因自身研究域与iField三元模型的契合,不仅在其中扮演了主体角色,也发挥了联结其他知识模块的重要桥梁作用。 基于“院校-主题”分布所得的院校相似性网络如图3所示(x2=10,Mod=0.43)。图中,节点代表院校,标签为院校名称,节点及其标签的大小代表样本学者数量,虚线框代表院校所属社群(IC1-IC4),9所离群点院校未展示。为对各个社群进行识别与归纳,本文从知识主题和地区两个视角分析社群内部成员的分布情况。 图3 iSchools院校相似性网络社群发现 在知识主题分布方面,4个社群的分布情况如图4所示。IC1和TC3、IC2和TC2为高度对应组,前者的技术色彩较重,后者更具图书情报学传统。IC3和IC4的高强度主题集中分布于TC1主题类中,其区别主要体现在两个层面:①融合学科不同,IC3注重同医学、经济学、教育学等学科的整合,而IC4更多对社会学、传播学、艺术学等学科持有浓厚兴趣;②对信息技术的关注度不同,IC3比IC4更加关注TC3的技术型研究主题。 图4 iSchools院校社群的知识主题分布 在地区分布方面,4个社群的分布情况如图5所示(地区分类来源于iSchools官网)。除IC1中的院校外,社群和地区之间存在着不同的对应关系:①19所亚太院校属于IC2社群,占25所亚太院校的76%;②北美和欧洲院校呈现相当程度的偏态分布,均有近60%的院校分别位于IC3和IC4社群中。鉴于图书情报院校是iSchools的构成主体,且技术色彩浓厚的计算机院校集中分布于IC1社群内,因而可以初步确认不同地域的学科特色是造成社群分化现象的重要原因。 图5 iSchools院校社群的地区分布 综合上述分析,本文对iSchools联盟的社群发现结果做出如下推论: (1)IC1社群为信息技术(Information Technology,IT)模式,社群成员以计算机院校为主,同时包含少许技术背景较为深厚的图书情报院校。社群成员对信息技术具有较高的采纳态度,TC3类主题强度显著较高。社群成员间没有明显的地域差异,这说明无论位于哪一地区,选择加盟的计算机院校对信息技术的关注范围和程度有着高度的一致性。 (2)IC2社群为图书情报与档案管理(Library,Information and Archives Management,LIAM)模式,亚太院校构成了社群主体。社群成员深深扎根于图书情报学的传统阵地中, TC2类主题强度显著较高,对“档案、图书与出版”主题也具有较高关注度。 在以中国为首的亚太地区,档案学、出版学等学科一般仍以单独学术单位的形式存在,而这也确保了院校内部有足够多的学者从事相关研究。 (3)IC3社群为多学科信息研究(Multidisciplinary Information Studies,MIS)模式,以北美地区最为典型。知识主题分布情况相对均衡的态势表明,社群在致力于建构广义信息研究域的同时,并未放弃图书情报学的传统研究。社群成员对“健康与医学信息学”“技术经济与组织发展”“教育学与心理学”等主题的关注程度较高,即倾向于选择医学、经济学和教育学等学科进行整合。 (4)IC4社群为人文型信息研究(Humanities Information Studies,HIS)模式,以欧洲地区最为典型。社群成员对人文学科持有相对较高的关注度,着重强调“公共文化与文化遗产”“信息传播、政策、法律与伦理”“艺术与多媒体设计”等主题,向信息科学中注入了哲学、博物馆学、美术学等具有明显人文特色的学科。事实上,欧洲许多iSchools院校隶属于人文学院,深厚的学科基础和独特的机构形式合力提升了人文学科在社群研究中的参与度。 研究发现,当前iSchools的知识主题在“信息-技术-人”核心要素的组建方面存在差异:①TC1和TC2是三要素的交汇前沿,分别代表多学科综合发挥作用的领域以及图书情报学的传统研究主题;②TC3主要关注信息和技术两个要素;③TC4更多体现为信息和人两个要素的参与。不同院校对知识主题采纳度的差异体现了其对要素间关系的不同理解,如计算机院校作为IC1社群的主体,更多倾向于以技术为核心要素,而其余社群更多在综合调用三个要素的平衡作用。这一现象说明,“信息-技术-人”框架作为iSchools的初步社群认同是可行的,与图书情报学的发展脉络高度契合,可以进一步深化图书情报学的“文献传统”和“计算传统”[31],但其要素作用机制仍需进一步探索。近年来,国内提出以新文科建设推动多学科的交叉融合以及多机构的协同共享,国内院校可根据自身实际情况,在iField框架下同相关学科充分深入整合,构建外延可解释性高但内核明确的多元学科体系,加强交叉研究促进机制的建设工作。 “去图书馆化”问题是iSchools运动中的讨论焦点。研究发现iSchools内部仍有许多致力于图书馆学研究的学者,集中体现为“图书馆与信息服务”主题,其强度位居第5位,但考虑到图书情报院校本就是iSchools的最大成员来源,主题发现结果的确未达预期。与已有研究[7]相比,图书馆事业方向的比重显著降低,而致力于数据科学、计算机应用方向的学者数量明显增加,“去图书馆化”倾向在学者研究兴趣方面得到明显体现。然而,在知识网络中,“图书馆与信息服务”主题和“政企信息资源管理”“信息查找、搜索与检索”“数字信息管理”等主题之间的联系均较为紧密,鉴于本文的知识结构是基于共现关系而得的,可以认为,图书馆要素被融解并吸收进了信息资源管理生命周期中,和政府、企业等信息泛在环境一同成为信息研究的重要行业或场所。在这一过程中,图书情报学的许多研究已跨出了图书馆的场景范围,促成了相关学者随iField的理想架构路线上溯或转移的情况。为避免这一现象最终恶化为学科根基的分崩离析,国内院校亟需明确学科内核、塑造一级学科认同,同时保持自信和开放的心态,同其他学科一起就广义信息研究域中的问题展开交流与合作,以逻辑自洽拓展学科生存空间。 学科建设工作具有目标明确、体系清晰的战略意义。社群分析结果显示,全球范围内的图书情报学科具有鲜明的地区特色:①LIAM模式基本对应亚太院校,其中尤以国内院校居多,致力于同档案学、出版学等学科实现有机融合;②MIS和HIS社群分别以北美模式和欧洲模式为典型,前者更多持有医学、经济学和教育学的整合视野,后者扎根于深厚的人文学科基础开展信息研究。图书情报学的地区分化现象和信息技术型院校集聚的现象形成了鲜明对比,不仅体现了各院校因地制宜的“本地逻辑”,也在一定程度上表明了不同地区的学科主体对内核和外延界定的差异。对于国内相关院校而言,既可以参考欧洲模式加强数字人文方向的教育与研究,通过人文学科与计算技术的整合促进信息研究的发展,又可以参考北美模式探索全方位、多样化的学科整合进路,推进数据科学、健康信息学等交叉领域的同步建设。在以国外学科建设经验为蓝本的同时,国内院校也应结合自身实际情况发展学科特色,实现对“政企信息资源管理”“信息行为与素养”“信息与知识组织”等代表性主题的巩固与加强。 蕴含社群认同的知识体系是学术社群内部得以紧密联系的关键根基,而一个在坚守学科内核前提下更加开放而多样的环境更是学科健康稳定发展的重要补剂。本文基于学者研究兴趣文本,通过主题模型和社群发现算法将iSchools的截面知识结构划分为4大类、25小类,并识别分析了4种iSchools院校发展的典型模式。研究发现,iSchools的知识结构紧密围绕“信息-技术-人”核心理念而展开,图书情报学在其中扮演了重要角色,既深度参与了许多跨学科问题的讨论,又发挥了联结信息技术和人文学科两大知识模块的重要作用。联盟整体的“去图书馆化”倾向客观存在,而内部的集群分布现象实质上反映了不同地区图书情报学科建设的特色。对于正值信息资源管理转型期的国内院校而言,应回归学科初心,在学习国际先进经验的基础上构建具有中国特色的学科知识体系,切忌与图书馆、档案馆等直接相关业界机构解绑,完全脱离图书情报学的传统土壤。同时,应主动融入学科开放、合作与竞争的时代洪流中,以理念创新推动角色转变,以交叉整合探索学科蓝海。 本文从社群认同视角出发,探究了当前时间窗口下iSchools的知识结构和集群分布情况,具有一定的理论和实践价值,但仍存在不足之处,如研究兴趣文本的数据质量难以控制,而静态数据也限制了知识结构的历时性分析。后续研究可进一步丰富并改善研究数据,并继续以全球和纵贯视野探索学科和机构的动态演化路径。4 研究发现
4.1 iSchools知识主题识别
4.2 iSchools知识结构探测
4.3 iSchools院校社群发现
5 讨论
5.1 iSchools的社群认同与“去图书馆化”倾向
5.2 图书情报学科建设的地区特色
6 结语