司莉 陈辰 王雨娃 舒婵
摘 要:文章分别以50所国外iSchools联盟机构和18所国内机构的图书情报与档案管理学科研究者在2014-2018年发表的论文为研究对象,利用词频分析、中心度分析和聚类分析对研究热点进行挖掘和比较。研究发现,国外学者的研究热点主题主要集中在信息交流与行为、信息检索、弱势群体信息服务、信息教育、疾病防控和干预、医疗护理与卫生保健信息服务研究等6个方面;国内学者主要集中在大数据环境下的图书馆相关问题、基于知识图谱的文献计量分析、知识组织与传播、图书馆学和情报学学科发展动态、用户信息交流与行为、信息服务及质量评价和新媒体环境下的学术评价研究等7个方面。
关键词:图书情报与档案管理学科;研究热点比较;iSchools;共现分析;聚类分析;Gephi
Abstract The paper collected papers published in 2014-2018 form 50 iSchools alliance institutions and 18 domestic institutions, and used word frequency analysis, centrality analysis and clustering analysis to analyze and explore the research hotspots. The results indicate that, foreign concentrated in information communication and behavior, information retrieval, special group information service, information education, disease prevention and intervention, medical and health care; domestic concentrated in big data related issues, literature measurement analysis based on knowledge graph, knowledge organization and communication, library and information sciences' development trend, user information communication and behavior, information service and quality evaluation, academic evaluation in the new media environment. The paper also compared the similarities and differences between domestic and foreign research hotspots.
Key words library information and archives management science; research hotspots comparison; iSchools; co-occurrence analysis; cluster analysis; Gephi
在“雙一流”学科建设背景下,对国内外图书情报与档案管理学科领域的研究热点进行对比分析,对于推进我国图书情报与档案管理学科建设与科学研究具有重要的参考价值。从现有的研究成果上看,研究者主要从学术论文、科研项目、会议主题及教师研究领域等角度,通过数据库检索和网络调研方法获取数据样本,基于相关统计工具及可视化软件,从词频统计、共现分析、主题聚类及关联规则等方面进行主题挖掘和总结。本文在借鉴已有研究的基础上以近5年同时段国内外图书情报与档案管理学科领域的研究者发表的论文为样本对研究主题进行挖掘与对比研究。
1 研究设计
1.1 数据样本
目前iSchools联盟有87个正式成员,笔者结合iSchools成员的语种和学科发展水平等因素进行样本筛选,最后确定选取50所机构的研究者作为国外数据采集样本。国内数据样本选取主要来自两方面,一是《中国研究生教育及学科专业评价报告(2018-2019)》中图书情报与档案管理一级学科排行榜中前10位学院[1],二是“全国图书情报硕士专业学位研究生教育指导委员会”公布的50所机构中的“独立建制”的学院[2],最后选择18所机构作为国内数据采集样本。
国外数据来源于Web of Science(WOS),国内数据限定在中文社会科学引文索引(CSSCI),时间范围均限定为2014-2018(调查截至时间为2019年9月),检索字段为“作者”+“作者机构”,并结合作者唯一标识符、机构名称索引等规范控制方式进行作者名称消歧,保证检索的准确性,最后获取论文的关键词。
从最终获取的论文成果数量上看,国外获取50所机构1673位研究者的7219篇论文,国内获得18所机构的383位研究者的3164篇论文。
1.2 方法与工具
本文采用内容分析方法,基于关键词进行词频统计和共现分析,结合高频词、中介中心性以及聚类分析进行研究热点的挖掘。词频统计是通过关键词的出现频次高低对研究主题进行发现和预测,出现频次越高说明受关注程度较高;共现分析通过统计两两关键词的共现频次,并基于特定算法进行中心性度量与聚类分析,从反映关键词间结构与关系的角度进行主题关联度的测量,从而发现联系较为密切的研究主题。
研究步骤是首先将下载的研究者论文数据进行前期处理,之后利用Bicomb工具进行词频统计及共现矩阵制作,最后将共现矩阵导入Gephi软件中进行中心性分析及主题聚类,在此基础上对国内外的研究热点进行分析。
2 国内外研究主题分析
2.1 国外研究主题分析
2.1.1 高频词的统计
利用Bicomb工具对关键词频次进行统计,将前101位(频次≥43)作为高频关键词(见表1)。
2.1.2 中介中心性分析
中心性是社會网络分析的重点内容之一,是判定网络中节点重要性的指标,包括度中心性、中介中心性和接近中心性等。其中,中介中心性是指某一节点出现在网络中任意两个节点最短路径上,具有控制其他节点间联系的能力,又叫关联集中度[3]。关键词中介中心性可以测量某个关键词影响其它关键词共同出现在一篇期刊论文中的能力,具有较高值的关键词与其他关键词的关联性较强,可认为是较为核心的研究主题(国外中介中心性较强的关键词见表2)。
2.1.3 聚类分析
聚类分析是社会网络分析中的主要功能之一, Gephi中的聚类主要通过“分割”(Partition)模块进行,聚类结果通过颜色标识,同一颜色表示一类[4]。节点大小表示中介中心性,节点越大,表示值越高,则该关键词对关键词间的关联有更强的控制力和影响力,根据节点大小可寻找关键节点(国外研究主题的聚类结果见图1)。
2.1.4 国外热点研究主题分析
基于上述高频词统计、中介中心性分析以及聚类图谱进行国外研究主题的归纳总结,具体热点研究领域有6个方面:
(1)信息交流和信息行为研究。信息交流和信息行为研究是指发现和解释用户在信息获取、使用和再利用过程中所涉及的认知和行为等。从图谱中可以看出,网络社交媒体用户的信息交流及行为是当前较为集中的研究主题,其中Twitter是较受关注的社交媒体平台。研究用户如何利用互联网和社交媒体进行科学交流和知识传播是较受关注的热点话题。此外,如何利用信息技术方法预测和构建用户行为模型和系统,以及由此产生的用户隐私、安全和信任问题也是此领域的重要研究内容。
(2)信息检索相关问题研究。信息检索是该领域较为核心的研究主题,当前主要着眼于开发新技术来提升搜索效果,强化用户体验和人机交互。从图谱可以看出,从特定模型算法的开发到整个原型系统的设计处于较为核心的地位,特别侧重于web规模的系统设计和评估。检索系统研究侧重于社交媒体场景和领域用户,有关检索质量评估和用户检索体验方面的研究较受关注。
(3)特殊(弱势)群体的信息服务研究。特殊群体信息服务研究是指利用图书馆及信息学方法和知识,服务于特殊群体用户的研究。目前,iSchool研究主要集中在儿童、学生、老年人和抑郁症患者等特殊群体,为保障这些群体的信息素养和健康素养权利,研究者通过大数据、分类技术和随机对照实验等专业方法,利用社交网络数据(主要为facebook)、学习行为以及临床数据等,识别和评估该群体在学习和健康等方面面临的障碍,并开发相关模型及方法进行干预和支持,力求降低和消除各种障碍。
(4)信息教育相关问题研究。在新技术环境下,iSchool教育面临诸多困难和挑战。从图谱中可以看出,教育研究处于核心的位置,通过机器学习以及可视化等技术方法,探索相关教育学习行为和习惯的动力学机制和模型,预测和发现学生的学习接受和采用行为,从而进行有针对性的教育技能和技巧的改进,促进教育和教学方法的创新。
(5)疾病防控和干预研究。国外iShools对生命健康领域的研究较为深入,尤其能够针对某类型的疾病进行系统深入防控和干预研究。其中,有关癌症疾病是研究的焦点问题,研究者运用临床数据和相关算法构建癌症生存预测模型,为进一步改善癌症患者的生命质量,降低危害健康的风险提供相关依据。此外,有关癌症病人的生活态度、质量评估和心理干预的研究也较为深入。再有,国外对于妇女特殊群体也给予特别的研究关切。
(6)医疗护理和卫生保健信息服务研究。近些年,图书馆等领域利用数字技术和信息管理方法参与医疗卫生保健服务相关问题研究较受关注。其中美国的iSchools学院对此领域尤为受关注,处于图谱中较为核心的地位,说明美国在此领域具有较强的影响力。研究领域涉及利用用户的社区网络数据对抑郁症、乳腺癌等疾病的症状群及其影响因素进行相关分析,以优化健康管理和医疗信息服务。
2.2 国内研究主题分析
国内研究主题分析过程与国外主题分析相同,分别从高频词统计、中介中心性及聚类分析三个方面进行。
2.2.1 高频词统计
国内图书情报与档案管理学科领域的论文高频词,选择前108位(频次≥13)的词语作为分析样本(具体统计情况见表3)。
2.2.2 中介中心性分析
国内关于图书情报与档案管理学科的关键词中介中心性值,选取排名前24位(见表4)。
2.2.3 关键词聚类分析
对国内图书情报与档案管理学科领域的研究绘制聚类图谱(见图2)。
2.2.4 国内热点研究主题分析
(1)大数据环境下的图书馆相关问题研究。大数据时代的到来,为图书情报学科的发展和研究提出了许多新课题。“大数据”词频排名第一,且中心性也较高,是吸引学者眼球的热门话题。其中,图书馆、高校图书馆与大数据的共现频次较高,且处于图谱聚类的核心位置,研究主要集中在图书馆的大数据应用方面。随着数据密集型科研环境的形成,数据科学的出现对图书馆等信息科学产生了重要影响,并成为国内学者关注的热点。此外,利用共词分析和可视化等方法对大数据研究领域的研究热点和发展趋势等进行探测,为相关人员了解该领域的研究发展动态提供参考。人工智能是继大数据、云计算、物联网等后兴起的新技术浪潮,为图书馆的发展提供新的动力和机遇,也是吸引研究人员关注的话题。
(2)基于知识图谱的文献计量分析研究。研究者利用文献计量学方法,结合知识图谱、可视化和社会网络分析等方法对相关领域的研究热点进行挖掘。从图2中可以看出,“知识图谱”节点最大,共现频次较高,研究者主要通过CiteSpace等可视化软件对公共文化服务、知识管理等领域的研究热点进行分析和发现。此外,社会网络分析方法也受到较高关注,其中Gephi和UCINET等社会网络分析工具应用较多。
(3)知识组织与传播相关研究。无论从词频还是中心性上看,本體和关联数据等知识组织方法都处于突出的地位。关联数据作为语义网的初步实现形式,自提出以来一直受到图书情报领域的关注。目前开放数据在世界范围内引起广泛的重视,有关开放数据的组织和传播是研究者关注的热点问题,其中开放政府数据是数据开放运动驱动下的一类数据,有关开放政府数据的语义化组织和发布是研究的热点。纷繁复杂的网络舆情给政府治理带来挑战,学者从知识服务的角度探讨网络舆情的信息组织是近几年国内学术界出现的新热点。
(4)图书馆学和情报学学科发展动态研究。对图书馆学和情报学学科发展的特征和规律进行研究,有助于研究人员更好的把握学科发展态势,有关学科未来发展动态的研究成为该领域关注的焦点。其中数字图书馆与图书馆学和情报学联系都较为紧密,无论是词频还是中介中心性值都较高,是学科发展关注的热点问题。随着图情学科向相关领域的不断融合、渗透、扩展,出现了许多新的研究发展课题,如科研数据、公共图书馆法、社会化媒体、智慧图书馆、学术评价和知识发现等主题。
(5)用户信息需求和行为研究。信息需求研究是信息行为研究的起点,研究人员对用户数字资源建设与数据共享的需求进行相关研究。近些年,有关移动图书馆环境下用户行为研究较受关注,包括用户转移、接受和采纳行为的特征和模型等。信息生态理论作为信息生态学的重要分支,在信息交流和行为研究领域也得以应用,包括从用户需求出发分析不同场景的信息生态链,据此对用户信息交互行为进行研究。
(6)信息服务及质量评价研究。从图谱可以看出,以高校为主开展的阅读推广服务在图谱中处于突出的位置,是近些年信息服务领域较受关注的核心主题。满足用户需求是图书馆信息服务的起点,因此有关如何提高用户满意度和信息服务质量,从而进行各类形式的服务创新是研究者关注的热点问题。此外,研究者利用各种数据挖掘技术,对用户数据进行情感分析,是新技术环境下了解用户信息需求和行为的有效方式。学术期刊是学术信息传播与服务的重要载体,有关期刊评价及其评价指标的研究对于提高期刊学术服务质量具有重要推动作用。数字出版是在网络环境下为用户提供信息和知识服务的重要途径,尤其是随着新技术环境的形成,学术期刊结合新的出版形式开始探索新的服务功能。
(7)新媒体环境下的学术评价研究。学术评价是运用相关理论和方法对学术影响力进行评估的一项重要工作,国内图情领域主要运用文献计量学方法对该领域进行应用研究,相关研究内容主要集中在科研团队的创新能力评价、基于引文分析视角的学术影响力评价等方面。鉴于传统的基于引文分析方法在时间上的滞后性问题,研究者开始关注新媒体在线数据的替代计量学方法在学术评价中的应用研究,并取得一系列研究成果。学术期刊影响力及评价研究也是此领域较受关注的研究主题。
(8)图书馆信息和知识服务研究。“文献计量学”是图谱中较为核心的研究主题,近年来研究者通过文献计量学方法对图书馆服务领域的研究动态和趋势进行梳理。在未来图书馆发展中,传统的信息服务趋向于知识服务是重要转型方向。从图谱中可以看出,社交媒体工具在图书馆服务实践和探索研究中处于突出的位置。政府数据和科研数据是近些年社会关注的热点话题,研究者从图书情报机构视角探讨政府和科研数据的开放、应用和共享服务。图书馆在教学上可发挥支撑作用,参与MOOC课程资源建设和开展MOOC服务的探索也受到研究者的密切关注。
3 国内外研究主题对比分析
3.1 国内外趋同的研究主题
国内外图书情报与档案管理学科虽然面临整合与分化,且学科名称也存在差异,但是因为与信息学科的天然联系及共同面临的学科发展难题,使得它们在对“信息、技术和人”三者及其之间关系为研究核心的共同点没有变。在有关“信息”研究主题方面,国内外对信息组织、信息检索、信息交流和行为等方面都较为关注,在“技术方面”,对于大数据问题相关研究、可视化技术以及各类算法模型等问题都有涉及。在以“人”为中心的问题上,国内外均重视对用户信息行为、用户满意度等相关问题研究。
国内外在相同研究领域内的研究角度有所不同,呈现“大方向趋同,小方向存异”的特点。在社交媒体和社会网络的研究,国内主要关注微信和微博等新媒体及其在图书馆服务中的研究探索,国外关注的是Twitter和Facebook等以社交媒体用户交流行为等方面的研究。在可视化研究领域,国外偏重对可视化分析算法及在教育和健康医疗等方面的应用,而国内偏重利用可视化软件对图情领域的研究主题进行知识图谱分析。
3.2 国内外不同研究主题
除了上述研究角度的微观差异,国内外图书情报与档案管理研究主题还呈现出各自不同的特点。
(1)国内注重“图书馆”相关问题的研究,词频排名前10的关键词与图书馆有关的有5个,分别为“图书馆”“高校图书馆”“公共图书馆”“数字图书馆”和“图书馆学”,此外还有“移动图书馆”和“图书馆服务”等比较靠后的高频词,说明国内图书馆学研究占据主导地位,并且多与图书馆相关工作和业务相关。国外则淡化图书馆的相关研究,从词频上看,“library”仅出现在排名靠后的第66位,未出现与“图书馆”相关的聚类主题。
(2)国外对“健康信息学”研究的关注度高于国内,从国外高频词及主题聚类结果中可以看出,有关疾病、癌症、乳腺癌、老年痴呆、痴呆和抑郁症等研究主题较多,并且相关研究不断深入。而国内对此领域的研究尚未形成集中的热点,未出现反映研究热点的高频词。此外,国外图情领域对“人”的研究,突破传统图书馆用户范围,从社会环境层面考虑对弱势群体的关注,如儿童、妇女、老年人以及具有听力视觉障碍等人员在信息交流和获取上的困难。而我国研究关注的焦点多为图书馆用户,在弱势群体的关注上尚未形成明显的热点。
(3)国内外使用的研究方法有所不同,国外研究方法呈现多元化趋势,而国内文献计量方法的应用较为集中。国外有关研究方法的高频词多于国内,如元分析方法(Meta Analysis)、随机对照实验(Randomized Controlled-trial)、可视化、分类、动力学和决策支持等。可以看出,国外既重视传统技术在图情领域的应用,也注意吸收数学、统计学、元分析以及交叉学科中特有方法。此外,医学领域的随机对照实验法,出现频次也较多,它多用于对医疗卫生服务中的某种疗法或药物的效果进行检测和评估。
国内突出对文献计量学或信息计量学相关理论与方法的应用,如引文分析、社会网络分析、共词分析、可视化、内容分析法、知识图谱、聚类分析等。此外,“实证研究”和案例研究方法的使用也逐渐增多,说明国内开始注重理论与应用实践相结合的研究。
4 结语
通过对国内外研究主题的异同分析,对于推进我国图书情报与档案管理学科建设与科学研究具有重要的参考价值。2014-2018年国内外图书情报与档案管理学科领域的研究以信息、技术和人为核心的研究宗旨和趋势未改变,但研究主题不断调整和深化,表现出各自不同的研究特色和趋势。本文虽然通过参考唯一标识符、作者机构规范以及学科领域等信息进行人名消岐,但由于语种的限制,在论文数据获取的全面性方面仍有一定欠缺,且对于聚类图谱的分析也还存在一定的主观性,但这些因素对于本文的对比分析结果影响有限。