国内信息行为研究的热点主题分析

2017-03-21 08:45,,
中华医学图书情报杂志 2017年8期
关键词:聚类文献图书馆

,,

信息作为重要的资源,其所具有的价值性、依附性、时效性和分享性对人类有着特别重要的意义。为了能够最大限度满足广大用户对信息的需求,并有效地改善信息系统部门对信息的宏观调控,实现信息的价值,对用户信息行为进行深入研究,清晰地了解用户信息行为的模式、特点,为用户提供针对性的信息服务,显得尤为重要,信息行为通常是指用户对特定信息的获取、查询、交流、加工及利用等一系列的表现行为。近些年来,从国内关于信息行为研究的具有参考价值的论文成果中可以发现,对信息行为的研究辐射到不同学科。主要研究的学科包括以下几类。在教育学科中,学者重点关注对不同人群在网络环境下的信息需求、检索、查询利用及个性化服务,尤其是高校教师[1]和大学生群体[2];在图书情报学[3-4]学科中对信息行为的主题研究侧重于为了满足图书馆用户对信息需求的一系列行为,包括信息浏览、咨询、服务等。

本文以2006-2016年中国知网、万方及维普数据库中对信息行为相关研究的中文期刊文献中1 266条有效题录为对象,用文献调研和共词聚类分析相结合的方法对主题进行分析,探测信息行为领域的研究热点,更好地了解近些年国内信息行为研究的热点主题。

1 数据来源与研究方法

1.1 数据来源

以中国知网CNKI学术网络出版社总库、万方数据知识服务平台、维普中文科技期刊数据库为数据源,检索2006-2016年间与信息行为相关中文期刊文献。在知网和万方数据库中使用检索式“between(2006-01-01,2016-12-31)and 主题=信息行为 and (精确匹配)”,检索相关文献量分别为3 501篇和1 424篇;在维普中文科技期刊数据库按检索式“题目或关键词=信息行为 并且 年份=2006-2016”检出相关文献量2 802篇。将来自以上3个数据库来源的相关7 727条期刊文献题录(含重复记录)导入文献检索与管理系统软件Note Express中,利用“查找重复题录”功能去重并通过人工判读,删除不相关文献。最终得到信息行为相关的研究文献题录1 266条。

1.2 研究方法

主要运用了共词聚类分析和文献调研法,并将分析结果可视化。

1.2.1 共词聚类分析

即采用聚类的计算方法将文章中共现的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,从而达到挖掘隐含信息的目的[5]。本文借助统计软件SPSS 22.0对信息行为相关文献中高频关键词进行聚类。通过聚类分析图,揭示2006-2016年来信息行为的研究热点。

1.2.2 文献调研法

借助网络资源,以“信息行为”为关键词,通过大量研究学习国内信息行为有关文献,利用文献综述对信息行为的研究热点主题逐一深刻解析。

2 数据处理

借助书目共现分析系统 Bicomb 2.0 对1 266条信息行为相关文献题录进行数据清洗、统计和共现矩阵的构建。

2.1 数据清洗

将1266条记录从Note Express中以文本格式导出,然后导入Bicomb 2.0进行数据清洗,主要包括同义词合并、统一大小写、删除无效数字和字符等操作,以确保数据的有效性和准确性。

2.2 数据统计

即对文献中字段数据进行统计。主要操作步骤: 在Bicomb 2.0中对所有字段数据进行统计汇总后,将统计数据全部或部分导出到Microsoft Excel 格式的文件中,方便以下的共词聚类分析。

2.3 矩阵构建

借助于Bicomb 2.0 构建矩阵,根据关键词是否被对应来源文献所引用,选取共现次数大于一定阈值的关键词,构建出关键词词篇矩阵并以.txt格式导出。

3 数据分析

对所构建的关键词词篇矩阵进行聚类分析,以探明信息行为研究领域的主要研究主题和结构。

3.1 信息行为领域的研究主题分析

首先利用SPSS 22.0的聚类分析功能将信息行为研究领域的高频关键词视为选取指标,以判断是否适合做因子分析所具备的结构效度,以便为之后的聚类提供科学的依据。其次进行聚类,并在每个生成的类团关键词粘合度值计算结果的基础上确定每个类团的主题。最后结合原始文献对每个主题的研究内容进行详细分析。

3.1.1 关键词聚类

3.1.1.1 选取高频关键词

Bicomb统计的信息行为相关研究文献中关键词共有2 557个。去掉高频关键词“信息行为”及类似“研究”“分析”等一些对揭示主题内容无意义的关键词,截取其中频次≥10的49个关键词(表1)为该领域的高频关键词,对其在每篇文献中出现情况进行统计,生成形成如表2所示的49*49的高频关键词词篇矩阵。

其中,行为高频关键词列为每篇文献记录的号码(在表2中为2、4、5、10、11);矩阵中的数字(“0”和“1”)代表高频关键词在对应的文献是否出现,若出现则用“1”表示;否则,用“0”表示。

表1 高频关键词词频列表(前20个)

表2 高频关键词词篇矩阵(部分)

3.1.1.2 关键词因子分析

因子分析要达到的目标是用尽可能少的因子去描述众多的指标或因素之间的联系,其基本思想是根据关键词之间的相关性大小把研究对象的变量分组使同组内变量之间的相关性较高,而不同组的变量相关性较低。

本文运用“主成分分析法”首先对高频关键词数据进行KMOS检验和Bartlett球形检验,以判断选取指标是否具有结构效度并是否适合进行因子分析。如果KMO检验的值>0.5,且Bartlett球形检验的选项中,显著性值<0.05,则说明选用的数据指标结构效度适宜做因子分析。其次,将高频关键词词篇矩阵导入SPSS 22.0中,采用因子分析功能,抽取49个高频关键词数据指标并以协方差矩阵分析方法进行KMOS检验和Bartlett球形检验,检验结果见表3。由表3可见:KMO值为0.501,大于0.5;Bartlett球形检验中显著性值为0.000,小于0.05。由此可见,对信息行为主题研究的高频关键词采用因子分析的条件全部具备。最后,利用SPSS 22.0计算得出的各指标相关矩阵特征值和方差累积贡献率见表4,表中显示12个因子的累积方差贡献率约为61.473%,说明将49个高频关键词分为12类,,可以充分解释国内信息行为相关研究的61.473%的信息。

表3 KMO检验和Bartlett球形检验结果

表4 名指标相关矩阵特征值和方差累积贡献率

注:提取方法为主成分分析。

3.1.1.3 关键词聚类

把高频关键词词篇矩阵导入SPSS 22.0,将49个高频关键词采用组间平均联接方法和ochiai系数构造相似矩阵,设定聚类数目为12类,得到聚类结果。将聚类结果中的聚类树状结构图与聚类类目成员列表信息综合,得到图1所示的聚类树及类目成员图谱。

图1中,0~25表示各类之间的距离,距离的大小反映着各高频关键词之间联系的紧密程度,距离越近,联系越紧密。

图1 基于SPSS的关键词聚类树及类团成员图谱分析

3.1.2 各类团研究主题的确定

①依据技能型人才培养方案及目标、临床工作岗位能力需求,以临床岗位工作过程为导向,确定教学大纲,将教学内容整合成14个工作任务领域、43项典型工作任务及完成相应任务应具备的职业核心能力。如入院护理工作任务领域包括实施入院护理、病人运送、生命体征观察及护理技术、医疗与护理文件书写、标本采集技术5项典型工作任务,每项工作任务又对应不同职业核心能力。②将教学内容基于工作过程和认知规律转化为临床情景,并将每个临床情境分解为以工作任务为中心的教学单元,确定包含知识、技能、态度在内的三维教学目标。

3.1.2.1 关键词粘合度

关键词粘合度是用来衡量类团内各关键词对聚类成团的贡献程度,表达每个主题在类团的聚集过程中所起作用的程度。在类团中,粘合力最大的关键词被称为中心词,中心词在确定类团主题中起着至关重要的作用,能够表达某一类团的核心概念。本文采用了钟伟金[5]对类团中心词的粘合度计算方法:

其中,N(Ai)表示关键词Ai的粘合度,F(Ai→Bj)表示关键词Ai与同一类团中其余关键词的共现频次。

3.1.2.2 各类团的研究主题

以类团D为例,列出该类团中关键词粘合度的计算结果(表5),其余类团按照相同的原理计算类团中关键词的粘合度并总结其核心研究主题。

表5 类团中关键词粘合度值列表(类团D)

根据表5中类团D各个关键词的粘合度值大小顺序可以判断出,此类团所研究的主要主题是信息查询行为。

3.1.3 研究主题内容分析

按照以上方法,确定其他类团的核心概念,最终分析得出类团A-L的研究主题依次为:信息素养、Web 2.0环境下的信息检索与信息交流行为、移动互联网用户的信息行为、信息查询行为、网络信息行为、用户信息行为、大数据时代下的图书馆、图书馆信息服务、信息行为模型、信息行为影响因素、信息共享、信息传播。对每个主题内容详细分析如下。

类团A包含的关键词按其粘合力大小依次为信息素养、大学生、信息能力和问卷调查。信息素养是指合理合法借助信息工具,对信息进行获取检索、评价判断、协作交流、加工处理、发挥效益、生成创造信息的能力[6]。评价个体信息素养水平的高低可通过以信息检索、信息获取、信息识别和信息利用为核心的信息行为能力来体现,同时,了解个体信息行为的现状、特点、规律以及影响因素等,可为改进信息素养培养模式和提高个体信息素养水平提供决策依据。对大学生信息素养的培养是当前高等学校教育的基本内容之一,大学生群体是该主题的主要对象之一。

3.1.3.2 类团B: Web2.0环境下的信息检索与信息交流行为

类团B包含的关键词按其粘合力大小依次为信息检索、信息检索行为、用户行为、Web2.0、消费者、信息交流、信息和互联网。以Blog、RSS、标签等为代表的Web2.0技术的应用,使用户可以通过信息关注、检索式定制、订阅等便捷和个性化的方式高效地检索到所需要的网络信息资源,并可实现与网站和其他网络用户的信息互动,增加信息资源获取渠道。该主题研究以Web2.0环境下用户的信息检索行为与网络社区用户的非正式信息交流行为的模型、现状特点、不同背景人群的差异为主要内容,以推动网络信息资源管理系统和网络社区服务的发展,提高网络信息资源的利用效率。

3.1.3.3 类团C: 移动互联网用户的信息行为

类团C包含的关键词按其粘合力大小依次为移动互联网、实证研究。随着移动互联网的发展,智能手机、掌上电脑等移动终端的广泛应用,我国的移动互联网用户数量越来越庞大。数字图书馆、移动图书馆、图书馆微信平台已经成为用户获取图书馆资源和服务的主要方式,研究移动互联网用户访问、检索、获取、利用和交流信息的行为已经成为新媒体形式下信息行为领域研究的主要内容。现有研究多采用实证研究的方法分析用户的信息需求、信息行为特点、模式等,为更好地开展信息服务提供依据。

3.1.3.4 类团D:信息查询行为

类团D包含的关键词按其粘合力大小依次为信息查询、高校教师、信息利用、农民。信息查询是为了解决并完成信息内容需求任务中自我定位的各种获取信息活动行为,而信息检索最常见的获取信息活动行为类型之一,其主要是指信息用户在对计算机情报检索系统检索时的各种行为。该类团以高校教师和农民为实证调查研究对象,通过对其信息查询的途径、渠道、方式等方面进行分析研究,为提高用户的信息查询能力提出可行性的建议。系统地调查农民日常生活信息的查询行为,可以为相关政府部门和信息服务机构提供改进信息服务的建议。

3.1.3.5 类团E:网络信息行为

该类团以网络环境为背景,研究大学生相关的信息行为,尤其是网络信息搜索行为。该类团侧重研究的是信息搜索行为中信息查询行为和信息浏览行为。通过分析用户网络信息搜索行为的特征,就影响用户网络信息搜索行为的相关因素展开基础性研究,并针对性地提出一些合理地建议。

3.1.3.6 类团F:用户信息行为

类团F包含的关键词按其粘合力大小依次为用户研究、网络用户。该类团主要是通过问卷调查法、文献调查法、文献计量法等方法对网络用户的信息行为进行理论和实践的框架性研究。网络用户作为信息用户重要组成部分,学者们对其研究涉及到不同类型的信息用户群体信息行为。

3.1.3.7 类团G: 大数据时代下的图书馆

类团G包含的关键词按其粘合力大小依次为图书馆、大数据、微信。该类团主要研究大数据在图书馆中的应用。随着网络信息技术的空前发展,大数据是继云计算、移动互联网之后新产生的网络信息数据。在网络化数字化和海量信息的双重冲击下,图书馆也面临着新的挑战和机遇。

3.1.3.8 类团H:图书馆信息服务

类团H包含的关键词按其粘合力大小依次为信息服务、信息需求、用户、高校图书馆、数字图书馆、网络环境、信息资源、信息环境、信息时代、用户需求、信息技术、信息组织和信息系统。该类团侧重高校图书馆基于用户信息行为的信息服务研究,通过分析数字环境下用户对信息资源的访问、检索、浏览、下载等行为,了解用户对信息资源和服务方式的需求,旨在为用户提供更好的信息服务。研究内容包用户信息需求、信息服务模式、信息技术等。

3.1.3.9 类团I:信息行为模型

类团I包含的关键词按其粘合力大小依次为信息行为模型、模型。尽管在信息行为科学领域研究中,信息行为模型相关的文献量较少,但在文献记录中显示对它的研究起步较早且从未中断。该类团通过对用户信息行为中的查询、选择、交流、利用等方面进行分析研究,构建适合不同领域的用户信息行为模型,提出提升用户信息行为的策略。但至今为止,却没有一个通用的信息行为模型符合所有领域用户信息行为研究的需求,研究还不够成熟。

3.1.3.10 类团J:信息行为影响因素

类团J包含的关键词按其粘合力大小依次为影响因素、信息查询行为、健康信息、个性化服务。该类团主要研究影响健康信息的查询行为因素,健康信息查询行为的影响因素主要包括从查询动机、获取途径等方面进行分析;为提高用户对健康信息的查询能力以及个性化服务水平提出可行性的建议。

3.1.3.11 类团K: 信息共享

类团K包含的关键词按其粘合力大小依次为信息共享、虚拟社区、研究方法。该类团主要研究基于不同研究方法与视角的虚拟社区信息共享行为,如基于信息生态视角、社会认知理论视角等,以此提高公共信息服务水平。

3.1.3.12 类团L:信息传播

类团L包含的关键词按其粘合力大小依次为微博、信息传播、信息寻求行为。该类团以微博这种较流行的信息传播载体为研究对象,通过实证研究分析其对用户信息传播行为的影响,并提出提高信息传播效率的有效建议。

3.2 信息行为研究热点特征分析

通过上述共词聚类分析及研究热点主题的解析,发现国内信息行为研究和科研合作分析存在着研究对象多样化、研究主题分散化、研究热度均衡化等特征。

3.2.1 研究对象多样化

国内信息行为研究和科研分析的对象包括图书馆、高校图书馆、大学生、数字图书馆、网络用户、微博及高校教师等。由前20个高频关键词词频列表(表1)可知,“图书馆”出现频次最高,为78次,“高校图书馆”“大学生”“数字图书馆”“网络用户”和“微博”其频次排序仅次其后,“高校教师”出现频次最低,为17次。在每个热点研究主题中,所围绕的研究对象不同,其研究主题也就有所不同。因此,信息行为研究热点的对象存在着多样化的特征。

3.2.2 研究主题分散化

由表4可知,对49个成分进行提取,各成分方差均小,说明关键词之间存在着较强的独立性。同时,通过聚类分析所得的12个研究热点主题,均有各自的独立研究主题内容,主题之间的关联度较低。因此,信息行为研究热点的主题呈现分散化的特征。

3.2.3 研究热度均衡化

信息行为的研究热点主题中,均存在着高频关键词排序中靠前和靠后的关键词,说明各研究的热点相近,没有明显或特别地集中在一个主题中。因此,信息行为研究热点的热度存在着均衡化特征。

4 结论与总结

通过对信息行为主题研究高频关键词聚类和计算各类团主题关键词粘合度值发现,目前国内信息行为研究主题集中在信息素养、网络信息行为、信息行为模型、信息传播、图书馆信息服务等12个方面。此外,利用资料与文献综述对信息行为的研究热点主题进行逐一深刻的解析,以了解其最新的研究成果。根据共词聚类和研究热点分析,发现国内信息行为研究热点分析存在着研究对象多样化、研究主题分散化、研究热度均衡化等特征。

本文对2006-2016年国内数字化资源有效文献的分析结果,有助于了解近11年国内信息行为研究现状,且对该领域今后的研究发展具有重要的借鉴意义与参考价值。不足之处是本文分析了国内数字化资源,研究结论可能存在一定的局限性,今后将进一步分析国外相同时间段的研究文献,以便全面更好地了解中外信息行为研究的不同和进展。

猜你喜欢
聚类文献图书馆
Hostile takeovers in China and Japan
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
基于K-means聚类的车-地无线通信场强研究
图书馆
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
基于高斯混合聚类的阵列干涉SAR三维成像
The Role and Significant of Professional Ethics in Accounting and Auditing
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
去图书馆