曹文振 周庆山 邝伟文
摘 要:[目的/意义]全新的社会情境、信息场景与技术环境成为再次推动情报学学科变革的力量。从困惑中发展,在创新中前行,是情报学学科演进的现实需要与时代使命,也亟待对情报学学科前沿的探索并以此指引情报理论与实践的方向。[方法/过程]通过一种改进的样本期刊选择方法,遴选10种国际优秀综合性情报学核心期刊,共获得2 196篇2016-2018年期间样本期刊所发表的研究文献,以标准化年均被引频次为指标选取得到201篇高被引文献,进而通过以文献计量学与质化分析为基础的方法探寻情报学研究的前沿领域。[结果/结论]从研究话题、研究情境、研究方法3个方面对情报学前沿研究领域进行总结与讨论,为新时期我国情报学研究提供一定的指引性参考。
关键词:情报学;前沿;核心期刊;文献计量学;扎根理论;高被引文献
DOI:10.3969/j.issn.1008-0821.2019.05.001
〔中图分类号〕G250.2 〔文献标识码〕A 〔文章编号〕1008-0821(2019)05-0003-14
Abstract:[Purpose/Significance]The new social situation,information context and technological environment have become the transforming forces to promote the development of information science.It is the realistic needs and the mission of the times to explore the frontiers of information science and guide the development of this academic discipline.[Method/Process]Through an improved sample journal selection method,the research selected 10 international excellent core journals of comprehensive information science,obtained 2196 research literatures published in the sample journals from 2016 to 2018,and chose 201 highly cited literatures using the standardized annual citation frequency as the index.The frontiers of information science research were explored by methods based on bibliometrics and qualitative analysis.[Result/Conclusion]The frontiers were summarized in three fields of research topics,research contexts and research methods and discussed for certain directional references of Chinas information science research in the new era.
Key words:information science;frontier;core journal;bibliometrics;grounded theory;highly cited literature
1 研究背景與意义
当前我国的情报学学科发展仍然在一定程度上处于争论之中,情报学学科的研究体系和研究领域究竟应如何构建,不同的学者存在不同的看法,学科边界的模糊性、学科定位的不确定性成为学科发展中一个尚待厘清的问题。从近来对情报学学科发展的讨论中,也可以看到这种认识上存在的混乱现象,时而以Intelligence为导向[1],时而以数据科学推动范式转型[2],时而以知识理论为核心论题[3],甚至对“情报学”这一学科定名之批判思考也未曾终结[4]。然而,若从另一视角审视之,可以发现以上诸多思考的不竭动力源于学界对情报学学科发展的关心和重视。如何推动学科发展始终是摆在情报学界眼前的问题,关注具有挑战性的前沿问题,以学科前沿为导向指导选稿与选题,并创造出能解决这些问题的有效工具[5],这是学界几无争议的看法。因而,撇去这些争议不论,发现学科前沿是推进学科演进关键路径上的重要工作,也是学科研究人员进行学术探寻方向选择的重要指导。
随着近年来大数据、云计算、人工智能等信息环境和信息技术的持续变革,情报学学科研究正逐渐发生着转向,在继承传统研究领域的基础上不断引入新的研究话题,开拓出新的研究疆土。然而,当前国内情报学界就整体而言存在这样的问题,研究方向百花齐放缺少聚焦,研究水平参差不齐缺少标杆。面对当下的现状,如何在全新的社会情境、信息场景与技术环境之下对情报学前沿领域进行挖掘,并用以指导研究工作开展和研究成果遴选,成为情报学研究人员的重要课题。本研究希望为上述问题提供一条有价值的解决路径:采用以文献计量学为基础的实证方法,遴选国外高水平综合性情报学核心期刊,通过分析国际情报学期刊的研究趋势,探寻新时期我国情报学研究的选题前沿,以为我国情报学研究人员提供一定的选题指引与研究建议。
2 样本选择与获取
2.1 样本期刊选择:一种改进方法
就情报学研究的前沿进展论题,国内已有研究人员开展过探索并发表了成果。选题前沿必然基于一定的分析样本而得出,就情报学学科视野下的研究前沿问题而言,既往研究通常采用两种样本选择方法:一是通过研究者主观判别或期刊评价指标遴选部分期刊;二是以数据库中文献的归属类别(一般选择Library & Information Science)或分类号进行文献获取。由于国际高水平期刊往往发表的文章更具质量、创新性更好,适合成为我国情报学研究选择的对标方向,因而本研究在获取样本文献时不采用全面获取学科文献的做法。同时,前者所采用的对期刊进行遴选的方式,也有利于我国的情报学期刊从同样的整体选题角度进行相互比较,实现标杆管理(Benchmarking)。
综观既有研究的样本期刊选择,主要存在两大影响分析结果的不足之处:对样本期刊的简单入选或不合理抽样造成分析结果无法展现学科成果的真实面貌,对综合性与专门性期刊不加区分或不分列权重使得分析结果产生偏误(Bias)。在本研究中,我们力图通过对遴选方法的改进尝试解决这两项问题。
对于研究的样本期刊选择,既往研究往往采用单一期刊评价源,依当年的影响因子报告选取一定比例的期刊入选,如赵蓉英等[6]利用2015年的JCR(Journal Citation Reports)数据,选取情报学与图书馆学(Information Science & Library Science)类目下前20%的期刊为样本期刊。然而,由于各类期刊评价成果倚重的指标体系和操作方法不同,同一刊物经由不同的评价指标体系得出的结果可能存在差别,且目前并没有一个得到公认的、通用的期刊评价方法。例如Springer Nature旗下的《Knowledge Management Research and Practice》或Emerald旗下的《Program:Electronic Library and Information Systems》在不同指标体系中的排名就分属于Q1(依Scopus CiteScore)、Q2(依SJR Score)、Q3(依JCR IF Score)3个分区。另一方面,同一期刊在相同指标体系中的排名结果也处于变化状态,因而不能以位次的高低来简单判定一个期刊的质量好坏。比如《Journal of Documentation》在Clarivate Analytics(原Thomson Reuters)的评价体系中,2006年为Q1区刊物,2011年属于Q2区,2016年属于Q3区,虽然从Q1區下降到了Q3区,但依然入选了第四轮教育部学科评估的A类期刊目录。
由于期刊评价需要详尽的指标体系与支撑数据,研究本身仍藉由国际知名且较受认可的期刊评价体系进行样本刊物遴选。但在本研究中,笔者较全面地选取了多类国际知名且为文献计量学研究所通用的期刊评价指标来进行样本集的第一步构建,包括来自JCR的IF Score(剔除自引后)、来自Scopus的CiteScore、来自SJR的SJR Score、来自Google的Google Scholar Metrics(GSM)。研究所采用的基本评价观点是,好的刊物在不同的多种评价体系中,总会入选其中至少1个Q1区,即使它在其他评价标准中获得的结果不佳。因而研究以任意入选JCR、Scopus、SJR其中1个指标的Q1区,或者进入GSM榜单(因为Library & Information Science作为该指标的二级类目,总共仅有20家刊物入选)为筛选标准,并从中排除视作期刊的连续出版物(连年出版的会议论文集、集刊),在第一步共获得81种样本期刊。通过多种指标体系的相互补充、交叉印证,研究在很大程度上规避了期刊在不同指标体系和同一指标体系中的排名波动,并且也避免了重要期刊在某个指标体系中的排名不佳而产生遗漏。
对于综合性与专门性期刊不加区分或不分列权重是当前研究中第二个方面的不足。鉴于文献计量方法是基于所选择文献样本而得出结论,样本的部分变化就有可能引起结果的较大变动。既有的研究往往在期刊样本的选择上对综合性与专门性期刊不加以区分,造成分析结果可能缺少具有全局代表性的说服力。以刘志辉等[7]的研究为例,由人工所判定的重点期刊中首本刊物是《Scientometrics》,这是一本专门发表文献计量学研究的期刊,它与其他期刊的共同入选必然造成分析结果中文献计量学相关结果的显著增加、相关类群的明显突出,在主题分布图谱中较大的节点上出现了Research Assessment、Knowledge Map、Patent Analysis、H-index、Webometrics等文献计量学领域的词汇。这种不区分综合性与专门性期刊的做法,既使得一些专门研究领域在情报学的整体研究视域中被不合理放大,又使得情报学研究中比较重要的其他领域被相对弱化甚至埋没,造成对学科整体全貌产生一定程度的失察以及失误性的概观。
在本研究中笔者对上一步工作产生的81种期刊进行了人工判别,根据期刊官网的刊物介绍、出版范围、选题要求和近几期发表的作品判断其刊物定位和载文集中度,从中选取能反映情报学研究整体性特征的综合性期刊,排除聚焦于某一特定领域的专门期刊。我们发现国外的绝大多数情报学期刊都是关注特定领域的专门期刊,如《Government Information Quarterly》、《International Journal of Geographical Information Science》、《Journal of Chemical Information and Modeling》、《Journal of Informetrics》、《Knowledge Management Research and Practice》等等,这与我国情报学学术期刊多为综合性期刊的办刊情况不符,且对于学科研究进行整体性考察时很容易产生结果上的不当解释,因而研究均未将该部分期刊入选,并同时剔除了图书馆学、档案学的专门性刊物,如《Library Quarterly》、《Archival Science》。经过本阶段的工作,研究的样本来源期刊得以确定,一共有10种国际情报学综合性期刊进入样本期刊集(见表1)。
在综合性要求以外,研究进一步对最终入选的样本期刊的合理性进行了验证。10种样本期刊均属于SSCI入选刊物,为通常所认为的国际核心刊物;其中有8种期刊进入了基于h5-index筛选的Google Scholar Metrics排行榜,证实了样本期刊总体具有较高的文章质量。同时,10种刊物分别属于Elsevier、Emerald、SAGE、Wiley-Blackwell、Swets & Zeitlinger、University of Bors 6家出版机构,其编辑和出版方式有所差异,但均为同行评议刊物。与国内最常用于科研管理和科研评价的基于Web of Science(WoS)数据的JCR IF Score对比,有3家期刊属于Q1区,4家期刊属于Q2区,3家期刊属于Q3区;换而言之,若简单采用JCR的评价指标来对期刊进行筛选,样本期刊中将有7种刊物被排除在外,因而研究采用的期刊遴选方法对于弥补传统期刊样本选择过程的不足是有益且有效的。综合来看,本研究采用的期刊遴选方法是合理的,入选样本具有较高质量且分布多元,并在很大程度上平抑了评价指标波动性对确认样本来源的影响。
2.2 文献数据获取
由于近年来信息技术与信息环境发生巨大变革,情报学研究的导向、视角、话题和方法都发生了很大变化,因而本研究将所获取的文献时间限定在近3年(2016-2018年)发表,以更好地追踪近期国际情报学研究的前沿方向。需要指出的是,本研究中对文献发表时间的具体界定是正式刊印时间,而非在线发表时间,因为有些文献以预发表形式提前数月甚至1年以上已经在线发表,有的文献则在出版后才数字化上线,规范性不及正式刊印时间。在该种限定方式之下,文献集中也并不包括2018年在线预出版,实际上是2019年及以后进行刊发的作品。同时,样本文献集仅纳入研究论文和综述类型的文章,排除了所有非学术论文,排除文章类型的具体情况参见表2。经过本阶段的工作,研究一共获得了2 196篇样本期刊近3年发表的研究文献。
本研究采用的文献数据主要包括文献外部特征和被引用情况两个方面。为了保障样本期刊所发表文献的数据质量,对于非开放存取期刊,通过收录该期刊文献的原始数据库获取有关信息;对于开放存取期刊则通过期刊官网取得有关信息。不同数据库平台及开放存取网站的操作差异较大,在数据库提供数据导出或下载功能时,直接采用系统功能导出所需信息;若无法直接从数据库下载所需信息,则通过文本提取的工具软件或自编爬虫等多种方式下载并整理信息。
本研究涉及的文献外部特征主要有题名、刊名、正式出版年份、公开发表时间、关键词,并保留了作为基本字段的作者数据以及匹配引文数据所需的DOI编号。需要说明的是,公开发表时间指的是第一次面向读者公开的时間,即在线出版时间早于印刷版出版时间的选用前者,否则则与印刷版出版时间一致,因而其公开发表年份可能与正式出版年份不同;对于缺少在线发表日期的文献(如EPI、IR上的文献),则直接采用印刷版发表时间。对10种刊物以不同方式获取的上述数据进行规范化处理,如文献关键词统一以逗号分隔进行保存;对原始数据中的缺失值进行了填充,如对于只有年份和月份的在线发表日期数据,采用01对日期进行插补;又如对于原文中未提供作者关键词的文献,或者采用机器自动索引关键词进行补充(如JASIST、IR上的文献),或者结合题名和摘要对关键词进行人工标引(如LISR上的文献)。对于10种样本期刊文献不同字段进行处理和转换的技术细节,由于篇幅所限,此处不再一一赘述。对于被引用情况的数据获取过程,将在下一节进行说明。
经过一系列的数据处理过程,不同平台、不同期刊的来源文献数据以相同的形式得以规范化表示,为后续分析工作的开展奠定了坚实的基础。在上述工作完成后,随机抽取了50条数据,与来源数据库或来源网站的原始信息进行比对,确认数据规范性和完整性均无误,从而保证文献信息获取结果正确且可靠。
2.3 高被引论文选取
由于10种期刊收录于多种数据库中,每种数据库的后台文献量与收录范围差异较大,对文献被引用次数的统计结果也存在很大差异;且有部分为开放存取期刊,官网数据并未提供被引用次数,因而文献被引用情况的统计数据难以通过直接采集原始数据的方式获得。经过对比分析WoS、Scopus、Google Scholar、Microsoft Academic等文摘或索引数据库的文献被引用数据,研究最终选择Google Scholar的被引用频次作为文献被引用数据的统一来源,使之基于相同标准和文献集进行统计,便于不同刊物文献之间的对比。具体而言,采用DOI号匹配文献与对应的Google Scholar被引用频次;对于没有DOI编号的文献(如IR上的文献),采用题名进行匹配,并手动修正由于符号和空格差异造成的数据匹配不成功问题。
当前的许多研究在平衡不同发表周期文献的被引数据时,采用的是一种简单的年度平均法,即根据文献所属刊期的印刷版发表年份到评价年份的距离进行平均,如在2019年评价2016年发表的某篇文献时,将该文献的被引用频次除以3。这种做法的粗糙之处在于同年份不同时间发表的文献在被引用概率上被视作是相同的,然而事实上他们是不同的,例如某年1月发表的文献被其他研究人员关注、阅读和引用的概率显然大于同年12月发表的文献;同时,即使同一期刊相同卷期上所刊载的文章也可能在不同时间向读者公开,以JLIS 49卷1期的文章为例,正式出版时间统一为2017年3月,但各篇文章的在线预出版时间却有很大差别,最早的上线时间为2015年6月17日,最晚为2016年3月14日。因而在本研究中,采用到“日”的细粒度的公开发表时间(其详细说明参见上一部分)作为计算指标,将所有样本文献的被引用频次转换为标准化的年均被引频次,从而使得所有文献不受其公开发表时间先后的影响。其转换公式如下:
标准化年均被引频次=被引用频次数据获取日期-公开发表日期×365[8]
其中,数据获取日期根据实际情况定为2019年1月1日。
经过转换,2 196篇文献年均被引用频次的最大值为330.98,最小值为0。考察文献之间的被引用频次情况,平均每篇文献每年被引用3.83次,但中位数仅为2.00,标准差达到9.31,有17.49%(384篇)的文献被引用次数为0,可见文献之间的被引用情况存在很大差异。
考虑到样本文献的数量级,首先根据“帕累托法则”选取年均被引用频次居于前20%的文献为高被引文献,得到约440篇高被引文献,年均被引用频次的下限值为5.40。然而,笔者认为以5.4次作为年被引次数的下限来确定高被引文献事实上是一个不够严格的“高被引”标准,降低了对入选高被引文献的要求。研究进而综合考察入选文献年均被引用频次的最低值与高被引文献集占全体文献总集的比例,经过反复测试,最终将年均被引用频次的最低值定为9次,以此作为进入高被引文献集的标准,即年均被引用频次在9次及以上的文献才能够进入高被引文献的样本集。最终获得由201篇高被引文献组成的样本集合,占全部2 196篇文献的9.15%。
3 研究方法与作用
3.1 归一化共词分析
为了提供有效的文献检索点以及快速发现文章涵盖的主题,大部分文献都会由作者标注关键词。在数据库式的文献检索系统中,通常也会为不提供作者关键词的作品采用机器索引等方式生成文章关键词。每篇文献的关键词通常由多个词汇或词组组合而成,共同反映出文章所关联的多方面主题。共词分析就是要通过聚类分析、多维尺度分析和网络分析等方法,产生具有近似语义,且能够揭示研究主题特征的词汇簇。跟踪词汇簇在不同时期的发展变化,是揭示前沿研究领域的一类代表性方法[9]。同时,与文献共被引、作者共被引等方法相比,共被引分析的结果难以直接标识出关于研究子领域实际内容的详细信息,但共词分析提供了研究领域的内容[10]。
就理论而言,通过计算共词矩阵可以将关键词间远近的共现关系进行展现,即词汇簇内的关键词关系较近,词汇簇间的关键词关系较远。但是原始的关键词共词矩阵记录的是词汇出现的绝对频次,所反映出的共现关系偏离真实情况,因而研究对绝对词频进行了归一化转换,使得原始矩阵转化为相关矩阵。这一过程没有信息损失产生,同时便于之后的分析得出更可靠的结论。本研究中采用经典的Salton余弦相似度(Cosine Similarity)或称为Ochiai系数[11]来对绝对频次进行归一化转换,最终得到0~1之间的系数值。以Ochiai系数为表达形式的计算公式如下,其中(x,y)表示任意一组词汇对,C表示相应词汇的原始绝对词频。
Ochiai(x,y)=CxyCxCy
3.2 爆发词检测
爆发词(Burst Word)在本质上也是关键词,只不过他们的出现表明一些代表性主题在给定的時间段内产生了更大的意义。爆发词的发现基于对关键词沿时间趋势进行变化的考察,因而其在监测事件动态变化的活动中被广泛采用。正确、有效地捕捉爆发词对科学研究的趋势预测、研究热点和研发机会发现均有重要的研究意义和现实意义[12]。在本研究中,基于年份演化的爆发词检测提供了另一种探测选题前沿的方法。也就是说,研究在检测归一化词频高低之外,还通过发现词频数量或增加速度的变化趋势来提取学科领域中的研究前沿。
3.3 关键词词频统计
基于词频统计的关键词分析有一个最大的优势,就是实现过程简单,仅需要对词频进行统计上的计数。当然,直接对关键词开展词频统计也存在一系列的问题,大多数情况下可能需要进一步的人工干预。关键词表中可能包含着一些不具有表征意义的词,需要人工标注为停用词,即计算机在进行统计时将会忽略掉的词汇;统计结果也会与词性和单复数形式有关,需要对这部分异形词汇进行规范化处理。在本研究中,高被引文献被视作一个整体集合,关键词词频统计提供了对高被引文献的一种前沿观察方法,通过计数产生的高频词代表了之后的施引文献更多关注的领域,能够用以分析哪些领域被更多的后续研究所引用。
3.4 扎根理论
扎根理论分析是一种被社会科学领域所广泛采用的定性研究方法,并逐渐在定性取向的研究中占据主导位置。由扎根理论提供的一系列抽象化的指导方针与具体化的操作方法,使得概念的重新融合成为一个自然过程,并伴随着理论层次的逐步提高。编码是经典扎根理论方法的核心过程,包括了两种类型的编码:实质编码与理论编码。本研究仅涉及实质编码过程中的开放编码和选择编码技术,通过实质编码直接对数据进行提炼和分析。研究将文献关键词视作开放编码的核心概念,通过不断比较核心概念间的关联性继续开展主轴编码。这是一个持续对比和概念融合的交叉循环过程,以形成内部概念相互链接、外部命名可解释的类别,从而将分析结论向更高层次的概念抽象推进。
4 选题前沿的整体性趋势
在本部分中,2 196篇文献将依照年份演化趋势进行分析。全体文献的原始数据依字段被转换为以WoS格式表示的TXT文档,从而便于进入经典的文献可视化分析工具CiteSpace展开进一步研究。研究采用的CiteSpace版本号为5.3.R9。
4.1 基于共词分析的整体性趋势
采用CiteSpace软件对文献关键词开展共词分析,按照正式出版年份(2016-2018年)进行切片,并由算法自动标注聚类标签,得到2016年、2017年、2018年3幅共词分析图谱。
以2016年的结果为基准,2017年中信息检索(Information Retrieval)、政治传播(Political Communication)、出版(Publication)呈现出明显的研究进展趋势。信息检索一直以来都是一个活跃的研究领域,但在大规模(Large-scale)信息环境中,判断文档的相关性需要新的技术实现方法,这是该领域在2017年得到更多关注的主要原因;另外一些子领域在2017年的持续活跃也使得信息检索更加活跃,这些领域主要是音乐信息检索(Music Information Retrieval)和生物医学信息检索(Biomedical Information Retrieval),也值得我国情报学研究的更多关注与深入探讨。
政治传播(Political Communication)在2017年出现的原因,是由于美国特殊的政治背景:2016年下半年,美国举行了第58届总统选举,新任总统唐纳德·特朗普于2017年1月举行了就职典礼。作为美国最重要政治事件之一的总统大选引发了研究人员的关注,考虑到合理的评议、修订与编辑周期,政治传播的研究文献在2017年得以较多发表,其中又以新媒体为媒介的政治传播受到更多研究人
员青睐。另一方面的原因也在于出版机构的引导,如EPI就适时地推出了政治传播专刊,其中的“推特与政治传播”[13]一文得到了较广泛关注。
出版(Publication)这一研究领域,更准确而言,指的是学术出版(Academic Publication或Scholarly Publication)。2017年AJIM上发表的关于中国科学出版激励制度的研究“出版赚钱还是保持贫困:对中国科学界论文奖励制度的考察”[14]得到了广泛的学术传播,并被许多媒体进行报道。开放存取(Open-access)的学术出版形式、跨国合作(Transnational Collaboration)的学术出版以及学术出版的数字化保存(Digital Preservation)问题是该领域在2017年的主要研究前沿。
基于2016-2017年的共词分析聚类结果,大数据(Big Data)、内容分析(Content Analysis)、主题建模(Topic Modeling)更多地出现在2018年的研究视野中,在分析时笔者结合了对每个领域典型文献的考察。以大数据为主题的有关研究更多地关注大数据在各行业中能够创造的价值(From Data to Value),特别是在组织(公司)管理、第三产业(服务业)、新兴产业(Emergent Industry)中发挥大数据的战略作用与竞争优势,对于具体细分环节的技术实现探讨则相对弱化。以内容分析(Content Analysis)为代表的传统研究方法也并未因为大数据技术的出现而得以式微,反而在2018年得到了较多关注,特别是用于研究领域的整体性评价、回顾与重新审查,比如JASIST上的“数据集说明与引用:对全文出版物的内容分析”[15]。作为机器学习与自然语言处理(NLP)中常用的文本挖掘工具,主题建模(Topic Modeling)越来越多地被用来发现各类数据源中非结构化文本所隐藏的语义特征,且不断改进的算法已能在真实情景中取得具有分析意义的结果。在2018年的研究中,作为方法的主题建模(Topic Modeling)被应用于分散的多领域研究中,但主要用于研究文本信息(特别是社会化媒体文本信息)的系统分类(Systematic Classification)和主题演变(Topic Evolution)。
4.2 基于爆发词检测的整体性趋势
以2 196篇文献总集为样本,按照正式出版年份为切分范围,采用CiteSpace软件带有的爆发词检测算法,选取其中对研究前沿进展具有分析价值的爆发词(即停用一些实际意义较小的爆发词),并将爆发词检测结果投影到可视化图谱上,得到最终的爆发词检测图谱。
2017年出现的爆发词包括信息行为(Information Behaviour)、政治传播(Political Communication)、对照试验(Controlled Study)、在线社交网络(Online Social Networking),其中政治传播在上一部分中已经进行了解释,在此不再赘述。
对信息行为(Information Behaviour)的研究主要关注了用户的信息搜寻(Information Seeking)与在线交流(Online Communication)行为,在线交流行为中又包括了在线问答(Online Q&A)行为这一细分领域。在研究内容上则主要关心用户行为的影响因素、驱动因素和持续使用因素。一篇经典的文献是2017年发表于JDoc的文章“人尽皆知:在深度休闲中体现的信息”[16],作者Cox A M等提出在信息行为研究中应当重视对“身体”(Body)这一因素的考察。
对照试验(Controlled Study)一方面出现在部分算法改进和算法比较的研究中,但没有发现比较明显的集中研究领域,例如有的用于专利地图的技术距离[17],有的用于文档集合的主题表示[18],有的用于网络搜索的人名消歧[19]。另一方面,对照试验常被用于用户研究,特别是用户行为研究。作为一种实证的可以人类为研究对象的研究方法,对照试验被用户行为研究较为广泛采用,可参见上一段的分析。
在线社交网络(Online Social Networking)的研究与此前提到的多个研究领域存在交叠。事实上,与其将在线社交网络看作是研究领域,不如将其视作一个研究情境(Context),或者说许多研究领域都将自身的研究问题置于在线社交网络中而开展。例如学术社交网络的在线问答[20]、社交媒体的政治传播[21]、社交網络的用户行为意愿[22]、在线社区的内容分类[23]等。唯一可被发现不同于上述研究领域的内容是对在线社交网络内容的审查和规制,如JASIST上的“在线社交网络中的新闻审查:对规避审查评论的研究”[24],但这方面的研究并不多见。
2018年的文献中产生的爆发词是案例研究(Case Study)、隐私(Privacy)、文本挖掘(Text Mining)、元数据(Metadata),更多的词汇是来自研究方法或是技术方法,仅有隐私(Privacy)可在一定程度上代表研究领域。
隐私(Privacy)问题在2018年受到研究人员关注,这与当前大数据的信息化情境与信息共享背景下的伦理问题存在着明显关联,两个重要的研究话题包括隐私如何影响人们对信息的接受和使用,如JASIST上的“大数据时代消费者对个人信息的评估”[25];以及保护个人隐私的理论探讨和实践经验,如EPI上的“欧盟统一的个人数据保护:挑战和影响”[26]。
案例研究(Case Study)作为一种典型的质性研究方法,应用领域十分多元,但大多以项目为案例进行研究,小部分则以国家或组织为案例,如发表在IJIM上的“通过知识管理实现软件持续部署的案例分析”[27]以Meta4公司的DevOps实践为案例,证实运用知识管理工具可以有效帮助软件的持续交付。
文本挖掘(Text Mining)通过对文本进行一系列处理以推断出给定任务所需的信息,其具体的应用领域除了与同年度主题建模(Topic Modeling)相同的系统分类(Systematic Classification)、主题演变(Topic Evolution),还有质量评估(Quality Assessment)、特征提取(Feature Extraction)和知识提取(Knowledge Extraction)。
最后一个词是元数据(Metadata),即描述其他数据的数据。伴随着新的信息载体,特别是数字化信息载体的出现,元数据研究仍然在一定程度上占据重要地位。这些在2018年被讨论的信息载体主要来源于考古学、气象学、网络通信、游戏视觉风格。
5 高被引论文的选题前沿趋势
高被引文献体现了后续开展的研究对先前研究的关注和引用情况。由于本研究采用的是Google Scholar的文献被引用数据,不仅包括了期刊文献,还有不在本研究样本内的会议文献、未正式见刊的预发表文献、作者自存储文献等,可以认为由这些高被引文献所涵盖的研究领域构成了一个总的集合,能够在一定程度上共同指明下一阶段的研究趋势。因而研究将201篇高被引文献视作一个统一的整体,而不再按照年份进行切分,进而得出高被引论文的选题趋势。
5.1 基于词频统计的高被引选题前沿趋势
通过对高被引文献关键词词形、词态的规范化处理,删去无意义的部分停用词,并借助Python的自编程序对词频进行统计,研究得到词频在10次及以上的关键词(组)共7个(见表3)。其中,大数据(Big Data)和社交网络(Social Network/Social Networking)在前面的部分已经谈及。
社会化媒体(Social Media)的用户数量不断扩大使得社会化媒体不仅越来越融入用户的生活场景,也愈加受到研究人员的关注。这一研究领域目前仍处于比较活跃的文献出版过程中,包括以下几个主要的研究话题:一是社会化媒体在特定产业或行业中的作用,如研究企业社会化媒体的知识共享[28];二是以社会化媒体作为信息源进行文本挖掘或意见挖掘,如研究YouTube上的多语言意见挖掘[29];三是社会化媒体使用对用户产生的影响,如研究社会化媒体使用和心理健康的关系[30]。其余研究则是与在线社交网络(Online Social Networking)一样,只是将社会化媒体作为一个研究情境,但作为研究情境出现的社会化媒体,其涉及的研究内容并不聚焦,可参见前述在线社交网络研究部分。而“推特”(Twitter)作为信息快速更新、用户群体庞大的国外社会化媒体,又被最多研究所关注,因而在词频统计中居于前列。
情感分析(Sentiment Analysis)是伴随着机器学习、文本挖掘、自然语言处理等技术的发展而日趋成熟的一个新兴研究领域,其核心研究问题就是如何量化文本中体现的情感状态。这一研究领域的上升事实上也得益于社会化媒体的活跃,在许多文献中都能看到社会化媒体的影子。情感分析可依据所分析的不同数据来源进行划分,但主要集中在微博客、在线评论、新闻以及其他特定文档。
与以大数据为主题的有关研究相似,云计算(Cloud Computing)的有关研究也主要探讨云计算所能创造的价值与带来的变革,而非技术实现的具体方法,或许后者在计算机科学的期刊中会得到更多引用,但并没有反映在情报学期刊的同行引用行为中。研究人员认为云计算可能会改变的行业或产业中值得探讨的有医疗行业、教育行业以及各类企业,此外还需要注意云计算服务带来的信息安全问题[31]。
知识管理(Knowledge Management,KM)也是一个趋势比较明显的研究领域。除了最受关注的企业知识管理以外,还有知识管理对信息系统和软件开发的影响、个人知识共享意图、知识转移绩效都是高被引文献的主要研究问题。
必须指出的是,许多研究领域都不是单一而具有明确边界的,而是与其他研究领域存在交叉,共同产出优质论文,如IJIM上发表的“企业社交网络:一个知识管理的视角”[32]就是知识管理与社交网络相结合的成果。
5.2 基于扎根理论的高被引选题前沿趋势
研究把文献关键词视作开放编码形成的自由节点,通过自由节点进一步向上聚合的主轴编码过程,并借助词频数据,以每个范畴内的关键词词频不少于20次为筛选标准,一共获得8个范畴(见表4)。其中,用户研究和真人试验(User Study & Human Experiment)、文献计量学(Bibliometrics)、商业智能(Business Intelligence)是新出現的前沿领域。
在用户研究(User Study)中,除了前面已经提及的信息行为研究,还有两个值得注意的领域:一是对用户创新行为的研究,如IJIM上发表的“利用用户创新的社会化媒体营销:‘众包汉堡包的案例研究”[33];二是对用户行为背后的用户动机和用户意愿的研究,如同是IJIM发表的“用户安装移动应用程序意图的影响因素”[34]。随着情报学对用户而非技术的关注度提升,以用户为实验对象或在用户的真实情境中开展的研究也愈发受到关注,真人试验(Human Experiment)方法成为情报学研究的一个热点趋势。例如JASIST上发表的“超越‘意图:将行为期望整合进UTAUT模型”[35]就基于对321名真实用户开展的纵向田野研究。
文献计量学(Bibliometrics)的前沿领域主要是科学计量学(Scientometrics),以探讨科学文献分布和科学产出评价为核心内容;以及在社会化媒体和社交网络的背景下如何改进科学计量,即以补充计量学(Altmetrics)为代表的研究,如JASIST上的“Mendeley读者数对医学论文的补充计量:基于45个领域的分析”[36]。此外还有部分综述型文章将文献计量学作为方法所体现出的应用价值,在此不做展开。
商业智能(Business Intelligence)研究是一个与大数据、云计算、人工智能存在明显交叉的领域,其主要关注的焦点一是从业务流程管理(Business Process Management)出发改进信息系统来实现商业智能,比如IJIM上的“业务流程管理和信息技术管理:缺少的集成”[37];二是从组织中的“人”出发,研究如何通过智能技术提高人力资本,比如同发表在IJIM上的“工作场所的社会幸福感和技能管理框架”[38]。
此外,社交网络(Social Network)这一范畴中的社会网络分析(Social Network Analysis,SNA)作为一种比较有前景的研究方法,可以产生一些有意思的研究成果,也值得研究人员和期刊编辑在选题时关注。如IJIM上发表的“社会网络分析:灾难后在线社交网络的特征”[39]已被引用近200次。
6 研究结论与建议
本研究以探寻国际情报学期刊的选题前沿为研究目的,遴选10种国外优秀综合性情报学刊物,综合采用多种方法对这些期刊近3年来刊载的文献展开了较细粒度的分析。综观全文的分析结果,情报学期刊文献与情报学研究中有较大潜力且有望被较多关注的研究领域可以从研究话题、研究情境、研究方法3个方面来进行考察。
就研究话题而言,包括:1)大数据背景下与专门领域中的信息检索方法探新研究;2)开放存取等新形式学术出版研究与学术出版激励制度研究;3)信息搜寻与在线社群的用户行为研究,特别是用户行为影响因素、动机和意愿的研究;4)大数据与信息共享背景下的信息安全问题、隐私问题研究;5)元数据在不同信息载体与学科的应用研究;6)在线新闻或评论、社会化媒体数据的情感分析研究;7)知识管理、知识共享、知识转移的相关问题研究;8)以科学计量学和补充计量学为代表的文献计量学研究;9)利用商业智能改进业务流程管理和组织人力资本的研究。
从研究情境或研究背景来说,包括:1)以大数据为研究背景或主题的研究,重点是对大数据应用价值的研究;2)以云计算为研究背景或主题的研究,重点是对云计算应用价值的研究;3)以在线社交网络为研究情境或主题的研究;4)以社会化媒体为研究情境或主题的研究。
从研究方法出发,包括:1)以内容分析为方法的研究,特别是对研究领域的综述与整体评价;2)运用文本挖掘(主题建模)方法的研究,特别是运用社会化媒体文本信息的主题建模或意见挖掘研究;3)以案例研究为研究方法的研究;4)以真实用户为研究对象的对照试验研究;5)以社会网络分析作为研究方法的研究。
表5是以更加简洁的形式归纳的情报学前沿研究领域。需要指出的是,应当特别欢迎这些研究领域、背景、方法相互交叉所产出的研究成果,这意味着研究的选题很可能具有较好的前瞻性,并在发表后取得良好的关注度。
当然,本研究仍然存在一定的局限性。由于研究采用关键词来作为研究话题的表征形态,但作者关键词的指定有一定的随意性和较大的自由度,虽然研究对词形和词态进行了归一化处理,但仍然不能与规范化处理的叙词相比,其结果并不是绝对的准确和全面;另一方面,部分刊物的编排格式中不含有关键词或类似项目,研究对这部分文献采用了机器自动抽取结合人工标引关键词的做法予以补充,使得样本集内的每篇文献均有关键词数据可供分析,但这种做法得到的关键词与作者关键词存在不同程度的差异,可能造成分析过程中对部分研究领域的过度解读或是疏漏。因而,上述研究结论应当成为研究选题的合理但不盲从的参考。
参考文献
[1]杨国立,苏新宁.迈向Intelligence导向的现代情报学[J].情报学报,2018,37(5):460-466.
[2]巴志超,李纲,周利琴,等.数据科学及其对情报学变革的影响[J].情报学报,2018,37(7):653-667.
[3]王琳.社科情报学学科内涵和理论核心问题的思考[J].情报资料工作,2018,(6):37-42.
[4]刘强.中国“情报学”乱象和迷途的终结与选择——基于信息与情报的本源内涵和学科机理与边界[J].情报杂志,2018,37(11):1-9.
[5]张云,杨建林.从学科交叉视角看国内情报学的学科地位与发展思考[J/OL].情报理论与实践.http://kns.cnki.net/kcms/detail/11.1762.g3.20181129.1217.002.html,2019-02-16.
[6]赵蓉英,魏明坤.2010-2015年国内外情报学研究热点可视化比较[J].图书馆杂志,2016,35(8):15-22.
[7]刘志辉,赵筱媛,许晓阳,等.文献计量分析视角下的情报学理论研究进展[C]//中国国防科学技术信息学会.情报学进展:第11卷,2014-2015年度評论.北京:国防工业出版社,2016:27-46.
[8]王知津,曹文振.我国图书馆新媒体服务研究展望——基于高被引论文的分析[J].图书馆论坛,2017,37(9):62-69.
[9]陈仕吉.科学研究前沿探测方法综述[J].现代图书情报技术,2009,25(9):28-33.
[10]Eom S.Author Cocitation Analysis:Quantitative Methods for Mapping the Intellectual Structure of an Academic Discipline[M].New York:Information Science Reference,2008:10.
[11]Zhou Q,Leydesdorff L.The Normalization of Occurrence and Co-Occurrence Matrices in Bibliometrics Using Cosine Similarities and Ochiai Coefficients[J].Journal of the Association for Information Science and Technology,2016,67(11):2805-2814.
[12]逯万辉,马建霞,赵迎光.爆发词识别与主题探测技术研究综述[J].情报理论与实践,2012,35(6):125-128.
[13]Campos-Domínguez E.Twitter and Political Communication[J].El Profesional de la Información,2017,26(5):785-793.
[14]Quan W,Chen B,Shu F.Publish or Impoverish:An Investigation of the Monetary Reward System of Science in China(1999-2016)[J].Aslib Journal of Information Management,2017,69(5):486-502.
[15]Zhao M,Yan E,Li K.Data Set Mentions and Citations:A Content Analysis of Full-Text Publications[J].Journal of the Association for Information Science and Technology,2018,69(1):32-46.
[16]Cox A M,Griffin B,Hartel J.What Everybody Knows:Embodied Information in Serious Leisure[J].Journal of Documentation,2017,73(3):386-406.
[17]Yan B,Luo J.Measuring Technological Distance for Patent Mapping[J].Journal of the Association for Information Science and Technology,2017,68(2):423-437.
[18]Aletras N,Baldwin T,Lau J H,et al.Evaluating Topic Representations for Exploring Document Collections[J].Journal of the Association for Information Science and Technology,2017,68(1):154-167.
[19]Delgado A D,Martínez R,Montalvo S,et al.Person Name Disambiguation in the Web Using Adaptive Threshold Clustering[J].Journal of the Association for Information Science and Technology,2017,68(7):1751-1762.
[20]Jeng W,DesAutels S,He D,et al.Information Exchange on an Academic Social Networking Site:A Multidiscipline Comparison on ResearchGate Q&A[J].Journal of the Association for Information Science and Technology,2017,68(3):638-652.
[21]López-Meri A,Marcos-García S,Casero-Ripollés A.What Do Politicians Do on Twitter?Functions and Communication Strategies in the Spanish Electoral Campaign of 2016[J].El Profesional de la Información,2017,26(5):795-804.
[22]Wang L,Yan J,Lin J,et al.Let the Users Tell the Truth:Self-Disclosure Intention and Self-Disclosure Honesty in Mobile Social Networking[J].International Journal of Information Management,2017,37(1):1428-1440.
[23]Cohan A,Young S,Yates A,et al.Triaging Content Severity in Online Mental Health Forums[J].Journal of the Association for Information Science and Technology,2017,68(11):2675-2689.
[24]Schwartz D G,Yahav I,Silverman G.News Censorship in Online Social Networks:A Study of Circumvention in the Commentsphere[J].Journal of the Association for Information Science and Technology,2017,68(3):569-582.
[25]Lim S,Woo J R,Lee J,et al.Consumer Valuation of Personal Information in the Age of Big Data[J].Journal of the Association for Information Science and Technology,2018,69(1):60-71.
[26]Martínez-Martínez D F.Unification of Personal Data Protection in the European Union:Challenges and Implications[J].El Profesional de la Información,2018,27(1):185-194.
[27]Colomo-Palacios R,Fernandes E,Soto-Acosta P,et al.A Case Analysis of Enabling Continuous Software Deployment Through Knowledge Management[J].International Journal of Information Management,2018,40:186-189.
[28]Pee L G.Affordances for Sharing Domain-Specific and Complex Knowledge on Enterprise Social Media[J].International Journal of Information Management,2018,43:25-37.
[29]Severyn A,Moschitti A,Uryupina O,et al.Multi-Lingual Opinion Mining on YouTube[J].Information Processing & Management,2016,52(1):46-60.
[30]Dhir A,Yossatorn Y,Kaur P,et al.Online Social Media Fatigue and Psychological Wellbeing—A Study of Compulsive Use,Fear of Missing Out,Fatigue,Anxiety and Depression[J].International Journal of Information Management,2018,40:141-152.
[31]Ramachandran M.Software Security Requirements Management as an Emerging Cloud Computing Service[J].International Journal of Information Management,2016,36(4):580-590.
[32]Mntymki M,Riemer K.Enterprise Social Networking:A Knowledge Management Perspective[J].International Journal of Information Management,2016,36(6):1042-1052.
[33]Pacauskas D,Rajala R,Westerlund M,et al.Harnessing User Innovation for Social Media Marketing:Case Study of a Crowdsourced Hamburger[J].International Journal of Information Management,2018,43:319-327.
[34]Harris M A,Brookshire R,Chin A G.Identifying Factors Influencing Consumers Intent to Install Mobile Applications[J].International Journal of Information Management,2016,36(3):441-450.
[35]Maruping L M,Bala H,Venkatesh V,et al.Going Beyond Intention:Integrating Behavioral Expectation into the Unified Theory of Acceptance and Use of Technology[J].Journal of the Association for Information Science and Technology,2017,68(3):623-637.
[36]Thelwall M,Wilson P.Mendeley Readership Altmetrics for Medical Articles:An Analysis of 45 Fields[J].Journal of the Association for Information Science and Technology,2016,67(8):1962-1972.
[37]Rahimi F,Mller C,Hvam L.Business Process Management and IT Management:The Missing Integration[J].International Journal of Information Management,2016,36(1):142-154.
[38]Araújo J,Pestana G.A Framework for Social Well-Being and Skills Management at the Workplace[J].International Journal of Information Management,2017,37(6):718-725.
[39]Kim J,Hastak M.Social Network Analysis:Characteristics of Online Social Networks after a Disaster[J].International Journal of Information Management,2018,38(1):86-96.
(責任编辑:马 卓)