基于CiteSpace的网络问答社区研究的可视化分析及启示

2023-06-25 13:28迟秀铭房旭辉郭顺利
现代信息科技 2023年4期
关键词:比较分析

迟秀铭 房旭辉 郭顺利

摘  要:梳理中外网络问答社区的研究热点及其发展脉络,总结国内外网络问答社区研究的异同,以期为我国网络问答社区研究提供新思路和指导。以Web of Science和CNKI为文献来源,运用CiteSpace软件对国内外网络问答社区研究热点进行可视化比较分析。我国未来网络问答社区研究需要深化完善已有的研究领域,扩大研究范围,创新研究方法,增强创新意识,将研究成果应用到网络问答社区运营管理实践中。

关键词:问答社区;CiteSpace;比较分析;科学知识图谱

中图分类号:TP391  文献标识码:A  文章编号:2096-4706(2023)04-0125-05

Visual Analysis and Enlightenment of the Research on Network Q&A Community Based on CiteSpace

CHI Xiuming1, FANG Xuhui2, GUO ShunLi2

(1.Laishan Library, Yantai  264003, China; 2.School of Communication, Qufu Normal University, Rizhao  276826, China)

Abstract: This paper sorts out the research hotspots and development context of the network Q&A community at home and abroad, and summarizes the similarities and differences of the research of the network Q&A community at home and abroad, with a view to providing new ideas and guidance for the research of the network Q&A community in China. It takes Web of Science and CNKI as the source of literature, and uses CiteSpace software to visually compare and analyze the research hotspots of network Q&A community at home and abroad. In the future, China's network Q&A community research needs to deepen and improve the existing research fields, expand the research scope, innovate research methods, enhance innovation awareness, and apply the research results to the operation and management of network Q&A community.

Keywords: Q&A community; CiteSpace; comparative analysis; scientific knowledge graph

0  引  言

网络问答社区作为Web 2.0模式下“用户驱动”的典型代表,成了互联网用户获取相关信息与知识的主要途径[1]。根据2021年新知青年大会的数据,网络问答社区代表知乎的年访问人次超过30亿,成为网民获取知识的主要途径之一。网络问答社区的发展和兴起,成为学术界关注的热点和研究对象。国内外许多学者从不同的角度和维度对网络问答社区开展了研究,涌现出大量有价值的研究。已有学者对相关成果进行了梳理分析。例如:Gazan对网络问答社区的研究文献进行了回顾和分析[2];姜雯梳理了网络问答社区信息质量评价方面的相关研究[3]等。综上所述,从内容上看,国内外已有对于问答社区的综述类研究都偏向于某一方面文献的梳理,鲜有学者关注国内外网络问答社区研究的差异性,缺乏系统性的比较分析。就方法而言,以主观的内容解读为主,运用科学计量工具的客观分析不多,而基于知识图谱视角的量化研究则可以更为客观地反映某一领域的研究热点及趋势。全面把握、对比剖析中外网络问答社区的研究热点及其发展脉络,对于促进国内网络问答社区方面的理论研究及实践创新具有重大意义。

鉴于此,本文采用文献计量学方法,运用CiteSpace可视化工具,对国内外网络问答社区研究领域的文献进行可视化的对比分析。综合共词分析、聚类分析等方法,对比分析国内外网络问答社区的研究热点。以期为我国网络问答社区研究提供新思路和指导。

1  数据来源与检索策略

为保证所收集数据的权威性和科学性,国外文献选自Web of Science数据库下的Web of Science核心合集,国内文献源于中国知网(CNKI)的期刊数据库。在Web of Science核心合集数据库中,采用主题检索,以“TS=(Community Question Answer)OR TS=(Social Question Answer)OR TS=(Online Question Answer)”为检索式,文献类型为Articles、时间跨度为所有年份进行检索。在中国知网使用高级检索,以“主题=问答社区OR问答网站OR问答平台”进行检索,检索范围为学术期刊,不设置时间跨度。检索时间为2022年4月15日。篩选检索后的文献,剔除关联较小的文献,最终将421篇国外文献和451篇国内文献纳入分析样本。

2  国内外网络问答社区研究的发展脉络

国内外网络问答社区年发文量如图1所示。根据图1可以将国内外网络问答社区研究的发展脉络划分为以下三个时期。

2.1  萌芽时期(2007年—2012年)

这一时期,国内外对于网络问答社区研究处于起步阶段,发文量均比较少。该阶段随着用户需求的增长和互联网的发展,社会化问答网站应运而生。国内外互联网企业陆续上线了一些问答服务产品和平台。学者们对于这种新兴的知识获取获取方式开展了初步的研究。国内学者们多是对这些国内外的问答平台进行比较分析,找出不足并提出改进建议。国外学者多是分析网络问答社区的运作机制,探索网络问答社区的未来发展模式。

2.2  发展时期(2013年—2018年)

这一时期随着移动通信技术、智能终端技术以及Web技术的飞速发展,发文数量逐渐增多,吸引了大规模的用户群体。国内外的年发文量持续增长,引起了多个领域学者广泛关注,涉及了用户、问题、答案及网络问答社区建设等多个方面。新技术和方法被应用于网络问答社区的知识管理和服务方面。理论和技术研究推动了网络问答社区实践的发展,从而使得网络问答社区相关研究也持续向前发展。

2.3  稳定时期(2019年—至今)

这一时期国内外网络问答社区研究年发文量均保持在了一个较高水平,是一个相对稳定时期。在这一时期,网络问答社区用户规模激增,网络上用户生成内容呈现指数性增长。随着深度学习、大数据、文本挖掘等技术的广泛应用,国内外学者们对网络问答社区的研究更加深入。在未来几年,随着新技术的不断进步及相关理论方法的不断丰富,国内外网络问答社区的研究将继续稳定下去,并迎来飞跃式的发展。

3  国内外网络问答社区研究热点比较分析

3.1  国内网络问答社区研究热点分析

通过CiteSpace软件生成国内网络问答社区研究的关键词聚类图谱,如图2所示。关键词聚类图谱共生成12个聚类主题,除检索词外,可以将剩余的11个聚类主题归纳为五大热点主题,如表1所示。分别为网络问答社区用户的需求及行为研究、网络问答社区的知识内容质量及专家研究、网络问答社区知识付费研究、网络问答社区内容传播研究、网络问答社区内容组织及挖掘研究。

3.1.1  网络问答社区用户的需求及行为研究

该主题包含的聚类有#1用户需求、#3用户行为,包含的主要关键词有影响因素、需求分析、需求聚合、演化分析、激励机制、实证研究等。

网络问答社区用户需求研究主要集中在对用户需求的分析、演化、聚合等方面。在用户需求分析方面,学者们多采用文本挖掘技术分析用户需求[4,5]。周国韬等[6]则通过LDA模型分析网络问答社区用户健康信息需求的演进趋势。用户需求聚合研究方面,郭顺利等[7]提出了融合GMM和K-Means聚类算法的用户信息需求聚合方法。对于用户行为的研究主要集中在知识采纳、知识分享、知识共享、知识贡献、知识隐藏、持续使用意愿、激励机制及对策等方面。学者们多从社会交换理论、自我决定理论、社会认知等理论视角出发,运用结构方程模型、扎根理论等实证分析方法分析用户行为。

3.1.2  网络问答社区的知识内容质量及专家研究

该主题包含的聚类有#4专家发现、#7质量评价,包含的主要关键词有专家推荐、推荐算法、内容质量、评价标准、质量预测等。

网络问答社区中内容的质量评价及预测多集中于答案的评价、排序及预测。学者们对于答案评价研究多是利用各种方法理论构建答案质量评价体系或答案质量评价模型[8]。在答案排序方面,学者们通常在构建答案质量排序体系后,采用机器学习、系统工程等技术方法实现对答案的排序[9]。网络问答社区专家发现方面,学者们多是应用自然语言处理、机器学习、深度学习等技术领域的算法来实现网络问答社区中的专家发现或专家推荐。例如:高逸飞[10]基于Meta LDA的改进算法实现了网络问答社区中各领域内专家用户的发现。黄辉等[11]提出了一种基于用户-标签异构网络的专家发现方法。

3.1.3  网络问答社区知识付费研究

网络问答社区知识付费方面研究包含的聚类有#2知识付费,包含的主要关键词有付费意愿、付费围观、悬赏机制等。在网络问答社区知识付费研究中,学者们多是对影响用户知识付费行为、知识付费产品、知识付费运营模式等方面开展研究。例如:卢恒等[12]在理性与偏差视角下,构建影响用户知识付费意愿的潜在变量,运用模糊集的定性比较分析方法分析变量间的因果关系,探讨知识付费意愿的构型。赵菲菲等[13]通过文献调研,构建了用户知识付费意愿影响因素模型。

3.1.4  网络问答社区内容传播研究

该主题包含的聚类有#9知识传播、#10意见领袖,包含的主要关键词有、社交媒体、传播网络、舆论、突发事件等。在知识传播研究方面,对于知识传播模型、知识传播效果、知识传播机制的研究相对较多。学者们多是基于某种理论视角或技术方法来研究知识传播模型、评价知识传播效果以及探析知识传播机制。例如:王志英等[14]基于精细加工可能性模型,对网络问答社区信息安全突发事件应急知识传播模型进行了研究。王忠义等[15]结合社会网络分析方法和熵权法,分析了网络问答社区的社会网络结构和知识传播机制。

3.1.5  网络问答社区内容组织及挖掘研究

该主题包含的聚类有#5问题分类、#6主题模型、#8索引服务、#11知识推荐,包含的主要关键词有机器学习、数据分析、语义相似度、知识抽取、知识图谱、深度学习等。对于问答社区内容的组织及挖掘,一般都是基于自然语言处理技术并结合文本挖掘、機器学习、深度学习等技术方法进行研究,可以分为对问题的组织及挖掘和对答案的组织及挖掘。

网络问答社区中对问题的组织及挖掘研究主要集中在对问题的分类、聚类、抽取、推荐等方面。例如:蒋竞等[16]应用LDA主题模型对中文软件问答社区开展了主题分析研究。唐晓波等[17]融合了赋词标引和抽词标引方法,提出了一种基于BERT和TF-IDF的网络问答社区问句自动标引模型。对于网络问答社区中答案组织及挖掘研究主要集中在对于答案文本的摘要生成、聚合、集成、推荐研究。例如:陶兴等[18]提出了一种改进的W2V-MMR自动摘要生成算法,实现了对网络问答社区内用户生成问答文本的自动摘要。

3.2  国外网络问答社区研究热点分析

通过CiteSpace软件生成国外网络问答社区研究的关键词聚类图谱,如图3所示。在关键词聚类图谱中共生成14个聚类主题。根据研究对象的不同,可以将这14个聚类主题划分为用户、专家、问题及答案4个大类,如表2所示。

3.2.1  网络问答社区用户方面的研究

国外网络问答社区研究中关于用户的研究共包括3个聚类主题,分别是#0 intention、#7 behavior、#13 payment。研究主要集中在用户行为、用户意愿以及用户付费方面的研究。其中关于用户行为、用户意愿的研究成果相对较多。

对于用户行为的研究主要是对于网络问答社区中用户信息行为的研究,如用户的持续参与行为、知识贡献行为、价值创造行为以及信息采纳行为等。学者们多基于某种理论或框架开展研究,并通过实证研究来得出结果或验证假设是否成立。例如:Fang等[19]基于计划行为理论,通过对网络问答社区的在线调查,探究了激励用户持续参与网络问答社区的因素以及潜伏者、询问者和回答者之间持续参与因素的差异。Yang等[20]运用自我决定理论和刺激-有机体-反应框架研究了网络问答社区中用户的价值创造行为。而学者们对于用户意愿的研究则更多的是对于用户知识共享意愿的研究。

3.2.2  网络问答社区专家方面研究

国外网络问答社区专家方面的研究共包括3个聚类主题,分别是#1 expert recommendation、#5 expert ranking、#7 expert finding。對于网络问答社区中专家的研究一直以来都是国外问答社区中的研究热点,研究主要集中在专家发现、专家排名、专家推荐以及专家预测等方面。

学者们对于专家发现、专家推荐的研究通常采用基于深度学习模型来实现专家发现或推荐。例如:Liu等[21]基于图卷积神经网络提出了GCN Doc和GCN Lstm两种模型来进行专家识别。Wang等[22]基于卷积神经网络提出了一种对新提出问题推荐专家的方法,从而减少了提问者的等待时间,提高了答案的质量。在专家预测方面,学者们一般采用机器学习或者深度学习的方法来实现预测。例如:Xiong等[23]基于机器学习算法设计了一个可视化分析系统,用来识别潜在的专家。

3.2.3  网络问答社区提问问题研究

国外网络问答社区提问问题方面的研究共包括4个聚类主题,分别是#2 question retrieval、#3 duplicate question detection、#9 question recommendation、#11 question classification。国外对于网络问答社区中提问问题的研究主要集中在问题组织、问题检索、问题推荐等方面。

对于问题组织研究最多的是问题分类方面,学者们多采用分类算法来实现分类。Li等[24]提出了一种基于集成学习的半监督问题分类方法,提高了对于未标记问题进行分类的准确性。Momtazi[25]提出了一种基于无监督LDA算法的问答社区问题分类方法。在对于问题检索方面研究,一方面是解决问题检索中的词汇空缺问题,另一方面是估计问题之间的相关性。在网络问答社区对问题进行检索时,词汇空缺会影响问题的检索。因此,有学者提出了不同的检索模型来解决此问题。例如,Zhou等[26]使用基本的类别驱动模型MB-NET和增强的类别驱动模型ME-NET,利用网络问答社区页面中类别信息的元数据对分布式单词表示进行建模和学习,来用于问题检索。同时,推荐任务也是人工智能领域的研究热点。学者们多通过构建基于深度学习的神经网络模型来实现问题的推荐。

3.2.4  网络问答社区的答案方面研究

国外网络问答社区研究中关于答案方面的研究共包括4个聚类主题,分别是#4 answer ranking、#8 answer selection、#10 answer quality evaluation、#12 answer quality features。国外网络问答社区的答案方面研究主要集中在对于答案质量、答案组织以及答案选择的研究。对于答案质量的研究,可以分为答案质量预测、答案质量评价、影响答案质量的因素等研究方向。学者们一般基于技术方法构建答案质量预测模型,来选择最佳答案。在答案质量评价研究中,学者们关注答案质量评价的标准及影响答案质量评价的因素。对于答案组织的研究涵盖了答案的排序、推荐、匹配等方面。Zhu等[27]采用异构信息组织技术作为外部知识产生器,提出了一种基于领域空间模型的排序方案,将问题中的领域术语集成在一起对答案进行了排序。在答案选择的研究中,学者们一般基于深度学习模型来实现网络问答社区中的答案选择。

3.3  国内外网络问答社区研究热点比较与启示

通过比较国内外网络问答社区研究热点发现:首先,国内外网络问答社区的研究内容几乎都涵盖了问答社区中的用户、专家、问题和答案这四个主要领域。专家预测是国外网络问答社区研究的热点之一,而国内研究中却缺乏对专家预测的研究,同样国内对于重复问题检测以及答案选择的研究亦是不足。在其他方面,知识付费与知识传播是国内网络问答社区研究的热门领域,而国外关于这两个领域的研究相对较少。其次,在研究方法及技术上,可以看到国外关于网络问答社区中的研究大都偏向于技术方面的研究,如算法的改进、模型的构建、新技术的提出与应用等,而采用理论方法的研究相对较少。而在国内网络问答社区研究中,技术性研究与理论性研究是并重的。另外,值得注意的是,在技术性研究中,国内外网络问答社区最近的研究中都应用了深度学习技术。最后,从研究者的专业背景及发文期刊来看,图情领域的学者是国内网络问答社区研究中的主要力量,其研究成果也大都发表在图情领域的期刊上。而具有计算机学科背景的研究者则是国外网络问答社区研究的中坚力量,国外网络问答社区研究发表在计算机科学与信息科学领域期刊上的成果相对较多。

比较分析中外网络问答社区的研究热点及其发展脉络,针对我国网络问答社区研究具有以下启示:

首先在研究内容上,即要深化完善已有的研究领域,又要扩大研究范围。虽然我国网络问答社区研究在用户行为、质量评价、知识付费、内容组织及挖掘等研究中已取得不少研究成果,但还是应当继续深化完善这些研究。以网络问答社区问题的组织及挖掘研究为例,我国学者在问题的分类、聚类、检索、推荐等方面都有研究成果,但总的来说,成果还是相对较少,要继续深化这些研究;再是通过对比国外的研究,我们还缺乏一些方向的研究,要完善这一部分的研究。另一方面,随着网络问答社区的不断发展,网络问答社区的建设会出现新的内容,会带来新的问题,使得研究范围不断扩大。学者们要不断地去探究这些新现象的原理,不断地去解决新问题。

其次从研究方法来看,越来越多的研究方法被学者们应用到网络问答社区的研究中,这些研究方法大致可以分为理论研究方法和技术研究方法。在应用理论方法的研究中,既要不断地创新网络问答社区研究中已有的研究方法,又要善于将其他领域中成熟的、能够促进网络问答社区研究发展的方法应用到网络问答社区的研究中。同时还要借鉴国外的一些理论研究方法,从而促进我国网络问答社区研究的发展。在应用技术方法的研究中,将深度学习技术应用到网络问答社区的研究中是不可避免的趋势,这在国外应用技术方法的研究中都有体现。深度学习在很多方面是要优于传统的机器学习方法的,所以要将深度学习技术应用到网络问答社区的研究中。

最后,学者们研究过程中要以用户为中心,从用户需求出发,将以用户为中心的理念贯穿到网络问答社区的研究中。同时,也要将研究成果要应用于实践中,这有利于提升网络问答社区的服务质量,减少用户获取知识的成本,促进网络问答社区的发展。网络问答社区是一个不断生长着的有机体,对于网络问答社区的研究要与时俱进,要积极探寻新的研究方向,同时也要注意网络问答社区在发展中所出现的问题,总结经验教训,促进网络问答社区的发展与网络问答社区研究的突破。

4  結  论

本文以Web of Science和CNKI为文献来源,通过发文量分析了国内外网络问答社区研究的发展脉络。采用文献计量学方法,运用CiteSpace可视化工具对国内外网络问答社区研究领域的文献进行可视化的对比分析。在全面分析了中外网络问答社区的研究热点及其发展脉络的基础上,根据国内外网络问答社区研究在研究热点及其发展脉络上的异同,提出针对我国网络问答社区研究的启示和思路。然而,本研究还存在着一定的不足,仅梳理了国内外网络问答社区研究的发展脉络及研究热点,并没有预测和分析国内外网络问答社区的研究前沿和趋势。未来笔者将进一步分析国内外网络问答社区的研究前沿,以期预测网络问答社区研究未来的发展方向,从而为我国网络问答社区研究的发展提供参考。

参考文献:

[1] 沈旺,李世钰,刘嘉宇,等.问答社区回答质量评价体系优化方法研究 [J].数据分析与知识发现,2021,5(2):83-93.

[2] GAZAN R. Social Q&A [J].Advances in Information Science,2011,62(12):2301-2312.

[3] 姜雯,许鑫.在线问答社区信息质量评价研究综述 [J].现代图书情报技术,2014(6):41-50.

[4] 赵雪芹,王青青.在线问答平台用户旅游信息需求研究—以途牛问答社区为例 [J].农业图书情报学报,2020,32(10):47-55.

[5] 刘烁,陈盼,杨冰香,等.基于知乎抑郁症问答社区的用户健康信息需求分析 [J].护理研究,2021,35(13):2273-2279.

[6] 周国韬,龚栩,邓胜利.基于主题分析的用户养生健康信息需求演化趋势研究 [J].情报科学,2022,40(4):118-126+137.

[7] 郭顺利,步辉,何宏国.基于G-Kmeans的网络问答社区话题用户信息需求聚合方法及应用研究 [J].情报理论与实践,2022,45(6):170-178.

[8] 郭顺利,张向先,陶兴,等.社会化问答社区用户生成答案质量自动化评价研究——以“知乎”为例 [J].图书情报工作,2019,63(11):118-130.

[9] 易明,张婷婷.大众性问答社区答案质量排序方法研究 [J].数据分析与知识发现,2019,3(6):12-20.

[10] 高逸飞.基于主题模型的问答社区专家发现方法研究 [D].北京:北京交通大学,2020.

[11] 黄辉,刘永坚,解庆.基于用户-标签异构网络的社区问答专家发现方法 [J].计算机工程,2020,46(2):53-58.

[12] 卢恒,张向先,张莉曼,等.理性与偏差视角下在线问答社区用户知识付费意愿影响因素构型研究 [J].图书情报工作,2020,64(19):89-98.

[13] 赵菲菲,渠性怡,周庆山.在线问答社区用户知识付费意愿影响因素实证研究 [J].情报资料工作,2019,40(1):89-97.

[14] 王志英,邓航宇,王念新,等.问答社区信息安全突发事件应急知识传播模型研究 [J].情报杂志,2019,38(10):136-145.

[15] 王忠义,张鹤铭,黄京,等.基于社会网络分析的网络问答社区知识传播研究 [J].数据分析与知识发现,2018,2(11):80-94.

[16] 蒋竞,吕江枫,张莉.中文软件问答社区主题分析研究 [J].软件学报,2020,31(4):1143-1161.

[17] 唐晓波,刘江南.基于BERT和TF-IDF的问答社区问句自动标引研究——以金投网问答社区为例 [J].情报科学,2021,39(3):3-10.

[18] 陶兴,张向先,郭顺利,等.学术问答社区用户生成内容的W2V-MMR自动摘要方法研究 [J].数据分析与知识发现,2020,4(4):109-118.

[19] FANG C C,ZHANG J T. Users' continued participation behavior in social Q&A communities: A motivation perspective [J].Computers in Human Behavior,2019,92:87-109.

[20] YANG X C,SUI Y. Value cocreation behavior of users in an online social question-andanswer community [J].Social Behavior and Personality,2021,49(5):1-14.

[21] LIU C,HAO Y C,SHAN W,et al. Identifying Experts in Community Question Answering Website Based on Graph Convolutional Neural Network [J].IEEE Access,2020,8:137799-137811.

[22] WANG J,SUN J Q,LIN H F,et al. Convolutional neural networks for expert recommendation in community question answering [J/OL].Science China-Information Sciences,2017,60(11).[2022-09-28].https://link.springer.com/article/10.1007/s11432-016-9197-0#citeas.

[23] XIONG X X,FU M,ZHU M,et al. Visual potential expert prediction in question and answering communities [J].Journal of Visual Languages and Computing,2018,48:70-80.

[24] LI Y Y,SU L,CHEN J,et al. Semi-supervised learning for question classification in CQA [J].Natural Computing,2017,16(4):567-577.

[25] MOMTAZI S. Unsupervised Latent Dirichlet Allocation for supervised question classification [J].Information Processing & Manahement,2018,54(3):380-393.

[26] ZHOU G Y,HUANG J X J. Modeling and Learning Distributed Word Representation with Metadata for Question Retrieval [J].IEEE Transactions on Knowledge and Data Engineering,2017,29(6):1226-1239.

[27] ZHU N N,ZHANG Z J,MA H Q. Ranking answers of comparative questions using heterogeneous information organization from social media [J].Signal Image and Video Processing,2019,13(7):1267-1274.

作者簡介:迟秀铭(1988—),女,汉族,山东烟台人,馆员,硕士,研究方向:数字图书馆、信息管理;房旭辉(1997—),男,汉族,山东德州人,硕士研究生在读,研究方向:信息管理、知识服务;郭顺利(1989—),男,汉族,山东临沂人,副教授,博士,研究方向:信息管理、知识服务。

收稿日期:2022-10-18

基金项目:国家社会科学基金青年项目(20CTQ028)

猜你喜欢
比较分析
高校图书馆与互联网知识服务的比较及发展策略
安徽省区域经济竞争力研究
其他综合收益的国际比较分析及对我国的启示
所得税会计处理方法的比较分析
所得税会计处理方法的比较分析
我国科技决策咨询发展现状及完善
关于pps抽样技术在全国各地社会工作人员考试合格人数
经管类本科生就业期望与实际就业的比较分析
当代社会政治思潮对中国的影响