刘 娜,余光胜,毛荐其
(1. 山东工商学院 工商管理学院,山东 烟台 264005; 2.复旦大学 管理学院,上海 200433)
基于网络数据的经管学科研究趋势测度
刘娜1,余光胜2,毛荐其1
(1. 山东工商学院工商管理学院,山东烟台264005; 2.复旦大学管理学院,上海200433)
摘要:随着越来越多的交流、合作、共享、搜寻和收集信息发生在多样化的社会网络中,海量的网络数据正成为科学研究的数据源。为了解以网络数据作为数据源的经管领域科学研究的动态景观,本文基于从SSCI及SCI-E数据库提取的相关文献数据,应用科学计量的方法及指标、社会网络分析方法和突现检测算法,开展该领域的测度研究。研究发现该领域的科学产出增长显著;美国在该领域占据绝对领导地位,中国论文世界份额上升最为明显,具有较高的科学影响力及合作影响力;该领域跨国家/地区的科学合作网络呈现出相对稳定的扩张;该领域的研究热点主题有行为、信任、挖掘、内容、情绪、态度、预测等,前沿主题有内容、大数据、社会商务、情绪分析、行为等。本研究为未来基于网络数据的经管科学研究提供了借鉴。
关键词:网络数据;科学动态;合作网络;突现检测;热点;前沿
一、引言
当今互联网时代,各式各样的网络在我们的日常生活和工作中正变得日益重要,如维基百科及百度百科等各类知识共享平台,博客、Yahoo!Answer及Google Answer等内容社区,美国的Twitter、Facebook和中国的新浪微博、腾讯微博等社交网站,职业社交网站LinkedIn及学术社交网站ResearchGate,谷歌及百度等各类搜索引擎,企业及政府各类网站等。多样化的社会网站增加了我们的在线体验,个人或组织比以往任何时候花费更多的时间通过社会网站进行社交、沟通、合作、共享、搜寻和收集信息。网络用户的网络活动产生了海量的网络数据,为科学研究者提供了前所未有的数据源。
海量的网络数据由网络用户直接创造或生成,记录着个人或组织的网络行为,蕴含着网络用户的兴趣爱好、消费习惯、观点、情绪、网络关系等。网络数据有别于从数据库、年度报告、访谈或问卷调查获得的传统的统计数据,具有覆盖面广、时效性强、灵活性、易获得、海量性、精确性等显著优势[1]。当今大数据时代,传统来源的数据的弊端不断凸显,如数据库及年度报告存在滞后性、覆盖面窄,个人或组织对自发的学术研究问卷调查或访谈的响应率通常比较低,追踪性的调研难以实现等。
鉴于网络数据众多优势和传统数据的弊端,海量的网络数据似乎有巨大的潜力推动未来科学的进步。海量的网络数据在经济管理领域科学研究中的应用及挖掘开始逐渐得到学界的重视。Wu and Brynjolfsson (2014) 搜集了美国房地产市场相关的谷歌搜索数据,预测房地产的销售及价格,论证了用搜索引擎数据预测未来商业活动的准确性[2]。Vicente et al. (2015) 运用ARIMA模型,利用谷歌的趋势数据预测了西班牙的失业率[3]。Gök et al. (2015) 运用网络挖掘探索英国中小企业的研发活动,考察了网络挖掘作为研究方法在创新研究中的可行性及有效性[1]。Huang et al. (2015) 关注企业雇员的博客行为,分析了雇员在企业社会媒体的内容创造及消费行为的动态结构模式[4]。
尽管在经济预测、市场监测及预警、行为、创新等方面网络数据的应用及挖掘正在兴起并已取得了一定的进展,但以网络数据为数据源的经济管理领域的科学研究动态如何?目前还没有研究对其进行综合地测度。本研究试图通过文献计量方法及指标、社会网络分析方法及可视化技术、突现检测方法等探究基于网络数据的经管科学研究的动态,期望了解该领域代表性国家的科学产出、科学影响力和合作影响力、研究热点问题、前沿问题等,从而为未来该领域的科学研究提供借鉴。
二、数据
本研究选择使用复合型的关键词查询策略,从Web of Science的SSCI及SCI-E数据库提取基于网络数据的经济管理科学研究的文献数据。虽然我们试图发现一些权威的关键词检索列表,但就我们所知,目前还没有相关的研究提供该领域完善及可靠的检索词列表。因此,我们在参考Khan (2013) 及Coursaris and Van Osch (2014) 的检索词的基础上[5-6],阅读大量文献对他们的检索词进行了补充和完善,经过反复的检索实验,不断修改和完善,最终确定了本研究所使用的检索查询项。我们于2015年7月9日进行了文献检索,经过彻底的数据清洗过程,最终获得了2000-2015年间5741篇基于网络数据的经济管理科学研究的文献。我们的检索查询项设定如下:
TS =(“social media” OR “social medium” OR “internet media” OR “new media” OR “new web” OR “social web” OR “website*” OR “web site*” OR “social network site*” OR “social networking site*” OR “online social network*” OR “online communit*” OR “web communit*” OR “online network*” OR “online media” OR “search engine quer*” OR “search quer*” OR “web search” OR “internet search” OR “internet source*” OR “web data” OR “web-based method” OR “web-based data” OR “web-based study” OR “internet-based data” OR “internet-based method” OR “internet-based study” OR twitter OR tweet* OR linkedin OR typepad OR zoho OR reddit OR yelp OR pageflakes OR facebook OR youtube OR orkut OR myspace OR flock OR blog* OR micro-blog* OR weblog* OR wiki* OR yahoo* OR baidu OR “research gate” OR forum* OR webometric* OR “web metric*” OR cybermetric* OR “web impact” OR “web citation analy*” OR “web citing analy*” OR “link analy*” OR “colink analy*” OR “co-link analy*” OR “colink relationship*” OR “co-link relationship*” OR “colink network*” “co-link network*” OR “co-link impact*” OR “link relationship*” OR “link impact*” OR “link network*” OR “web hyperlink” OR “hyperlink network analy*” OR weblink* OR “web analy*” OR “log analy*” OR “log mining” OR “web log*” OR “web content*” OR “web usage” OR “web memetic*” OR “virtual memetic*” OR “web knowledge” OR “web mining” OR “web data mining” OR “World-Wide-Web mining” OR “google mining” OR “google insight*” OR “google trend*” OR “google answer” OR “google search” OR “google docs” OR “web personal*” OR “web recommend*” OR “web linkage mining” OR “web structure” OR “online valuation” OR “online review” OR “opinion mining” OR “opinion finder” OR “sentiment analy*” OR “sentiment mining” OR “web graph measur*” OR “web graph model*” OR “web structural analy*” OR “web structure analy*” OR “web temporal analy*” OR “web scraping” OR “web text analy*”)
Refined by:Web of Science Categories = (Business OR “Business, Finance” OR Economics OR Management OR “Operations Research & Management Science” OR “Planning & Development” OR “Public Administration”), Time span = 2000-2015, Database = SSCI and SCI-EXPANDED, Language=English, Document type=Article
三、结果
(一)科学产出
图1展示了基于网络数据的经济管理科学研究的产出状况。可知,该领域的科学研究产出呈现出非常显著稳定的增长,从2000年的116篇论文逐步增长到2014年的846篇。然而,2015年科学产出 (442篇) 的下降是因为我们的数据集是在2015年7月收集的。根据该图中的每年发表的论文数量的指数拟合趋势线(R2=0.91),可以推测基于网络数据的经济管理科学研究的产出的稳定增长趋势还将继续。
图1 每年发表的论文数量
图2 给出了基于网络数据的经济管理科学研究最高产的15个国家/地区的论文世界份额的年度值。这15个国家创造了该领域84%的科学研究产出。可知,在该领域的科学研究产出上,美国占据绝对的领导地位,其年度论文世界份额大都高于40%。但是,随着时间的推移,美国的论文世界份额呈现出一定的下降趋势。其他14个国家/地区的年度论文世界份额曲线推挤在该图的下半部分,并且它们都低于20%。这些国家/地区在该领域的科学研究产出与美国还存在很大的差距。我们发现,相对于其他国家/地区来说,中国在该领域的论文世界份额上升趋势最为明显。
(二)科学影响力
学术论文的影响力反映了论文得到学术圈认可的程度。一篇论文的价值越大,它得到的关注就越多,从而获得的引用频次就越高,相应的,这篇文章的科学影响力就越大。因而,为了考察15个科学高产国家/地区在基于网络数据的经济管理科学研究的影响力,我们给出了一组基于引文数据的影响力指标得分(见表1),因为考虑到单一引文指标的局限性。
从表1可知,在比较的国家/地区中,篇均引文频次最高的国家是美国,得分为19.15;接下来是法国、加拿大、新加坡、荷兰与韩国;英国与中国处于同一水平上,其篇均引文频次得分都大约为11。美国的论文未被引用率为20.54%,稍高于加拿大;中国的论文未被引用率为28.07%,高于美国、英国、加拿大、澳大利、荷兰以及中国台湾。
H指数被定义为科学家发表的被引频次大于或等于H的论文的数量[7]。H指数受到大规模论文数量的影响,不能简单地推广到机构或国家层面。Molinari and Molinari (2008) 定义了一个规模调整的H指数即Hm指数(Hm=H/TN0.4,TN为某个国家或机构论文总量)用来考察国家或机构层面的科学影响力[8]。从表1可知,美国的Hm得分最大;接着是加拿大、韩国、法国与新加坡;中国的Hm得分为3.05,稍高于英国。
图2 Top 15个最多产国家/地区的论文世界份额
前10%最频繁被引用论文的百分比 (PPtop10 %) 同时考虑了论文的数量及质量,可以测度高质量的科学研究产出[9]。某个国家i在某领域的PPtop10 %可以通过下式计算得到:PPitop10%=NCitop10%/TNCi,其中,NCitop10%表示国家i在该领域世界前10%最频繁被引用论文的数量;TNCi是国家i在该领域总的论文数量。从PPtop10 %的计算可知,不同国家/地区的得分可以与世界期望水平10%比较。从表1可知,美国、加拿大、韩国及荷兰等国家的PPtop10 %得分高于世界期望水平10%;中国的PPtop10 %得分为7.99%,与英国接近,这两个国家的得分都低于世界期望水平。
以该领域论文世界篇均被引频次为基线,统计各个国家论文影响力高于世界均值水平的论文,即表现不俗的论文,并计算它们的比重。可知,美国与加拿大表现不俗论文比重都高于29%;韩国、荷兰及新加坡表现不俗的论文比重也处于一个较高的水平,得分在23%以上;中国表现不俗的论文比重为19.88%。
(三)跨国家/地区的科学合作网络
我们从作者的地址信息中提取他们所隶属的国家/地区信息,将跨国家/地区合著论文的国家/地区视为网络中的节点,合著关系视为网络连结关系。如果一篇论文由多个作者所著,并且他们的研究地址涉及多个不同的国家/地区,我们就假定这些国家/地区两两之间存在一次科学合作关系,进而借助Sci2Tool 软件构建跨国家/地区的科学合作网络。我们以三年为时间窗,共构建了2000-2002、2003-2003、2006-2008、2009-2011、2012-2014年间基于网络数据的经济管理科学研究的5期跨国家/地区的科学合作网络。
表2报告了跨国家/地区科学合作网络的基本特性,图3展示了这些网络的可视化结果。在图3中,节点的大小与它们的度数中心性成比例,节点越大表示它的度数中心性就越高,该节点的合作者就越多;连线的宽度与节点之间的连结强度即合作强度成比例,线条越宽说明合作强度越大,合著次数就越多。我们需要指出的是,跨国家/地区的科学合作网络是非常密集的,为了清晰地观测跨国家/地区之间显著的合作关系及网络结构,我们对所构建的网络进行了缩减,即只保留合作强度在2以上的合作关系 (边的权重大于等于3)。
表1 Top 15个最高产国家/地区的引文数据 (2000-2015)
表2 跨国家/地区科学合作网络的特性
根据表2及图3,在过去的15年中,基于网络数据的经济管理科学研究的跨国家/地区的科学合作网络在稳定地扩张。2000-2002年间,跨国家/地区的科学合作网络中仅有4个国家,网络呈现严格的星型结构;2006-2008年间,网络中增加了9个国家/地区;参与国际科学合作的国家/地区持续增长,发展到2012-2014年间,网络中已经有28个国家/区域。网络中边数的变化表明跨国家/地区科学合作关系的数量在缓慢地增长。2000-2002年间,跨国家/地区的合作网络中仅有3条边,表明仅4个国家/地区之间存在科学合作关系;发展到2012-2014年间,网络中的边数上升到了97,表明跨国家/地区的科学合作活动在世界范围内得到了一定的扩展。2000-2002年间,科学合作网络中节点的平均度中心性是1.5,表明网络中每个国家/地区平均与其他1.5个国家/地区之间存在科学合作关系;2012-2014年间,节点的平均度中心性增加到了6.93,表明国家/地区的科学合作影响力范围得到了稳定的扩展。从五个时间段的网络密度得分来看,跨国家/地区的科学合作网络还不太密集,还有很大的发展空间。从2006-2008年间,网络开始呈现出一定的集团化。2012-2014年间,网络聚集系数得分为0.78,网络聚集较为明显并呈现出中心—外围的网络结构。从平均路径长度及直径的得分来看,跨国家/地区的科学合作网络具有较短的路径长度和较大的连通性。中心势用来度量网络中行动者的集中趋势及差异性程度。从网络接近中心势的得分来看,虽然网络中节点的接近度的变异程度已经明显减少,但仍然比较大。
如图3所示,在我们考察的五个时间段内,美国都居于跨国家/地区科学合作网络的中心位置。从节点的大小及边的宽度来看,美国的度中心性及合作强度明显高于其他国家/地区,证实了美国在跨国家/地区科学合作中的优势地位。在跨国家/地区的合作中,表现出相对显著影响力的国家/地区还有中国、加拿大、英国、韩国。特别地,发展到2012-2014年间,中国已经成为美国最主要的合作者。
(四)热点及前沿主题
为了探索基于网络数据的经济管理科学研究的热点及前沿主题,我们选择将作者关键词作为分析对象。作者关键词最能够表述一篇论文的中心内容,但是它是非标准化的。因此,为了降低数据的噪声干扰,我们首先利用Sci2Tool软件的数据清洗功能对作者关键词进行了反复清洗。
我们首先统计了各个研究主题的频次,以了解基于网络数据的经济管理科学研究的热点问题。表3报告了20个频繁出现的研究主题的统计结果。显然,“网络数据”来源相关的研究主题的频次较高,如社会媒体、互联网、网站、博客、微博、万维网、社交网络、脸谱网等。经济管理“研究内容”相关的热点主题集中在以下几个方面:行为,包含消费者行为、行为意向、购买行为、在线行为等;电子商务;营销,包含网络营销、营销传播、关系营销等;信任,包含在线信任、信任传递、社会信任等;挖掘,包含数据挖掘、网络挖掘、文本挖掘、观点挖掘、关联挖掘等;内容,包含用户生成的内容、内容分析、网站内容、媒体内容等;创新,包含用户创新、创新采纳、创新扩散等;情绪,包含情绪分析、情绪挖掘、投资者情绪等;态度,包含态度变化、品牌态度、产品态度、态度分析等。
图3 跨国家/地区科学合作网络的动态演化
“网络数据获得”相关的主题经济管理“研究内容”相关的主题主题频次主题频次包含的其他主要主题socialmedia502behavior411consumerbehavior,behavioralintention,buyingbehavior,onlineBehaviorinternet399ecommerce399b2cecommerce,b2becommerce,ecommerceservicewebsite150marketing301internetmarketing,marketingcommunication,relationshipmarketing,viralmarketingonlinecommunity111trust300onlinetrust,e-trust,trustTransfer,contenttrust,socialtrustblog95mining269datamining,webmining,textmining,opinionmining,associationmining,blogminingsocialnetworking95content198usergeneratedcontent,contentanalysis,websitecontent,mediacontenttwitter89innovation192userinnovation,innovationadoption,innovationdiffusionworldwideweb88sentiment139sentimentanalysis,sentimentmining,investorsentiment,emotionfacebook81intention132purchaseintention,behavioralintention,continuanceintention,entrepreneurialintention,travelintentiongoogle53attitude110attitudechange,brandattitude,productattitude,attitudeanalysis
为了进行研究主题的结构分析,我们利用Sci2Tool 软件构建了研究主题的共现网络。图4报告了研究主题共现网络的最大连通分图的可视化结果。在该图中,节点代表研究主题,其大小与它共现的主题数成比例;连线代表研究主题之间的共现关系,其宽度与其连结的两个主题的共现频次成比例。需要说明的说,研究主题共现网络是非常密集的。因此,我们对该网络进行了缩减,以清晰地观察网络的结构关系。也就是说,一个节点会出现在网络中,如果它与至少4个其他研究主题发生了共现关系;一条边会出现在网络中,如果其连结的两个研究主题之间的共现频次超过了2次。
由图4可知,网络数据获得相关的主题具有较大的网络中心性和较多的网络连接,并占据较为中心的网络位置,如社会媒体、互联网等。研究内容相关的主题连结着网络数据获得相关的主题。我们可以从研究主题共现网络中识别出8个研究内容相关的聚集子群。子群1位于网络的左中侧,可以定义为“挖掘”子群。子群2位于网络的左下方,该子群较为松散,涉及“预测”及“数据分析”相关的研究内容。子群3位于网络的左上方,反映了“内容分析”相关的研究主题。子群4位于网络的正上方,可以定义为“信任”子群。子群5涉及“行为”研究,如决策行为,消费者行为等。子群6反映了“创新”研究,主要是与用户相关的创新研究。子群7位于网络的正下方,以“电子商务”为中心节点,涉及“电子商务”相关的研究。利用网络数据进行价格预测在共现网络中也具有可见性,见子群8。
为了识别和探索基于网络数据的经济管理科学研究的前沿问题,我们使用Kleinberg (2003) 的突现检测算法[10]识别该领域突现的研究主题并给出了突现值最大的50个研究主题 (见表4)。由表4可知,该领域研究主题在过去的15年中不断地突现。研究主题“社会媒体”具有最大的突现值,其值为57.96,说明该研究主题自2013年起在文献中的出现频次经历了最大的突然性的增长,并且它的突现仍在继续,因为其突现时间还没有结束。此外,网络数据获得相关的研究主题,如“互联网”、“万维网”、“微博”、“脸谱网”以及“社交网络”等也具有较大的突现值。商务及市场相关的突现主题涉及“电子商务”、“网络营销”、“社会商务”、“电子市场”、“零售”、“网络购买”、“市场导向”;从突现时间来看,除社会商务外,其他几个商务及市场相关的突现主题的突现历程已结束。消费者相关的突现主题涉及“消费者行为”、“客户满意度”、“网络消费者”、“消费者信任”及“客户忠诚度”,它们的突现历程都已结束。一般管理相关的突现主题涉及“战略”、“管理”、“行为”、“组织”及“人力资源”,除“行为”及“人力资源”外,其他几个主题的突现已结束。数据挖掘及分析相关的突现主题涉及“大数据”、“观点挖掘”、“网络挖掘”、“情绪分析”及“文本挖掘”,“大数据”及“情绪分析”的突现仍在继续。
图4 研究主题共现网络
四、结论
伴随着大数据时代的到来及高性能计算的发展,海量的网络数据似乎有巨大的潜力推动未来的科学进步。从现有文献研究来看,网络数据将会或至少在某种程度上成为经管领域科学研究的数据源。这就要求我们科学工作者对网络数据在科学研究中的应用予以关注。通过对基于网络数据的经济管理科学研究的测度,我们主要得出了以下结论:
(1)该领域科学研究产出增长非常明显,并有进一步增长的趋势;该领域科学产出呈现马太效应,少数几个国家创造了该领域绝大多数科学产出;美国是该领域最主要的科学生产者;中国在该领域的论文世界份额上升最为明显。
(2)综合考虑几个影响力指标,美国、加拿大、韩国在该领域的科学影响力高;英国、中国及法国的科学影响力较高;而澳大利亚、意大利及西班牙的科学影响力较低。
(3) 该领域跨国家/地区的科学合作网络的扩张表现得相对比较稳定;美国仍然是该领域科学研究最主要的合作国家;中国已经发展成为美国最主要的合作者。
(4) 基于网络数据的经济管理科学研究的内容涉及诸多方面,呈现多样化的特征。该领域研究的热点主题有“行为”、“电子商务”、“信任”、“挖掘”、“内容”、“创新”、“情绪”、“态度”、“预测”等。前沿主题有“用户生成的内容”、“大数据”、“社会商务”、“情绪分析”、“行为”、“人力资源”等,应予以关注。
表4 Top 50个突现的研究主题
参考文献:
[1]Gök, A., Waterworth, A., & Shapira, P.. Use of web mining in studying innovation [J]. Scientometrics, 2015, 102(1), 653-671.
[2]Wu, L., & Brynjolfsson, E., The future of prediction: How Google searches foreshadow housing prices and sales [M].in Economic Analysis of the Digital Economy. University of Chicago Press, 2014, 89-118.
[3] Vicente, M. R., López-Menéndez, A. J., & Pérez, R., Forecasting unemployment with internet search data: Does it help to improve predictions when job destruction is skyrocketing?[J]. Technological Forecasting and Social Change, 2015, 92: 132-139.
[4] Huang, Y., Singh, P. V., & Ghose, A., A structural model of employee behavioral dynamics in enterprise social media [J]. Management Science, 2015,61(12):2825-2849.
[5] Khan G. F. Social media-based systems: an emerging area of information systems research and practice [J].Scientometrics, 2013, 95(1): 159-180.
[6] Coursaris C. K, & Van Osch W., A scientometric analysis of social media research (2004-2011) [J]. Scientometrics, 2014, 101(1): 357-380.
[7] Hirsch J. E., An index to quantify an individual's scientific research output [J]. Proceedings of the National academy of Sciences of the United States of America, 2005, 102(46): 16569-16572.
[8] Molinari, J. F., & Molinari, A., A new methodology for ranking scientific institutions [J]. Scientometrics, 2008, 75(1):163-174.
[9] Bornmann, L., de Moya-Anegón, F., & Leydesdorff, L., The new excellence indicator in the World Report of the SCImago Institutions Rankings 2011 [J]. Journal of Informetrics, 2012, 6(2): 333-335.
[10]Kleinberg J., Bursty and hierarchical structure in streams [J]. Data Mining and Knowledge Discovery, 2003, 7(4): 373-397.
(本文责编:海洋)
Measuring Research Trend in Economics and Management Field by Using Web-based Data
LIU Na1, YU Guang-sheng2,MAO Jian-qi1
(1.SchoolofManagement,ShandongInstituteofBusinessandTechnology,Yantai264005,China;2.SchoolofManagement,FudanUniversity,Shanghai200433,China)
Abstract:As more and more communication, cooperation, sharing, searching and collecting information take place on the internet, internet-based big data are becoming a key source of information for scientific research. To better understand the dynamic landscape of scientific research using internet-based data in economic and management field, we perform a measure research using scientometrical analysis, social network analysis and burst detection based on corresponding articles data extracted from SSCI and SCI-E database. Results indicate that scientific output grows significantly; USA is the unchallenged leader in this field; China exhibits a rise in world share articles and it shows high scientific influence and across-countries/regions collaborative influence; Behavior, trust, mining, content, sentiment, attitude and forecast are hot topics in this field; content, big data, social commerce, sentiment analysis and behavior are frontier topics. This study provides guidance for future research in economic and management field.
Key words:Internet-based data; scientific dynamics; collaboration network; burst detection; hot topics; frontier topics
中图分类号:F204
文献标识码:A
文章编号:1002-9753(2016)04-0133-10
作者简介:刘娜(1985-),山东菏泽人,山东工商学院讲师,博士,研究方向为科技创新管理、复杂创新网络、创新计量。
基金项目:国家自然科学基金资助项目“技术生态视角的产品开发微观过程与发生机理研究”(71172086)和“基于企业知识演化观与创新生态观匹配的企业创新问题研究”(71072002)。
收稿日期:2015-11-10修回日期:2016-02-22