毛平
摘 要:大数据环境下,数据密集型研究范式逐渐成为人文社科研究的重要范式,并在人文社科领域中取得一批重要研究成果。文章以CSSCI及SSCI、A&HCI数据库为数据来源,采用定量与定性相结合的方法,从多个维度揭示了国内外人文社科大数据研究的现状、热点及前沿趋势,对比分析了国内外相关研究的异同。研究发现:国内外人文社科大数据研究均越来越受到学者关注;社会科学领域的研究要多于人文科学领域;国外研究学科分布比国内分布更为广泛;国内外研究热点主题和趋势有较大差异。
关键词:人文社科;大数据;研究热点;研究趋势
中图分类号:G250.2;C3 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2019002
Abstract Under the environment of big data, data-intensive research has gradually become an important paradigm of humanities and social sciences research, and has achieved a number of important research results in various disciplines. Sorting out the research context of big data in humanities and social sciences at home and abroad can provide reference for future research. By using CSSCI, SSCI and A&HCI databases as data sources, and combining quantitative and qualitative methods, this paper reveals the research status, hot spots and frontier trends of big data research in humanities and social sciences at home and abroad from multiple dimensions, and also compares and analyses the similarities and differences of the research at home and abroad. It is found that the research on big data in humanities and social sciences at home and abroad has attracted more and more attention from scholars, and more research has been done in the field of social sciences than in the field of humanities; the distribution of foreign research disciplines is wider than that in China and the research themes at home and abroad are quite different.
Key words humanities and social sciences;big data;hot topic;research frontier
近年來,大数据逐渐引起了国内外学者的广泛关注。从研究的学科领域上来看,大数据最早被应用于自然科学特别是计算机科学的研究之中,并在数据的获取、存储、分析、展示以及管理等方面取得了丰硕的研究成果。较之自然科学研究较高的数据依赖性,传统人文社会科学研究则更多依靠研究者的经验、直觉和思辨,以质性研究方法居多,数据使用相对较少。然而,随着社会信息化水平的不断提高以及人文社科量化研究方法的不断探索,大数据思维也逐渐渗透到人文社科研究之中,数据驱动成为经济、管理、图书情报、新闻传播、教育、法律、历史等学科的新导向,人文社科大数据研究逐渐兴起。
截至目前,国内外人文社科大数据研究已经积累了比较丰富的研究成果。然而,现有研究缺少对国内外人文社科大数据研究现状的有效梳理,难以获知该领域的国内外研究热点、发展趋势及研究特色与异同。鉴于此,笔者采用定量与定性相结合的方法,系统揭示国内外人文社科大数据研究的现状脉络与研究差异,旨在为我国人文社科大数据研究和实践发展方向提供参考与借鉴。
1 数据来源
国外研究数据以Web of Science中SSCI及A&HCI数据库为来源,以“Big Data”为主题进行高级检索,文献类型为“Article”,语种为“English”,时间跨度为1900-2017年,检索时间为2018年10月22日,共采集整理得到有效论文2250篇,文献时间分布为2010-2017年。国内研究数据以中国社会科学引文索引(CSSCI)为来源,以“大数据”为关键词在CSSCI数据库中进行精确匹配检索,时间跨度为1998-2017年,文献类型为“论文”,检索时间为2018年10月22日,剔除重复数据、期刊征文、新闻报道等共得到1864篇有效论文,文献时间分布为2012-2017年。
2 研究力量分析
2.1 发文时序分布
国内人文社科大数据相关研究始于2012年,从2013年开始爆发性增长。本研究将各年发文量进行趋势线拟合,R2值为0.9535,较为符合对数型分布,表明相关研究被我国学者持续关注,该研究领域具有较大研究空间、研究成果将保持稳定增长(见图1)。
国外人文社科大数据相关研究比我国早,始于2010年,兴起于2013年。2014年,受各国政府先后发布的相关大数据政策的影响,相关研究发文数量开始快速增加。对各年发文量进行趋势线拟合,较为符合指数型分布,R2值为0.9581,表明人文社科大数据研究同样被国外学者广泛关注,该领域具有良好的研究前景(见图2)。
2.2 发文国家/地区分布
从国际发文国家/地区分布上来看,发文量前三位依次为美国、英国和中国,分别发表873篇、246篇和240篇(见图3)。各个国家发文量分布总体上体现二八幂律形态,美国、英国、中国、澳大利亚、韩国、加拿大和德国7个国家发文较多,共计1865篇,占全部发文量的80%左右,其他67个国家/地区的发文量占20%左右。从地理位置上看,相关研究较多的国家/地区主要分布于北美、西欧、北欧以及亚洲的中国、印度、新加坡和台湾地区。这些国家/地区ICT基础设施较好,网络普及率较高。这也表明人文社科大数据研究需要具备一定的社会信息化水平和较好的信息技术环境。
从国际上各国家/地区发文影响力上看,考虑文献数量及样本大小等差异情况下,本文选用基于H指数改进的指标Hm指数[1]衡量各国发文影响力,计算得出排名前三的国家分别是法国、澳大利亚和美国,其Hm指数值分别是3.26、3.13和3.12,紧随其后是英国、中国、丹麦、荷兰、德国、韩国、加拿大等国家/地区。美国虽在该领域的研究仍然处于领先地位,被引用频次及篇均被引用频次是所有国家中最高的,但从Hm指数值来看,发文量并不算最多的法国、澳大利亚,其Hm指数得分值也较高,甚至超过了美国。我国虽然发文量较高,但Hm指数得分值与发文量并不匹配,表明我国还需要提升发表论文的国际影响力。
2.3 发文学科及期刊分布
从发文的学科分布上来看,国内人文社科大数据研究在学科分布上并不均衡(见图4)。考虑各学科发文数量及发文增长速度,大体上可以分为三个方阵:第一方阵为图书馆、情报与文献学,新闻学与传播学,教育学和经济学4个学科,此方阵中的各学科发文量多,增长也较快,特别是图书馆、情报及文献学学科,发文数量尤其突出,远远高于其他学科;第二方阵为政治学、法学、统计学与社会学,此方阵中各学科发文量及发文增长率居中,有较大发展潜力;第三方阵为文化学、历史学、文学、艺术学等学科,此方阵中各学科无论是发文数量还是发文增长率都比较低。
鉴于Web of Science中的学科分布与CSSCI的学科分布不同,为便于对比分析,笔者将WOS中部分学科做合并处理,得到部分学科统计结果(见图5)。
可以看出,国外人文社科大数据研究在学科分布上也可以大致分为三个方阵:第一方阵包括MANAGEMENT、ENVIRONMENTAL STUDIES、INFORMATION SCIENCE LIBRARY SCIENCE三個学科,各学科发文量及发文增长速度要显著高于其他学科;第二方阵包括SOCIOLOGY、GEOGRAPHY、COMMUNICATIONS、HEALTH CARE SCIENCES SERVICES、ECONOMICS、EDUCATION SCIENTIFIC DISCIPLINES、LAW、STATISTICS PROBABILITY、ETHICS等学科,这些学科虽然发文量不及前三个学科,但发文量的增长速度较快;第三方阵包括LITERATURE、HISTORY、ART、CULTURAL STUDIES等学科,这些学科发文量比较少,且增长速度较慢,甚至有减少的趋势。
从发文期刊分布上看,国内研究主要集中于图书情报类期刊,发文量排名前三位的分别是《情报理论与实践》(75篇)、《图书与情报》(67篇)以及《情报杂志》(60篇),发文量排名前20的期刊中有7种图书情报类,3种教育类,2种新闻传媒类,2种统计类,4种编辑出版类,2种管理类。国外研究发文量前三位的期刊分别是环境科学及绿色可持续类期刊SUSTAINABILITY(39篇)、环境科学类期刊JOURNAL OF CLEANER PRODUCTION(34篇)及医学类期刊PLOS ONE(29篇),其他前十位包括JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION、SCIENTOMETRICS、INTERNATIONAL JOURNAL OF GEOGRAPHICAL INFORMATION SCIENCE、TECHNOLOGICAL FORECASTING AND SOCIAL CHANGE等,涵盖信息、法律、人文地理等学科。
从国内外人文社科大数据研究的学科分布上可以看出,国内外研究的学科分布存在较大差异:首先,国内研究主要集中于图书情报学、新闻传播学、统计学和教育学等学科上,尤其在图书情报学领域的研究比较多。这是由于大数据概念在提出初期,在计算机科学领域有较多应用,在我国人文社科的众多学科中,与计算机科学联系最为紧密的无疑是图书情报学,这种联系从图书情报学的研究范式演变中可窥豹一斑,因此国内图书情报学在大数据的研究上较之其他学科更多。国外研究则主要分布在管理学、经济学、社会学、图书情报学以及环境科学等学科。除了图书情报学之外,国内研究较多的新闻传播学及教育学并没有成为国外研究的重点学科领域,而在环境科学、社会学等领域,国外学者较之国内学者关注更多;其次,国外相关研究在各学科的平均研究热度要高于国内,即国外研究中处于第二方阵的学科较多,体现出百花齐放的形态,国内研究则主要集中在少数几个领域。这表明,我国的人文社科大数据研究有向社会学、环境科学、公共卫生、健康医疗等领域扩展的空间;最后,国内在地理学中的研究相对较少,国外的相关研究,尤其是在人文地理方面的研究则相对较多,这也揭示了地理大数据、空间大数据等空间变量在人文社科研究中的应用,增加了研究维度的丰富性。
2.4 发文机构分布及合作网络分析
从国内研究机构分布上看,发文量排名靠前的分别是中国人民大学、南京大学、清华大学、北京大学、中国科学院等。共涉及作者2717名,平均每篇发文作者数为1.5个,表明国内人文社科大数据研究的作者合作相对松散。在机构合作上,全部发文共涉及1931个组织机构,各个研究机构之间的合作也比较分散,没有形成较大的合作网络。
在国外研究的机构分布上,发文量排名靠前的机构为密歇根大学、斯坦福大学、哈佛大学、武汉大学、纽约大学、麻省理工学院、华盛顿大学、中科院、牛津大学和亚利桑那州立大学等。共涉及5707名作者,平均每篇发文作者数为2.5个。在国家/地区合作上,全部发文共涉及73个国家/地区,在发文5篇以上的40个国家/地區中有8个合作网络。在机构合作上,全部发文共涉及2020个组织机构,发文5篇以上的230家机构中,有包括哈佛大学、斯坦福大学、牛津大学、中国科学院等在内的16个合作网络。本文使用VOSviewer分别绘制国家/地区合作网络(见图6)与机构合作网络(见图7),可以看出,各国家/地区之间、各机构之间的合作并不十分紧密。
3 研究热点分析
3.1 国内人文社科大数据研究热点
通过关键词共现分析可以发现研究对象之间的亲疏关系,挖掘潜在的或者隐含的有用知识,并能够揭示研究对象所代表的学科或者主体的结构与变化[2]。本文以关键词为对象,使用CiteSpace软件构建高频关键词共现网络进行聚类获取研究热点主题(见图8),共得到11个主题聚类。其中模块度Modularity Q值为0.6596,平均轮廓度Silhouette为0.4754,聚类效果良好。
(1)主题类1:大数据应用。包括“大数据”“商业模式”“社会治理”“精准扶贫”“计算社会科学”等关键词。大数据环境下,商业模式、社会治理等多个人文社科领域出现新的思维模式和实现方式。如数据挖掘已经在营销、人力资源、电子商务等各商业领域广泛应用,从管理学的角度应用大数据技术以支持商业分析和决策,成为商学院教育的热点方向,以数据驱动为主导的金融、市场、战略、营销和运作管理研究和实践指导,成为经济管理重点发展的核心领域[3]。此外,大数据给社会计算提供了机遇,主要呈现两个发展趋势:一个是面向社会科学,包括计算社会科学、计算社会学、社会网络分析等;另一个是面向技术应用,包括社交应用、娱乐应用、生产应用等[4]。如陈云松[5]采用谷歌图书811万种书籍及8613亿词汇语料库,通过检索社会学的学科关键词获取历年词频数据,基于此分析了社会学的学科轨迹,为大数据环境下的计算社会学研究提供了参考。
(2)主题类2:信息素养。包括“数据素养教育”“信息素养”“教育治理”“互联网+”等关键词。互联网+与各传统行业的结合,要求从业者具备较高的信息意识和信息技能等信息素养,能够判断何时需要信息,并懂得如何获取信息、评价信息和有效利用信息成为普适性需求。在大数据时代,数据素养是信息素养的一种扩展,数据意识、数据能力及数据伦理等数据素养的研究内容值得学者关注[6]。
(3)主题类3:智慧教育。包括“电子书包”“学习分析”“个性化学习”等关键词。利用在线学习产生的痕迹数据,分析学习者的学习状态及学习特征、偏好等,通过基于大数据分析的用户画像,为学习者提供个性化学习的差异化策略。基于大数据的学习分析让教育变得千人千面,契合“因材施教”理念,适应了个性化和人性化的学习需求变化[7]。
(4)主题类4:图书馆信息服务。包括“图书馆服务”“信息服务”“个性化服务”“本体”等关键词。大数据为图书馆信息服务的提升提供了分析基础,大数据可以为图书馆建立各类风险评估模型、进行用户流失分析及价值分析、建立新型知识服务引擎、建立更加灵活和智能的网络化信息资源智能组合形式,从而提升信息服务质量等[8]。
(5)主题类5:情报服务。包括“情报分析”“应急决策”“突发事件”“情报体系”“情报工程”“情报研究”等关键词。情报服务中引入多源头数据,使用大数据分析方法、技术可提升情报服务质量及实时响应时间。如李广建和江信昱[9]讨论了竞争情报、商业管理、生物医学、政府治理以及军事情报等不同领域在大数据环境下的情报分析的发展动向,指出大数据理念与方法对这些领域产生深刻影响等。
(6)主题类6:统计学。包括“小数据”“机遇”“应对策略”等关键词。大数据时代给统计学带来了新的生命力,大数据的应用可提高统计质量、降低统计成本[10],但同时也给传统的基于小数据样本分析的统计学带来了挑战。大数据将使传统统计学的研究对象、计算规范及工作过程等发生重大转变[11]。
(7)主题类7:数据新闻。包括“新闻生产”“新闻传播”“媒介融合”“重构”“文本挖掘”等关键词。大数据环境影响了新闻传播工作的方方面面,大数据渗透到新闻生产的各个核心环节,大数据技术重新树立了新闻质量的标杆,进一步提升了新闻受众反馈的价值,拓展了用户分析的广度与深度。在大数据技术等因素的推动下,新闻业务实现方向性调整,如趋势预测性新闻和数据驱动型深度报道分量的增加,数据呈现、分析与解读能力的提高,新闻生产中跨界合作的增强等[12]。
(8)主题类8:数据公开。包括“政府数据开放”“大数据思维”“隐私保护”“隐私权”等关键词。大数据应用的前提是数据的可获取性与易获取性,但数据公开与隐私保护却是天然相悖,数据开放边界的控制、安全的保障、标准的制定、制度的健全仍需要进行大量探讨。
(9)主题类9:新媒体。包括“社交媒体”“舆论引导”“传统媒体”等关键词。新媒体时代,微信、微博、移动终端等自媒体的可视化生产,极大地拓展了传统媒体的渠道。全民参与社会新闻传播与共享的热情空前,新闻数据量激增。新媒体的交互性与即时性、海量性与共享性、多媒体与超文本、个性化与社群化特征,产生了基于大数据分析的传播伦理失范识别、舆情监测以及舆论引导等问题的研究诉求。
(10)主题类10:智慧校园。包括“数据管理”“高校”“创新”等关键词。校园信息化建设的重点建设内容之一是打破原有的信息孤岛,实现各业务子系统的对接与融合。系统融合后大量积累的存量数据需要活化。通过对这些数据的清洗、分析和应用,可更精准地支撑校园的日常运作与高层决策,从而提升校园智能。
(11)主题类11:网络治理。包括“网络信息伦理”“网络空间”“意识形态”等关键词。移动互联网的普及,社交媒体的发展等使得网络成为数据的重要承载体,成为国家治理的重要对象。国家网络治理在大数据的场域环境之下,治理模式的“去中心化”与决策流程的“由下而上”等凸显出了实践的新要求,同时还面临着效度困境、合规困境及安全困境等诸多挑战[13]。
3.2 国外人文社科大數据研究热点
对国外发文数据构建高频关键词共现网络并聚类,得到11个主题聚类,其中模块度Modularity Q值为0.5876,平均轮廓度Silhouette为0.6499,聚类效果良好。
(1)主题类1:Big Data Analysis(大数据分析),包括“predictive analytics”“prediction”“model”“decision making”“algorithm”“forecasting”“intelligence”等关键词。主要集中于大数据分析的算法、模型以及在预测、决策支持、商务智能等方面的应用。如商务智能分析领域数据框架的相关问题以及大数据分析在商务智能各领域的应用等。
(2)主题类2:Social Media(社交媒体),包括“social network”“web”“twitter”“facebook”“communication”“community”“online”“sentiment analysis”“user-generate content”“content analysis”等关键词。Web2.0环境下Twitter、Facebook等新型社交媒体蓬勃发展。社交媒体的网络关联性及信息承载性,使得基于短视频、短文本、标签等社交媒体UGC的研究成为学者关注的课题。如Twitter发布内容情绪与股票市场预测[14]、基于社交媒体发布内容分析的疾病预测[15]等。
(3)主题类3:Public Health(公共健康),包括“clinical trial”“personalized medicine”“bipolar disorder”“genomics”“heath care”“self-tracking”等关键词。传感器、可穿戴设备的使用,使得心跳、脉搏等浅层次、日常化、自追踪个人健康数据更易获得,专业医疗设备的研发使得基因组学等深层次、专业性个人健康数据日益精细化,结合数字化医学文献资源,借助文本挖掘等大数据分析方法及临床试验,实施精准医疗、个人健康护理与保健等成为研究的重要内容。如结合使用电子健康记录中的健康医疗数据,通过大数据分析识别和管理高风险和高成本的病人等[16]。
(4)主题类4:Urban Planning(城市规划),包括“gi”“smart city”“pattern”“visualization”等关键词。遥感、测绘等空间技术的发展以及VGI(Volunteered Geographic Information)等众包方式的推广,大量空间地理数据积聚,这些空间地理数据的分析处理为城市规划乃至智慧城市的建设提供决策支撑。如使用居民移动电话数据进行土地使用的社会功能分类[17]、基于VGI信息的社会与政治问题研究等[18]。
(5)主题类5:National Governance(国家治理),包括“government”“politics”“survey research”“policy implication”“innovation”“efficiency”等关键词。基于大数据分析可提升政策制定与执行的准确度与效度,进而提升国家治理能力。如利用居民个体事务网络数据中包含的个体交互行为,通过数据分析获取个体间社会关联,进而据此进行行政区划的逻辑划界,替代自然物理划界方式,从而提高政策受众的相关性[19];通过对大数据的分析为公共部门决策者提供广泛的新信息,进而改善政策的执行等[20]。
(6)主题类6:Sustainability(可持续),包括“energy”“climate change”“Land resource management”等关键词。工业经济发展带来的环境污染以及资源消耗问题日益受到环境科学学者们的关注,基于水、森林、土地、碳排放等大数据分析辅助决策是研究的主体。如空气污染与公民健康问题[21]等。
(7)主题类7:Machine Learning(机器学习),包括“regression”“selection”“accuracy”“data mining”“big data analytics”等关键词。此部分研究主题为机器学习方法在大数据分析中的应用。计算机科学在机器学习算法上的持续改进和更迭,为人文社科大数据研究提供了工具支撑,人文社科大数据研究中需明确相关机器学习算法的应用场景和结果的可解释性。
(8)主题类8:Privacy(隐私),包括“surveillance”“policy”“ethic”等关键词。数据开放共享的要求与个人隐私保护的矛盾,引起各国学者、政府部门对于隐私权、监管、道德伦理的广泛讨论。研究课题涉及危害个人信息隐私的用户信息轨迹追踪,数据挖掘等大数据分析算法的内生歧视等伦理道德问题[22-23]等。
对比国内外人文社科大数据研究热点,可以发现,国内外研究存在一部分相似的研究热点主题,如社交媒体,大数据治理、数据开放等主题,但也存在比较明显的研究热点差异,如国内的相关研究在图书馆信息服务、情报服务、信息素养、新媒体、网络治理等领域有着较多的研究和关注,国外的相关研究则在城市规划、健康医疗、隐私保护、道德伦理、人文地理、可持续发展等主题上相对国内关注更多。
4 研究前沿分析
4.1 国内研究前沿
突现词(Burst Terms)能准确反映某个领域的研究前沿,适合探测某个新兴领域的趋势和突然变化,运用Kleinberg突现探测算法可得到该领域的突现词语。
国内人文社科大数据研究最早的突现词是开始于2012年的“云计算”“图书馆服务”“数据挖掘”和“数据处理”,其中“云计算”和“数据挖掘”突现度高达8.0和6.9,是当时核心前沿研究内容。数据处理能力是制约数据驱动型研究的瓶颈,云计算通过分布式架构与并行处理技术极大地提升了计算能力。计算能力的提升则极大地推动了数据挖掘、数据处理等技术的深入研究和广泛应用,人文社科研究领域逐渐在研究中使用分类、聚类、关联规则等数据挖掘技术。
2013-2014年,“社交媒体”“竞争情报”“语义网”“信息服务”“知识服务”等成为国内研究关注重点。Web2.0环境下,国内微信、微博、博客以及网络社区等自媒体工具及网络社交平台不断涌现,吸引大量用户参与,社交媒体平台也成为全社会数据量存储的重要载体。受国外研究影响,我国在社交媒体领域研究开始持续增长。本质上而言,语义网(Semantic Web)、链接数据(Linked Data)及Web3.0含义相同,是用更丰富的方式来表达数据背后的含义,是数据、信息组织的重要研究内容。大数据背景下,海量、多源、异构数据的有效组织是重要研究问题。“竞争情报”为国内图书情报学研究内容,受大数据环境及数据挖掘技术等的影响,竞争情报工作在数据采集等方面面临新的局面。
2014-2015年,“互联网金融”“信息服务”“知识服务”“城市规划”,“智慧校园”等成为研究前沿,人文社科大数据研究开始逐渐向图书情报、金融、教育、城市规划等各个学科领域扩散。从2015年至今,“个人信息权”“应急决策”“开放数据”“智慧教育”“智慧城市”“媒體融合”“舆论引导”等体现较高突现性。数据的海量、多源可获取是大数据研究的基础,数据的开放共享是推动人文社科大数据研究的重要因素,然而开放数据和隐私保护天然相悖,因此在关注开放数据的同时,个人信息权的研究也将成为未来研究关注的课题。除此以外,在智慧城市、智慧教育、应急决策、新媒体融合、网络治理等领域的进一步深入研究将成为未来的前沿研究方向。
4.2 国外研究前沿
运用Kleinberg突现探测算法得到国外人文社科大数据研究突现性关键词,最早的突现词是始于2012年的“social network”“social media”“web”“twitter”“facebook”等。社交平台的广泛使用,UGC数据的大量积累,使得社交网络、社交媒体引起学者广泛研究兴趣,研究的科学问题涉及股市预测、政治选举、行政区域划分等多个方面。
2013-2014年,“public policy”“news”“methodology”“digital humanity”“culture”等成为突现词。国家政府公共政策,尤其是数据开放共享及个人隐私保护政策被研究者所关注,人文社科大数据研究中的方法论、数字人文成为研究关注领域。
2014-2015年,“ict”“mobility”“politics”“large data set”“outcome”“online”“gi”“law”“personal information”“sociology”成为突现词,人文社科大数据相关研究向经济、政治、法律、社会学等各学科领域逐步扩展。
2015年至今,除“web”“online”“personal information”“law”等早期突现词研究前沿仍将持续外,还出现了“visualization”“regression”“spatial analysis”“urban planning”“genomics”“care”“self-tracking”“community”“complexity”等新兴突现词,所体现城市规划、精准医疗、公共卫生、人文地理、空间分析、可视化领域可能成为未来的研究前沿。
5 结论
本文运用计量分析与内容分析相结合的方法,对于国内外人文社科大数据研究现状及趋势进行了探讨,并分析了国内外研究的差异,得出以下结论:
(1)通过国内外人文社科大数据研究发文数量情况对比分析,发现国内外的相关研究成果增长均十分迅速,该领域具有良好研究前景。国内的研究虽起步相对较晚,但近几年在国际化研究成果中的产出速度逐步增快。国内外的研究均呈现多学科交叉融合态势,但国外在多学科交叉研究上要优于国内。
(2)通过国内外人文社科大数据研究的发文期刊分布状态及对比分析,发现国内研究在学科分布不如国外研究学科分布均衡,国内研究有着较为明显的偏向图书情报、管理学及教育学倾向,国外研究则是在环境科学、图书情报学、经济学、管理学、社会学、地理学、医药信息、健康护理等更多的领域有涉足,虽然国外研究的统计口径为多个国家,不同国家之间可能各有侧重,但仍能给我国学者以有益启示。
(3)通过国内外人文社科大数据研究发文国家/地区分布,机构分布及合作网络状态揭示和对比分析,发现研究主要集中于社会信息化水平较高地区,国外研究主要集中于密歇根大学、斯坦福大学、哈佛大学、牛津大学等机构,国内研究机构主要集中于中国人民大学、武汉大学、南京大学、清华大学、北京大学等,国家/地区之间的合作及各机构之间的合作相对较少,但国外机构之间的合作要多于国内,国内未来需要加强,尤其是加强与国外研究机构之间的合作,进而提升学术国际影响力。
(4)通过国内外人文社科大数据研究热点及研究前沿揭示及对比,发现国内外研究热点主题均呈现出多样化分布特点,且在社会科学领域的研究均要多于人文领域的研究。国内外部分研究热点相似,但也存在较为明显的差异。国外研究的主题相对国内而言更加分散和均衡,关注的研究热点涉及大数据分析、社交媒体、健康医疗、城市规划、可持续发展、国家治理、人文地理等多个学科领域的多个主题;国内的研究热点主题主要集中于大数据应用、信息素养、社会治理、数据公开、新媒体、教育大数据等领域。未来国内研究可向城市规划、健康医疗、法律、可持续发展等领域扩展。空间分析、人文地理、环境管理、知识服务、社交网络、媒体融合、健康医疗、城市规划、智慧城市等领域可能成为国内外研究前沿,未来人文社科大数据研究可予以关注。
参考文献:
[1] Molinari J,Molinari A.A New Methodology for Ranking Scientific Institutions[J].Scientometrics,2008,75(1):163-174.
[2] 王曰芬,宋爽,卢宁,等.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64.
[3] 冯芷艳,郭迅华,曾大军,等.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013(1):1-9.
[4] 孟小峰,李勇,祝建华.社会计算:大数据时代的机遇与挑战[J].计算机研究与发展,2013(12):2483-2491.
[5] 陈云松.大数据中的百年社会学——基于百万书籍的文化影响力研究[J].社会学研究,2015(1):23-48.
[6] 黄如花,李白杨.数据素养教育:大数据时代信息素养教育的拓展[J].图书情报知识,2016(1):21-29.
[7] 姜强,赵蔚,王朋娇,等.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育,2015(1):85-92.
[8] 樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,31(11):63-68,77.
[9] 李广建,江信昱.不同领域的情报分析及其在大数据环境下的发展[J].图书与情报,2014(5):7-12.
[10] 朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016,33(2):3-9.
[11] 朱建平,章贵军,刘晓葳.大数据时代下數据分析理念的辨析[J].统计研究,2014,31(2):10-17.
[12] 彭兰.“大数据”时代:新闻业面临的新震荡[J].编辑之友,2013,1(1):6-10.
[13] 张琳,杨毅.大数据视野下国家网络治理路径优化研究[J].湖北社会科学,2015(5):43-49.
[14] Bollen J,Mao H,Zeng X.Twitter Mood Predicts the Stock Market[J].Journal of Computational Science,2011,2(1):1-8.
[15] Ireland M E,Schwartz H A,Chen Q,et al.Future-Oriented Tweets Predict Lower County-Level Hiv Prevalence in the United States[J].Health Psychology,2015,34(Sl):1252-1260.
[16] Bates D W,Saria S,Ohno-Machado L,et al.Big Data in Health Care:Using Analytics to Identify and Manage High-Risk and High-Cost Patients[J].Health Affairs,2014,33(7):1123-1131.
[17] Pei T,Sobolevsky S,Ratti C,et al.A New Insight into Land Use Classification Based on Aggregated Mobile Phone Data[J].International Journal of Geographical Information Science,2014,28(9):1988-2007.
[18] Elwood S,Goodchild M F,Sui D Z.Researching Volunteered Geographic Information:Spatial Data,Geographic Research,and New Social Practice[J].Annals of the Association of American Geographers,2012,102(3):571-590.
[19] Ratti C,Sobolevsky S,Calabrese F,et al.Redrawing the Map of Great Britain from a Network of Human Interactions[J].PlOS ONE,2010,5(12):e14248.
[20] Stough R,Mcbride D.Big Data and U.S. Public Policy[J].Review of Policy Research,2014,31(4):339-342.
[21] Chen X Y,Shao S,Tian Z H,et al.Impacts of Air Pollution and Its Spatial Spillover Effect on Public Health Based on China's Big Data Sample[J].Journal of Cleaner Production,2017,142(Sl):915-925.
[22] Barocas S,Selbst A D.Big Data's Disparate Impact[J].California Law Review,2016,104(3):671-732.
[23] Mittelstadt B D,Floridi L.The Ethics of Big Data:Current and Foreseeable Issues in Biomedical Contexts[J].Science and Engineering Ethics,2016,22(2):303-341.
作者简介:毛平(1983-),男,南京大学信息管理学院博士研究生,研究方向:网络信息资源管理、大数据分析。