章昌平 米加宁 李大宇
摘要:在网络化、信息化不断深化,大数据渗透到整个世界的背景下,我们以WOK平台核心合集为数据来源,采用文献计量和知识图谱分析方法,梳理了数据科学研究的总体态势、演化进程、发展现状、研究结构及与其他学科之间交叉、渗透的关系。在此基础上,结合数据科学交叉学科特性和在社会科学领域应用取得的成果,我们认为数据科学对社会科学研究转型的作用机制及应用前景主要表现在六个方面:(1)为解决目前社会科学研究存在的问题提供可能,(2)对社会科学认知体系产生结构性的影响,(3)构建社会科学全新的研究路径,(4)社会科学研究转向跨学科的事件导向建构方法,(5)实现对真实世界的多路径“涌现”,(6)为我国社会科学发展提供重要机遇。在此过程中,我们应当处理好交叉学科研究、辩证看待大数据、建立风险意识、处理好大数据与小数据的关系、构建新的研究技能与团队合作及促进政府数据开放和建设数据科学基础设施等问题。
关键词:数据科学;社会科学;研究范式;知识图谱
中图分类号:C0; TP311.13文献标识码:A文章编号:0257-5833(2018)09-0078-11
作者简介:章昌平,桂林理工大学公共管理与传媒学院副教授、哈尔滨工业大学管理学院博士研究生;米加宁,哈尔滨工业大学管理学院教授;李大宇,哈尔滨商业大学财政与公共管理学院讲师(广西桂林541004)
一、问题的提出
人类社会正在快速进入大数据时代。数据开始渗透并充斥着整个世界,成为重要的生产要素和战略资源。数据科学也越来越受到人们的重视。然而,目前对数据科学的综述却不尽如人意,一方面偏向历史演进的总结和研究现状中期刊、作者的展示,另一方面偏向具体应用领域。同时,关于数据科学的理论渊源的梳理也过于注重计算机科学,对其与数学、统计学、信息学等学科的渗透关系,与大数据、数据挖掘、机器学习、人工智能等领域间的交叉关系关注不够,缺乏数据科学在人文社会科学领域应用的总结和趋势分析。据此,本文拟利用一源多图(一个文献题录数据来源和多种知识图谱分析)和内容分析相结合的方法,从文献信息资源外部形态特征和知识源属性两大角度入手,综合文献学、科学学和计算机科学等多学科理论和工具对数据科学研究进展进行分析,揭示其与其他学科之间交叉、渗透的关系及自身的研究结构,并对数据科学在社会科学研究中的应用前景、机遇和挑战进行探讨,以期发现数据科学研究的规律性内容和发展趋势,从而指导其在人文社会科学领域的应用。
二、数据获取与研究方法
(一)数据获取
本文选择科睿唯安Web of Knowledge(WOK)检索平台的核心合集(含SCI、SSCI、A&HCI;、CPCI四大核心数据库)作为数据来源。WOK平台能够利用文献信息资源之间的内在联系,把各種相关资源提供给研究人员,为学术界提供可靠、有效的数据支持,其引文统计数据记录了各领域研究人员共同评判出来的最具影响力的研究成果,能够为挖掘各领域研究的演化、结构和渗透、交叉关系提供数据基础。笔者使用Topic=“data science” &Timespan;=“1960-2017”检索式进行检索,检索时间为2018年1月15日。返回检索结果为1123篇文献,为避免非学术研究成果、重复研究成果对数据分析的干扰,我们对检索结果进行精炼和去重,在此基础上统计出与数据科学主题相关的文献共有1014篇,其中期刊论文530篇,会议论文390篇,综述类论文63篇,图书章节等其他类型文献31篇。
(二)研究方法
从WOK平台导出文献题录数据后,本文采用文献计量、知识图谱等研究方法对数据科学研究进展进行分析。文献计量对文献基本特征进行统计,揭示数据科学研究的总体概况;社会网络分析对文献互引或共现网络节点及节点间关系进行分析,构建互引网络中节点之间的关系模型,描述个体对群体关系结构和整体功能的影响,寻找具有重要地位的文献和主题,揭示数据科学研究的演化规律;共词分析对关键词共词网络进行分析,揭示数据科学研究的结构特点,分析发展趋势;信息可视化技术则用于绘制可视化的知识图谱。其中,HistCite能够分析文献基本的计量指标,生成引文编年图谱,发现研究重大进展和发展趋势,展示学者的文献数量和引证关系,快速找出关键文献李瑞波、张琳、王珏:《基于Histcite工具的引文网络实证研究》,《情报科学》2015年第10期。。VOSviewer可使用共现网络构造知识图谱,挖掘和呈现可视化结果Van Eck N J, Waltman L,“Software Survey: VOSviewer, a Computer Program for Bibliometric Mapping”,Scientometrics,vol.84,No.2,2010,pp.523-538.。
三、数据科学研究演化与主题分布
(一)数据科学研究的学术史梳理
数据科学起源于20世纪60年代对数据分析未来的预测和计算机科学即“数据处理的科学”根本理念与原则的研究Gil Press,“A Very Short History Of Data Science”,Web of pitt,https://classes.dbmi.pitt.edu/sites/default/files/averyshorthistory.pdf,2016-03-01.。数学家J.W.Tukey在1962年提出数据分析是一门新的科学,而不仅仅是数学的分支,确定了数据分析发展的四大驱动力:统计学理论、计算机和显示设备的快速发展、各领域大量数据带来的挑战和广泛多样的学科对量化的强调,明确了统计学在其中的作用J.W. Tukey,“The Future of Data Analysis”, Annals of Mathematical Statistics,vol.33,No.2,1962,pp.1-67.。1966年,计算机科学家P. Naur提出了“datalogy”的概念,强调计算机科学为“本质和数据使用的科学”,系统讨论了数据、数据表示和数据处理构成的数据科学基本概念和实用技术,并积极推动数据科学在计算机教育中的地位,形成了计算机科学的哥本哈根传统Sveinsdottir E, Frkjr E, “Datalogy—The Copenhagen Tradition of Computer Science”, Bit Numerical Mathematics, vol.28,NO.3,1988,pp.450-472.。20世纪90年代以后,数据科学获得较大发展,数据科学的术语和过程被正式提出,并强调用“数据”分析和理解实际现象,是不同于传统的视角和思维方式Hayashi C, Yajima K, Bock H H, et al, Data Science, Classification, and Related Methods.Proceedings of the 5th Conference of the International Federation of Classification Societies (IFCS-96), Kobe, Japan, March 27–30, 1996,Springer,1998.pp.40-51.。2012年以后,随着大数据的崛起,数据科学也迎来了爆发式的发展,快速成为多个领域的研究热点。
为找出数据科学的研究脉络和重点内容,揭示其演化过程和发展阶段,本文选择HistCite知识图谱软件,利用WOK平台LCS(Local Citation Score,本地被引次数)为文献重要程度衡量指标,绘制引文编年图谱(如图1所示,显示了LCS排名前40位的文献及相互关系)。纵向表示重要文献发表的年份变化情况,横向则标注了重要文献分布的主要研究领域。
从图1我们可以清晰地看出数据科学研究的文献数量变化、研究方式和研究内容的演化,由此,我们把数据科学以2001年和2012年为分界点,大致划分为三个研究阶段:
(1)1960-2001年酝酿阶段。该阶段主要是计算机科学、统计学与数学等领域对数据科学的概念、方法与工具等方面进行研究,并在生物学、地球科学等领域开展科学数据采集、挖掘与分析的应用,在商业领域利用交易和行为数据进行预测和决策优化。该阶段在图1中出现的关键文献有2篇,其中2号文献总结了日、法科学家的研究经验,认为统计方法和数据挖掘并不能覆盖数据的意义和带来的机遇与挑战,强调从数据分析转向数据科学的重要性Ohsumi NFrom Data Analysis to Data Science,From Henk A. L,Data Analysis, Classification, and Related Methods.Berlin:Springer Berlin Heidelberg,2000,pp.329-334.。7号文献则论述了数据科学的起源和内涵,并强调了计算机科学、数学、统计学等思维、方法和工具,理论与数据的连接在数据科学中的重要性Cleveland W S,“Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”,International Statistical Review,vol.69,No.1,2001,pp.21-26.。上述文献的发表使得关于数据的跨学科研究和计算取得了显著进展,被认为是数据科学发展过程中最重要的两篇源头文献Mukkamala R R, Hussain A, Vatrapu R,Towards a Formal Model of Social Data,Copenhagen: ITUniversitetet i Kbenhavn,2013,pp.1-21.。
(2)2002-2011年为全面渗透阶段。在此阶段,数据科学开始渗透到多个领域,分散的应用随着互联网的普及逐渐走向融合,数据科学开始影响人们的生活,并在社会科学领域逐步获得广泛应用。日本庆应义塾大学推出数据科学系列丛书,涵盖从数据素养到数据采集、挖掘、建模、验证、算法,再到空间、金融、环境、健康、运动等具体领域的数据应用柴田里程、北川源四郎、清水邦夫等:《データサイエンス?シリーズ 全12巻》,共立出版社网站http://www.kyoritsupub.co.jp/series/20/,2013-12-30。。这一阶段还发生了许多影响深远的事件:包括CODATA官方学术期刊Data Science Journal在内的多本刊物创办;与联合国信息社会世界峰会、政府间气候变化委员会等国际机构的合作积极展开,发布数据科学的科学议程全球倡议;数据科学家共同体或群体建设问题得到关注等。
(3)2012至今为爆发阶段。在该阶段,数据科学在大数据的驱动下,与人工智能、机器学习、数据挖掘等逐渐融合,在各领域的研究、技术开发和应用不断增多,领域数据科学得到极大发展,并在应用基础上对大数据驱动的数据科学可能带来的思维、社会经济系统和科研范式变革进行了思考,数据科学家的能力要求、人才培养和职业认同进一步加强Baker M,“Data Science: Industry Allure”,Nature,vol.520,No.7546,2015,pp.253-255;Inmon W H, Linstedt D,“Data Architecture: A Primer for the Data Scientist : Big Data, Data Warehouse and Data Vault”,Data Architecture A Primer for the Data Scientist,No.13-15,2015,pp.57–62.。
從图1的横向结构来看,数据科学主要研究内容包含基础理论、数据处理、平台工具、基础设施、人才培养和领域数据科学(如材料数据科学)等。其中,基础理论的关键文献出现较早,主要是从统计学、计算机科学视角进行分析;商业领域数据科学关键文献最多,这与近年来数据科学和大数据结合越来越紧密有关系;而对大数据环境下科学研究范式转化的思考则体现了数据科学研究纵深层次的不断加深,从技术驱动的应用实践开始走向更为抽象的理论总结。从关键文献的引用关系来看,基础理论研究为领域数据科学应用提供了理论基础,而领域数据科学内部相互引用的关系比与外部的关系更紧密,说明数据科学在各领域的应用并未完全打破学科之间的藩篱。部分研究内部的关键文献缺少引用关系,说明内部研究较为分散,没有形成较为固定的合作网络。
从时间来看,大部分关键文献出现在2013年以后,且与大数据相关文献数量较多,体现了数据科学在与大数据融合前后的差异性。这种差异性体现在各领域大数据的兴起促进了数据科学的快速发展。可以说数据科学研究伴随着大数据的热潮而兴盛,大数据驱动的数据科学研究逐步涵盖知识发现和提取的各个过程,如数据采样、挖掘、建模和算法等Dhar V,“Data Science and Prediction”, Communications of the Acm,vol.56,No.12,2013,pp.64-73;Li T, Lu J,“Preface: Intelligent Techniques for Data Science”,International Journal of Intelligent Systems,vol.30,No.8,2015,pp.851-853.,开发了多种分布式存储、数据分析工具杨京等:《大数据背景下数据科学分析工具现状及发展趋势》,《情报理论与实践》2015年第3期。。大数据在科学领域的表现是数据科学的兴起,数据科学将成为科研体系中的重要组成部分,并逐渐达到与物理、化学、生命科学等自然科学分庭抗礼的地位赵国栋、易欢欢、糜万军等:《大数据时代的历史机遇》,清华大学出版社2013年版,第278-286页。。随着大数据的发展,数据科学文献数量和渗透的领域都急剧增长,不再局限于数据的收集和处理,还包括数据管理、知识获取以及信息可视化等内容,数据科学与具体应用领域大数据的结合促进了对数据操作、转化、分析和处理复杂数据能力和数据分析平台工具的关注Mcleod J, Childs S,“The Cynefin Framework: A Tool for Analyzing Qualitative Data in Information Science?”,Library & Information Science Research,vol.35,No.4,2013,pp.299-309.。在大数据之前,数据科学发展较为缓慢,主要以数据获取和存储为主,注重数据获取的完整性,而随着大数据的快速发展,数据科学逐渐深入到人类社会各方面,研究者开始转向侧重数据的分析处理,挖掘数据蕴含的真正价值。
(二)数据科学研究的结构状态
为更好揭示研究的结构状态,本文利用VOSviewer绘制数据科学研究知识图谱,形成Density Visualization(密度可视化视图)和Network Visualization(网络可视化视图),如图2所示。密度可视化视图能够直观地展示聚类与图谱区域分布,有助于我们快速了解关键词共现图谱的整体结构与主题分布;网络可视化视图可以通过节点大小和节点连线的粗细表示各关键词共现的频次及相互间联系的疏密关系Van Eck N J, Waltman L,“Software Survey: VOSviewer, A Computer Program for Bibliometric Mapping”,Scientometrics, vol.84,No.2,2010,pp.523-538.。从图2可以看出数据科学研究具有典型的交叉学科特点,与数学、统计学、计算机科学、自然科学和社会科学各领域交叉渗透,知识群内外之间均具有紧密相关性的特点,各主题之间的交叉渗透关系较为明显,并形成了不同的研究主题和应用(共形成10个聚类)。根据聚类情况本文将其总结为以下三个方面的内容:
1.数据科学基本内涵的研究
该研究主题包含图2中的基础理论研究、复杂性科学、统计学、伦理和大数据等聚类的主要内容。研究的问题包括:(1)数据科学学科性质的讨论,分为统计学的延伸或交叉学科两类观点,前者认为无论数据量大还是小,都是统计学数据处理的范围内张程:《数据科学的统计学内涵探究》,《电大理工》2016年第4期。,后者认为数据科学更多地呈现跨学科或交叉学科的特点Baumer B, “A Data Science Course for Undergraduates: Thinking With Data”, American Statistician, vol.69,No.4,2015, pp.334-342.。(2)数据科学概念和内涵的界定研究,基本沿着两条核心路径进行概括:一是将其视为研究“数据”的科学,二是将其视为利用数据开展研究的科学,为自然科学和社会科学提供新的范式和方法朱扬勇、熊赟:《数据学》,复旦大学出版社2009年版,前言。。前者认为数据科学处理几乎所有与数据生命周期有关的事务David D, “50 Years of Data Science”, Web Of MIT http://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf, 2015-09-18.,其目的是提取以前无法获得的、潜在有用的信息Li T, Lu J, “Preface: Intelligent Techniques for Data Science”, International Journal of Intelligent Systems, vol.30, No.8, 2015, pp.851-853.,并能实现预测和决策优化Aalst W V D, Damiani E, “Processes Meet Big Data: Connecting Data Science with Process Science”, IEEE Transactions on Services Computing, vol.8, No.6, 2015, pp.810-819.。后者則从数据科学所涉及的技术方法和学科领域对其进行界定,如视为统计学中一个新的领域延伸,主要关注重点为数据分析,涉及数据建模与方法、数据处理等Myers K, Wiel S V, “Discussion of ‘Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”, International Statistical Review, vol.7, No.6, 2015, pp.420-422.;从计算机科学的视角出发,认为数据科学已经发展成为包含机器学习、数据挖掘、人工智能、信息可视化等内容混合的研究方法Li T, Lu J, “Preface: Intelligent Techniques for Data Science”, International Journal of Intelligent Systems, vol.30, No.8, 2015, pp.851-853.;从数学的角度则包含信号处理、概率模型、模式识别和不确定性建模等Moraes R M D, López L M, “Computational Intelligence Applications for Data Science”, KnowledgeBased Systems, vol.87, No.6, 2015, pp.1-2.。甚至将行为社会科学、伦理学等学科范围也纳入其中Aalst W V D, Damiani E, “Processes Meet Big Data: Connecting Data Science with Process Science”, IEEE Transactions on Services Computing, vol.8, No.6, 2015, pp.810-819.。(3)数据科学的构成方面的研究也遵循了这一路径,将其按数据处理流程划分为数据探索与准备、数据表示与转换、数据计算、数据建模、数据可视化和演示或按统计学活动、计算机相关技术、数学或信息科学相结合的要点进行论述叶鹰、马费成:《数据科学兴起及其与信息科学的关联》,《情报学报》2015年第6期;刘潇、杨建梅:《基于数据科学的复杂元网络方法及应用》,科学出版社2015年版,第4-11页。。综合各方观点,其中对数据的管理、统计、机器学习和可视化被认为是数据科学发展的核心内容。
2.数据科学研究方法、技术与平台
该主题研究主要包含图2中的机器学习、数据分类、信息可视化、平台工具和大数据等聚类。具体可分为以下几类内容:(1)是对数据科学方法和技术的系统介绍,如按照数据生命周期介绍数据采集、数据预处理相关数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注技术等;按照数据科学方法或技术主题,如机器学习与数据挖掘、统计模型和方法、预测与描述、探索性数据分析、沟通和可视化、数据处理、编程等介绍相关技术。(2)是对某一种方法、技术在数据科学中的应用进行深入介绍,如利用R、Python语言进行数据科学分析方法的研究,利用MapReduce、PageRank、Kmeans进行数据计算的研究等。(3)是特定领域内专用数据分析工具的开发与应用研究,如在医疗领域利用机器学习建立全新综合数据模型(DIPULSE)以避免通过观测传统、单一医疗数据识别QT间期,诊断非心源性适应症风险大的问题。(4)是对不同环境或所处理的数据变化带来的技术挑战与应对进行研究,如针对TB和PB级数据处理、管理及应用的对策和技术方案研究。(5)是各领域大型数据科学平台的建设的研究,如美国政府发起的BD2K倡议、中国科学院科学数据共享工程等。
3.领域数据科学研究
当今已没有无数据的科学,也没有无科学的数据赵鹏大:《大数据时代呼唤各科学领域的数据科学》,《中国科技奖励》2014年第9期。。Jim Gray在“eScience科学方法的一次革命”的演讲中认为,与“计算思维”类似,我们正在见证每个学科演变为两个分支:收集分析信息的XInfo和计算、仿真的CompX。数据科学理论和方法应用于各个领域或学科,从而形成专门领域的数据学或数据科学。微软研究院出版的《第四范式:数据密集型科学发现》一书,展示了环境应用科学、生态学、海洋科学、天文学、医学、生物学等学科领域数据驱动的科学研究案例Hey T, The Fourth Paradigm—DataIntensive Scientific Discovery,Berlin & Heidelberg: Springer,2012,p.1.。此外,数据科学在空间、环境、健康、医学、运动、金融等诸多领域均有丰富的应用案例刘德权、苏荷:《基于大数据的城市环境治理对策》,《哈尔滨商业大学学报(社会科学版)》2016年第6期。。从图1和2中我们也可以看出,材料科学、生物学和商业、管理学等领域与数据科学的结合比较紧密。有人对国外数据科学研究进行分析后,指出数据科学与各领域的应用主要体现在面向优化和面向创新两个方面,前者包括使用数据科学更有效地实现预测、优化方法和决策,后者主要是实现新的科学发现和突破研究瓶颈王曰芬、谢清楠、宋小康:《国外数据科学研究的回顾与展望》,《图书情报工作》2016年第14期。。
四、關键词与热点分析:不断增长的数据科学知识体系与方法工具
通过VOSviewer绘制的知识图谱中节点大小和颜色深浅,可以获知节点的权重,权重越大说明该节点代表的关键词参与共现词越多,越能代表该领域研究热点,在图2(a)中显示越接近黑色,在图2(b)中显示节点越大。同时,各聚类间产生交互联系的中间关键词显示了两个以上聚类产生联系或过渡的关键点,往往具有较高的出现频次和中心度。因此,根据知识图谱、关键词中心度和文献被引频次,我们发现在数据科学研究领域重点关键词包括:
(1)“Data Science”、“Statistics”、“Machine Learning”、“Big Data”、“Knowledge Discovery”,探讨内容包括数据科学的历史渊源、概念体系、基本假设、学理根据等;数据、大数据相关概念,数据生命周期规律等基础理论;数据科学的方法体系,包括机器学习、知识发现及涉及的基本方法、工具和算法等。
(2)“Data Mining”、“Classification”、“Clustering”、“Visual Analytics”、“Internet ofThings”、“MapReduce”、“Hadoop”,探讨数据作为资源对其进行获取、分析、感知的系列方法、工具和平台;数据科学作为方法和工具在科学研究过程中的应用方法、过程;具体的数据分析技术与工具开发等内容。
(3)“Business Intelligence”、“Predictive Analytics”、“Computational Social Science”,探讨数据科学在具体学科或应用领域的发展对策、应用前景、应用过程和方法工具等,其中商业、材料、天气、健康、舆情、城市管理等为该类关键词涉及较多的领域。
(4)“Decision Tree”、“Twitter”、“Bioinformatics”、“Precision Medicine”。
(5)“Uncertainty”、“Metadata”、“Nature Language Processing”、“Methodology”、“Theory”、“Algorithm”、“Privacy”、“Ethic”分布在图2视图中离中心区域较远的外围聚类或连接较少的节点,代表该研究领域未来的生长点,从关键词的主要内容可以看出,研究内容有向数据科学基础理论和具体研究领域两个方向不断细化和深入的趋势。
作为典型的横断学科,数据科学具有明显的跨学科、交叉学科特点。由于数据科学刚刚迈入成长期,并且信息技术发展不断加速,因此无论从数据科学学科体系建设还是其在各领域应用的发展,我们都需要对数据科学知识体系和方法工具进行梳理与总结。但是数据科学作为一门新兴学科,其理论来源和知识构成仍处在动态发展的过程中,目前建立一个固定的学科体系和方法工具系统显然是不可能的。学者们对数据科学的构成也因其出发点的不同呈现较大的差异。例如,Cleveland的数据科学行动计划认为,数据科学需要发展跨领域数据分析能力、数据建模和方法、数据计算能力、学科规划、工具、基础理论William S. Cleveland, “Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”, International Statistical Review, vol.69,No.1,2001,pp.21-26.。国内学者认为,数据科学主要包括理论数据学、数据方法论、数据科学发展史、资源数据学、管理数据学、技术数据学、工程数据学和部门数据学等刘闯:《地理科学数据流及其关键节点前沿科学问题与案例研究》,腾冲,2011年数据密集型科研与数据科学研讨暨CODATA中委会人才团队建设启动会。。更有学者构建了从数据科学基本假设和基础理论到数据学基础再到数据科学应用的基本框架。
根据知识图谱分析的结果,并结合上述学者对数据科学理论体系构成的探讨,对数据科学研究的热点关键词进行归纳可以大致得出数据科学知识体系和方法工具的构成框架(如图3所示)。该框架划分为理论数据科学、工程数据科学和应用数据科学(分别对应热点关键词1-3)。其中理论数据科学主要探讨数据生命周期规律及数据科学研究中的基本假设、基础理论和方法论体系;工程数据科学则倾向于数据作为资源和数据科学作为方法与工具的处理过程,包括数据获取、分析、感知的具体技术与工具研发等;应用数据科学则是数据科学根据其应用对象所涉猎的具体学科或应用领域而产生的专门领域。
从关键文献、重要关键词和热点主题分析可以看出,目前处于研究热点的主题多集中在软硬件架构(IT视角)和商业领域(应用视角),主要分布在工程数据科学这一层面魏瑾瑞、蒋萍:《数据科学的统计学内涵》,《统计研究》2014年第5期。,而代表研究生长点的关键词则出现向上和向下延伸的趋势(对应生长关键4-5)。关键文献和演化路径显示的特征表明数据科学促进学科融合的作用并未得到充分发挥。数据科学研究内部也较为分散,对学科性质和目标定位不清晰,没有形成较为固定的合作网络。在高被引文献中,缺少基础理论研究,重应用轻基础、重技术轻理论的倾向明显。数据科学更多地像是多个相关学科“拼接”起来的新兴学科,存在目标不明确和尚未形成完整的学科框架体系等问题。当然,科学研究的道路常常是先做“白盒研究”,知识积累多了才可能抽象出通用性较强的“黑盒模型”和普适规律李国杰、程学旗:《大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考》,《中国科学院院刊》2012年第6期。。目前数据科学已经积累了一定数量的案例和经验,“白盒研究”成果不断丰富,亟需在此基础上开展更深入的思考和研究,探讨通用性更强,具有普遍规律的理论。未来,数据科学的发展方向一方面将继续探讨大数据环境下的技术发展,另一方面也将不断增加基础理论的构建,同时推动在不同的应用领域发挥重要作用。D.Donoho认为数据科学的下一个50年发展趋势将体现在三个方面:开放科学接管、把科学本身作为数据和科学的数据分析、可被实证检验;而要实现最后一点,数据科学的科学性必须有一个不断发展、基于事实的方法:科学范围的元分析、交叉研究分析和跨工作流程分析。因此,图3所示的数据科学知识体系和方法工具只是提供了一个基本的构成框架,在今后的发展过程中,这个框架必将随着数据科学边界、内涵、理论的发展和应用的拓展而不断增长。
五、数据科学促进社会科学研究转型的应用前景
(一)改变与应对:社会科学研究转型正在发生
虽然社会科学界对是否接受大数据带来的挑战还在犹豫不决,存在社会科学家被逐渐边缘化的担忧。但数据科学在社会科学研究中的应用已经逐渐拓展和深入,改变已经悄然来临。从图1我们可以看出,商业大数据是领域数据科学研究的重要组成部分,内容涵盖商业智能、供应链管理、商业决策、招聘信息文本挖掘、可持续制造等多个领域,并且在内外部的文献互引上表现出比其他主题更趋紧密的关系。在基础设施聚类中也涵盖了公共医学、城市治理和智能情报等社会科学研究内容;数据处理聚类包括股票市场波动与搜索行为关系的研究;工具平台含有对社交网络通信效率的关注;研究范式聚类中也论述了XInformation范式在市场、公共政策和社会问题等领域的转变。图2中也含有可计算社会科学、商业智能、社交网络、健康管理等社会科学研究领域的关键词,部分关键词出现在热点聚类之中,并在统计学、复杂性系统、伦理学等代表理论的关键词和数据分析、信息可视化、计算、数据挖掘、机器学习等代表技术的关键词之间起到连接和过度的作用,占有十分重要的地位。在对合作网络进行的补充分析中,我们发现,数据科学研究已经开始打破各自为政的局面,呈现出合作的广泛性和国际性,来自多个国家的机构在共现网络上产生了较为紧密的连接,在机构类型中除了研究型大学外,政府机构、研究所、企业也参与其中。数据科学研究已经从“村舍”活动逐渐过渡到大规模“行业化”努力。
数据科学对社会科学研究转型的作用还体现在相应研究方法的使用和研究成果的取得。研究方法主要包括:复杂性科学与计算机技术相结合,使用仿真方法对社会科学领域问题进行研究,在虚拟环境中模拟现实世界可能发生的现象,从而进行预测或优化;使用计算实验方法,通过人工个体代替现实系统的人,把现实社会系统转化成智能主体构成的演化系统,从而揭示社会系统中个体微观行为和系统宏观行为之间的动力学机制王众托:《大力推进社会科学研究方法论的创新》,载盛昭瀚《社会科学计算实验理论与应用》,上海三联书店2009年版,序言第1-3页;米传民等:《经济学研究的新范式:刍议基于agent的计算经济学》,《经济与管理评论》2004年第6期。;通过社会科学和数据科学的交叉融合,实现计算社会科学、社会网络分析、基于主体的数据挖掘等,从而达到以人和社会为表征的建模、实验与分析评估等目的毛文吉:《社会计算发展研究》,载中国科学技术协会主编《控制科学與工程学科发展报告2010-2011》,中国科技出版社2011年版,第161-165页。。这些研究方法在全球问题、危机管理、舆情监控、消费决策、技术创新、土地覆被变化、生态系统服务等领域的建模仿真;在社会安全、社交网络、决策行为、军事工程等领域的数据挖掘、分析与人机交互;在公共管理领域的精准治理和国家治理技术平台、情报学领域的知识图谱研究、科学学领域的技术创新等方面均取得了丰硕的成果。数据科学中的数据集成与联结,数据挖掘与分析技术在其中发挥重要作用。随着海量数据存储、传递、挖掘和整理技术的不断进步,数据科学利用大数据挖掘相对于传统数据分析的优势更加明显,无论是算法还是工具都优于传统数据挖掘,更能应对数据的大体量、数据多样性和复杂性的处理。可处理对象来源除了管理信息系统、Web信息系统外,还包括感知信息系统等传感设备自动产生的数据,数据体量呈指数级增长,数据类型转变为多种数据类型大量并存的状态,数据结构复杂化程度加深。在此背景下,大数据时代的到来和数据科学的发展,为社会科学研究方法突破困境创造了条件,一个以计算机技术、互联网为基础,具有无限可能性的新计算社会科学成为现实Lazer D, Pentland A, et al, “Computational Social Science”, Science,vol.323,No.1,2009,pp.721-723.,这给社会科学研究带来了革命性的变革和创新,并将深刻改变着社会科学的研究范式。
(二)数据科学在社会科学研究中的应用前景
从数据科学研究进展的梳理和社会科学研究已经发生的转变来看,大数据驱动数据科学在社会科学研究转型中的作用前景将主要体现在以下六个方面:
(1)为解决目前社会科学研究存在的问题提供可能。大数据中的行为数据彰显社会科学研究的人本特性,数据科学将重构社会科学,并从理论范式上重绘学术图景、延伸经典学说,从学科范式上丰富学科目标、促进学科融合、提升学科应用,在研究实践上疏解方法分歧、优化变量测量、提供高质量数据支撑、增加展示形式等陈云松、吴青熹等:《大数据何以重构社会科学》,《新疆师范大学学报(哲学社会科学版)》2015年第3期;米加宁、章昌平、李大宇等:《第四研究范式:大数据驱动的社會科学研究转型》,《学海》2018年第2期。。
(2)数据科学将对社会科学认知体系产生结构性的影响,这意味着无论是个体的认知体系还是社会性的认知功能体系都正在发生质性的转变:在社会科学研究层面形成新的研究范式,形成新的认识论、方法论、方法和工具,在认知的操作结果上则会发现新的相关关系,产生超越传统认知方式的洞见,使经典理论取得新的发展和更加切近真实的检验。新的认知方式正在将社会科学研究导向开放的基于数据的分析模式,通过分析基于数据科学的社会科学认知体系的内部结构、逻辑过程及其结果的结构变化有利于我们把握数据科学条件下社会科学认知发生的有效机制,并对其做出发展和改进。
(3)数据科学将改变传统社会科学用“小数据”来验证逻辑的路径,实现用“大数据”来发现逻辑的研究路径。数据科学时代的社会科学研究可能不再需要我们做出理论预设,而是在大数据分析得到的奇点相关的引导下建构因果和结构关系,进而发现其中蕴藏着的知识或规律。数据即现象和经验,“科学始于数据”而非直接观察和传统测量。大数据更高的精确度和整体性,延展了知识发现的新途径和新方法。
(4)传统社会科学以学科为导向的问题构建转向大数据时代的以跨学科为导向的事件的构建。基于数据科学的可计算社会科学的发展正在淡化、沟通甚至彻底消除学科边界,将还原论下的专业性社会认知和建构升级为社会整体系统认知和建构过程。数据科学正在将传统认识能够抵达的对象社会孤立的数据流进行整合和连通,在科学家、决策者、专业工作人员和普罗大众之间建立集中共享的新的社会和环境图式,催生一体化、有机的、速度更快、关联更紧密、响应更敏捷的可计算科学体系。
(5)数据科学可以实现对真实世界的多路径“涌现”。真实世界的进化路径,偶然性非常大。但在大数据支持下,基于HS+CA的一体化建模与计算实验平台王国成:《行为大数据,通宏洞微与人类决策——计算社会科学的兴起与发展》,《科研信息化技术与应用》2015年第6期。,对真实世界的多路径“涌现”仿真就成为可能。数据科学、复杂性科学(特别是对复杂性系统建模仿真方面)、社会计算的综合发展,使得现实世界和理论(仿真)世界融合并建立平行系统成为可能,这也意味着提供了社会科学全景式认识社会经济系统的可能性,促进社会科学预测目标的回归和预测、解释、说明能力的融合。
(6)数据科学为我国社会科学的发展提供了加速超越西方和形成中国特色、中国气派的重要机遇罗玮、罗教讲:《新计算社会学:大数据时代的社会学研究》,《社会学研究》2015年第3期。。当代中国正经历着历史上最为广泛而深刻社会转型,整个社会充斥着“三千年未有之大变局”中的大问题,需要构建宏大的新理论、新方法予以解决汪丁丁:《社会科学定量分析方法基础探讨》,《社会科学战线》2010年第1期。。这种前无古人的伟大实践,必将给理论创造、学术繁荣提供强大动力和广阔空间。通过数据科学驱动社会科学研究转型,将促进我国社会科学研究更符合中国的现实发展场景,实现由学习到创新,再到领跑。
同时,我们认为,在社会科学研究转型过程需要注意处理好以下几个方面的问题:(1)需要交叉学科的研究。大数据每一种具体形式都仅能呈现事物本身的一个侧面而并非全貌,如何加工处理并转化成智能知识,仍然需要通过多学科交叉来研究和讨论石勇:《大数据三个重要的技术问题》,长沙,2013年全国报社新闻技术工作会议暨中国报业技术年会。。(2)需要辩证看待大数据。准确把握大数据的生成背景,研判大数据对社会科学研究的可能性与适应性,辩证认识大数据对于重构社会科学研究范式的作用陈泓茹、赵宁、汪伟:《大数据融入人文社会科学的基本问题》,《社会科学文摘》2016年第2期。。(3)要意识到风险的存在。大数据分析可能失灵,要理性认识大数据的优势与劣势。(4)处理好大数据与小数据之间的关系。(5)大数据需要新的研究技能与团队合作。(6)需要构筑适应大数据环境的基础设施,促进政府数据开放等。
结论
综上所述,本文对数据科学演化进程、主题分布进行了梳理,并构建了数据科学知识体系和方法工具的动态框架,认为数据科学未来发展的方向将从工程数据科学的技术研究逐渐向基础理论和具体应用领域研究深化发展。这加强了数据科学与社会科学的内在联系,一方面数据科学基础理论需要哲学、社会科学更深层次的思考,提供理论支撑,另一方面社会科学发展存在的问题和面临的全新环境需要数据科学提供新的支持。数据科学对社会科学转型的重大影响已经显现,引起了国内外多个领域学者们的重视,社会科学研究人员科研行为方式和数据、方法需求已经发生改变。大数据驱动的数据科学将在社会科学研究转型中扮演十分重要的角色,应用前景广阔。同时,由于数据科学和大数据存续时间较短,其对社会科学的影响和作用机制需要长期、系统地跟踪研究。科学研究范式转换的研究主要集中在自然科学研究领域,而是否适用于社会科学研究的讨论则不多见。厘清大数据、数据科学和社会科学研究范式转型之间的作用机制,对我们摆脱社会科学现有的困境,从研究方法的范式转型对社会科学研究进行分析与批判,并提供大数据驱动的数据科学对策具有十分重要的作用,需要进一步深入分析。
(责任编辑:轻舟)