陈云松,张亮亮,闵尊涛,张柏杨
(南京大学 社会学院,江苏 南京 210093)
大数据机遇与宏观定量社会学的重启
陈云松,张亮亮,闵尊涛,张柏杨
(南京大学 社会学院,江苏 南京 210093)
在社会科学定量研究领域,按照因变量(Y)和自变量(X)所在的社会结构层级,可以将相关研究划分为四个层次:第一,因变量(Y)和自变量(X)均处于微观个体层次的“微观定量社会学”,旨在研究个体的属性对个体结果的影响。第二,因变量(Y)处于微观个体层次,自变量(X)处于宏观群体层次,旨在分析社会群体的结构对个体结果的影响。尽管这是一种跨层次的研究,但借用默顿的中层理论的概念,可以将该层次的研究理解为“中层定量社会学”中的“社会化”(Socialization)分析。第三,因变量(Y)处于宏观群体层次,自变量(X)处于微观个体层次,这实际是“中层”研究的另外一种形式,可以称为“中观定量社会学”的“跃迁”(Emergence)分析。第四,因变量(Y)和自变量(X)均处于宏观群体层次,可以称之为“宏观定量社会学”。
以“收入对幸福感的影响”为例,我们来简单阐述一下这四种层次的定量社会学。第一种层次的微观研究,聚焦于“个体收入影响个体的幸福感”这样的假说或命题,而第二种层次的社会化研究,则试图探究“城市的收入不平等影响个体幸福感”。实际上,前两种层次的定量社会学分析,都属于目前社会学领域的主流研究范式,有着较为成熟的数据基础和模型方法。其数据往往多采用问卷调查来获得,通过计量模型的设定来对数据进行回归拟合,得出变量之间的统计关联,最终由这个样本统计结果推断总体的相关特征。目前,影响这两个层次分析的主要瓶颈,是非实验设计所导致的内生性问题。但通过信息量更大的数据和高级计量模型,这一问题可以得到一定的缓解。
第三个层次的中层定量社会学的跃迁分析,则关心的是“个体收入如何影响城市总体幸福感”这样的问题。从回归分析的角度这类命题,我们往往无法直接加以解决,但计算社会学所从事的基于主体的仿真建模、分析社会学(Analytical Sociology)所倡导的基于主体的实证校准仿真建模,是主要的方法。该层次研究的逻辑渊源,来自韦伯的早期论述:社会学家不能满足于群聚层次的相关(aggregate correlation),而应该着眼于可理解的个人行为来进行解释,即要实现从微观向宏观的跃迁[1]。不过,无论是科尔曼还是默顿,都认为这是社会学研究的一个难点。例如,师承默顿的赫斯特洛姆首倡分析社会学,提议研究“在过去的行动所导致的社会条件下,不断和他人互动的个体行动如何产生大规模的社会现象”[2]。其主要方法,就是建立虚拟的社会学实验室,在实证数据校正的基础上,用多主题仿真建模,来分析社会系统从微观到宏观的跃迁与涌现过程[3]。
第四个层次的定量社会学,则关注群体属性和群体结果的关联,关注类似“城市收入不平等影响城市总体幸福感”这样的问题。在质性研究或者理论研究领域,以及社会学量化方法诞生之初,这种解释模式并无模型。但目前仍然从事该研究的社会学定量学者非常少。特别是相对于近三十年来微观定量社会学的突飞猛进,宏观定量社会学的发展明显滞后。一方面,这是因为“生态谬误”(ecological fallacy)的历史挑战,导致20世纪70年代之后的社会学家较少进行宏观层次的量化分析(注意,理论学者和质性研究学者更无法面对“生态谬误”的逻辑挑战)。另一方面,或许是更为重要的,社会学所关注的指标,在宏观层次上往往难以测量,较难发展出学科公认的成熟有效的测量指标。特别是,宏观分析往往关注较长的历史跨度、较大的地理跨度。社会学基于“人”和“人群”的宏观指标,既难有客观测度,更难以像经济学基于“经济现象”的宏观指标那样,有专业的国家机构来统计梳理。比如,宏观经济学者常常能够利用多国或某一国的经济统计数据进行时间序列或面板数据分析,但统计部门对于“人”的现象的数据,一般不加以关注。也因此,宏观社会学定量分析往往是无米之炊。
重要的是,“生态谬误”完全不意味着宏观层次的研究是冗余的。恰恰相反,当个体层次的实证研究已经有了几十年的丰富积累,我们应该认识到,在群体层次上的宏观定量研究必须提上议事日程以获得相称的发展。因为只有将微观与宏观层次的定量分析结果进行比对和对差异的分析解释,我们才能更好地理解社会现象形成的个体基础和跃迁过程,发现各个领域可能存在的“生态谬误”的机制所在:其实,“生态谬误”并非“谬误”,只是不同层次上的“人”和“人群”现象的差异。幸运的是,大数据的出现,将可能改变当代社会学定量研究中重个体与轻群体的分析层次鸿沟,为发展滞后由来已久的宏观定量社会学提供了相当宝贵也非常及时的机遇。这是因为,大数据可以为研究者提供过去无法测量甚至难以想象的宏观变量,为过去只能想象甚至无法想象的宏观层次定量研究,带来了空前的可能。国内学者近期的系列大数据社会学定量研究,实际已经走在了国际社会学的前列,并充分显示出这一领域的潜力。在本文中,我们将回顾宏观定量社会学的衰落原因,并梳理大数据为重启宏观定量社会学所能带来的三大机遇。
早期社会学极端重视对宏观现象的研究,理论、质化研究与量化分析的开山鼻祖们都不例外。无论是凃尔干对欧洲不同国家自杀率与社会整合的分析[4],还是韦伯关于新教伦理与资本主义精神的经典研究[5],都是基于宏观层次的社会学思考和数据梳理。这些早期的巨著,为社会学作为一门年轻学科提供了基本的方法和理论范式。而进入社会学学科发展的现代时期,理论流派林林总总,包括帕森斯等人的结构功能主义、科塞等人的社会冲突论、马尔库塞等人的批判理论等等,也都将各自的理论视角对准宏观层次的社会及其相应系统,提出了众多影响深远的理论观点。而当量化分析的大潮在20世纪中期开始袭来之时,学者们的突破口也自然是对社会群体层次的数据进行搜集整理和展示分析。
其实,早在1939年,美国心理学家桑代克(Thorndike)就已经在美国心理学杂志(AJP)以《在计算群体和组成它的更小群体或个体相关性方面的谬误》为题撰文,批评当时心理学界忽视研究数据的层次,而轻易将群体层面获得的相关推断到个体层面的相关的现象[6]。在社会学界最早对这一逻辑误区进行的完整论述来自于美国社会学家罗宾逊(Robinson)于1950年在美国社会学评论(ASR)上的《生态关联与个体行为》一文。该文集中关注文盲率和移民人口数量的关系。结果发现,从州的层次来看,一个州的移民人口比例越高,其文盲率越低。但在个体层次,移民人口比本地居民文盲率更高,也就是说移民人口更可能是文盲[7]。罗宾逊由此提醒不能轻易地从总体层次或生态学数据研究中而做出个体层次的结论。紧接着,塞尔文(Selvin)于1958年最早提出“生态谬误”的概念,他在一篇研究涂尔干自杀论的文章中指出,涂尔干关于自杀的研究方法存在生态学谬误,群体层次的相关并不能解释个体层次财富和自杀的关系,因而其将群体层次的数据运用于推断个体行为是存在谬误的[8]。
“生态谬误”的提出,给学界特别是社会学界带来了一系列的挑战:1950年以前,社会学经常使用汇总数据、以地区为单位来做研究。但是,在发现汇总数据可能带来“生态谬误”之后,基于韦伯提出的用可理解的个人行为来进行解释群体现象的学科传统,社会学家们开始了一轮向个人和家庭数据的华丽转身,投入到更“个人化”的数据中去[9],这在社会学界被称为“调查革命”。巧的是,“调查革命”出现后的几十年,恰逢调查问卷技术迅速发展、个体数据积累不断加快和微观计量模型迅速发展的历史关口。于是,社会学领域的定量学者在微观数据搜集和分析方面突飞猛进,而在宏观层次社会现象数据搜集和分析方面则相对止步。尽管“调查革命”从数据层次的角度回应了“生态谬误”所带来的挑战,但并没有致力于对比和分析个体与群体现象这一重要学科历史使命,甚至带来了对宏观定量分析的停滞不前,使得一些重大、经典的理论问题难以得到实证检验。由于这种“矫枉过正”,自20世纪60年代以来,随着时间的推移,整个社会学界也似乎已经开始进入了某种“后大理论”时代[10]。
对于社会学研究而言,目前从可用大数据的来源看主要是数量级以千亿词汇、万亿字节的数字化书籍、媒体、语料库、视频库、互联网文本、搜索引擎记录以及脸书、微博、微信等当代自媒体平台[11]。国内学者利用谷歌数字化图书大数据、互联网大数据等,在学科发展、阶级阶层、文化传播、文化遗产研究、城市发展等方向率先形成了一批实证研究成果。我国一批期刊,如《社会学研究》《社会》《学术论坛》等刊物率先刊登了基于大数据的实证应用定量分析文章。南京大学、武汉大学、中山大学、复旦大学等社会学系科均率先形成了各自的研究团队。从学科发展看,大数据的适时出现,为我们重启宏观定量社会学提供了新的数据源。而这种数据源,进一步形成了宏观定量社会学发展的三大机遇:理论发展机遇、领域拓展机遇和方法延展机遇。
1.理论发展机遇。社会学的众多理论都可以溯源到少数典范性的学说,虽然这些经典学说通常立足宏观层面去描绘和理解社会结构及变迁,但是宏大理论却难以解释经验的现实问题。由于理论的宏观性、复杂性和传统资料采集方式获得经验材料的有限性,传统抽样方法往往无法在经验层面上对这些理论进行检验。但大数据能够在宏大理论和经验研究间架起一座桥梁,利用其以实证资料超大的规模和时空跨度,为研究者提供具有重要价值的分析手段,进而改变非宏大理论的式微,为学界审视经典理论甚至构建新的理论成为可能。
以经典的马克思主义理论为例,使用大数据能够对马克思理论的跨历史、跨国别解释力提供重要的证据和观点拓展。例如,陈云松和严飞等在美国《社会科学研究》(Social Science Research)杂志发表了关于20世纪美国社会公众阶级意识和宏观经济的量化研究[12]。作者基于谷歌图书的海量语料库,对1900年—2000年这100年间,美国出版的书籍中“阶级/阶层”相关词汇的提及进行提取,构建出横跨百年的美国社会公众阶级关注度的指数,并将其与基尼系数、通货膨胀率和失业率等指标进行时间序列分析。研究结果表明,20世纪美国的收入不公平(基尼系数)本身不影响社会的阶级意识,但通货膨胀和失业等经济现象则会产生阶级意识效应。究其原因,可能在于人们对全社会收入不平等的感知,不如对和自身直接相关的失业率、通货膨胀等那么敏感直接。该发现用跨度百年的大数据和以前无法获得的阶级关注度指标来证实相关的经典理论,不仅是研究方法上的突破,实际上是对阶级意识理论在20世纪发达国家的拓展应用,展示了马克思经典理论的当代解释力。
再如,基于曼海姆的代际社会学,周晓虹早在20世纪80年代提出了经典的“文化反哺理论”。无论是代际传播还是“文化反哺”,文化传播的跨度都以生理的“代际”来衡量。而最新的宏观定量社会学研究提出,当代社会的反向社会化模式,已从“代际反哺”主导变为“代际反哺”与“非代际反授”并存的格局[13]。“非代际文化反授”主要指文化传授者虽比学习者年轻,但不再有家庭子代亲代或学校师生关系式的代际年龄差异。其具有年龄差距缩小化、空间距离扩大化、社会关系多元化、施受身份瞬时化、传播内容选择化和变迁条件虚置化等六大特征。之所以能对“文化反哺”这类大理论进行验证和延伸,主要就是因为大数据分析可以为测量文化、测量传播提供了强有力的数据:作者以自媒体平台上的网络热词使用者作为传授方,以网络热词搜索者作为学习方,利用提取自新浪微博和百度搜索的三年近四百个热词数据,进行了ARDL边限模型计量分析,证实了“非代际文化反哺”现象的存在。可见,大数据不光可以检验和拓展以前无法用量化方式来证实证伪的理论,还能帮助我们发现新的规律、提出并验证新的理论。
2.领域拓展机遇。利用大数据,社会学宏观定量的研究,除了可以把触角伸向社会学之外的经济学、政治学、传播学和历史学等领域,拓展出新的宏观层面的交叉研究领域,更能够为学科自身的精细化、专业化、科学化提供极为丰富的手段。特别是,大数据为社会科学的跨层次复制检验研究开辟了全新的领域。吴晓刚等学者提出,社会科学定量分析亟待建立一个透明和开源的学术机制,让研究数据和模型公开共享,使研究成果可以得到他人的验证和进一步拓展。这个学术机制的核心就是倡导“复制性研究”[14]。不过,目前学者所倡导和进行的复制,仍然是狭义的基于原数据的个体研究复制。而我们这里提出的复制,则是利用大数据可以提供宏观层面、历史层面的集聚数据的机遇,对以往基于个体研究形成的假设、观点进行群体层次上的再检验。这恰恰是对“生态谬误”现象的一次重读和深入解剖。
实际上,《走向开源的社会学》一文,提出了严格复制和拓展复制两类检验方式,前者把复制性检验理解为基于同样数据和同样统计模型,后者是相同的数据和不同的模型,同样模型和不同数据的估算结果比较检验。而我们则进一步延伸复制拓展的概念:复制拓展研究,实际上还包括从个体层次的检验走向群体层次的检验、复制和拓展。如果个体群体的结果一致,则不存在生态谬误。如果不一致,则存在生态谬误。那么,存在于不存在差异的原因在哪里,机制在哪里,就都值得进一步深入探讨。例如,“个人收入影响个体的幸福感”假说检验,可以通过传统问卷调查数据来进行分析,而对其进行群体层次的研究验证,分析“城市收入不平等影响城市总体幸福感”,则可以通过大数据的提炼来获得城市、省份层次的总体幸福感,并将其与城市、省份层面的收入状况或者不平等加以关联,寻找规律。有了大数据的助力,我们将会面临对“调查革命”以来所有个体层次社会学研究的群体层次复制研究机遇,而这些空白,必将成为未来定量研究的热点领域之一。相信到彼时,社会学家对于“生态谬误”的理解也会提高到一个新的层次。
3.方法延展机遇。社会学的宏观层面数据不同于经济学,经济学有省市年鉴等宏观数据积累。每个城市、省份的经济数据都有各级政府部门的精心搜集和发布。而省份和城市层面的社会学相关指标,则只有靠社会学家自己去调查获得。而问卷获得的样本数据比较有限,某种意义上,传统的社会学宏观定量分析,很难有真正的全数据的规模,也难以形成时间跨度20年、50年甚至100年的时间序列或者面板数据。恰恰因此,社会学定量分析与计量经济学在模型使用的风格上天然存在着巨大的差距。尽管社会学定量分析的方法越来越接近微观计量经济学,但宏观计量经济学中惯用的时间序列数据、面板数据等等,在社会学定量分析尤其是宏观层次分析里非常少。这样,社会学家的模型习惯多是截面数据和短面板,而时间序列、长面板等模型,几乎不涉及。
大数据的出现,使得社会学者开始使用这类模型。例如,前面提及的国内学者对阶层意识、城市知名度、微博舆情与股市、网络热词传播等等分析,都采用了以往社会学定量分析领域所罕见的时间序列分析方法(包括单位根检验、格兰杰检验、协整分析)、动态面板差分广义矩、系统广义矩方法,以及地理等学科使用较多的空间邻接矩阵模型、空间距离矩阵模型等等。这些方法的引入,加深了社会学家对历史数据、纵贯数据的分析能力,丰富了定量社会学研究者的模型手段。当然,无论是传统调查问卷数据,还是从大数据中提取出来的变量,只要运用传统计量模型,非实验数据内在的遗漏变量、样本偏误、联立性等影响因果推断的内生性问题,都必然存在。这里我们要强调的是,在社会学研究领域,目前大数据并不能帮助提升因果推断,但研究者可以根据未来为社会科学研究所量身定制的高质量大数据做出好的因果分析。
除了回归模型的进一步丰富,大数据对传统定量社会学研究成果的展示方法和效果也提供了更为多样化的选择。一直以来,基于个体层次的传统社会学定量模型多借助表格来呈现成果。而大数据尤其是宏观定量分析中的大数据变量,都能够通过图形、图像的可视化形式来进行,它能帮助读者快速了解研究者的观点和思路,非常直观地揭示数据背后蕴藏的规律。例如,一系列关于文化大数据中的中国物质文化遗产、非物质文化遗产、文化名人名著的研究,都仅仅采用了描述和基于时间轴的曲线表现形式。尽管没有回归等计量分析,但仅仅就图形所展示的内容,就足以构成社会学的深度解读[15-17]。
宏观定量社会学的衰落,源于传统量化资料收集方法的局限和“生态谬误”的逻辑挑战。微观定量社会学的迅猛发展,加上学者对“生态谬误”的矫枉过正,使得宏观定量社会学的发展出现了严重的相对滞后。不过,大数据的兴起为重开宏观定量社会学的研究之门提供了宝贵的数据源。我们就此提出了大数据对于宏观定量研究的三大价值:为宏观定量社会学的重启提供了理论发展机遇、领域拓展机遇和方法延展机遇。在一定程度上,我们赞同张旭、唐魁玉的观点:“这些研究方法只能作为传统社会学研究的补充,而不能完全替代传统的小数据研究方法。”[18]不过,我们强调的是,尽管对于社会科学而言大数据的远景价值仍然模糊,但其现实价值却日渐清晰,在当前的社会科学领域特别是社会学领域,大数据研究,起码足以让更多的学者重新关注宏观研究,重启宏观定量社会学的研究之门。
[1]Weber,Max.The Methodology of the Social Sciences tr. by Edward A. Shils and Henry A. Finch[M].New York: Free Press,1949.
[2]Hedström,P.Dissecting the Social: On the Principles of Analytical Sociology[M].Cambridge: Cambridge University Press,2005:98.
[3]陈云松.分析社会学:寻求连接微观与宏观的机制性解释[J].浙江社会科学,2008(5).
[4]Emile Durkheirn.Suicide trans. John A. Spaul- ding and George Simpson ,Glencoe, Ill[M].Free Press, 1951.
[5]马克斯·韦伯.新教伦理与资本主义精神[M].于晓,陈维纲等,译.北京:三联书店,1987.
[6]Thorndike, E. On the Fallacy of Imputing the Correlations Found for Groups to the Individuals or Smaller Groups Composing Them[J]. The American Journal of Psychology,1939, 52(1):122-124.
[7]Robinson,W. Ecological Correlations and the Behavior of Individuals[J].American Sociological Review,1950, 15(3):351-357.
[8]Selvin,H. Durkheim's Suicide and Problems of Empirical Research[J].American Journal of Sociology, 1958,63(6):607-619.
[9]谢宇. 社会学方法与定量研究[M].北京:社会科学文献出版社,2006:67-69.
[10]陈云松.大数据中的百年社会学——基于百万书籍的文化影响力研究[J].社会学研究,2015(1).
[11]陈云松,严飞,张翼 2016.“大数据”的文化建设战略价值:案例和实践[J].学术论坛,2016(6).
[12]Yunsong Chen and Fei Yan. Economic performance and public concerns about social class in twentieth-century books[J].Social Science Research,2016.
[13]陈云松,朱灿然,张亮亮.非代际文化反授:概念、理论和实证[C].南京大学社会学院工作论文,2016.
[14]陈云松,吴晓刚 .走向开源的社会学:定量分析中的复制性研究[J].社会,2012(3).
[15]龚为刚、罗教讲.大数据视野下的19世纪“海上丝绸之路”——以丝绸、瓷器与茶叶的文化影响力为中心[J].学术论坛,2015(12).
[16]孙艳,黄荣贵,洪岩璧.大数据中的中国非物质文化遗产:300年国际知名度分析[J].学术论坛,2016(6).
[17]张亮亮,张洪,李双龙,吴楷文.大数据中的中国文化名人名著:500年国际知名度分析[J].学术论坛,2016(6).
[18]张旭,唐魁玉.大数据及其“社会学后果”[J].新视野, 2016(3).
2016-10-12
国家社科基金重大项目“大数据时代计算社会科学的产生、现状与发展前景研究”(16ZDA086)、江苏高校哲学社会科学研究重点项目“中国传统文化的全球知名度”(2015ZDIXM001)、江苏省社会科学基金重点项目“大数据视野中的江苏文脉研究”(15ZHA001)的阶段性成果。
陈云松(1975-),男,江苏如皋人,南京大学社会学系副教授,硕士生导师。研究方向:定量社会学、大数据;张亮亮(1992-),女,江苏连云港人,南京大学社会学系研究生。研究方向:社会资本与社会网络;闵尊涛(1991-),男,江西南昌人,南京大学社会学系研究生。研究方向:定量社会学;张柏杨(1992-),男,内蒙古呼和浩特人,南京大学社会学系研究生。研究方向:经济社会学。