大数据下社交网络人群抽样方法文献综述

2016-09-10 07:22米子川聂瑞华卫军
经济师 2016年3期
关键词:社会网络大数据

米子川 聂瑞华 卫军

摘 要:在大数据时代,信息展现出其前所未有的能量,因此,获取信息尤其是有价值的信息是很重要的。对于处于社会网络结构的人们而言,他们身上也蕴含着丰富的信息,如何有效地从他们身上获取信息至关重要。文章回顾已有的对社会网络人群的抽样方法研究后发现,借助网络结构开展调查的滚雪球抽样和同伴驱动抽样受到了学者们的关注,在结合了社会网络结构的特点后,给出了在大数据下如何实现社会网络人群抽样的思考。

关键词:非概率抽样 社会网络 大数据

中图分类号:F626.5

文献标识码:A

文章编号:1004-4914(2016)03-030-02

一、研究意义

传统的社会网络主要存在于人群中的血缘关系、地缘关系、政治关系、经济关系、宗教关系以及其他社会性的联系,这些或强或弱的人际关系形成了各种各样的社会网络。有些社会网络是开放的,可以通过多种方法进行调查研究,比如对于亲缘关系和同伴关系的研究,这些研究甚至可以通过直接的问卷调查进行;但有些网络是封闭的,从外部很难进入,对这些网络的调查研究和深入分析比较困难,比如一些特殊人群的圈子、宗教网络或者政治性群体。

随着互联网的蓬勃发展,社交型网络带来了社会网络的极度膨胀和蔓延,大量虚拟的社会网络呈现在人们面前,这个被称为“网友”的社会群体逐渐成为新的社会网络研究对象。人们的群体认知和社会交往都发生了极大的改变,社会群体的规模、结构、关联和复杂性都大大加强。

同时,2012年以来,人们对于大数据时代的探讨和研究越来越多,其中一个重要的问题就是大数据时代是否还需要抽样。有学者建议使用行政记录或相关的基础数据的完全统计分析来取代抽样调查。就社会群体而言,群体大数据的记录和分析同样具有很大的困难,这是由于社会网络的边界属性和区隔特征所决定的,大多数社会网络的成员之间有着相似的群体特征,而与外部个体有着显著的区隔。比如宗教团体成员之间的互信关系、艾滋病患者之间的“同病相怜”关系等,都无法通过简单的大数据关系实现统计分析和推断。因此,抽样调查就显得比较重要。

由于社会网络的现实性及其成员之间的特殊关联,利用现有的随机抽样的方法几乎无法完成调查和统计分析,一是因为无法得到一个社会网络成员的抽样框,其成员的花名册通常是保密的或者不可知的;二是因为即使有抽样框,对这些特殊群体的访问也是无法实现的;三是一些社会网络人群对面向社会现实的抽样调查有着天然的抗拒和排斥心理。

然而由于研究或实践的需要,有时需要对网络人群的相关情况进行估计,通过相关理论和实践研究发现,一些非概率抽样方法可以应用于上述情况中。

本文回顾了可应用于网络人群抽样的非概率抽样方法。

二、利用非概率抽样方法对社会网络人群抽样的研究现状

目前来看,国内学者对非概率抽样方法对隐藏人群抽样的研究还比较少,无论研究的程度和宽度均与国外学者有较大差距。

国外学者对社交网络人群的的抽样研究做了许多细致而有效的工作,其成果大体可以分为以下四类:

1.对抽样方法的理论研究。Goodman(1961){1}详细地介绍了S阶段K推荐滚雪球抽样的定义,并讨论了如何通过抽样样本对总体的一些特征做出推断,例如以S=K=1的情形为例,对如何表示总体中相互推荐的关系数目进行了详细论证,他指出,在对隐藏人群进行抽样时,滚雪球抽样比简单随机抽样更具效率。Salganik(2006){2}对同伴驱动抽样的设计效应和抽样规模进行了深入讨论,并发现在使用同伴驱动抽样时,所需要的样本容量是简单随机抽样下的2倍。Heckathorn(2007){3}提出在假设合理的情况下,同伴驱动抽样能够对总体作出渐进无偏估计。

2.结合具体案例,对抽样方法理论进行验证性研究。Malekinejad等人(2008){4}通过实际调查发现,如果设计合理,同伴驱动抽样在被应用到高危人群抽样时,是一种有效的方法。Wejnert(2009){5}论证了在使用真实数据的情况下,利用同伴驱动抽样是能够给出有效的估计的。Sadler等(2010){6}讨论了滚雪球抽样在招募隐藏人群时的优缺点,认为在使用滚雪球抽样时,应当十分慎重。Johnston等(2010){7}讨论了在实际应用同伴驱动抽样时所面对的优缺点。Perez等(2011){8}利用实际数据证明了,在恰当的使用滚雪球抽样方法后,对少数人群的抽样节省而高效。Korf(2012){9}利用数据再次验证了同伴驱动抽样比随机抽样在面对隐藏人群时更为有效。

3.对不同抽样方法的比较研究。Heckathorn(1997){10}比较了滚雪球抽样和同伴推动抽样的不同点,他指出,同伴推动抽样利用二次激励提高了抽样者推动和控制的效率并减少了花费。Salganik和Heckathorn(2004){11}在比较了目标抽样和时间空间抽样在对隐藏人群的估计偏差方面的不足后,提出了同伴驱动抽样通过充分利用社会网络结构的信息,能够更好的对总体作出相应估计,并给出了相应数学推导。Magnani等(2005){12}在研究如何对隐藏人群抽样时,比较了滚雪球抽样、目标抽样、时间空间抽样以及同伴驱动抽样等抽样方法的优劣。Semaan(2010){13}从目的、应用、调查过程以及优缺点等方面对时间空间抽样和同伴推动抽样做了对比。Kral等(2010){14}以招募美国旧金山的吸毒者为例,比较了同伴驱动抽样和目标抽样的效果。他发现,两种方法各具优势,综合两种方法也许是更好的抽样方法。

4.将抽样方法应用于各种领域中的横向研究。Baltar等(2011){15}在利用脸谱来研究移民时,借助了滚雪球抽样。Illenberger(2013){16}利用滚雪球抽样设计来从已有数据中估计拓普网络的特性。

三、应用到社交网络平台的思考

从已有的研究看,由于隐藏人群的比例较小且常常难以接触,常规的抽样方法难以有效实施,学者们普遍认为滚雪球抽样以及同伴驱动抽样是较好的抽样方法,这是因为上述方法借助了人际网络,提高了调查效率。

对网络人群的抽样方法研究集中在滚雪球抽样和同伴驱动抽样上,二者的区别在于同伴驱动抽样加入了二次激励机制。已有学者借助滚雪球抽样在虚拟网络中实现对目标群体的抽样。结合上述两种抽样方法的特点,当需要在线上发起一项调查时,同伴驱动抽样可能将是一种较好的调查方式,而如果想要对社交网络中某一群体的特征做研究,考虑到网友之间的推荐关系可由已存在的“好友”关系所替代,借助网络技术就能达到搜集数据的目的,滚雪球抽样和同伴驱动抽样的效果是基本相同的。

四、小结

处于大数据时代,大数据的一个重要特征就是体量巨大。在这个时代,人们能够从几乎任何数据中获得可转换为推动人们生活方式变化的有价值的知识。在大数据时代,信息会展现出其前所未有的能量,因此,获取信息尤其是有价值的信息是很重要的。对于处于社会网络结构的人们(尤其是特殊群体)而言,他们身上也蕴含着丰富的信息,如何有效的从他们身上获取信息至关重要。

对于处于社会网络中的人们而言,由于无法获取抽样框等原因,在利用传统的概率抽样方法时,很难有效地获取所需信息。解决这一问题的重要途径就是利用滚雪球抽样、同伴驱动抽样等非概率抽样方法,即在充分利用社会网络结构的特点之上,完成对目标群体的抽样,特别的,在面对社交网络时,应当注意利用其已存在并可被识别的“网友”关系。

本文详细介绍了利用非概率抽样方法对社会网络人群抽样的研究现状,并在此基础上给出了今后应用的思考,当然,就如何使用非概率抽样方法在社会网络上实现目标群体的抽样还有待进一步的研究。

[课题支持:1.2013年山西省普通高校特色重点学科项目《山西综改实验区建设统计调查与评价方法设计和应用》;2.2015年山西省研究生创新项目《转型期社会网络非概率抽样研究》编号2015SY47]

注释:

{1}Goodman Leo A. Snowball Sampling. Annals of Mathematical Statistics. 1961;32:148 170.

{2}Salganik Matthew J. Variance Estimation, Design Effects, and Sample Size Calculations for Respondent-Driven sampling. Journal of Urban Health. 2006;83:i98 i112.

{3}Heckathorn Douglas D. Extensions of Respondent-Driven Sampling: Analyzing Continuous Variables and Controlling for Differential Recruitment. In: Xie Yu., editor. Sociological Methodology. vol. 37. Boston, MA: Blackwell Publishing; 2007. pp. 151 207.

{4}Malekinejad M, Johnston LG, Kendall C, Kerr LR, Rifkin MR, Rutherford GW. Using Respondent-Driven Sampling Methodology for HIV Biological and Behavioral Surveillance in International Settings: A Systematic Review. AIDS and Behavior. 2008;12:105 130.

{5}Wejnert Cyprian. An Empirical Test of Respondent-Driven Sampling: Point Estimates, Variance, Degree Measures, and Out-of-Equilibrium Data. In: Xie Yu., editor. Sociological Methodology. vol. 39. Hoboken, NJ: Wiley-Blackwell; 2009. pp. 73 116.

{6}Sadler, Hau-Chen Lee, Lim, Fullerton. Recruitment of hard-to-rearch population subgroups via adaptations of the snowball sampling strategy. Nursing and Health Sciences. 2010:12:369-374.

{7}Lisa G. Johnston and Keith Sabin. Sampling hard-to-reach populations with respondent driven sampling. Methodological Innovations Oline. 2010.pp.38-48.

{8}Daniel F.Perez, Jason X.Nie, Cheis I.Ardern, Natasha Radhu, Paul Ritvo. Impact of Participant Incentives and Direct and Snowball Sampling on Survey Response Rate in an Ethnically Diverse Community:Results from a Pilot Study of Physical Activity and the Built Environment. J Immigrant Minority Health. 2011.

{9}Korf. Differential Profiles of Crack Users in Respondent-Driven and Institutional Samples:A Three-Site Comparison. European Addicition Research,2012:18,192.

{10}Heckathorn Douglas D. Respondent-Driven Sampling: A New Approach to The Study of Hidden Populations. Social Problems. 1997;44:174 0199.

{11}Salganik Matthew J, Heckathorn Douglas D. Sampling and Estimation in Hidden Populations Using Respondent-Driven Sampling. In: Stolzenberg Ross M., editor. Sociological Methodology. vol 34. Boston, MA: Blackwell Publishing; 2004. pp. 193 239.

{12}Magnani Robert, Sabin Keith, Saidel Tobi, Heckathorn Douglas D. Review of Sampling Hard-to-Reach and Hidden Populations for HIV Surveillance. AIDS 2005. 2005;19 Suppl2:S67 S72.

{13}Salaam Semaan. Time-Space Samping and Respondent-Driven Sampling with Hard-To-Reach Populations. Methodological Innovations Online. 2010:5:60-75.

{14}Kral, Malekinejad, Vaudrey, Martinez, Lorvick, McFarland, Raymond. Comparing Respondent-Driven Sampling and Targeted Sampling Methods of Recruiting Injection Drug Users in San Francisco. Bulletin of the New York Academy of medicine. 2010.

{15}Fabiola Baltar, Ignasi Brunet. Social research 2.0:virtual snowball samling method using Facebook. Internet Research. 2012:pp.57-74.

{16}Johannes Illenberger, Gunnar Fl?tter?d. Estimating network properties from snowball sampled data Working Paper 11-01. Preprint submitted to Social Networks. 2013

(作者单位:山西财经大学统计学院 山西太原 030006)

(作者简介:聂瑞华,山西太原人,山西财经大学统计学院 统计学硕士研究生在读。研究方向:经济统计,抽样调查,行为金融)

(责编:郑钊)

猜你喜欢
社会网络大数据
中国“面子”文化情境下领导政治技能对团队领导社会网络的作用机制研究
城市新移民社会适应与社会网络协同模拟框架研究
企业管理中社会网络的运用及相关问题阐述
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
中小企业金融支持路径的研究