张琳
(河北省科技工程学校,河北 保定 071000)
(一)定义
维基百科对大数据给出的定义是:“大数据(Big Data 或MegaData)或巨量数据、海量数据,指的是所涉及的数据量规模大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。”这是从数量的级别 (PB或 ZB)来定义大数据的,主要讲的是数据量巨大使得用常规的数据分析技术无法挖掘和处理。
(二)类型
传统数据的类型以结构化为主,这是基于明确的研究目标而设置的标准化的数据收集规范。与此相对应,大数据的类型除了少量的结构化数据之外,大量以非结构化或半结构化的形式存在,包括网络日志、音频、视频、图片、地理位置信息等等,类型多样的数据对数据处理能力提出了更高的要求。
(三)来源
传统数据多数来源于抽样调查或统计调查。而抽样调查一般按照随机原则,设计严格的抽样程序来获取样本数据。国内外学术界有影响的问卷调查数据多数采用多阶段、多层次与人口或劳动力规模成比例的概率抽样方法 (PPS)以确定最终的抽样单位,通常采用面访的方式获得样本数据;而大数据是基于现代科技手段,采取实时监控、测量、存储的方式及时获得数据。例如,基于互联网和现代智能技术所获得的交通流量、医疗卫生健康、气象水文、环境变化、社交娱乐互动、商业物流等方面的记录,尤其是近年来基于互联网的浏览、搜索引擎、上传下载等行为产生的数据,成为大数据的主要代表。
(四)时效性
传统数据的收集和清理的时间较长、处理速度较慢、时效性不强。多数传统数据是静态的截面数据,即使追踪调查数据 (Panel Data)也至多是两三年以后对同一期群的事后回溯性访问;大数据的处理速度快,时效性高。大数据可以及时更新、及时变化、及时追踪。这是大数据挖掘区别于传统数据挖掘最显著的一个特征。
在企业、政府和社会各界纷纷为大数据时代的到来而欢欣鼓舞之际,我们还更需要进行更为深入的理性思考。我们认为,在社会学方法论和研究方法上如何突破,仍然是亟待社会学家解决的首要问题。大数据挖掘技术和分析方法给社会学学科发展带来难得的历史机遇的同时,也给社会学研究带来了严峻的挑战。
(一)样本偏差问题与传统的社会学定量分析相比,大数据的样本从数量上更接近于总体,但是这个总体是有偏差的、有局限性的。中国有 7.72亿网民,而中国总人口 13.9亿,那么通过互联网抓取个人信息的方式来获得的大数据依然无法涵盖6.18亿非网民。在实际的研究中,研究者往往仅依靠一个或几个门户网站的后台数据作为分析资料,那么这种大数据仅是使用该网站用户的数据,不能将分析结果推论到其他网民,更不能推论到全体国民。因此,社会学研究者应该明白,大数据中的总体是有局限、有偏差的总体,其他难以通过大数据方法抓取的个体并未作为研究对象包含在总体中。因此,对于研究结论的推论也只能在有限总体的范围内才可能是有效的或可靠的;此外,互联网网民的个人活跃度存在很大差异,其活动或痕迹被抓取的概率也不同,因此互联网大数据的形成既不是抽样,也远非随机,而是具有极大的偶然性
(二)重要变量的缺失問题虽然一些网站的后台数据也能提供网民的性别、年龄、职业、收入、家庭结构、居住地、出生地等社会人口信息,但是这些自我填报没有经过实名认证的信息存在着很大的水分甚至虚假成分。互联网区别于现实世界的一个重要特征是其虚拟性。网络世界网民身份具有不可靠性。作为社会学定量分析最关键的这些分类信息如果缺失或虚假的话,以此数据分析所得结论的可靠性就会大打折扣。
(三)相关关系解释性不强的问题依据相关关系而非因果关系分析所获得的结论在解释性研究中的效度不强。如前所述,多数大数据的统计分析仅仅止步于相关关系。但是,社会学家很清楚,相关关系不一定是因果关系。熟悉统计学的学者都知道,当数据的样本量达到一定程度以后 (更不用说大数据这样的海量样本),任何两个根本不相关的变量之间都可能存在很显著的相关性 (很可能是虚假相关),诸如美国沃尔玛超市数据所揭示的季节性风暴到来时蛋挞与飓风用品销售量的之间统计相关关系、西班牙大选投票数据所发现的天气状况不佳与保守党得票率之间统计相关关系的虚假性。由于缺乏更多的控制变量可以应用,大数据的社会学统计分析目前基本上还没有运用中高级统计模型的因果分析的成果。实际上,除了相关关系分析之外,多元回归模型、中介模型、多层次对数模型、曲线模型等因果模型,在解释性研究中发挥着关键的作用。如何运用因果模型进行大数据的社会分析还需要进一步的研究。
(四)各种大数据的整合还是一个难题虽然公共数据的开放与共享正在成为一种趋势,互联网门户网站和互联网公司所开放的数据还相当粗放和有限,多数开放数据是研究者利用爬虫技术从网站上抓取的未经加工、筛选的原始数据,政府职能部门、公立机构 (如银行和金融机构、通讯公司、医疗卫生机构)和非公立部门(如私营互联网公司和大数据公司)、社会组织等掌握的数据的开放程度也非常低。在我国政府将大数据产业作为一种基础性战略资源重点支持的宏观背景下,如果各部门都将自己拥有的垄断性大数据作为“私有资源”的话,那么势必会形成“数据孤岛”现象。不仅会造成现有数据资源的浪费,而且还会造成同类数据挖掘和分析的重复投入。国内外关于大数据科学领域的应用目前主要集中于资料的收集和储存方面,对于用什么方法分析这些海量数据,用什么理论解释互联网世界的社会秩序、社会规范、社会角色、社会结构、社会互动、社会分层与社会不平等这些社会学的经典问题,目前国内外还都处在同一起跑线上。因此,通过我国社会学家与其他社会科学家、自然科学工作者特别是计算机专家、统计学专家的协同创新和联合攻关,有望提出具有独创性和原创性的分析方法、研究范式、理论体系和国际标准,在全球范围内领跑。