刘朝 马超群
【关键词】大数据 小数据 数据融合
大数据正在逐步改变人们的生活习惯和思维方式,在推动社会进步和发展的过程中发挥日益重要的作用,无论学界和业界还是政府都越来越重视大数据的发展及其作用。而与大数据相对应的小数据,似乎在热火朝天的大数据时代逐渐被遗忘。事实上,小数据具备的精确性和个性化优势在大数据时代也是一股不可忽视的力量。那么,我们应该如何看待和处理大数据和小数据之间的关系呢?
由于目前各界对大数据内涵界定的不一致,导致大数据的特征也未形成统一认知。但是,学界普遍认为大数据具有“4V”特征:第一,大数据在规模上呈现出数量多、体积大的海量特征。不同于以MB 为基本单位的传统数据,大数据的容量及处理量通常以GB、TB 乃至PB 为基本单位。第二,大数据在类型上呈现出种类多、来源广的多样性特征。大数据无时无刻不在自动产生数据,其种类涵盖文字、图片和视频等。数据来源可以是在线交易、移动通信和网络社交等途径。第三,大数据在更新和处理数据的速度上均呈现出高速性特征。一方面,随着网络环境不断完善,大数据采集和传输速率大大提升,从而加速数据更新;另一方面,大数据强调数据在线,能够根据实际需要对数据进行实时处理。第四,大数据具备高价值性且价值密度低的特征。由于大数据是涵盖全体对象的总体数据,它可以从总体数据中挖掘出高价值的全量信息。与此同时,也因为大数据体量庞大和数据类型繁杂,海量数据中蕴含价值的信息容易淹没在垃圾信息中,信息提取无异于“大海捞针”,呈现出价值密度低的特征。
与大数据在规模、类型和价值三个方面的特征进行对比,我们可以发现小数据具有以下几个方面的特征:第一,小数据在规模上表现为有限性,主要体现在对象和体量上。一方面,小数据的采集对象主要为个人,这在一定程度上限制了数据规模的扩大;另一方面,数据体量的“大”“小”衡量是相对的,小数据并非简单的体量小,而是与海量大数据相比,小数据的容量是有限的。第二,小数据在类型上也呈现出多样性特征。从数据来源看,小数据可以产生于访谈和调查问卷等。从数据种类看,它包括各种结构化、半结构化以及非结构化数据。第三,小数据具有一定的价值且价值密度高。由于小数据主要围绕单一用户的个性化信息,并且数据规模相对有限,小数据中的价值信息并不容易被淹没,且较大数据而言,小数据的价值密度更高。
大数据与小数据的区别主要有以下四点。一是样本的差异。首先,从样本容量看,大数据涵盖全体用户,样本容量为总体样本量。小数据则具体到个体,样本量单一。其次,从样本来源看,大数据只能搜集客观存在的行为数据,小数据则可以根据特定问题搜集数据或定制数据,具有较强的目的性和针对性。最后,从样本数据类型看,大数据和小数据都包含结构化、半结构化和非结构化数据。但是,大数据中半结构化和非结构化数据的占比更大,而小数据则以调查得到的结构化数据为主。
二是精确性的差异。大数据对数据收集和分析的精确性要求低于小数据。由于大数据样本来源的广泛性和数据的海量性,大数据在数据收集环节也具有粗糙性,价值密度比较低,而小数据则相反。其次,大数据通常在线处理的数据也是有限的,加上数据处理的实时性要求,其结果往往只是近似情况,而小數据专注于个性化探索,对精确性的要求较高。最后,大数据关注群体的共性规律,小数据关注揭示个性化规律,所以它们的分析层次分别是针对宏观和微观层面的,这也决定了大数据和小数据的精确性差异。
三是关注的因素关系差异。大数据更关注相关关系,而小数据则更关注因果关系。大数据是“让数据说话”,它基于数据驱动的思维,从海量数据中分析出“是什么”。而小数据更注重结果背后存在的内在逻辑关系,它是基于理论驱动的思维,不仅要了解“是什么”,还需要探究“为什么”,对现象背后的本质把握更为深入和透彻。
四是价值发现的维度差异。从维度层面看,大数据的价值发现主要在于广度,小数据则主要在于深度。这是因为大数据的海量性和多样性特征,大数据的涵盖面广,涉及的因素多且复杂。因此,它更侧重于在横向领域的价值挖掘,价值发现的层次浅但范围广,有助于把握宏观规律。而小数据是对个体数据全方位的收集和挖掘,其涉及面与大数据相比较窄,但挖掘更为彻底,有助于深刻认识个体。
无论大数据还是小数据,都有自身的优势方面,也有不足的地方。事实上,大数据和小数据的优势所在,是需要根据具体的业务场景来分析的,因为它们在解决不同业务问题方面的优劣各不相同,并且这些优势也都是相对的。
首先,大数据发展信心满满。随着互联网时代的发展,围绕在人们周围的信息呈爆炸式增长,这些多样化、结构复杂的信息不断汇聚形成大数据。相比于传统数据,大数据在信息聚合、信息代表性以及信息检索方面有着得天独厚的优势。
第一,大数据具有较强的数据代表性。在数据代表性方面,大数据力求详尽,试图运用数据展示研究对象的全部面貌,而不仅仅是通过数据抽样来展示局部化的数据,即“样本= 总体”。在早期的社会科学研究当中,由于技术限制,对于研究对象涉及的数据往往都是通过抽样调查的方式来实现的,这样的数据研究方式可能使妍究样本和对象不具有代表性,从而无法纵观研究对象的宏观全貌。而大数据的出现恰好解决了数据不具有代表性的问题,因为大数据是对全样本数据的搜集与整合,抽样带来的误差被大数据极大地稀释了。这一优势在做宏观决策方面有着深刻的价值体现,如果对群体中的样本数据采用抽样的方式,可能出现抽样偏差的情况,最终得到的宏观决策不可信赖。
第二,大数据有助于信息快速聚合。大数据依托其大体量、高速度、高效用以及多样化的特征,在信息聚合方面具有显著优势。大体量的特征使得大数据能够产生巨大的数据流,将数据不断聚合,使数据从稀缺到丰富、从静态到动态、从分散到聚合,这为复杂的研究分析与模型演绎建立了可靠的数据基础。高速度的大数据能够对实时数据进行快速采集并加以分析应用,将信息聚合的时间大大缩短,在电子商务的海量交易等场景下,可以发挥其无与伦比的高速度特点。高效用的大数据在进行信息聚合后能够在用户画像、精准营销以及预测走势上提供更多价值,从而使得数据信息产生的效用最大化。而多样化的大数据结构丰富、来源众多,有助于得到更加普适性的结论,这在社会和自然科学等领域有着显著的体现。例如,加拿大麦吉尔大学的Ford 教授指出,大数据在气候变化方面的应用将大大改变人们对气候变化管理的理解。
第三,大数据具有显著的海量数据信息检索能力。大数据在检索方面的优势主要体现在业界的实际应用方面。由于信息时代的计算机技术得到长足发展,各行业均可在短时间内依托计算机技术实现海量数据的处理。例如,金融行业可以基于人们日常投资习惯、消费习惯以及收入开支等数据信息检索,建立健全社会信用体制以及识别欺诈行为;问询系统是业界最常用的工具之一,它基于前期积累的问答信息以及学习生成的海量信息,通过信息检索匹配出最准确的问询结果,以较低的成本极大地提高了用户的问题咨询效率。这些实践和应用得益于大数据的“4V”特征,在海量数据信息处理过程中具有极其显著的优势。
其次,小数据应用不甘示弱。技术水平的进步不仅带来了大数据也带来了更多的小型数据集合,并且小数据能够以更加迅速和更为低廉的成本获得结论。它在灵活性、隐私保护和因果关系深度挖掘方面具有绝佳的优势。
第一,小数据在搜集数据时更为灵活。我们通常认为人们搜集、处理海量数据的行为是一种带有特定目的的理性行为,所以需要提前规划好数据和应用的框架,以便更好地处理海量数据信息。相比于大数据“船大难掉头”,小數据在数据搜集时则显得更为灵活。例如,联合利华、雀巢以及欧莱雅等快消行业品牌都倾向于投入较多资金在问卷调查这种小数据搜集项目上,这是因为问卷设计者可以根据自身需求对问卷进行设计,从而更加清楚和细致地了解消费者对产品的态度与看法,而企业的大数据则只能根据已有大数据资产进行挖掘分析。此外,虽然大数据具备基于海量数据对未来发展进行预测的能力,但是只能对事物发展大体走向给予初步判断,无法在一些特定环境下做出合理的预测。相比之下,小数据在预测分析特定情况或小概率事件时,能够根据实际情况灵活制定数据的搜集策略,从而得到更加出色的预测结果。因此,如果说大数据搜集是协调统一的“团队行动”,那么小数据搜集则更像灵活多变的“单兵作战”。
第二,小数据对隐私更加“友好”。表面上大数据很容易获得,但事实并非如此,因为具有研究价值的数据往往涉及商业机密、个人隐私或者经济利益等问题,这给大数据在隐私保护方面带来了巨大挑战。例如,在智能城市建设当中,公民的一些活动数据被相关机构所获取,这对大部分守法公民的个人数据隐私造成了威胁。此外,基于用户位置信息和上网数据痕迹等大数据,为用户推送相关的广告内容也成为大数据在隐私保护方面的一个挑战,因为不仅用户的个人信息随时随地被网络监听,而且一些弹出广告也对用户体验造成了极大困扰。然而,小数据则在保护受访者隐私方面交出了满意的“答卷”。一方面,由于小数据的搜集通常是以问卷调查或随机抽样的形式展开的,所以小数据在搜集数据的过程中能够做到尊重受访者意愿并保持匿名受访的方式;另一方面,小数据在搜集后通常多为一手数据,所有权和使用权都为小数据的搜集者所掌握,这对数据的隐私保护更为友好。
第三,小数据更注重对数据间因果关系的深度挖掘。由于小数据通常根据实际研究需要有针对性地进行收集,所以获得的数据更加个性化,可以从这些个性化的小数据中深度挖掘数据信息中的因果关系。而大数据具备的特性,使得它更擅长从数据中发现事物间的相关性,但在分析数据间的因果关系时总显得力不从心。例如,在研究楼盘开业与人流量之间的关系时,发现楼盘开业与前来现场的人数具有较高的相关系数,通过大数据分析方法只能证明这两者之间具有较强的相关性,而不能确定两者之间是否存在明确的因果关系,原因在于无法确认是楼盘开业吸引人们前来现场,还是开盘当天站台明星吸引了人们前来。要厘清这其中的因果关系,还需要通过小数据进行更为精确、更加细致和富有内涵的深度分析。因此,数据驱动成就了大数据快速挖掘事物表面的相关性,但这些浅层次的相关性还不足以让我们看清事物的深层次本质,而小数据在因果关系的深度挖掘方面则具有更加细腻的优势。
一是打破大数据和小数据壁垒。当前,大数据的应用发展日益成熟,各种结构化和非结构化的数据搜集已经十分便捷。然而,相比于大数据,小数据不仅分散,而且数据结构不统一,这导致了大数据和小数据在接口上陷入难以结合的窘境。如果能将大数据和小数据的数据壁垒打破,实现大小数据的整合,那么就能充分挖掘数据中的价值,实现数据价值增益。而构建数据中台可能是最有望解决这一问题的方式。数据中台是连接数据和应用的中间层,可以将数据湖中不同数据的口径进行标准统一。因此,可以借助数据中台打破大数据和小数据间的数据壁垒,实现二者的有机结合。一个最直观的例子,新型冠状病毒疫情暴发后,为了追踪病毒感染者可能的传播范围,早期相关部门通过新闻广播感染者乘坐交通工具的座位信息,地毯式搜寻可能被传染的人员。然而,这种方式不仅费时费力,而且随着病毒感染人数不断增加,后期已经杯水车薪。随着健康二维码在杭州首先被推出后,其迅速被全国各地所采用。它整合了手机用户的定位信息、付款交易信息和乘坐交通工具信息等多源大数据,并且根据用户填报的居住信息、体温信息和近两周内出行信息等,搜集到了个体小数据。这些大数据和小数据汇聚形成数据湖后,经过数据中台处理分析,生成个性化的健康二维码,从而为追踪可能被病毒感染的人员提供了快速有效的方法。
二是通过大数据技术挖掘小数据集合。数据、算法和算力作为驱动数据科学发展的三大基石,它告诉我们数据只是数据时代的一部分内容,更重要的是如何挖掘出数据中蕴藏的巨大价值,这也正是大数据能持续风靡全球的原因。大数据的价值不仅在于它的数据量大,还因为有机器学习、深度学习和人工智能算法等大数据技术,可以充分挖掘其价值。如果我们将这种大数据的思维也类比应用于小数据上,让大数据技术赋能小数据,同样也可以挖掘出小数据中的大价值。例如,聚类分析是大数据技术中最常见的一种数据挖掘方式,它可以将群体中具有相似特征的个体进行归类。这种方法可以用于挖掘商场中消费者的个性化小数据,从而为消费者提供个性化的精准导购服务。因为导购员可以通过交流,发现消费者的年龄、性别和喜好等个性化特征,如果能搜集整理好这些个性化的小数据,然后将这些小数据进行聚类分析,可以把不同的消费者归类,从而针对同一类消费者的喜好情况制定特定的导购服务,不仅能给消费者提供更加个性化的精准服务,商场也可以省去大量的无效工作。虽然如今大数据备受追捧,但是我们也不能忽视“以人为本”的社会发展本质,最终社会的发展方向也一定会走向越来越个性化和精准化。因此,将个性化的小数据结合大数据技术进行挖掘分析,可以更加充分地释放小数据中的大价值。并且相比于大数据的挖掘结果,小数据的挖掘反倒可以得到更加个性化的数据信息,这充分发挥了大数据的技术优势和小数据的个性化优势。
三是用小数据中的信息补充大数据中的规律。由于大数据在数据量方面的优势,使得它能够更加全面地从海量数据信息中发现总体规律。然而,也正因如此,大数据在发现数据信息背后的总体规律时,也牺牲了数据信息背后的个性化规律,而这些个性化规律有时候往往具有更大的价值。因此,我们在挖掘大数据的总体规律时,也应该注意个性化规律,用小数据中的个性化信息补充大数据中的总体规律,从宏观和微观两个层面充分剖析数据的内在含义和价值。大数据在医疗方面的应用是当前大数据最成功的实践应用之一。一些疾病诊断可以通过大数据的方法,从搜集的海量病例数据库中挖掘出类似的疾病规律供诊断参考,从而实现疾病诊断工作提速增效。但是大数据中发现的总体规律只是提供一种高效的参考而已,每位患者的具体情况存在差异,医生还需要结合患者的个性化小数据信息来最终确诊疾病。即便未来大数据医疗在技术层面取得更大突破,个性化小数据中的信息和大数据中的规律相结合依然会是最好的方式,特别是针对疑难杂症。例如,同样是肺炎,但是致病的机理却有不同类型,如果我们没有对小数据中的信息进行分析,就无法获知这其中的因果关系。特别是当肺炎大数据中主体规律掩盖了数据中小部分个性化规律时,只看到数据的表明现象,而没有厘清内在的因果关系,可能会造成无法想象的后果。因此,我们不仅要知其然还要知其所以然,这需要从小数据信息中发现其中的因果关系,为大数据中的规律锦上添花。