熊建英
(江西警察学院安全管理系,南昌 330003)
大数据时代,不仅具备海量数据的融合基础,也拥有超强的大数据处理能力,人们利用从巨量数据中挖掘出相关关系快速解决了很多问题,取得了前所未有的成果,这使得学术界提出了在大数据时代要用相关性代替因果性的思维变革。例如有学者提出“大数据时代,必须抛弃对因果关系的执着,转而关注简单的相关性”[1]、“大数据时代,不用清楚知道为什么,只需要知道是什么”、“现象背后的原因不重要,让数据自己发声”“让数据说话、只需要利用相关性知道数据阐述的高概率结果是什么”等。[2][3]但在人们一般思维中,如果只是清楚“是什么”,而不过问“为什么”,这又似乎推翻了自古以来的思维惯例,也给我们做决策和理解现实的基本思维模式带来了挑战。同样在大数据发展迅速的今天,警务工作中如何正确看待大数据的相关思维,是否要考虑因果规律,笔者希望从两种思维的本质与差异展开探讨,联系公安实战工作,可以给警务工作人员一些启示。
人们习惯的思路是“做出假设、建构模型、数据证实、优化模型、预测未来”,而这种通过“大胆假设、小心求证”的思维也被称为机械思维。利用这种思维方式我们也取得了很多成果,例如,牛顿就用力学三定律和万有引力定律几个简单明了的公式说明了大千世界宇宙万物的运动规律。机械思维最重要的几点是:公式确定、简明、普适,这也就是说观察的问题中,有确定的自变量、且因变量和自变量之间有明确的作用关系、作用关系也存在普遍性。所以传统的机械思维的核心思想是确定性和因果关系,即事情一旦发生,必然会产生相应结果,也一定有确定的模型解释发生的原因。[4]
而到了数据时代,可用的数据量剧增,数据驱动方法的优势越来越明显。由于各个领域数据不断向外扩展,使得数据开始出现交叉,各个维度的数据从点和线渐渐连成了网,数据之间关联性增强,也就形成了大数据。面对日益复杂的社会,时刻存在不确定性,而数据中包含的信息以及数据之间的关联性可以帮助人们消除不确定性。我们很难从海量、多维、千丝万缕的数据中抽取出确定的决定因素、也无法给出精确的模型去匹配,所以也逐渐产生使用数据强关联性代替过去用因果关系去解决问题的倾向。[4]
大数据具有特有的4V特征如图1所示,即数量(Volume)大,网络时代的产生的数据总量和增量巨大;种类(Variety)杂,数据来源可以是互联网、物联网、智能设备等多源信息,且数据类型可以是非结构化、半结构化、结构化形式的数据;速度(Velocity)快,数据增长速度快、对数据处理的响应时间也要求高;价值(Value)密度低,有价值的数据通常被隐藏在海量的数据之中,需要对数据进行整理、分析、挖掘才能找到有价值的信息。[5]
图1 大数据4V特征
人们总说“思维决定命运”,所以在大数据产业发展过程中,无论是政府部门的决策者、企业组织的管理者,还是普通人员都需要具备一定的大数据思维。而大数据思维则是大数据时代的产物,即具有数据思维的一般共性,也由于其自身的4v特征,使得在思维方式上也呈现出其独有的特征。由于数量大、更新快,且多维度信息也可以相互消除一定不确定,使得大数据可以更全面反映真实世界,更容易通过挖掘出数据之间相关性用来观察现实社会的规律。正如舍恩伯格在 《大数据时代》将大数据思维方式归结三个方面:可以利用更全面的数据替代随机样本,允许数据的混杂性,而不追求精确性,分析事物看重事物的相关关系,而不是持续追求难以捉摸的因果关系。[1]
相关关系:也称联想关系、类缘关系、非等级关系。是指研究对象中的某个数据发生变化时,其他数据会随着发生变化。这种关系的核心是经验的归纳,是表示客观现象之间确实存在某个现象的数据存在另一现象的数据与之对应,但数据不一定有严格的对应依存关系。[6][7]相关关系可以根据人的历史行为数据来预测人的未来行为数据,至于行为人为什么会做出这些行为,相关关系则不能进行解释,也不关心这种行为背后的机制。
因果关系: 是揭示客观世界中事件之间的作用关系,其中先发生的事件被认为是后发生事件的原因,后发生事件是先发生事件的结果。这种关系的核心是理性演绎,是反映事物之间前后相继的制约关系。[6][7]“事出必有因”是人们探索世界的一种本性,人们也习惯从“为什么”开始解决问题,所以因果关系也成为人类理解世界、改变世界的基础。
随着大数据技术的深入应用,哲学家也开始关注大数据问题,从本体论、认识论和价值论多方面对大数据进行研究,并形成了大数据哲学的研究方向。而在哲学界,很多学者对因果关系与相关关系都提出不同的观点,两者之间差别也一直是一个有争议的话题。典型的观点可以归纳为以下三种:[8][9][10]
1.相关关系不是因果关系,持有这种观点的代表性学者如大数据之父维克托·迈尔·舍恩伯格提出“大数据不是因果关系,而是相关关系”;认为从数据中找到相关与从相关关系再找到因果关系不是一回事,即“相关关系并不意味着因果关系”。
2.因果关系是特殊的相关关系,学者提出“因果关系不是特殊的关系,而只是一类相关关系”;“不存在没有因果关系的相关关系”,而学者指出“大数据不仅不是对因果关系的否定,反而是可以重新刻画描述因果关系的手段”。
3.区分因果关系与相关关系是个伪命题。持有这种观点的学者认为,大数据时代我们需要做的事情不是探究两者差别,而是“如何从大数据的相关关系中推断出因果关系”。
1.两者分析路径不一样
相关关系是通过经验归纳或大量数据统计来识别有用的关联特征对某一现象进行解释,如事件A与事件B经常同时发生,我们一旦看到事件B发生后,可以预测事件A会比较大概率发生,那么可以推断A和B之间存在相关关系。A和B之间是否存在因果关系,则是要通过人的理性逻辑分析,需要分析事件发生的作用关系。如A引起B发生,则A是因,B则为果。这里“引起”可以解释为A是B的充要条件、一种因果传递、一定概率导致。如果只是强调A与B发生现象存在相关性,直接通过对数据进行统计分析就可以得出结论,但如果要证明二者之间是不是有因果关系,则需要找到彼此之间的条件依赖性,启动人们的思维推理机制,描述之间的作用关系,一般要通过科学实验与演绎论证才能进行证明。[11]例如我们常说的吸烟有害健康,如果我们从对大量吸烟人群进行统计,找到吸烟的人容易发生肺癌,那表明吸烟与肺癌存在相关性;但如果要推导两者的因果性,则需要通过证明烟草中某个成分引发肺癌的发生,这就可以通过实验进行证明。
2.两者不等同,因果存在相关,但相关未必是因果
从生活经验来看,事件之间如果有因果关系,一般都会有相关关系,但事件之间即使没有因果关系,也可能会有相关关系。所以相关关系比因果关系更为广泛普遍,两者不能等同。[12]因果关系只存在于两个事件之间,假如A是原因,另一方B则是结果(AB)。而存在相关关系的事件之间作用原理可能是相互的(AB),A可能是因,B是果,也可能B是因,A是果,或者是关联了其他事件C(ACB),而A和B本身没有任何因果关系。
例如,光照时间和水果含糖量之间存在因果关系,因果链可以表述为:光照时间越长,光合作用产生更多的糖,水果也就越甜。光照时间与太阳能发电之间也存在因果性,光照时间越长,太阳能发电量也越多。从数据看上,光照与水果糖分、与太阳能发电的相关系数也比较高,太阳能发电与水果糖分相关性也很高,但不能得出结论水果糖分与太阳能发电存在因果性。进一步说,想要水果更甜,可以通过增加光照时间,但不能说可以通过增强太阳能发电量,如果错把太阳能发电与水果甜度有因果关系,那么除了光照,通过改变发电设备工艺增强太阳能发电,而这时发电量的增加与水果甜不甜没有任何关系。
相关性属于粗略性分析,不需要获取精确的分析结论,而因果关系则是要得出精准的结论。所以相关未必有因果,相关是一种取像,只是这个世界变得越来越复杂、数据量越来越大,如果再从繁杂海量的数据中找出因果要素非常困难,虽然不能直接证明因果关系,但是可以揭示出各种可能性,可以为推测因果关系提供思考方向,所以利用大数据统计出的强相关性则成为当前快速有效的分析方式。
信息技术发展促进社会发展进步,公安部门正面临人—事—环境等各类监管数据的几何增长和高频流动,也使得警务工作变得艰巨繁重。例如互联网舆情所引发的“黑天鹅”“灰犀牛”事件更是给监管部门带来极大的挑战,公安所面临的警情数据也不仅仅是主动报警或请求,还有很多来源于网络监测、数据比对预警等。推进“警务大数据”深度应用关键需要具有公安视角的 “大数据”思维,贯穿于案件侦查、社会治理等警务工作。
从公安行业视角来看,大数据思维则可定位为一种通过数据化的整体性思维对数据资源、警务模式、犯罪治理、管理决策进行重新审视;以构建多源异构的混杂大数据管理为基础,梳理一整套数据采集、整理、分析方案,从海量数据相关性中快速洞见情报信息,从多维信息中消除不确定性支撑管理决策,从而形成数据驱动警务运作的思维方式。[13]
大数据时代,现实复杂的场景会产生大量、多样的数据,如果在工作中从有无因果关系,以及原因与结果产生的机理分析就成为非常耗费精力与时间的事情,有时思考方向出现偏差,甚至一无所获。公安大数据的融合创新,需要将民警的工作经验与大数据技术进行融合建模,能否找到技术与业务的契合点,则很大程度需要警员具有相应的思维能力。而目前很多民警的数据深度应用能力偏低,往往依靠传统经验开展个案的因果分析,不能应对新情况,而大数据时代,则需要我们更关注总体、从执着个案因果转向关注总体的相关性。所以在公安行业中,相关性分析也成为大数据思维中至关重要的要素,在案件侦查、社会治理、情报研判中都起着非常重要的作用,下面将具体进行分析。
基于相关关系的侦查思维,是一种从相关关系数据中寻找案件线索、找到侦破切入点或突破口的新的侦查思路和方法。具体来说可以是通过侦查人员以“与案件相关的人、事、物”之间的联系、关联程度进行分析评价;也可以在不同案件之间的关联中找出一些可能性、相似性等联系,对相关数据进行综合分析研判,对案件进行串并案、犯罪产业链进行全方位打击。[14]例如对于逃犯的追踪,侦查人员可以借助相关数据进行分析,包括交通、住宿、手机、车辆、通信、社交、支付等数据,如图2所示,迅速找到案件的侦破口。
图2 关联数据侦查
从这些关联数据很可能找出的线索,从而判断嫌疑人潜逃目的地,再落地抓捕。而同样这种情况下,去通过传统从因到果的思维方法,则需要再现实中先判断嫌疑人的行为,再去调查证据,那将面对非常多的不确定性,无疑是大海捞针。所以依靠大量相关的数据发现线索,由数据到人的方法则越来越普及,它不仅可以快速提供有价值的线索,还可以为证据提供更多的数据支撑。
高效的社会治理是全面提高国家安全和社会稳定,提升人民群众安全感的关键。预测警务则是应用分析技术,特别是定量的数据分析技术,通过对大数据进行分析可以感知风险隐患,主动实现风险预测、犯罪防范预防。如图3所示,首先通过大数据收集,不仅包括各类犯罪数据,还需要融合商业、环境、人口等数据。紧接着是对数据进行融合,对犯罪数据产生相应的预测。[16]包括预测犯罪风险较高的地点、时间,犯罪风险较高的人群、嫌疑程度最高的人、容易成为受害者的人群等等。最后是辅助警方制定干预措施,例如警力资源分配、向风险更高的地点投放更多的警力等。
图3 预防犯罪数据研判过程
例如在社区犯罪预防方面,可以结合常驻人口、和流动人口、物联网监控数据、发案时间与地点、作案特征等信息,如图4所示,对社区治安案件数据统计分析,得到一些案件于数据之间的关联特征,如盗窃案件与某个时间段相关性高、与某些小区相关性高、与小区流动人口比例相关度高、与小区安防设施部署相关性等等特征,可以采取优化小区安防,加强巡逻、加大安全宣传等措施,达到预防犯罪行为。这些与案件相关性的特征,未必是我们凭经验可以一步考虑周全的,也无法得到一个量化的分析比对。而通过案件与其他数据之间关联度的分析,可以过滤出高关联的因素,再结合已有经验进行逻辑判断,则可以快速找出预防犯罪的重要元素。
图4 治理性分析示例
在警务工作中,围绕某个对象搜集相关大数据,综合大量数据出挖掘出重要线索是情报研判的重要工作。[17]但大量数据中找出支撑结果的一个或几个线索,是很难凭直接经验发现的。大数据时代,则可能完全是先对数据挖掘,找出关联度高的因素之后作为结论,再逆向重新构建因果逻辑。例如:英国通过大数据缩小恐怖分子排查范围。在国际上恐怖分子破坏极大,也难以监控。很多学者都希望可以提前把他们筛选出来,但是无论从情报、通信监控、资金往来监控方面都难以找到有效的筛选方法。而英国经济学家霍斯利通过大数据发现是恐怖人员的身份与保险购买具有很强的关联性,恐怖分子不购买保险,他在传统的行为监测中添加了这个条件把怀疑范围大大缩小,警方也根据这一线索果然抓到了恐怖分子。不能说不买保险的人就是恐怖分子,但大数据表明恐怖分子与购买保险具有强相关性。从这一相关性出发,可以很快找到筛选的方法。
但人们更习惯形成认知闭环,如果不搞清具体影响过程,就觉得这个结论不可靠。大数据的相关性分析可以更快速找到解决问题方案,我们可以先知道结果,然后再倒推原因。如果进一步寻求其原因,则可以逆向推理建立逻辑关系因果链条,是因为在英国这种高福利国家,保险是发放福利的一个重要途径,只要一份很便宜的保险,就能保障基本医疗。而穆斯林普遍结婚早,一个20多岁的英国公民或长期居住者,都会购买保险。但恐怖分子却为什么不买? 因为保险行业规定,保险兑付时有一个前提条件就是投保人不能是恐怖分子。所以很多恐怖分子就会因为成本收益核算影响,最后被大数据识别出来。
大数据时期,情报处理的计算模式也在改变,从以往的“流程”核心转变为“数据”核心,如图5。大数据思维显著特点是全数据样本思维、相关思维。而海量的数据也超出了人工对信息处理的极限,需要借助现代化信息手段。大数据思维可以促进人的灵感性、形象性、发散性和逻辑性,帮助分析人员产生创新思维。[18]“发散性”思维的最大特点是思维的跳跃性,其能够把两个看似没有联系的“信息”沟通联想起来,对已有的线索从不同角度,用不同方法进行分析,产生新的思维结果。所以在思维模式上,人的思维将与机器思维相结合,交互,得到对于事物不同可能性的元认知,再进行收敛归纳,进一步推导因果逻辑。
图5 大数据情报分析思维模型
在这个复杂的社会背景中,存在很多不确定性、也产生海量的数据,如果凡事都要等我们理清楚准确的因果关系,再去解决问题,那么很多时候事情都已经被耽误了,最后也不值得办理了。从统计学角度来说,“数据思维”就是回归分析,即确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。[19]即定量分析事件发生之间的相关性、关联度。把从复杂现实信息中,抽取因果逻辑转换为利用计算机算法从大量数据做统计分析,找出数据之间相关性,再映射为现实事件的相关性,从数据相关性出发找到解决方案,而不需要找到非常紧密和明确的因果关系。
古人云:以道驭术,以术驱道。在“道”的层面上,相关分析是一种思维方式,在它的指导下,我们可以把“业务问题”定义成“数据可分析问题”。而在“术”的层面,相关分析又是一种可以运用的数据分析工具。需要找出业务的核心诉求Y,及影响结果自变量X,找出X与Y变化关联程度,而X的收集、也就是大数据的收集则也来源于我们对业务的洞见。
“菩萨畏因,众生畏果”,说的是智慧的人敬畏原因,普通人敬畏结果。所以利用大数据相关性快速解决问题时,为了减少决策错误,也要尽量做到始于相关、终于因果原理。例如深圳警方接受采访时说:天秤座、处女座、天蝎座的人更喜欢违章。因为三种星座的违章比例为10.5%、9.63%和9.0%,确实占据前三。但更深入分析,另一个关于全世界人口出生时间的大数据统计结果表明亚洲东部地区9到11月份的相对偏多,这又在一定程度说明了本身这几个星座人口就偏多,所以这种星座与交通违章的相关性则可能是伪相关、没有因果逻辑。进一步说,如果我们从相关性出发,再深入分析原因,则也可能在因果链上发现更多解决思路。例如地区A与交通事故发生关联度高,那么为什么A地容易发生交通事故,进一步分析原因可能有A地靠近学校等人流密集地、A地车道较少、A地拐弯路口设置不合理等等,那么从因果链上看,对于预防A地的交通事故可采取的措施就有很多种。
大数据是基于数据之间存在的关系来发现存在的规律,从而进行判定、预测、决策等,大数据技术发展也对思维方式产生了巨大变革、全样本、混杂性、相关性成为大数据思维重要元素。很多学者持有的观点认为在说大数据是一种只追问 “是什么”,而不问“为什么”的思维方式。笔者认为大数据思维并不是否定事物规律,世界上很多事物存在很大的不确定性,各个维度的数据连成了强关联的网络,出现利用大数据的强关联性替代因果性趋势。大数据的相关分析思维方式也广泛适用于警务工作中,在情报研判中可以通过相关思维进行发散,挖掘更多情报价值,也可以利用相关性去快速洞察、找到解决问题方案,但因果关系作为人类理性活动所追求的目标,仍然不能被忽视和否定。