陈 艳,李君亮
(1.广西民族师范学院 数学与计算机科学学院;2.广西民族师范学院 马克思主义学院,广西 崇左 532200)
大数据技术的“是之所是”——即大数据技术的本体是关系,[1]但是作为大数据技术“是之所是”的关系隐匿在海量数据之中,只有将海量数据作为大数据文本对其进行诠释,大数据技术的本体——关系——才会绽露和显现。
要对大数据技术进行诠释学的分析,首先要厘清诠释学这一基本概念。从词源学上看,诠释学(hermeneutik)一词的动词形式为hermeneuein,其古希腊文为,为陈述思想,含有宣告、口译、阐明和解释的意思。Hermeneuein一词的词根为Hermes(赫尔墨斯),而Hermes(赫尔墨斯)是负责向人间宣告、传达、阐明、转译和解释众神的信息和意志的信使,因此,诠释就是宣告、传达、阐明、转译和解释的意思。诠释学,按照伽达默尔的观点,就是宣告、传达、阐明、转译和解释的技术。[2](P475)从语言学的视角看,诠释学这一语词源于柏拉图,他在《伊庇诺米篇》中把诠释学与占卜术归属为同一类,将其作为一种解释众神旨意的技术。亚里士多德在其Peri Hermeneias(诠释篇)中沿用了诠释学一词,但理解和使用与柏拉图显然不同,他对诠释学的理解和使用均是语言学意义上的。后希腊时期,诠释学一词“有学识的解释”的含义,但这种“有学识的解释”是与圣经注释联系在一起的。[3]现代意义上的诠释学概念是由笛卡尔首先提出来的。1654年,丹恩豪尔发表了题为《圣经诠释学或圣经文献学解释方法》一书,此后,人们才区分了神学诠释学和法学诠释学。
我们所说的大数据技术的诠释学分析中的诠释学不是神学诠释学,也不是法学诠释学,而是哲学诠释学。哲学诠释学奠基于海德格尔构建的存在本体论的诠释学,其核心要义是将理解奠基于人类存在的本体特征之上。伽达默尔对海德格尔奠基于存在本体论的哲学诠释学进行了发挥、发展和完善,并由此建立起了一整套关于理解和解释的理论体系。伽达默尔的哲学诠释学的本质是人们对文本的理解和解释是在“偏见”客观存在情况下的“视域融合”过程,他认为理解不仅要在视域融合中发生和进行,由于任何思想观念的表达都离不开语言,因此,理解还跟语言密切联系在一起。
无论神学诠释学、法学诠释学抑或是哲学诠释学,都是要通过对于文本的理解和解释,理解文字的意义,解释文字的精神,获得实际的应用。理解文本、解释精神、获得意义、得到应用,这是诠释学的一些基本要素。对于大数据技术的诠释学分析就是在诠释学的这些基本要素中展开的。
现代哲学诠释学的三个基本要素是文本、作者和阅读者,浪漫主义诠释学派的阿斯特将文字、意义和精神看作是诠释的三个要素,他同时又认为诠释的这三个要素是统一于被诠释被理解的文本之中。[4]由此可见,文本才是我们诠释和理解的核心要素,是诠释和理解面对的当然对象。那么,在大数据技术中,数据是如何作为被诠释被理解的文本而存在的呢?
数据是大数据技术“是之所是”的基本质料,作为大数据技术“是之所是”基本质料的数据在哲学诠释学的视域下则是作为文本而存在的。
在传统的数据分析中,数据作为样本而存在。如在人口新常态背景下,人们要对农村家政女工的生存和发展状况展开分析和研究,通常的做法是选择几个典型性区域作为代表,以此为样本在此基础上对调查数据开展样本分析和研究。[5]在诠释学语境中,作为典型性代表的数据样本就是作为诠释的文本而存在,对于作为样本的数据的分析过程实际上就是对于数据文本的诠释过程。
但是我们可以看到,在传统的作为样本的数据文本中,数据文本作为单一的要素而存在。如对于人口新常态背景下农村家政女工的生存和发展状况数据样本,其仅仅作为样本唯一地解释着和呈现出人口新常态背景下农村家政女工的生存和发展状况,除此之外,由于要素的单一性不可能生成一种构成的结构性,数据样本也就别无他用。另一方面,在这个传统的数据分析案例中,数据样本仅需能够说明并且也只能够用来分析和研究人口新常态背景下农村家政女工的生存和发展状况,也就是说,作为样本的数据文本的诠释其意义是确定的,目标是单一的。由此可见,在传统的数据分析中,作为样本的数据文本在要素、结构和功能上都是单一的、确定的,从总体上来看只是一种一一对应的相关关系。因此,在这种具有目标确定性且要素、结构和功能处于一种一一对应的相关关系的数据文本中,数据与其说是作为文本被诠释而获得理解和意义,不如说,在其中,数据样本是作为论据去对观点进行论证、解释和说明。这样,本身作为需待诠释的对象文本却成为了解释他者的手段或工具,数据的文本意义也就在解释他者中丧失了其作为诠释文本的本来含义。
只有进入大数据时代,大数据的文本含义才可能真实地显露出来。在大数据技术的广泛应用中,海量数据——大数据——是作为真实本己的诠释文本而存在。
舍恩伯格和库克耶认为,大数据时代,我们需要的不是随机的样本——我们需要的是所有的数据。[6](P27)“样本=总体”,这就是大数据时代诠释文本的存在样态。有人或许要问,为什么作为总体的数据就是有待被诠释的文本?在舍恩伯格和库克耶的《大数据时代》中记载了日本先进工业技术研究所的坐姿研究与汽车防盗系统这样一个案例,[6](P102~103)在这个案例中,把人坐着的时候的身形、姿势和重量分布量化和数据化,形成的海量数据就是作为有待被诠释的文本而存在。我们知道,人坐着的时候的身形、姿势和重量分布量化和数据化后生成的海量数据,从表面上看来,就是一堆似乎混杂的无意义的数据,只有将其作为文本,对其可能存在的与诸事实的关系建立起某种联系,我们才有可能理解它,并且使得它的意义得到呈现。事实上也正是如此,通过对这一海量数据文本的诠释,我们可以解读出一个人的坐姿和身份识别、安全驾驶、汽车防盗、盗车案侦破之间的关系,从而呈现出海量数据的文本意义。
那么,作为诠释文本的数据又是以一种什么样的方式存在的呢?
《大数据时代》的作者认为,在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。[6](P67)这话无非就是说,进入大数据时代,人们关注的焦点不再是现象背后的因果性,我们注重的恰恰是诸事实间的相关关系。为什么我们不关注因果性转而重视数据给定的诸事实间的相关关系?有学者认为一个重要的原因就是海量数据的非结构化特征导致我们很难(也没有太大的必要)去探究数据给定的诸事实背后的因果关系,因此,我们只要弄清楚数据给定的诸事实间的相关关系,这就足够了。
与经典的具有物理实在的技术不同,在大数据技术中,大数据的结构可以说正是以其非结构性的特点表现出来。在经典的具有物理实在的技术中,技术人工物作为一个具有整体性的系统通常总是包含要素、结构和功能这三个组成部分,并且技术人工物的构成要素只要按照一定的结构构成之后,其必然呈现出一定的功能,虽然要素、结构、功能之间并非总是一一对应的线性相关关系,但不可否认的是,这种经典的具有物理实在性特征的技术人工物通常总是结构性的技术实在。但是在大数据技术中,大数据作为诠释文本的结构却呈现出非结构性的特征。我们首先要承认的是,从逻辑上看,大数据作为诠释文本具有内在的结构——正是因其内在的结构,使得我们对大数据的文本诠释成为可能。比如在日本先进工业技术研究所的坐姿研究与汽车防盗系统这一案例中,人坐着的时候的身形、姿势和重量分布量化和数据化之后形成的海量数据,其内蕴的结构就是人坐着的时候的身形、姿势和重量分布之间的关系:不同的身形、差异化的坐姿,其重量分布也就迥然不同。由此,才能得到量化和数据化后千差万别的海量数据。但是,大数据作为诠释文本的这样一种结构又具有非结构性特征,笔者认为,这种结构化的诠释文本数据的非结构性特征就表现在:我们可以对其进行不同领域、不同用途的功能性、意义性诠释——既可以将这些数据文本与人的身份识别相关联,又可以将这些海量数据与安全驾驶相关联,还可以将这些数据文本与汽车防盗相关联。这样,海量的总体数据作为诠释文本其特定的数据结构却对应着不同的意义或功能。换句话说,海量的数据诠释文本与意义或功能之间并非是一一对应的线性相关关系,这就是作为诠释文本的大数据非结构化的结构性特征。
作为诠释文本的大数据非结构化的结构性特征开显了大数据文本的不确定性和开放性,这种不确定性和开放性使得我们对于数据文本的大数据技术诠释成为可能。
大数据作为文本与一般的文字文本不同:文字文本的意义在字里行间之中,而大数据文本的意义隐藏在数据给定的诸事实及其关系之中;文字文本容量较小,大数据文本的容量巨大;文字文本有着很强的文本结构,大数据文本则具有非结构化的结构性特征。大数据文本与文字文本的这种差异性特征使得我们对其的诠释也就必然会采取不同的工具、手段、方式和方法。通常,对于文字文本,我们可以展开个人的语词诠释,也可以运用计算机软件进行文本诠释分析。但是对于大数据文本,我们却只能运用计算机软件开展专门的诠释分析,以彰显大数据文本的意义,实现对于大数据文本的理解和应用。我们将把传统的统计数据分析与大数据诠释进行一番比较,并在这种比较分析中,弄清楚大数据作为诠释文本是如何被大数据技术诠释其意义的。
首先,让我们来考察一下传统的统计数据分析是如何进行的。
传统统计数据的获得总是针对特定的目的或目标而进行的。如前文所述,我们要对人口新常态背景下农村家政女工的生存和发展状况进行分析和研究,为了获得数据作为论据以支撑论文的论述和论证,只需要选取几个具有典型性代表的区域开展问卷调查,就可以获得样本数据。如选取北京、广州、武汉、西安等几个城市的农村家政女工为样本,通过对这几个地区的农村家政女工的生存和发展状况的分析和研究,将分析结果和研究结论一般性地拓展和延伸,就可以推及我国在人口新常态背景下全国农村家政女工生存和发展的普遍状况。需要知道年龄与农村家政女工的生存和发展状况之间存在什么样的关系,需要知道婚育状况与农村家政女工的生存和发展状况之间存在什么样的关系,需要知道受教育水平与农村家政女工的生存和发展状况之间存在什么样的关系,我们就对她们的相应指标进行调查,然后对统计数据进行相应的分析。
对传统统计数据的分析方法种类繁多但也相对简单,如描述性统计、回归分析、方差分析和假设检验等方法。其中,描述性统计是一类统计方法的汇总,揭示了数据分布特性。回归分析是应用极其广泛的数据分析方法之一,它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律。方差分析也是传统统计数据常用的重要分析工具,主要应用于相互独立的随机样本、各样本来自正态分布总体和各总体方差相等情况。假设检验也是一种重要的统计数据分析方法。运用上述统计数据分析方法,对目标函项进行分析、解释和说明,因此,传统统计数据分析不是彰显意义,而是理解、解释和说明意义。
对于大数据文本的诠释则与传统统计数据的分析根本不同。大数据文本是作为总体的海量数据,其获得一般是通过智能终端设备的数据采集来完成的。智能终端设备既不是在特定的时间范围内也不是在特定的空间场所对特定的人群进行数据采集,它是在全时空境遇中对所有正在智能终端设备上进行同一模式操作的客户端上的数据进行采集,或者是在全时空境遇中对在智能终端设备进行操作的客户端上的所有数据进行采集,或者是在全时空境遇下对所有的智能终端设备开展数据收集。通过这样的方式从智能终端设备上获得的数据容量巨大,用传统的硬件工具无法存储,用传统的软件工具也无法处理。从智能终端设备上获得的海量数据容量巨大,又具有多样性和多变化性的特点,因此数据总体呈现出混杂性的基本特征,并且就海量数据本身而言,由于其价值密度低,数据之间很难建立起结构性联结,因此大数据才会被人称之为非结构化的数据。非结构化的海量数据就其自身而言只是给定的诸事实及其关系,给定的诸事实及其关系要获得理解和意义,只有作为文本得到诠释才能实现。
对大数据文本进行诠释,实际上就是开展数据挖掘以获得大数据知识发现,从而呈现大数据文本的意义、理解和精神。在数据挖掘分析领域中,最常用的数据分析方法有描述型分析、诊断型分析、预测型分析和指令型分析等四种,通过对大数据的描述性分析、诊断性分析、预测性分析和指令性分析,大数据文本诠释完成一个完整的诠释逻辑路径,大数据文本得到理解,意义得到呈现,大数据也得到现实有效的运用。
描述型分析是大数据诠释中最常见的分析方法,它通常告诉我们的是数据给定的事实究竟发生了什么。比如在金融业务中,这种数据诠释方法向数据分析师提供了重要指标和业务的衡量方法。例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。比如通过海量数据文本的挖掘诠释以了解客户的地理信息。
描述型数据分析告诉我们数据给定的事实发生了什么,接下来我们就要问:为什么会发生?这就是诊断型数据分析这样一种大数据文本诠释将要做的事情。为什么会发生——这是大数据文本的价值诠释。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心,呈现出大数据文本的数据价值。例如设计良好的BI dashboard就能够在对数据进行描述性分析后对大数据文本进行有效整合,具有按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好地分析数据。
当大数据文本诠释钻取到数据的核心后可能会发生什么?预测型分析将通过对海量数据的复杂度分析显现大数据文本诠释的现实意义,这就是进行趋势预测——预测型分析主要用于进行预测,以告诉我们可能发生什么。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点或空间场,这些都可以通过预测模型来完成。预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。预测型分析的典型案例就是Google流感趋势(GFT)预测分析。
在完成了可能发生什么的大数据文本诠释之后,在问题的逻辑序列中我们接下来就是要知道需要做什么了。大数据文本诠释的指令型分析所要做的就是告诉我们在发生了什么之后需要做什么。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通出行路线规划分析考察了每条路线的距离、每条线路的行驶速度以及目前的交通管制等方面因素,来帮助选择最好的回家路线。[7]
沿着“描述型分析-诊断型分析-预测型分析-指令型分析”这样一条完整的大数据文本诠释径路,大数据文本就在诠释中获得理解和意义,并在工业、商业、教育、管理、政务等各个方面得到广泛而又现实的运用。
大数据作为文本需要我们对其进行诠释以达成理解和获得意义,那么在大数据文本的诠释中,我们诠释的究竟是什么?数据本身是作为大数据技术的质料而存在,对大数据技术的数据文本进行诠释,不是为了获得或理解数据,而是为了理解数据给定的诸事实及其相互之间的相关关系,因此,大数据技术的数据文本诠释真实诠释的是数据给定的诸事实及其相互之间的相关关系。
从大数据技术的“是之所是”来看,关系作为大数据技术的本体,必然是在大数据技术的数据文本诠释中被绽放出来。
大数据由于其总体性、多样性、多变化性和价值密度低等特征,因此就其自身而言,从整体上看并不存在着一种稳定的结构,就数据本身而言,其内部是一种非结构化的关系,即数据与数据之间并不存在着某种线性相关关系。如两个不同的用户在Google搜索引擎上的网页浏览所留下的历史足迹形成的两组数据,就这两组不同的数据而言,它们并不存在某种特定的相关关系,两组数据记录的仅仅是两个不同的用户在不同的时空场内搜索了相同或不同的内容,浏览了相同的或不同的网页。这就是数据本身呈现的内容,即数据给定的事实。如果有海量用户通过Google搜索引擎以某一关键词进行搜索,并由此留下浏览足迹而形成海量数据,那么这些海量数据就其自身而言也不过就是记录了海量用户在Google搜索引擎上的搜索记录而已,即给出海量用户在Google搜索引擎上以某一关键词进行搜索这一事实。这些海量数据相互之间并没有形成某种稳定的内在结构,并且由于数据容量的高速扩展,数据的多样性与多变化性不断地消融着海量的数据,数据的价值密度在这种数据消融中不断降低,从而使得海量数据仅仅与每一条数据自身给定的事实相联系。
一旦海量数据进入到大数据技术的运用环节,即大数据技术诠释展开之后,非结构化的海量数据就会朝着结构化的方向汇聚,当数据挖掘的知识发现得到实质性的进展之后,海量数据给定的诸事实间的相互关系也就绽露出来了。因此,大数据技术诠释就其实质而言诠释的就是海量数据给定的诸事实间的相关关系。那么,海量数据给定的诸事实之间的相关关系是如何被大数据技术诠释呈现出来的?
我们以Google流感趋势(GFT)预测为例来阐明海量数据给定的诸事实之间的相关关系究竟是如何在大数据技术的诠释中一步一步被呈现和绽露出来的。在一定的时期和一定的区域范围内,有大量的用户以“哪些是治疗咳嗽和发热的药物”为关键词运用Google搜索引擎进行网页搜索,留下的浏览足迹便形成了海量数据被智能终端设备收集和存储。随着在一定的时期和一定的区域范围内以“哪些是治疗咳嗽和发热的药物”为关键词在Google搜索引擎上展开网页搜索形成的数据的海量递增,我们就会对这些海量数据给定的事实形成这样一个疑问:究竟发生了什么?于是,大数据技术诠释的第一步——描述型分析就展开了。
在描述型分析中,大数据技术诠释只是发现了这样一类数据集(实际上是发现了数据报道的给定的这样一组事实):即在某一时期和某一区域范围内有大量的用户通过Google搜索引擎以“哪些是治疗咳嗽和发热的药物”为关键词搜索和浏览了网页。数据集中的每一条数据本身并不重要,数据之间也不存在某种结构性关系,描述型分析仅仅在大数据技术诠释中发现了海量数据给定的一组搜索事实。只有在将这一数据集报道的事实指向大数据文本之外或之后时,与海量数据给定的诸事实相关但却并不在数据文本自身之中的外在的其他事实之间的关系就被大数据技术诠释显明了出来,这一被大数据技术诠释显明的大数据文本之外的事实就是:用户患上了流感,于是想要了解哪些是可以治疗咳嗽和发热的药物,以便自己到药房去购买能够治疗流感的药物。于是,大数据技术诠释便由描述型分析进入诊断型分析——“为什么会发生”就是对海量数据给定的诸事实做出的第一次蕴含着意义的目标指向的理解和诠释。在大数据技术这个第一次的意义性的诠释中,关系被带入在场,也就是说,大数据技术诠释不可避免地要将海量数据给定的诸事实与这诸事实背后客观存在着的相关关系显像出来。海量数据给出的是一定时期和区域范围内大量用户通过Google搜索引擎以“哪些是治疗咳嗽和发热的药物”为关键词搜索和浏览了网页的事实,通过大数据技术诠释,诊断型分析显现出了用户患上了流感这一数据文本之外的事实。于是,用户通过Google搜索引擎以“哪些是治疗咳嗽和发热的药物”为关键词搜索和浏览了网页与用户患上了流感这两类事实之间的相关关系就建立起来了。我们可以将大数据技术诠释显现的关系用一个简单的公式表示如下:
G(x):表示“用户通过Google搜索引擎搜索‘哪些是治疗咳嗽和发热的药物’”
F(y):表示“用户患了流感”
R(x,y):表示大数据技术诠释显现的意义性相关关系
那么:R(x,y)=G(x)∝F(y)
(1)
需要指出的是,大数据技术诠释显现的关系是一个概率判断。如果以这个概率性相关关系为基础进一步开展大数据技术诠释,我们就将进入到概率性预测,即大数据技术诠释的预测型分析。
诊断型分析已经告诉了我们为什么会发生,即R(x,y)已经诠释了在一定时期和一定区域大量用户通过Google搜索引擎以“哪些是治疗咳嗽和发热的药物”为关键词搜索和浏览了网页的海量事实,大数据技术诠释接下来就要问:可能会发生什么?
有道是“一枝独秀不是春,百花齐放春满园”,个别用户在Google搜索引擎上搜索“哪些是治疗咳嗽和发热的药物”或许并不会有意义性的诠释呈现,但是当某个时期在某一区域范围内有海量的用户都在Google搜索引擎上以“哪些是治疗咳嗽和发热的药物”为关键词进行搜索时就不禁会让人做出如下猜测:这一地区是不是流感爆发?大数据技术诠释的预测型分析就是基于诊断型分析对描述型分析中海量数据给出的诸事实做出这样一种可能的概率性关系预测。如果用P(z)表示基于诊断型分析对描述型分析中海量数据给出的诸事实的预测型分析,R(x,y,z)表示完成了描述型分析、诊断型分析和预测型分析的大数据技术诠释显现的关系,那么:
R(x,y,z)=R(x,y)∝P(z),或者R(x,y,z)=(G(x)∝F(y))∝P(z)
(2)
2式表明,通过大数据技术诠释,用户在Google搜索引擎上搜索“哪些是治疗咳嗽和发热的药物”、用户患上了流感、某一地区流感爆发这三者之间具有一种诠释性的内在相关关系。
通过描述型分析、诊断型分析、预测型分析,大数据技术诠释终于达成了对于海量数据文本的理解,并明确了大数据文本的意义。对于海量数据文本的大数据技术诠释就其目标而言当然是为了实现大数据的技术应用,因此,大数据技术诠释自然而然地来到了它的最后一步:指令型分析。
严格说来,指令型分析是基于数据文本诠释的决策分析,如在进行了大数据技术诠释之后获知某个地区流感爆发的概率,相关职能部门采取增加医疗资源投入或实施隔离措施等举措。指令型分析的未来决策性质使得大数据技术诠释获得了一种未来指向性,从而也就满足了诠释的文本理解、意义精神和解释应用等基本要素。