吴 哲 丁海斌
(1.沈阳建筑大学马克思主义学院,辽宁沈阳,110168;2.广西民族大学管理学院,广西南宁,530006; 3.广西数字档案管理研究所,广西南宁,530006)
“数据”概念从学界对其进行察考或阐释开始,常处于较为抽象之境地,难以有一个精准的、达成共识的概念界定。又因为数据时代之“数据”,已经成为社会热点词汇,被许多学科所关注与引入,又经过不同学科视角的研究,从而引申出若干内涵与外延。由于着眼点不同、学术进路不同、认知差异等多种因素影响,对于“数据”概念的阐释呈现了百花齐放的态势,至少存在数十种概念界定。在某种程度上,“数据”概念呈现出不确定性、多元性与歧义性。因此,形成这样的判定并不是没有原因的:“数据本身没有确切的含义,其含义来源于背景语义。”[1]此外,在人文社会科学的一些学科领域(比如哲学),容易想当然地认为“数据”一词,是由“数”而来,所以不乏“数—数据—大数据的历史沿革”[2]这样的讨论。而计算机学科认为:“编码都必须是计算机能够接收的形式,因此,‘数据’一词的最早来源就是指‘计算机数据’。”[3]既然“数据”一词的历史渊源、“数据”一词的概念界定等都尚未完全厘清,那么,对“数据”进行一次概念史考察,或许可以消解某些歧义,提升我们对“数据”概念认识的明晰度。
“数(數)”字始见于战国文字,由“婁”而来,简化字为“娄”。“婁”字出于金文,古时即有“数”之涵义,段玉裁释谓:“婁,亟也。亟者,數也。”[4]例如,战国中期之郭店楚墓竹简《语丛二》中,所谓“名娄”,即“名数”[5]也。后加“小击也”之“攴”,乃造为专字“數”,其简化字写作“数”。
《说文解字》将“数”字之本义厘定为动词“计算”,训曰:“数,计也,从攴婁声。”[6]作动词时读音为shǔ,如《道德经》:“善数,不用筹策。”[7]从动词义计算,引申出名词义“数目”,名词读音为shù,如《庄子·秋水》:“号物之数谓之万。”[8]自汉代以后,尽管“数”的形容词、副词词义仍然使用,如数百步、数见不鲜等,但其主要词义“计算”“数目”已然相当稳固,此二义与今之“数据”概念存在着一定的关联性。
现代人谈论“数据”的概念时,其重心在于“数”“数字”“数字化”等,“据”字多被视为后缀,因此在概念阐释时,“据”字常常为人所忽视。释“数”者多,释“据”者少,就像前文所述,有学者讨论“数—数据”的历史沿革,却几乎没人会去讨论“据—数据”的历史沿革。以今审之,“数据”概念之涵义恐亦与“据”之动词义“依托”、名词义“凭证”有所关联,绝非仅为后缀而已。如,我们日常使用“据研究表明”“据调查表明”,是可以的,但若说“据数据表明”,则有病句之嫌。
“数据”乃为“数”字与“据”字两词素相叠加之合成词。所谓“数据”,取“据”之名词义,则为“数字之凭据”;取“据”之动词义,则为“据之以数”或“以数为据”。此二义其实一脉相循,互为呼应,即数据何以能成为“数字凭据”呢?在于“以数为据”是也;反之,若可以“以数为据”,则数据便可以成为“凭据”。
在中国历史文化语境中,“数”与“据”连缀使用时,“据”字多为动词依托、依据之义。自古统计数目,于数目后,常跟随此种“以数为据”之义,即“某某数,据某某”。如“户千六十七万七千九百六十,此《通典》所载之数,据《东汉书》”。[11]但是古时“数”“据”二字连缀使用,尚非固化之双音节合成词,只是表达根据什么而来、以某某为依据之类的涵义。如,《春秋谷梁传》:“今传言公田什一者,举其全数,据出税言之”[12];《素问》:“守数据治,无失俞理”[13]等,此中所谓守数据治,即根据常规、规律而进行治疗,实为“据数”之义。又如“臣不过据数而言,岂敢妄议是非?”[14]此中之“据”固为动词,而“数”亦并非全是数目、数字的涵义,还有规律、术数等其他涵义。一如现代之“数据”概念,“数”亦并非只能指代数字,除数字外,文字、图形、图像、音频、视频等亦皆可称“数据”。此外,将“数据”当作双音合成词来使用,出之甚晚。以现有资料考察,清代学者杨守敬所撰《日本访书志》,其中《太平圣惠方》一百卷《目录》一卷中,谓“计其所采方书,增于《外台秘要》数据倍”。[15]其中所谓“数据倍”,结合前面“增于”二字,则此“倍”或为加倍之义,即“数据倍之”,故“数据”似当为合成词。不过这种用法即使在近代,亦非常见。
关于Data的历史溯源,最早可追溯至古希腊数学家、被称为“几何学之父”的欧几里得。即,Data早期与数学具有较强的关联性,此恐怕亦是Data在现代词语涵义上等于“数据”之基础与渊源所在。从欧几里得时代到现代,以概念史视角来看,Data的涵义主旨似未发生颠覆式的变化,但其所指却出现过数次微妙的调整。
Data概念源自数学(几何)著作,因此,对于Data的优先译介权也在数学史的领域里发生。据称欧几里得除《几何原本》外,另有15部著作,不过基本都已散佚。“《已知条件》(Data)……是唯一以希腊原文幸存至今的另一部著作”[16],这里面至少提供了两个至关重要的信息:其一,早期的Data,涵义为“已知条件”;其二,学界现在广泛流行的观点认为“数据”一词最早出现于“拉丁文”,或许可以商榷。这一著作中提出的若干涉及比例与图形等众多命题在数学史上的意义值得我们重视。因为这些意义在现代的“数据”概念里仍在延续。
数学家们并未执着于意义,只是指出“在已知图形中某些部分或关系是已知时,其他部分或关系在这种或那种意义上也是已知的”这种解释,正是《已知条件》(Data)这部著作的核心思想,而对于这种核心思想的最简洁的内涵表达即是:Data。因此,或可将Data的原始意义做一次提炼,即,限于图形范畴,若某些元素已知,则其他元素也可以成为已知。在此种意义上,现代“数据”之“以数为据”的概念与数学史上的“已知条件”相吻合。例如,在数据时代,若“已知”某人的每日出行轨迹,则该人的其他元素,如家庭住址与工作单位可“成为已知”等。因此,“数据”概念的原初涵义“已知条件”,在21世纪仍然成立。现实生活中,所有互联网服务商们之所以能够对网民群体使用“自动推送”“精准投放”等手段,都是基于“部分已知,其他部分也已知”的底层逻辑。
如果说强调“已知”意蕴的Data,多存在于数学领域。那么,对于强调Data之“资料”意蕴的解读,则较多地存在于历史学领域(在这个意义上,“资料”“文献”“档案”等概念为近义词甚至同义词,常可互换使用)。其中,双方的研究重心不相同,数学领域中的“已知”,具有计算性、思辨性意义,历史领域的“资料”,则更多的是Data的功能性意义。
强调“资料”意蕴的Data,其较早似可追溯至精于魏晋玄学、佛教史的近代历史学家汤用彤先生。汤先生在论“科学推理之诸原则”之际,曾将Data界定为“算术之材料”。[17]民国时期,“史学即是史料学”“只要把材料整理好,则事实自然明显”[18]等观念颇为流行,以“史料”作为史学之起点与基础,具有相当先进的意义。尽管汤用彤先生走的不是“史料学”一路,但其对于史料的重视是显而易见的。而在史学家眼中,“数”“量”“数量”也好,“已知条件”也罢,恐怕皆为历史之“材料”而已。此种历史视角之界定,将“数据”指向“材料”“资料”意蕴的习惯,到了现代,似在史学界仍有所延续,例如,在《新史学之古代科学与现代文明》一书中,便将数学家眼中的《已知条件》(Data),明确释译为《资料集》(Data)。[19]
前文曾述,现代探讨“数据”之概念,重心在于“数”“计算机”“数字化”等,“据”字多被视为后缀,常为人所忽略。然而,从“数据(Data)”的词语内涵角度,无论是汉语还是外语,其“依据”意蕴都不应如此轻易地被摒弃或丢失。
尽管《英语同义词辨析大词典》将Data释译为“系(以事实、数字或统计为形式的)数据,资料”,但也明确提出了“Data的要件是dat=give提供”。[20]无论是“已知条件”,还是“材料”“资料”,都是名词,而“提供”却是动词,那么“Data的要件是dat=give提供”之意蕴,只能由数据之“据”来表达。前述“据之以数”“以数为据”之“据”,其动词义为“依托”“依据”,而“Data的要件是dat=give提供”中的“提供”,即为“依托”。
在强调Data词语内涵的主旨为“依据”这一方向上,亦有学者提出:“数据(Data)这个词来自拉丁语,指‘一些给定的东西’。”[21]尽管认为“数据”一词来自拉丁语尚待商榷,但是,这所谓“给定”的涵义,却与“提供”“已知条件”颇有异曲同工之妙。而“给定”相比仅仅“提供”,在“据”之可为“依托”的方向上,似又更进一步。
总而言之,“数据”一词的三种历史涵义“已知条件”“资料”“依据”,各有其视角与着眼点,但这三种不同视角的意蕴阐释,却又可回环相通。其回环如下:“已知条件”,是可知的,所以当然可以成为“资料”(不可知的不能称为资料,只能称佚失或阙如了);而“资料”具有存储或记录之属性,因此是可搜集、可整理、可提取的,若占据了“资料”,就顺理成章可以成为某种“依据”或“凭证”;而“依据”或“凭证”,既然都以此为据、以此为凭了,便无法将其归入“未知”,则显然属于“已知条件”。
数据时代,作为核心概念的“数据”一词,早已经跨越了学科壁垒,被若干学科所关注并频繁使用,各个学科也都曾对“数据”进行过概念解释。理工学科大多从“工具价值”的角度使用“数据”;而人文社会科学学科则大多从向理工科“借用”“引用”的角度出发来使用“数据”。因为数据时代之所谓“数据”,与计算机、互联网的发展密不可分,所以一个潜在的事实为:人文社会科学大体上默认“数据”概念的原始解释权属于理工科,而人文社会科学的不同学科在使用“数据”概念时,基本上要遵循理工科的定义、边界与范式,至多小心翼翼地在理工科概念框架内增添一点该人文社会学科的特色语词,将“数据”涵义进行某种嫁接式的“二次开发”。所以,在学术界若干学科里,其实都对“数据”概念进行过界定,只不过这数十种界定,由于过于对计算机学科“察言观色”、小心翼翼,从而对于“数据”的概念界定纷纷走上了一条“不求有功,但求无过”的学术进路。甚至在“一切学科的基础”之哲学领域里,对“数据”的释义都难以触摸本质,现在看来,似乎亦是“无过即是功”式的含糊其辞。例如,将“数据”界定为“人类认知活动的产物”“客观事物的主观反映”“对事物现象进行表征的一种逻辑语言”。[22]将“数据”定义为人类认知活动的产物、客观事物的主观反映,或许无过,但是“人类认知活动的产物,客观事物的主观反映”只是等于“数据”么?也即是说,“=”的左右两边其实并不对等。至于“一种逻辑语言”,则显然是计算机学科对“数据”定义的某种借用,因为只有计算机视角,才能将数据界定为“语言”。所谓“计算机语言”,实在只是以人为主体视角中人类“语言”一词的比喻、比拟而已。
在档案界,“数据”一词的应用与其他学科有所不同,因为数据就是数字时代的档案,二者在数字时代实为一物。
(1)原因与根据
为什么说数据是数字时代的档案呢?有以下原因与根据:
第一,从历史角度讲,档案与数据从来就密不可分。从前面的论述可知,“数据”一词的来源与本义,不论是汉语的“以数为据”,还是西文的“已知条件”“资料”“依据”,都具有档案的含义。在计算机还未兴起之前,“数据”就具有 “已知条件”“资料”“依据”等涵义,已经与“档案”密不可分。第二,从定义角度讲,档案是人们有意识保存起来的原始符号记录[23],而数据的属性完全符合这个定义。数据时代,“数据”一词在具有了计算机的内涵之后,与档案的关系不疏反密。一方面,数据是人通过计算机有意识形成与保存的;另一方面,从原生态的数据而言,数据是原始符号(数字符号)记录。从这一点看,它完全具备档案的属性,是一种称为“数据”的档案事物。第三,从实践角度讲,档案是人类实践活动的原始符号记录,而绝大多数原生态的数据是具有这种属性的,它们是网络世界中人类活动的符号记录,是数字实践活动的档案记录,在属性上属于档案事物是确定无疑的。我们不能因为它们中有一些目前不属于档案机构的管理范围,而说它们不是档案。第四,从功用角度看,对其他人文社会学科而言,“数据”只是本学科发展的辅助资料,其着眼点只在本学科关注的部分。而在档案学界,就研究对象而言,“数据”并非只是“辅助”,而是“主体”“全部”,档案学关注的不只是“小小一部分”,而是人类实践活动中形成的“数据世界的整体”。不论哪个学科的“数据”,都可成为档案;不论结构化数据还是非结构化数据,都具有档案价值,都可成为档案。
总之,档案学界使用“数据”一词,与其他人文社会学科有着巨大的区别。对档案学而言,“数据”就是自己,是“主体”或“全部”,所以只是用“拿来主义”的态度来对待它是远远不够的,必须用本学科的核心概念和理论来做出科学的解读。
(2)形式与内涵
目前,“数据”与“档案”的结合包括 “档案数据”“数据档案”“档案大数据”等多种形式。其中“档案数据”一词最为流行,笔者以该词为主进行分析。从20世纪90年代,计算机含义的“档案数据”一词产生以来,主要被理解为偏正结构,即“档案”是“数据”的定语,起修饰、限定作用。但归结起来,基于偏正结构,“档案数据”一词中的“档案”,主要有两种含义:“具备档案性质的”或“关于档案的”。
在数据形态的档案世界中,我们可以把其存在形态分为两种基本情形:一是基于局域网、行业网等的各种业务系统中的数据,它们一般为结构化数据,其档案性质能够较清晰地被人们意识到并较容易地被接受,其档案管理机制也较容易地被建立起来;二是基于广域网中的各种非业务系统中产生的数据,如社交系统中产生的数据,由于它们多数是非结构化数据,其档案性质容易被人们忽略,或者说其档案属性不明显,是否转化为结构化数据是它们是否被认为是传统意义上的“档案”的关键。
各种业务系统上的数据被视为档案管理起来,是目前档案界要解决的较为直接与紧迫的工作,也是档案界目前的“共识”,这些结构化数据被档案界内外认可为档案较容易,所以这些数据常常被称为“档案数据”。但同样具有价值的非结构化数据,因其数量更大、形态更多,加上非结构化不利于管理,在实践中成为传统档案机构的管理对象是一件很难的事情,所以,虽然它们在属性上是档案,但在管理行为上和思想认识上较难被接纳为档案,它们往往不会被称为“档案数据”,这是人们较难接受“数据即档案”观点的关键。数据时代的档案工作,说到底可以分为两个部分:一是将结构化数据科学管理起来;二是将非结构化数据转化为结构化数据并科学地管理起来。后者一旦得以实现,人们就不会再说它们不是档案了。
(3)两条路径与“档案数据”的重新解读
关于“档案数据”的解读,笔者将思路重点放在广义与狭义的两种解释路径上,即广泛存在的具有“保存起来的原始符号记录”属性的数据和档案界内的较传统的解释路径(“关于档案的数据”“档案内容数据”等)。这两种解释路径可以并存,且只是广义与狭义之分,不是非此即彼、相互排斥的关系。
关于狭义的“档案数据”,我们将其理解为一种偏正词组结构,即“档案的数据”。在这种“档案数据”的偏正词组结构认知中,“档案数据”一词的词义相当复杂,会生发若干歧义。所谓的“档案数据”,到底是“‘属于档案的’‘关于档案的’‘档案中的’‘档案机构所有或管控的’‘档案业务活动中形成的’‘档案数据化后的’‘档案化处理后的’‘归档或存档的’还是‘具有档案属性的’等都无法厘清。”[24]当然,以“档案的数据”的偏正词组而言,这些理解都是有思辨意义的。随着社会信息化的发展,档案界处于左右两难的境地。向左,档案即数据,档案范围扩大了,但界限模糊了,很多情况下档案人会觉得自己似乎也消失在数据的海洋中了;向右,坚持“档案数据是关于档案的数据”,就会使档案工作的范围越来越窄,原有的领地也一步一步地被蚕食掉,会使自己处于一种非常尴尬的境地——将档案管理与数据管理截然分开,自己只是历史档案的管理者,将档案的现实实践意义拱手让给“数据工作者”。档案工作与数据工作变成了两个职业,档案工作不是得到了发展,而是倒退了。
事实上,融合和发展是不可避免的,用传统的观念理解今天的档案世界,已经是不可能的事情了。世界在改变,我们的思想和概念也必须发生改变,这是不以人的意志为转移的客观现实。概念的突破,词汇的发展,说到底是思想上的突破与发展。这种思想上的突破与发展,要从事物的本质出发,从发展着的实践出发,从历史唯物主义的发展的角度出发。其中,传统的档案机构本身就是突破和发展的对象,传统意义上的档案机构即将发生改变,那么,“保存在档案机构的原始符号记录才是档案”的思想自然也会被突破。同样,我们也要突破“即时与历时”的局限。在数字世界中,数据即生即存、形成与保存一体,即时与历时已经没有了明显的界限。因此,我们不能因为它们的实时性而否认它们的档案性质。当然,在办公和业务系统中,电子文件与电子档案在程序上的前后区分仍然存在。
关于广义概念的“档案数据”,我们可以有偏正结构和同义并列式复合词(同义复词)结构两种理解方式。偏正结构方面,我们可以认为“档案数据是具有档案性质的数据”,而因为绝大多数数据都具有档案性质,我们得出“数据即档案”这种概略性的说法(数据有少部分不具有档案性质,如图书数据库中的图书数据。因此我们说“数据即档案”是一种概略性的说法)。同义复词结构方面,管理学有“管理数据”,考古学有“考古数据”等,“数据”作为一个热词,是被以“拿来主义”的方式使用,用来丰富本学科学术内容的,“档案数据”当然也有这一层用意。在此意义上,所谓“档案数据”与“管理数据”等名词一样,皆可为偏正关系词组。但是除此之外,与其他学科不同的是,它还是一个并列关系词组。因为在“资料”“依据”意义上,甚至在“已知条件”的意义上,数据与档案是同义词,因此,从这个角度而言,数据即档案。
结合前述,从历史溯源来看,在计算机尚未兴起之前,“数据”与“档案”已经密不可分,甚至某种程度上为同义词。因此,我们似不必一定要以“计算机、数据化”的视角去解读“档案”与“数据”,从而将“档案”与“数据”视为截然不同之二物;所谓“档案数据”,亦不必一定得将其内涵默认为“档案的数据”,进而因“到底什么是‘档案的’?”而产生大量分歧。我们可以对它进行另外一种解读,即将之理解为同义复词“档案和数据”(“数据”不过是对“档案”的重申)。
从历史渊源和同义复词视角看“档案数据”一词,可以解除“属于档案的”“关于档案的”“档案中的”“档案机构所有或管控的”等方面的争议。此类争议的特点在于全部都是以“的”结尾,这种阐释模式下,即便暂时用“档案数据”解释得通,但未来仍存有较大之隐患,即“档案”若是仅将自己定位成定语与修饰词,那么,档案或成为计算机或计算主义之附庸。因为在数据时代,强势的计算机术语正在大量植入其他学科,并成为热点词汇,如云计算、共享池、虚拟化、区块链、元宇宙、生态云,等等。如果我们将档案仅当作数据的定语与修饰词,那么,“档案虚拟化”“档案云计算”“档案共享池”“档案云”“档案区块链”等一旦成词,则“档案”复将一次次地成为“云计算、共享池、虚拟化、区块链……”等无数计算机术语的定语与修饰词。
前述档案其实不像其他人文社会学科那样只关注“小小一部分”数据,而是关注“数据世界整体”,因为所有不同学科的“资料”,都可成为档案,因此,“数据”之于档案学,应该与其他人文社会科学学科有所不同。那么,将“档案”仅当作“数据”的定语与修饰词,可以是其他视角,而不应该是档案学的视角。事实上,在以档案为主体的视角中,庞大的计算机、互联网,也只不过是档案的“工具”或者说具有“工具价值”罢了。在这种意义上,档案自身在数据时代的主体意义才能得以确认。而且,档案学界应该理直气壮地确认档案在信息社会的这种主体地位,而不必“苟且偷生”。
在对“数据”赋义的过程中,其概念界定呈现出不确定性、多元性与歧义性,学界存在多种定义与阐释,代表着我们对“数据”的认识多立足于局部,尚未完全清晰,包括本文在内,学界每一次对“数据”进行的考察,都可视为厘清之努力。作为合成词的“数据”,其主要来源是与Data进行的对译,但是由于“数据”一词已彻底融入中国语境,则对其汉语汉字之意蕴亦不可无视。尤其不应该选择性地忽略“據(据)”字,将其仅视为语词之后缀。在对“数据”概念进行界定之际,某些时候,“据”反而处于关键地位。
从历史源流角度考察出的“数据”三种意蕴:“已知条件”“资料”“依据”,外在表象似乎不同,内里却是相通的。并且,此三种意蕴不只是在历史上成立,现代依然在运行。比如相对于“资料”“依据”而言较难理解的“已知”,现代互联网的“数据推送”依然基于“部分已知——其他部分也已知”的底层逻辑。“数据”的三种意蕴使得它与“档案”具有一种天然的自始至终的密切联系,而这种联系是此前的学术研究所忽略的。
至于“档案数据”,现代多将之理解为“档案的数据”,实则“数据”与“档案”为近义词甚至在“资料”“依据”意义上为同义词。“档案数据”是一种同义复词,“数据”不过是对“档案”的重申,因此,不应将“档案”仅仅视为“数据”的定语与修饰词。即便不以语词诠释的视角,只以现实应用的视角,若能够认清档案的“主体”地位,则计算机、互联网以及存储或传送于其中的“数据”,亦只是具有“工具价值”。坚持档案的“主体”地位,在未来才不至沦为计算机或计算主义之附庸。