康蠡 王先发
摘 要:科研档案数据是记录科研档案信息及科研档案业务活动或业务信息的各种数据,其产生于科研工作者、科研档案管理人员与科研档案用户,由科研档案内容数据、管理数据和利用数据构成,与科研档案信息、科研数据既联系密切又互有区别。
关键词:档案数据;科研档案数据;科研档案信息;科研数据
Abstract: Scientific research archival data is a variety of data recording scientific research archival information and scientific research archival business activities or information. It originates from scientific research workers, scientific research archive managers and scientific research archive users. It consists of content data, management data and utilization data of scientific research archives. It is both closely related to and different from scientific research archival information and scientific research data.
Keywords: Archival data; Scientific research archival data; Scientific research archival information; Scientific research data
作为一种新兴现象,科研档案数据概念的提出虽然已有一段时间,相关实践也取得了一定的进展,但受多种因素的影响,学界和业界对该领域的学术研究却相对欠缺,导致科研档案数据概念的内涵及建构逻辑不甚明了,迟滞了科研档案数据理论和实践的发展。鉴于此,本文拟结合国内外有关研究和科研档案实践,探讨科研档案数据的概念内涵及与相关概念的关系,以深化对科研档案数据的认识。
1 科研档案数据的界定
1.1 科研档案数据的定义。何为科研档案数据?回答该问题需要以概念内在的逻辑结构为切入点。从构词学的角度考察,科研档案数据是一个典型的合成词,根据合成词所强调的重点的差异,其大致可以分解为“科研+档案数据”和“科研档案+数据”这两种不同的结构形式。在两种修辞结构中,“科研”“科研档案”分别修饰后面的“档案数据”和“数据”,对二者起到相应的限制和说明的作用。这样,不同的分解方式就决定了“科研档案数据”概念有着不同的语义侧重:第一种方式指向的是“科研”的档案数据,强调科研档案数据是一种特定类型的档案数据,即来自科研领域,由科研人员在科研活动中(包括立项、实施、验收、结项、成果转化等环节)搜集和形成的带有档案属性的数据。这种数据是与“非科研”领域的档案数据相区别、相对应的一类档案数据,彰显的是科研活动所涉及的数据的历史性或档案价值。第二种方式则是从数据科学的角度强调对科研档案的数据化管理,指向的是“科研档案的”即与“科研档案”相关的数据,凸显出在大数据、云计算、智能技术等以数据为驱动的新技术的日益渗透下,科研档案的存在开始变幻为各种数据体,亟须以数据科学的思维和方法进行应对。这两种分解方式各有其合理性,只是所持视角不同,导致对科研档案数据的理解出现相应的差异。应研究需要,本文主要聚焦于第二种结构,探讨“科研档案+数据”分解方式下科研档案数据的含义(第一种结构的定义另文分析)。
按照逻辑学的观点,下定义必须抓住被定义事物的本质属性,指出被说明对象的本质特点,把容易与之混淆的对象区别开来。[1]具体到科研档案数据的界定,在当前其属概念“数据”的定义已相对明确的情况下,关键是要遵循概念界定的基本规则,厘清科研档案的语义,从中找出科研档案数据的“种差”。鉴于科研档案数据属于档案数据的一个子类,两者在概念结构上有着内在的一致性,拥有共通的解释逻辑,因而可以套用档案数据概念界定的分析框架,即其中关于“档案”的定义来对“科研档案”进行阐释。参考国内外对档案数据中“档案”一词的释义,科研档案数据中的“科研档案”归纳起来大致有以下几种意思:[2]①科研档案中的;②具有科研档案属性的;③承载科研档案信息的;④与科研档案有关或关于科研档案的;⑤科研档案业务中形成的;⑥科研档案数据(字)化后的。这些解释从不同侧面揭示了科研档案数据的某些本质,也都有一定的局限性,究竟哪一(几)种更加准确?对此的判断,除了要借鉴档案数据定义中对“档案”的理解外,更根本的还是要扎根现实,立足科研档案数据产生的时空场域明确其主要范畴。
作为一个合成概念,科研档案数据包含了“科研档案”与“数据”两个单词,但并不是二者的简单加总,它的兴起与受关注是在大数据浪潮奔涌而至的背景下,数据理念和技术与科研档案有机融合的结果。就形成机理来看,科研档案是科研档案数据提出和产生的基础:档案的表现形式是数据。[3]因而科研档案数据首先应该来自于科研档案。与此同时,伴随档案生命周期的演进和档案管理的客观需要,在科研档案业务活动中也会产生相关的数据,如数字化的档案副本、描述档案实体特征的元数据以及档案利用中的用户数据等,在“数据为王”、各行各业日益注重全数据的当下,这些数据对于科研档案工作显然是必不可少的,理应予以关注和利用。可见,科研档案构成了科研档案数据来源的基点,但科研档案数据的产生并不局限于科研档案本身,而是存在于科研档案管理活动的各个环节。也就是说,科研档案数据实际上是伴随科研档案及相关的业务活动而产生的,因此需要围绕这两个方面来对科研档案数据进行概念界定。基于以上分析并考虑数据的定义,[4]本文认为,科研档案数据中的“科研档案”既包含“承载科研档案信息的”意思,也含有“科研档案业务中形成的”以及“记录科研档案业务信息的”意思,将这几层意思统筹起来方可比较准确地反映科研档案數据的理论内涵与实践意蕴,因此将科研档案数据定义为:记录科研档案信息及科研档案业务活动或业务信息的各种数据。
1.2 对科研档案数据定义的理解
1.2.1 科研档案数据的本质。科研档案数据既有自身特有的本质属性,也有其属概念下其他同类对象所共有的本质属性。根据上文定义,科研档案数据的属概念乃是数据,而数据本质上是“未经加工的事实或对特定现象的描述”,[5]是“对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合”。[6]因而,科研档案数据本质上也是关于事件的符号记录,具体来讲,它是对科研档案信息或科研档案业务活动及其信息的记录与呈现。以概念构建的深层逻辑来看,它的出现蕴含着现代信息技术进步对科研档案和科研档案工作的深刻影响,体现了在大数据技术广泛应用、数据科学与科研及档案事业深度融合的背景下,数据思维与方法已深入渗透到科研档案及其活动的方方面面,使得科研档案管理数据化成为科研档案事业发展的新方向。进言之,科研档案数据实际上是大数据时代“万物皆为数据,万物皆可数据”态势在科研档案领域的映射和延伸,昭示出科研档案工作由信息驱动向数据驱动转型的趋势。对应于此,其内涵所指除了涉及统计学意义的以“数值”为表征的数据,还涵盖了无法用数量关系揭示的描述性数据和视觉性数据等。
1.2.2 科研档案数据的形成者。科研档案数据来源于科研档案及其业务活动,承载着科研档案信息或科研档案业务信息。与此相应,其形成主体主要来自三个方面:一是科研工作者(包括个人和机构)。作为科研活动的发起人和承担人,科研工作者通过调查研究、科学实验或科研管理等实践,直接形成或搜集相关的科研数据,这些数据在履行完现行功能之后,因具有备考价值而转化为科研档案数据,成为科研档案数据最主要的来源。因此,科研工作者乃是科研档案数据的第一形成者,虽然他们并不直接参与科研档案管理活动,但在科研档案数据的形成中却发挥着源头作用。二是科研档案管理人员。这些人员是科研档案管理活动的承办者,他们在管理科研档案的过程中,除了要采集、整合、传递科研工作者所形成的科研档案数据外,也会生成新的有关数据,如目录数据、元数据、设备数据等。因此,他们既是科研档案数据的保管者和传递者,同时也扮演着科研档案数据形成者的角色。三是科研档案用户。档案用户作为科研档案信息的消费者,在利用科研档案的活动中不仅会获取、吸收科研档案数据,也会产生用户基本属性、行为日志、社交活动等方面的数据,这些数据可为分析用户利用偏好,开展个性化精准化服务提供依据,因此同样具有重要价值。综上可见,科研档案数据具有形成主体多样化、差异化的特点,这些不同的主体基于各自的活动和需要,既分工又合作,为科研档案数据的产生注入源源不断的动力,成为科研档案数据持久的生产源,进而决定了科研档案数据既有着一般档案数据的原始性、客观性、增值性等基本属性,也有着相异于其他档案数据的系统性、积累性、高知识性等个性特征。
1.2.3 科研档案数据的构成。科研档案数据构成复杂、种类多样,观乎来源和形成方式,其含括了科研档案内容数据、科研档案管理数据和科研档案利用数据等三大类型。[7]其中,科研档案内容数据是指科研工作者在科研活动中直接生成和搜集的各类科研档案数据,主要承载反映科研过程和结果的档案信息,涵盖了纸质科研档案、原生态电子科研档案及纸质科研档案的电子化副本记录的数据,以及对科研档案文本聚合、计算、加工后得到的系统化、结构化的数据等。就数量和地位而言,科研档案内容数据是科研档案数据最主要、价值最高的部分,亦是科研档案数据管理和研究的重点。科研档案管理数据指的是对科研档案进行收集、鉴定、整理、保管、统计时形成的数据以及档案行政管理工作时形成的数据,主要包括科研档案元数据、目录数据、统计数据等。科研档案利用数据则是指在向用户提供科研档案利用过程中所形成的数据,其不仅包括档案部门收集的科研档案提供利用数据,如科研档案用户基本情况、利用目的、档案借阅时间等记录,而且也包括档案用户发布的利用数据,如档案利用评论、建议等。总起来看,科研档案数据的主要成分就是已经归档的科研数据及由这些数据衍生的“二代”数据。[8]这些来源广泛的数据因记录方式的多样化均可能包含图片、文本、声音、视频等形式,其存在样态也并非全是数字态的,亦可揽括纸张、胶卷、胶片、磁盘、磁带等非数字形态。
2 与相关概念的逻辑关系
2.1 与科研档案信息的关系。所谓科研档案信息,是指科研档案载体所承载的内容,也就是“来源于档案的能消除人们不确定性的,反映已经发生的各种事物运动状态、方式及其规律的征象或知识”,包括了科研档案的内在信息、形式信息和再生信息。[9]依此理解,科研档案数据与科研档案信息一方面在属性上互有区别:①从概念上看,科研档案数据是科研信息的载体和表现形式,科研档案信息则是科研档案数据所承载和所要传达的内容,科研档案数据的内涵和外延比科研档案信息要更广泛,即科研档案数据的内涵和外延包含了科研档案信息。②相较于科研档案数据的复杂多变,科研档案信息具有较高的稳定性,不会随数据样态的改变而变化。现实中,科研档案数据的表现形式多种多样,且彼此之间可以相互转换(如传统形态的档案数据与电子档案数据),但载于其上的信息内容基本不会改变。如描述“某位科学家野外采样情况”的这个信息,其呈现的數据方式就可能有多种,除照片、文字外,还可以是影像、视频等。③实现价值的逻辑不同。这是因为,科研档案信息所传递的意思通常是比较明确的,档案中记载了什么样的信息内容往往一目了然,人们可以通过查阅科研档案直接了解其所记载的历史活动的面貌,获得想要的信息;而科研档案数据的表达则很多带有模糊性,其价值无法从科研档案中直接获取,只有通过大数据技术进行处理挖掘才能使之显现出来。[10]另一方面,二者密切关联、相互依赖与转化。首先,科研档案数据作为科研档案信息的承载物,为科研档案信息提供了记录的媒介和手段。同时因为科研档案数据需要经过加工处理其所包含的意义(即科研档案信息)才能凸显出来,这就意味着科研档案数据价值的实现依赖于科研档案信息(当然,在大数据时代,由于各类新技术的出现和应用,直接通过数据分析挖掘就能获得知识甚至智慧,科研档案数据对科研档案信息的这种依赖关系正在趋于模糊、弱化)。其次,科研档案数据与科研档案信息存在转化的可能。依照数据与信息的关系,科研档案数据经过提炼、解释可以成为科研信息,这些新的科研信息在特定情境下又可转化为科研数据,成为提炼出新的更高级科研档案信息的基础。
2.2 与科研数据的关系。由于观察视角、学科背景以及科研活动环境等不同,国内外学者和研究机构对科研数据的定义至今仍众说纷纭。有的认为是从自然科学和社会科学中通过观察、实验、统计等方式产生的反映一般事物内在结构或外在特征的数字化的数据。[11]有的认为是通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据等。[12]也有的指出是科研人员在科研过程中产生的各种形式的数据及科研机构产生的第三方数据。[13]综合以上对科研数据的定义可以得知:①科研数据是对科研过程和结果的事实记录,伴随着科研活动产生并服务于科研活动,能够真实、全面、反复地反映科研过程,为科研活动提供数据支撑。②科研数据形成来源广泛(测量、统计、计算、实验等科研活动均可产生科研数据)、方式多元,包含了“研究者自身形成的數据”和“研究者、项目组或实验室收集的数据”,[14]这些数据既可以是原生性的,也可以是衍生性的。③因学科和研究方法不同,科研数据具有多种格式和类型,包括符号、音频、文字、实验记录本、图像、位置、模型、表格、现场笔记、磁带、录像、测试反应以及交易数据等。④作为科学数据的一部分,科研数据以数字化数据为主,但并不局限于数字化数据,也包括了可以数字化的非数字态数据。
据此不难看出,科研数据是科学研究的重要支撑和依据,其与科研档案数据可能存在的关系是:①同源关系。科研档案数据的主体部分是具有档案属性的科研数据,这一部分科研档案数据由履行完现行功能的科研数据直接转化而来,实际上是科研数据的历史转化物,二者同宗同源,均来自科研活动,虽产生于前后相继的不同阶段,但具有相同的基本属性,如原始性、价值性、动态性和迭代性等。②交叉关系。由于科研档案数据的主体部分是由有保存备查价值的科研数据转化而来,这就意味着科研档案数据实际上包含了部分科研数据,但并非所有的科研档案数据都来自科研数据,也并非所有的科研数据都会成为科研档案数据,因此二者之间只存在部分交叉和重叠。③再生关系。从数据功效发挥的规律来看,科研档案数据经过加工处理可以成为新的科研数据,重新为科研活动所用,在此过程中,科研档案数据会发生遗传和变异,其数据价值会进一步提升,数据属性也变得更加突出完善。
*本文系海南省自然科学基金项目“高校教师数字 科研信息生态位构建机制与评价:以海南为例”(编 号:2019RC252)和海南省高校科学研究重点项目“基于 DIIE模式的琼剧档案价值实现路径优化研究”(编号:Hnky2022ZD-23)的研究成果。
参考文献:
[1]什么叫下定义[EB/OL].[2022-09-20].https://zhidao.baidu.com/question/719247230297626845.html.
[2]赵跃,石郦冰,孙寒晗.“档案数据”一词的使用语境与学科内涵探析[J].档案学研究,2021(03):24-32.
[3]郑金月.关于档案与大数据关系问题的思辩[J].档案学研究,2016(06):37-40.
[4]中华人民共和国数据安全法[N].人民日报,2021-06-19(007)
[5][13]刘桂锋.高校科研数据管理理论与实践[M].镇江:江苏大学出版社,2017:23.
[6]数据是什么[EB/OL].[2022-09-27].https://zhidao.baidu.com/question/1310847583773050459.html.
[7]刘庆悦,杨安莲.档案数据:概念、分类及特点初探[J].档案与建设,2019(10):4-7.
[8]陈阳,吴雁平,刘永.档案数据与数据档案定义的演化过程[J].档案管理,2022(03):20-24.
[9]江静梅.档案信息资源概念分析[J].兰台世界,2009(14):11-12.
[10]郑金月.数据价值:大数据时代档案价值的新发现[J].浙江档案,2015(12):11-13.
[11]王鹏飞.研究生科研数据服务需求及影响因素研究[D].哈尔滨:黑龙江大学,2020:12-13.
[12]Cox A,Kennan M,Lyon L,et al.Developments in researchdata management in academic libraries:Towards an understanding ofresearch data service maturity[J].2017,68(09):2182-2200.
[14]Maday C,Moysan M.Records management for scientific data[J].Archives and Manuscripts,2014,42(02):190-192.
(作者单位:海南省社会治理创新与人才培养研究基地、海南政法职业学院 康蠡,博士,特聘教授;王先发,硕士,讲师 来稿日期:2022-10-16)