档案数据与数据档案定义的演化过程

2022-05-27 20:26陈阳吴雁平刘永
档案管理 2022年3期

陈阳 吴雁平 刘永

摘  要:寻找档案数据、数据档案两个概念的定义演进变化趋势,为国内该领域的未来研究提供参考。通过文本分析法和列举法对中国知网数据库文献中的档案数据、数据档案定义进行梳理、列举,归纳总结。定义演化过程可以看作寻找事物“属”概念的过程,也可以看成是一事物寻找其归属的过程。档案数据和数据档案定义的演化过程,均可以用“1F2N2”概括,即同一起源、不同个阶段、两种观点、N多属概念、两大类别。档案数据由档案到数据,数据档案由数据到档案,彼此相向对进,殊途同归,是一个最终趋同融合的过程,二者本质上是一事物概念(名称)由种到属的表述。

关键词:数据档案;档案数据;文本分析法

Abstract: To find the evolution trends of archival data and data archives, providing references for future research in this field in China. Through text analysis and enumeration method, this paper combs, lists and summarizes the definitions of the archival data and data archives in the CNKI database. Defining the evolution process can be seen as the process of searching for the concept of 'Belonging' of a thing, or as a process of finding its belonging. The evolution process of the definitions of archival data and data archives can be summarized by '1F2N2', that is, the same origin, different stages, two viewpoints, N concepts, and two major categories. Archival data is from archive to data, data archive is from data to archive, they are opposite to each other, different ways but to the same end and it is a process of convergence and integration in the final. They are all expressions of the concept (name) of a thing from species to genus essentially.

Keywords: Data archive; Archival data; Text analysis

2015年,國务院颁布《促进大数据发展行动纲要》,档案学界随之掀起了数据研究的热潮。有关档案数据、数据档案的文章逐年增多,但尚未有论文对二者的定义及相互关系进行剖析。本文以中国知网数据库为依托,对论文中涉及“档案数据”“数据档案”概念的定义按照时间线进行梳理,尝试回答档案数据、数据档案从哪里来、是什么、到哪里去的三个问题。由于可用样本数量有限,使用时没有采用综述性研究时的归纳法,而是采用凡有不同表述能用尽用的方法,这种方法便于从细微的定义差异中,找到其演化的规律与趋势,但弊端在于定义中类似的表述重复率高。

1 档案数据定义的演化

“档案数据”作为名词概念于1963年首次出现在文献中但未做解释。1995年出现“科技档案数据”的定义,1998年首次赋予“档案数据”明确的定义。27年间,“档案数据”定义的演化过程可以用“1F2N2”来表示。“1”是从定义起源看,“档案数据”发端于“科技档案”;“F”指两个不同方向的档案数据定义经历的发展阶段并不相同(档案数据经历了4个阶段:从个别开始,个别到一般,一般到个别,个别到一般;数据档案经历了3个阶段:从个别开始,个别到一般,一般到个别);首次出现的“2”是指两派观点,即档案数据是档案,档案数据是数据;“N”是从档案数据的属概念来看,有档案、数据、信息、文献、文件、材料、资料、记录、实体等多种;后一个“2”是从档案数据产生的过程看,分加工和非加工(原始)两类。

1.1 个别·实体·加工,科技档案是认识档案数据的起点,档案数据是档案。1991年,陆曙东提出:“档案数据是运动员训练效果的反映,是检查教练训练计划是否合理的重要依据。”[1]严格意义上讲,这个表述并没有清晰明了地回答“档案数据”是什么,只是十分笼统地指出“档案数据”是训练效果的反映,强调了“档案数据”的依据作用。类似地,周发强等认为:“档案数据主要是指电力系统的核心业务实体,如线路和台区。”[2]由这两种定义,我们可知,从定义起源来看,“档案数据”发端于科技档案。最先试图给“档案数据”下定义的,往往不是专门从事档案学理论研究与教学的学界,而是各行业中(包括高校)从事档案工作及涉及档案或档案工作的实务界。这也进一步印证了“新概念的产生源于实践”的观点,档案实务界对源于实践的新概念下定义,虽然不一定符合下定义的学术规则,严谨性不足、规范性欠缺,但却是我们认识新事物的起点。对档案数据的认知亦是如此。

1995年,王英玮认为:“科技档案数据是指经过加工并输入计算机的科技档案二次信息。”[3]该定义中有五个基本要素:一是“科技档案数据”来自“科技档案”,即档案数据是档案的组成部分,档案数据是档案;二是经过加工,表明科技档案数据并非原始;三是能输入计算机,是为计算机使用而产生;四是二次信息,是科技档案信息的形式转换,即并非全部一次信息;五是科技档案数据的属概念是信息。

同年,刘军将“文书档案数据的前处理”定义为“对文书档案进行收集、分析、分类、组织、加工,最终将原始的文书档案信息转换成适合于输入微机的形式的过程。”[4]与王英玮对“科技档案数据”定义类似,“文书科技档案数据”定义也具有五个基本要素,即文书档案数据来自文书档案;文书档案数据经过加工;适合于输入微机(计算机);是文书档案信息的形式转换;文书档案数据的属概念是信息。

1.2 由个别到一般,档案数据认知的升华,档案数据亦可是数据。1998年至2006年间,“档案数据”概念的定义认知完成了由个别到一般的升华,并形成了“档案数据是档案”和“档案数据是数据”的两种代表性观点。

(1)档案数据是档案。1998年,熊志云提出:“档案数据是指所有存入计算机以便加工处理的档案信息。”[5]这是档案界首次给予“档案数据”明确的定义。这个定义在坚持“档案数据是档案”观点的同时,与早期的定义有三处变化:一是不再单指某一类档案,而是泛指所有档案;二是不再强调输入计算机和适合输入计算机,改用“存入”,由事后数据输入转为形成后直接保存;三是由强调输入计算机的前加工,转向强调存入计算机后的加工处理,加工的重点由输入计算机转为使用计算机处理。反映出档案界对“档案数据”的认识从“点”到“线”的进步,档案数据使用由“点”到“线”的进阶。持这一观点的还有陈香萍[6]等。

(2)档案数据是数据。2004年,刘家真提出:“档案数据是指那些具有长期或永久保存价值,需要在档案馆或其他信息资源基地保存的数据。”[7]该观点一改之前“档案数据源自档案,由档案加工而来”的观点。将“具有长期或永久保存价值”和“需要在档案馆或其他信息资源基地保存”作为“档案数据”的标准,不再强调是否源自档案。同时将“档案数据”的属概念由信息拓展到数据。简言之,即档案数据是数据的组成部分,其属概念为数据。同意这种观点的还有杨剑云、李启坤等人[8]、黄南凤[9]、周丹[10]、吴斌[11]、田华丽[12]等。2006年,刘家真、倪丽娟提出:“文献的档案数据是指那些具有长期或永久保存价值、需要永续地发挥作用的电子文献的数据。”[13]这一定义仍然坚持了“档案数据”的属概念是“数据”,即“档案数据是数据”的观点,但将“档案数据”的归属范围扩大至整个文献,实现了档案数据由“线”到“面”的拓展。2008年,刘家真、许杰将该观点简化为:“档案数据指的是具有长期保存价值的數据。”[14]

至此,档案界对“档案数据”的认知明显分成了“档案数据是档案”和“档案数据是数据”两种。

1.3 由一般到个别,档案数据认知的扩展,档案数据属概念逐渐多样化。2005年至2019年,是档案数据认知从一般到个别的扩展阶段。一方面,将对档案数据的认知从一般扩展到地籍档案数据、银行客户档案数据、企业客户档案数据、客户档案数据、国土资源档案数据、城市规划档案数据、医院电子档案数据、高校档案数据、火灾档案数据、城建档案数据等个别、具体的行业。另一方面,档案数据的属概念也从档案扩展到文件、数据、数据库、信息、信息条目、材料、资料、记录等。

(1)文件说。2005年,陈先伟、杨建平认为:“档案数据是指地籍档案扫描后的电子文件。”[15]这个专指性明显的档案数据定义,保留了源自档案、前加工两个要素,省略了目的,将属概念框在“电子文件”之内。这种观点在行业内有一定的共鸣,比如黄道伟、任啟萍等人[16],以及王合群[17]、王大龙[18]等持相同观点。

(2)数据说。尽管2004年至2008年,也有学者提出“档案数据是数据”的观点,但自2011年开始,该观点得到进一步的升华。刘雅在其学位论文中提出:“历史档案数据主要是指国土资源管理部门在日常的信息处理过程中日积月累得到的数据,它又可以称为档案数据。”[19]该观点实质上认为档案数据是数据的一部分。与之相似,2018年,郑龙水在其学位论文中指出:“用户档案数据是指用户在注册社交网络时,根据社交网络平台所要求,用户要提供的必填和选填数据。”[20]档案数据同时具有规定性与可选择性,即档案数据在“量”上不完全等于“档案”。同年,刘薇则认为:“档案数据是指不以学术研究为最初收集目的的数据”,[21]强调了档案数据的二次性。于英香则在数据与信息关系演化的基础上分析讨论了“档案数据”概念的发展,将档案数据定义为“一种具备档案属性的数据”。[22]2019年,谭淑红提出:“城建档案数据是指在城市建设过程中(涉及工民建、道路、桥涵、管线等),数字化具有保存价值的文件、图样、表册、声像等信息资料形成的电子数据。”[23]

(3)数据库说。2009年,孙明贤在其学位论文中指出“客户档案数据主要是指注册公司的财务数据数据库、基本情况数据库等”,[24]将“档案数据”属概念定位为“数据库”。

(4)信息说。2007年,李广都、罗辉提出:“银行客户档案数据并不完全是指银行客户档案中所记载的内容,它还包括来源于银行客户并经过再加工后形成的信息产品,因此也就决定了银行客户档案数据所涵盖的内容与银行客户有着不可分割的关系。”[25]该观点认为某个主体形成的档案数据与该主体相关,但不限于该主体所形成档案的全部内容。同时强调了档案数据经过加工产生,其属概念是信息。2008年,侍文庚提出:“企业客户档案数据是指存在于企业客户档案中以数据资料的形式存在的信息”,[26]将“档案数据”的范围缩小到“档案中以数据资料的形式存在的”部分,同时指出“档案数据的属概念是信息”。2011年,高文君对城市规划档案数据进行了定义,“指在规划编制、规划审批和规划监督过程中形成的各类档案,主要包括规划成果、建设用地规划管理、建设工程规划管理和建设工程规划验收管理档案等数据信息”,[27]强调了“城市规划档案数据”是在规划编制、规划审批和规划监督过程中形成的各类档案,同时将“城市规划档案数据”的属概念定为“信息”。

(5)信息条目说。2011年,周丹在对“档案数据”定义进行评介时指出:“从‘档案数据’这个概念上说,以往的档案数据是指信息系统中处理的档案信息条目,由不同的字段构成。”[28]

(6)材料说。2013年,许建伟对医院电子档案数据进行了定义,“医院电子档案数据是指医院在医疗、科研科技、教學和基础建设等活动中,所形成的归档保存的文字、图表、声像等形态的科技文件材料”,[29]将医院电子档案数据的范围规定在归档科技文件材料的范围,其属概念是材料。

(7)资料说。2013年,何振才提出,“档案数据,是指在教学、科研、学生管理、学校各类事务管理等活动中形成的以数据形式存在的,并且在网络发布后,分别由文档形成单位单独保管及移交给档案馆后的数据资料”,[30]强调了“档案数据”形成时的数据形式和保管移交,其属概念为资料。

(8)记录说。2014年,王淑萍、张卫兵、李锐认为:“火灾档案数据是指对历史火灾所做的详细记录,经验总结等。”[31]

1.4 由个别到一般,电子环境下“档案数据是档案”与“档案数据是数据”趋同。2020年,金波、杨鹏从广义和狭义两个角度对“档案数据”概念进行了界定。[32]由此,档案数据指的是“有保存和利用价值”,在“通信网络上传输的各类电子文件及其元数据”,即在使用中的未归档保存的数据。这一观点,在学界有较高的认同度。比如:刘延婷、朱家彪、陶珂、周彬认为:“档案数据是指从原始到更新结果的所有数据,便于历史回溯,可查找同一地块发生多次变更的相关信息,以及某一时间段内发生变化的地块和相关信息。”[33]展倩慧认为:“档案数据是指具备档案属性的数据和涵盖电子文档、数字资源以及在档案业务活动中产生的数据等。”[34]邢小美在其学位论文中提出:“档案数据是指伴随企业业务活动而形成的原始、真实数据。”[35]“广义的档案数据是指各级各类档案机构收集保存的具有档案性质的数据记录,包括各种数据形式的档案资源,如各类数字档案、多媒体档案;也包括档案管理与利用过程中产生的数据,如档案网站的浏览记录、平台日志、查阅服务数据、档案统计数据等。”[36]在这个观点中,档案数据指已归档的数据及由这些已归档的数据产生的“二代”数据。

这种以是否包含“二代”数据划分狭义与广义档案数据的方法,有两点需要注意:其一,这只是方法之一。如果以是否归档的数量来划分,那么归档保存的有利用价值的,在通信网络上传输的各类电子文件及其元数据的量,应该大于已归档的数据及由这些已归档的数据产生的“二代”数据的量,因为只要“有文必档”尚未实现,档案数据的“广”与“狭”就会反转。其二,这种划分只针对电子环境下生成的应归和已归的“增量”档案数据,没有明确既有馆藏“存量”非电子传统档案的数字化副本。相比之下,2021年,夏天、钱毅提出的有关档案数据的表述更为准确,即“档案数据是指档案机构收集保存的各种数据形式的记录,既包括电子档案的内容数据、传统载体档案的数字化副本,也包括管理和利用过程中产生的各类元数据”。[37]

综上,我们可以较为清晰地看出,档案数据概念的定义源于实体档案的电子化应用,长于存量档案数字化和增量电子档案归档,“档案数据是档案”与“档案数据是数据”的争论,或因档案数据化而最终消失。

2 数据档案定义的演化

“数据档案”概念的定义最早出现在1981年。从1981年到2021年,40年来,“数据档案”的定义过程同样可以用“1F2N2”来表示。“1”是从定义的起源看,“数据档案”定义同样发端于“科技档案”,“F”即从发展阶段看,数据档案的概念同样从个别开始,经过由个别到一般,再从一般向个别扩展的过程。前一个“2”即从数据与档案的关系上分为“数据档案是数据”“数据档案是档案”两种观点;“N”即从数据档案的属概念上看,有数据、档案、信息、记录、文件、资料、数据库等多种;后一个“2”即从数据档案产生的来源看,分存量和增量两类。

2.1 管理·价值·归档,从个别(科技档案)为认识起点,数据档案是数据。有关“数据档案”的个别论述,主要是汤其强在1981年和1982年发表的观点。1981年,汤其强提出:“数据档案是科技档案的一个重要组成部分,是科技档案的主要内容之一。”[38]“企业生产讲核算必然讲经济效果,产品数量的多少、质量的好坏、成本的高低,以及产品的销路和发展方向如何,都要进行具体的分析,通过调查、解剖各个生产环节。要分析、要预测、要竞争就要有凭据。这种凭据来源于生产中形成的技术文件材料,这种材料经过加工整理即以图表、表报形式转化为数据档案。”[39]

1982年,汤其强基于企业科技档案管理的视角,将“数据档案”定义为“在现代化管理活动中产生和形成的、具有查考利用价值的、按照一定的归档制度汇编保管起来的数据材料,叫作数据档案”,[40]并阐述了数据材料转化为数据档案的三个条件。同时,作者极具前瞻性地指出:“数据档案产生的主要客观基础是管理手段和管理活动的现代化。”[41]“数据档案作为档案的一个类别,它既具有档案的共同属性,也具有数据档案的特殊属性。”[42]简言之,数据档案是数据,是数据的组成部分,是数据中归档保存的部分。

2.2 从个别到一般,数据档案是数据,用于保存。1987年,萨兆为提出:“数据档案是指为一定目的而生产的有序数据,经使用之后还可以储存起来,形成为其他目的服务可以检索的数据情报。”[43]该定义中有五个要点:一是数据档案是数据,二是数据档案的产生是有目的的,三是数据档案是有序的,四是数据档案可以存储,五是可以服务其他目的。

2.3 由一般到个别,数据档案应用范围不断扩展,数据档案亦可是档案。数据档案范围逐渐从单一门类拓展到多个门类。从时间线上看,观点梳理如下。

2003年,张欣认为:“数据档案主要是指存储会计数据和程序的软盘和其他存储介质以及打印输出的各种账簿、报表、凭证。”[44]2009年,林玲提出:“咨询统计档案就是指以数字形式记录的、按分类表格储存起来的、可直观反映咨询总体面貌的、具有参考价值的统计数据档案。”[45]2010年,花文博提出:“基础地理信息数据档案是指具有利用和参考价值并作为档案保存的数据成果和重要原始的基础地理信息数据。”[46]2012年,骆椒在其学位论文中认为:“数据档案是指通过计算机打印输出的相关凭证、会计账簿和会计报表。”[47]2014年,李小娟认为:“电子财务数据档案是指在会计电算化的应用中形成,可以直接打印、复制或传出,所以存在财务数据泄露的潜在风险的存储于硬盘、光盘等电子介质中的各种票据、凭证、账册。”[48]同年,董雷认为:“数据档案是指可能对产品质量产生影响的原材料档案和设备档案。”[49]2015年,梁好在其学位论文中认为:“数据档案管理是指在供电过程中设备实时运行时,将收集到的线路设备运行信息进行收集和管理。”[50]

综上,“数据档案”亦可是档案。如果将上述叙述中的“数据”隐去,无论是形成、来源、收集、管理任一环节,得到的就是“档案”是“档案”这个句式。

2.4 数据档案属概念多样化,信息化推动数据档案与档案数据的融合。近些年,随着涉及行业专业的不断增加,“数据档案”的属概念范围也不断拓展,由原先的數据档案是数据、档案拓展为数据档案是记录、信息、资源、文件、资料、数据库等。

(1)记录说。2014年,张繁伟在其学位论文中指出“数据档案是指对食品从原辅料采购、制成中间产品乃至最终产品,通过各种渠道进入到最终零售环节的有关食品的产地、生产加工、物流和资金流等信息的记录。”[51]

(2)信息说。2016年,孙俐丽、吴建华认为:“数据档案资源是指国家机构等在活动中产生的有价值的为数字形式的历史信息,和由非数字档案转换而成的数字档案。”[52]

(3)资源说。这种观点又分两分说和三分说。2016年,李梦瑶、李广都认为:“数据档案,是指以数据形式存在的具有保存和利用价值的数据资源。”[53]“这类数据档案是开放获取的,不受具体限制,是指各种具备国家档案属性的各类数据档案资源。”[54]2018年,陈岩认为:“数据档案的实质为一种档案”,[55]分为公共性数据档案、商业性数据档案、私有性数据档案三种。[56]

(4)文件说。2017年,张宏磊、李正燕认为:“体育传统项目数据档案是指体育传统项目,如篮球、足球等,在日常训练、比赛、科研等过程中形成的具有保存价值的各类数据文件。”[57]

(5)资料说。2019年,刘丽敏认为:“数据档案是指通过U盘、磁盘、光碟等信息化手段录入档案资料,同传统的纸张保存档案既有区别又互相连通的系列数据资料的总和。”[58]

(6)数据库说。2020年,邓舒音在其学位论文中指出:“业务数据档案是指机关在履职过程中通过业务系统形成的业务数据库。”[59]

综上,我们可以比较清晰地看到,“数据档案”概念的定义源于实体数据的归档,长于电子数据归档,“数据档案是档案”与“数据档案是数据”的争论,或因数据档案化而最终消失。

3 结语

档案数据、数据档案从哪里来的问题,是一个起源问题。档案数据、数据档案异名同源(均源自科技档案)并非偶然,初看与提出者的专业、学科、职业、岗位等背景因素相关,相关性的强度有待进一步研究。

档案数据、数据档案是什么的问题,实际上是一事物概念(名称)由种到属的表述。可以看作寻找事物“属”概念过程,也可以看成是一事物寻找其归属的过程。从理论上论证需费一番周折,限于篇幅,本文不作深究,另文再论。从实践中区分,即为简单的先有“谁”后有谁的问题。先有档案,后有数据,即为档案数据。先有数据,后有档案(归档),即为数据档案。

档案数据、数据档案到哪里去的问题,是一个趋势问题。档案数据、数据档案分别从档案和数据两个起点出发,经由档案到数据、由数据到档案两个方向对进,殊途同归,最终趋同融合。虽然两者的表述、指向不同,但“通过对档案或数据所承载信息的限制性使用,以维护信息所有者在竞争中的优势”[60]的目的相同。

*本文系国家档案局科技项目“面向治理体系现代化和应急处置决策需求的档案数据能力建设研究”(批准编号:2020-R-5)研究成果之一。

学术授信分析方法在采信学术评价信息时主张根据学术社区内成员间的相互授信情况来鉴别有关信息的可信度,高度重视评价视域构建和授信者分析问题,力图使“外行”也能拥有“内行”的学术见识和判断能力。将学术授信分析方法运用到各种学术评价活动中,是对学术授信评价理论的有力实践。相关实践表明,学术授信分析有助于提升学术评价及信息分析过程的透明度,能帮助用户跟踪相关信息的源流并评估其可信度,实用性较强。运用学术授信分析方法时需先选定评价主体,标记不同学术社区成员的学术地位,然后采用引文分析及Altmetrics等方法挖掘学术群体的学术授信信息,进而开展影响力分析、人才评价等应用研究。从数据角度看,这种分析方法具有内容不可篡改、可追溯、公开透明等特点,可较为客观地反映评价对象给外界留下的稳定印象,并用于测度学术声誉、学术地位等原本难以量化的对象。

3 学术授信分析方法及应用

3.1 Dh指数分析法。2005年,美国物理学家Hirsch提出可用于衡量科学家个人学术影响力的评价指标——h指数[3]。该指标在学术评价方面的有效性很快就在全球范围内得到广泛认可。但是,原初意义上的h指数是基于WoS数据库的,不便于统计,而且不能在领域、主题层面比较不同学者的影响力。为此,周春雷(2010)[4]提出一种适合程序处理的h指数计算方法——h指数批量统计法,两年后将通过该方法计算出的数据正式命名为一种新的h指数衍生指标——领域内h指数(简称Dh指数)[5]。

从表面上看,这种指标的计算方式与h指数相似,仅将来源数据中的数据库调整为用户指定的任意数据集。但是,这种调整非常有实际意义:不仅大大降低了统计成本,使通过程序批量计算大批学者在细分领域的h指数、g指数变得切实可行,而且能更好地反映不同评价对象在特定领域的学术影响力差异。相应地,Dh指数分析法就是在特定数据集上利用Dh指数等指标标记全部评价对象的学术地位,然后根据其相互授信情况开展各种深度信息分析工作的方法。通过使用Dh指数、Dg指数等公信力较强的指标对特定领域内的全部学者进行批量标记,我们可以根据学术影响、学术声望差异将特定群体快速分层,同时也让学者们在领域内的身份更加透明、信息行为更易追踪,可用来研究专家、新手等群体的学术判断能力、预测能力、信息敏感性差异,观察、预测特定学术群体的研究路径等。例如,笔者团队利用这一方法对Price奖得主进行了模拟分析,尝试利用Dh指数、Dg指数识别国际科学计量学领域内的专家群体,然后根据其引文信息预测潜在的Price奖得主[6]。笔者团队在文献中提出了基于领域专家视角的Dh-Dg指数分析法,并于2016年12月预测了表1所列榜单前30名中被引量较高但尚未获奖的学者,如Bornmann、Abramo、Meyer、Burrell、Schreiber、Waltman、Bar-Ilan、Porter、Kostof、Chen、Jacso、Tijssen、VanLeeuwen等,他们都可能是未来竞争Price奖的有力人选,并且年轻学者似乎更有潜力。截至2021年10月,Bar-Ilan、Bornmann、Waltman分别成为2017年、2019年、2021年的Price奖得主,这项研究有效检验了挖掘、利用专家群体学术授信信息的价值。

表1 国际科学计量学专家群体学术授信的部分学者名单[6]

当我们将Dh指数分析法应用于人才评价时,评价视域的大小非常关键,较大的评价视域有助于降低评估误差并提升人才评价的准确度。基于领域专家视角的Dh-Dg指数分析法将定量评估技术与专家的定性评价有效地结合在一起模拟评价对象在专家群体中的声望。该方法尝试借助内生于学术交流活动的正常引用行为及专家的学术鉴赏力,深入挖掘专家群体的施引信息,为评估不同学者的专业影响力提供客观、准确的依据,既能降低同名者因素的影响,又能提高评价效率。Dh-Dg指数分析法的精髓在于可较为客观地模拟专家群体的学术判断意见,具有操作简便、效果良好等优势,可为各种学术大奖的预测研究提供高价值参考信息。

鉴于h指数无法反映学者在不同时期的学术影响力升降情况,笔者团队还提出了能解决这一问题的TDh指数[7]。若学者的TDh指数持续上升,说明学者学术生命力旺盛,可在未来成为领域内的高影响力学者;反之,当TDh指数呈下降趋势时,意味着该学者的研究不再是领域内关注的热点,或其学术生命已近尾声。TDh指数可客观反映学者在领域内所获关注情况,能让不同学者在相同条件下进行比较。

此外,根据学者的TDh指数变化情况,可有效探测研究主题的冷热趋势。蔡程瑞曾利用TDh指数和群组分析法探讨了图情领域期刊高频编委群体的集体学术授信对领域的影响,发现图情领域高频编委不断发展壮大学科内核进而推动学科发展[8]。

综上所述,TDh指数能有效区分学者之间的影响力差异,对学者的学术生涯变化进行有效预测及分析,并可根据学者学术地位的变化,发现领域内研究主题的变化趋势,若将其与年度Z指数有效结合起来,对研究主题及学者学术生涯的监测将更为方便。

3.2 引荐分析法。在学术评价中,实施同行评议的难点通常在于寻找合适的同行专家。从引文分析角度看,对引文数据进行挖掘有助于寻找同行专家,评价对象的施引者可在一定程度上被视为“同行”。引用认同理论认为,一个作者所参考的全部学者都是其引用认同的对象[9],通过分析某作者的引用认同,可了解其学术视野。但是,这种观点若应用于学术评价则存在明显的瑕疵,会因大量的偶然引用冲淡评价结果的可信度。

从学术授信角度看,引用认同关于学术认可的判断标准过于宽泛。事实上,只有高频引证行为才具有明显的学术认可含义。因此,基于学术授信评价理论的引荐分析法将某一学者对同一评价对象的多次引用行为界定为“引荐”,表示其认可被引者的学术能力和学术观点[10]。《基于引荐分析的国内引用认同领域分析》一文运用引荐分析法研究了国内引用认同领域,发现该方法在识别重要研究者、受关注研究主题方面效果良好[11]。周春雷等研究了CNKI收录的国内档案学博硕士学位论文的施引及被引信息分析,发现学位论文是否开放直接影响到研究生群体对朋辈学术成果的感知和利用[12]。引荐分析法通过从施引作者入手,不断地寻找其领域同行、同行的同行来绘制整个领域的研究结构图,可用于发现领域新秀、高影响力学者。

3.3 链接内容分析法。链接分析的思想最早由Mckiernan[13]提出。网站研究与链接分析法息息相关,是链接分析法的主要应用领域[14],但目前对链接内容的研究较少。链接内容分析法是把链接所指内容作为基本分析单元,将指向同一内容的多个链接进行语义级合并,然后将对链接形式的分析转化为对链接指向内容的分析。基于这种思路,周春雷(2012)[15]以科学网博客为研究对象提出“被好友”指标,以衡量学术博客在博客社区内的影响力。

此外,博文阅读量、评论量等也可用于衡量博文质量。周春雷、王涵墨(2015)以博文阅读量、评论量、推荐数以及博主发文量、好友数、学历及职称等指标分析了科学网博文质量,发现在博文评价当中,博文阅读量、推荐数可以高效合理地筛选出符合一定质量标准的博文,对评论进行语义分析可用于辅助识别质量不高的博文[16]。博客、博文与传统的期刊、论文差别很大,不能直接套用引文环境中发展出来的方法开展研究,需要采用一些新的指标进行的过渡与转换。在分析手段上,需要從引文分析走向链接分析和学术授信分析。

3.4 Z指数分析法。本文所称的Z指数是笔者2010年提出的一个h指数衍生指标,该指标由全体评价对象通过相互授信而产生,可用于揭示个体学者在资深学者群体中的学术影响力和相对学术声望,其应用步骤分为收集数据、赋值、Z变换、数据清理、批量h变换[17]。Z指数分析法可用于图书评价、期刊评价以及博客评价等研究。

3.4.1 图书评价。目前使用类h指数模型及多维视角影响力评价体系等方法虽能在某些方面反映出图书价值,但权重系数划分主观、评价主体模糊,实践性较差。结合上述原因,笔者尝试根据图书获得专家学术授信情况测度其学术影响力和学术价值,提出图书Z指数[17],即某图书被至少Z名学术地位不低于Z的学者引用。图2展示了图书Z指数的计算过程。

图2 图书Z指数的计算流程图[17]

图书Z指数可在一定程度上揭示图书的学术价值。例如,出自同一作者的图书A和B的被引次数分别为52和145次,其图书Z指数分别为6、5。从施引者规模、学术地位层次角度看,图书A比B更能得到同行专家的认可,其学术价值自然更大。与被引指标仅能描述学术成果在学术界的知名度相比,图书Z指数在测度影响力深度方面显然更胜一筹。邢变变等(2019)[18]以图书Z指数为量化指标从学术书评角度比较了不同档案学经典著作的价值,认为图书Z指数能在兼顾量化指标的基础上彰显不同学术图书的质量差异。陈艳云(2019)[19]利用图书Z指数构建了图书影响力评价模型。

此外,图书Z指数可以描述高影响力施引群体的规模及学术地位,为评估不同图书的学术影响力以及由此而衍生的作者及机构声誉提供了较为精细的测度工具,故在学者、机构影响力评价方面也有一定的应用价值。

3.4.2 研究主题预测。从学术授信分析角度看,特定研究主题之所以能够快速发展,一个很重要的原因是其获得了足够多的学者的关注及参与。为测度特定研究主题对内行群体的学术吸引力,周春雷等(2019)[20]提出了一个名为“年度Z指数”的量化测度指标,用于反映特定主题每年吸引到的参与者规模及层次。当某年的年度Z指数与之前相比明显下降,或年度Z指数虽有回升但不能超过前高时,该主题很可能在未来一段时间内变冷;反之,当年度Z指数持续增长,说明该主题的研究热度会上升。利用年度Z指数预测研究主题变化趋势的流程如图3所示。

图3研究主题预测流程图

笔者使用年度Z指数对研究主题进行学术授信分析识别“昙花一现”型研究主题,结果显示,可通过考察领域内主要作者的规模及学术地位变化特征和经典论文的年度Z指数变化来观察研究力量的变化并预测研究主题的冷热趋势。值得注意的是,研究主题的冷热程度与其重要程度并无直接关系,故不能将各种学术资源配置工作与研究主题的冷热过度挂钩。

3.5 群组分析法。对群组进行深入分析能够发现其中的内行群体,而揭示、利用他们所看重的信息对开展学术评价研究十分有益。群组分析法是一种从发文或引文角度研究群组学术授信成果、探究学科领域研究热点或引证规律的数据挖掘方法[21]。群组分析法通过分析高水平群体的学术行为来研究、利用其中蕴藏的集体智慧。

3.5.1 期刊评价。在期刊评价方面,群组分析法着重挖掘学者群体以发文或引用形式表达出的学术授信信息,以此评价期刊的学术影响力等方面。笔者结合群组分析法及Dh指数分析法分析了《人大复印报刊资料<图书馆学情报学>》的选文特征[22],发现图情类入选论文的发表载体较为权威,选文作者的学术影响力基本处于中上水平,建议以《资料》为代表的二次文献机构广泛吸纳单篇论文评价成果及学术共同体的意见,为选稿专家提供更加丰富的支持信息,进一步提高选文质量。《引文视角下的<档案管理>学术影响力探讨》[23]一文对期刊的施引群体和作者群体进行了比较,探讨了作者回报率问题,发现该刊部分高产作者的引文回报率较低,建议奖励重要贡献者。作者回报率的计算方式如下:

R_AB=[(G_BA+C_BA)/T_BA ]×100%(1)

其中,R_AB是A期刊的B作者回报率;G_BA为B作者在A期刊所发文章的总被引次数;C_BA是B作者对A期刊的施引次数;T_BA是B作者在A期刊的发文篇数。

通过使用作者回报率指标能够帮助期刊找到对扩大其学术影响力作出贡献的学者,但该文同时指出采用CSSCI引文数据计算作者回报率可能存在的偏颇之处,可能助长某些未必合理的措施,建议各方辩证看待,谨慎使用。另外在该文的研究中发现提升期刊影响力的关键在于获得专业群体的学术授信。总之,利用群组分析法对期刊进行评价,可有效揭示专业群体对特定期刊的真实学术授信情况,避免寻常量化指标易受操控之弊。

表2 2002—2014年河南省社会科学优秀成果奖[24]

注:表2中曾属机构与现属机构合并居中表示机构未发生变动。

3.5.2 成果影响力评价。群组分析法从学者群体的学术授信情况分析学术成果的影响力。周春雷、曹玲静(2017)以2002—2014年的河南省社会科学优秀成果奖的获奖信息为研究对象,并与教育部高校社科优秀成果奖进行了对比(见表2),探讨获奖成果的学术影响力,[24]研究发现河南省优秀成果奖的影响力圈子相对封闭,影响群体集中在河南省内,获奖者的学术影响力有限,获奖机构分布不均衡且存在人才外流现象。

此外,通过深入研究获奖者履历发现,21名获奖者中有7人的所属机构发生了变化,例如丁建定、解志熙和柯平,均转向经济发达地区发展。由于社会科学领域学术人才的成长周期较长,这种高层次学术人才大规模外流现象对河南省哲学社会科学的发展非常不利,相关管理者应予以重视。同时,该研究还发现,原信阳职业技术学院的杨明星是河南省专科院校获得高校社科奖的第一人,但当时未曾获得河南省社科奖二等奖以上奖项并据此认为“此例也许足以警示依出身论学术成果等级的观点不可取”,建议有关部门慎重考虑各种报奖门槛问题,还建议梳理评审标准中是否存在不利于优秀成果脱颖而出的限制。目前,该学者为郑州大学特聘教授、中国外交话语研究院主任。不难看出,学术授信分析在人才识别与管理、评奖管理等方面的潜在价值。

3.5.3 机构评价。科研机构的学术声望,对其知识生产效率和建立合作伙伴关系均有较大的影响。为观察各科研机构获得的合作伙伴学术授信情况并定量评价其在科研朋友圈中的学术声望,评估其学术关系网络中的社会资本丰裕程度,笔者从被引角度提出了机构论文SCAN指数[25]。该指数的计算流程如图4所示。

图4SCAN指数的计算流程[25]

SCAN指数能体现出评价对象的科研实力、学术声望及其学术合作网络的整体价值。SCAN指数与QS排名相关性很高,与各高校的学科实力排名也较为吻合,可有效揭示各高校学术论文合作网絡的社会资本价值。具体而言,SCAN指数在机构评价方面的应用潜力体现在以下方面:①预测高潜力科研机构。可以利用SCAN指数比较不同科研机构的合作价值并发现高潜力科研机构。②学术合作网络分析。利用SCAN指数对某科研机构的学术合作网络进行价值分析,更好地挖掘、利用学术合作网络中蕴藏的社会资本。

4 总结与展望

本文系统总结了笔者团队在学术授信分析方面的研究成果,展示了该方法在成果影响力评价、人才评价及评奖预测、研究主题预测、期刊评价和图书评价等方面的应用潜力。这种新型信息分析方法主张以更加合理的方式使用量化分析技术及其结果,建议优先采信那些经过专业群体学术授信的可靠信息。这种强调证据可验证性的信息分析技术与区块链思想有较多相通之处,有望在纷繁复杂的开放环境下找到更多用武之地。

*基金项目:国家社会科学基金项目“学术图书价值揭示方法研究”(项目编号:21BTQ067)。

参考文献:

[[1]陆曙东.怎样搞好业余训练[J].体育与科学,1991(02):47.

[2]周发强,王庆.在线监测数据分析下的配电网降损增效研究[J].通讯世界,2018(03):282-283.

[3]王英玮.科技档案管理学自学辅导答疑[J].北京档案,1995(05):27-30.

[4]刘军.用微机管理文书档案的几个重要环节[J].南都学坛,1995(03):67-70.

[5]熊志云.计算机辅助档案管理概述[J].成人教育学报,1998(01):29-31.

[6]陈香萍.论办公自动化条件下的高校档案管理策略[J].湘南学院学报,2005(04):108-109.

[7]刘家真.档案数据备份选择[J].浙江档案,2004(01):20.

[8]杨剑云,李启坤,王巍.汶川地震给档案数据备份带来的新思考[J].兰台世界,2008(21):51.

[9]黄南凤.档案数据备份研究[D].苏州大学,2009.

[10]周丹.关于档案登记备份制度的理论思考[D].浙江大学,2011.

[11]吴斌.试论档案数据的备份[J].办公室业务,2013(03):182.

[12]田华丽.浅谈学校档案管理工作现状及对策[J].科学咨询(科技·管理),2015(04):42.

[13]刘家真,倪丽娟.创建我国文献的档案数据灾备基地的构想[J].档案学研究,2006(04):47-52.

[14]刘家真,许杰.影响我国数字信息长期保存的问题与解决方案[J].档案学研究,2008(04):50-55.

[15]陈先伟,杨建平.成都市中心城区地籍数据库建设的设计与实践[C].中国土地学会、中国土地勘测规划院、国土资源部土地利用重点实验室.新技术在土地调查中的应用与土地科学技术发展-2005年中国土地学会学术年会论文集.中国土地学会、中国土地勘测规划院、国土资源部土地利用重点实验室:中国土地学会,2005:181-186.

[16]黄道伟,任啟萍,张小宏.以MAPGIS为平台建立城镇地籍数据库的探讨[J].青海科技,2010,17(01):45-49.

[17]王合群.浅谈第二次土地调查中城镇地籍更新调查数据库建设[J].科技信息,2010(23):445+515.

[18]王大龙.浅谈在地籍调查中的几个问题[J].新疆有色金属,2011,34(S2):38-41.

[19]刘雅.数据共享技术在县级国土资源“一张图”中应用研究[D].长安大学,2011.

[20]郑龙水.跨平臺的社交网络用户身份识别技术研究[D].西南科技大学,2018.

[21]刘薇.会计研究现状梳理及会计信息化研究借鉴[J].会计之友,2018(10):110-114.

[22]于英香.从数据与信息关系演化看档案数据概念的发展[J].情报杂志,2018,37(11):150-155.

[23]谭淑红.基于“图查档案”的城建档案管理应用[J].城建档案,2019(04):52-53.

[24]孙明贤.业务决策支持系统的研究与设计[D].江南大学,2009.

[25]李广都,罗辉.银行客户档案的数据安全问题[J].中国档案,2007(10):32-33.

[26]侍文庚.浅析企业客户档案的数据管理[J].兰台世界,2008(13):31-32.

[27]高文君.关于城市规划数据标准化的研究与实践[C].中国城市规划学会、南京市政府.转型与重构——2011中国城市规划年会论文集.中国城市规划学会、南京市政府:中国城市规划学会,2011:2330-2340.

[28]周丹.关于档案登记备份制度的理论思考[D].浙江大学,2011.

[29]许建伟.医院电子档案管理存在的问题与思考[J].社区医学杂志,2013,11(15):17-19.

[30]何振才.智慧校园建设中的档案数据备份浅析[J].兰台世界,2013(05):25-26.

[31]王淑萍,张卫兵,李锐.森林防火信息管理系统的构建[C].中国地球物理学会国家安全地球物理专业委员会、陕西省地球物理学会军事地球物理专业委员会.国家安全地球物理丛书(十)——地球物理环境与国家安全.中国地球物理学会国家安全地球物理专业委员会、陕西省地球物理学会军事地球物理专业委员会:中国地球物理学会,2014:417-421.

[32][36]金波,杨鹏.大数据时代档案数据治理研究[J].档案学研究,2020(04):29-37.

[33]刘延婷,朱家彪,陶珂,周彬.基于国土空间基础信息平台更新土地利用规划[J].地理空间信息,2020,18(09):36-39+51+6.

[34]展倩慧.协同治理视域下档案数据开发模式探究[J].档案与建设,2020(04):33-37.

[35]邢小美.工业大数据背景下的钢铁企业档案管理研究[D].河北大学,2021.

[37]夏天,钱毅.面向知识服务的档案数据语义化重组[J].档案学研究,2021(02):36-44.

[38][39]汤其强.谈谈数据档案[J].档案工作,1981(03):19-20.

[40][41][42]汤其强.试论数据档案——兼谈工业企业数据档案的收集和分类[J].湖南档案,1982(04):10-12.

[43]萨兆为.数据性文摘初探[J].北京社会科学,1987(03):155-159.

[44]张欣.试论会计电算化环境下企业的内部控制[J].华东经济管理,2003(S1):160-161.

[45]林玲.高校图书馆应加强参考咨询档案的收集与管理工作[J].兰台世界,2009(16):70-71.

[46]花文博.浅论基础地理信息数据档案的管理[J].兰台世界,2010(S2):128-129.

[47]骆椒.ERP环境下的会计信息系统内部控制研究[D].湖南大学,2012.,.

[48]李小娟.浅谈电子财务数据档案的管理与保存[J].西部财会,2014(03):44-45.

[49]董雷.质量管理数据标准为大[J].印刷技术,2014(03):26-28.

[50]梁好.县(区)级供电公司供电检修计划管理系统的研究与分析[D].云南大学,2015.

[51]张繁伟.基于供应链的食品安全保障体系构建研究[D].成都理工大学,2014.

[52]孙俐丽,吴建华.关于国家数字档案资源整合与服务机制顶层设计的初步思考[J].档案学研究,2016(01):57-61.

[53][54]李梦瑶,李广都.大数据时代利用移动终端获取数据档案模式研究[J].北京档案,2016(10):22-23.

[55][56]陈岩.大数据和泛在知识背景下的中国数据档案发展研究[J].云南档案,2018(08):54-59.

[57]张宏磊,李正燕.大数据思维下体育传统项目数据档案系统的建设[J].山西档案,2017(01):142-144.

[58]刘丽敏.浅析信息化项目建设中的档案电子化管理[J].临床医药实践,2019,28(11):879-880.

[59]邓舒音.黑龙江省县级机关数字档案管理现状调研[D].黑龙江大学,2020.

[60]吴雁平.大成编客.档案数据研究与实践.[EB/OL]2021-02-11[2021-10-07].https://bianke.cnki.net/home/corpus/25530.html.

(作者单位:陈阳,中山大学信息管理学院;吴雁平,开封市档案馆;刘永,郑州航空工业管理学院 来稿日期:2022-02-19)

[5]周春雷.领域内h指数及其应用研究[J].图书情报工作,2012,56(10):45-49.

[6]Zhou C L,Kong X Y,Lin Z P.Research on Derek John de Solla Price Medal Prediction Based on Academic Credit Analysis[J].2019,118(01):159-175.

[7]周春雷,蔡程瑞,张坦,等.国内图情学者历时h指数研究[J].图书情报工作,2017,61(19):96-101.

[8]蔡程瑞.国内图情期刊高频编委群体学术影响力研究[D].郑州大学,2018.

[9]White,HD.Authors as Citers Over Time[J].Journal of American Society for Information Science and Technology,2001,52(02):,87-108.

[10]周春雷.引荐分析法:一种新的引文分析法[J].情报学报,2010,29(04):671-678.

[11]周春雷,李冰莹.基于引荐分析的国内引用认同领域分析[J].数字图书馆论坛,2015,(01):26-29.

[12]周春雷,蔡程瑞.基于CNKI的國内档案学博硕士学位论文研究[J].档案管理,2017(01):37-39.

[13]McKiernan G.Automated categorisation of web resources:a profile of selected projects,research,products,and services[J].New review of information networking.1996,2(01):15-40.

[14]卢文辉,叶继元.链接分析法在国内网站实证研究中的应用现状分析[J].图书情报工作,2019,63(18):119-130.

[15]周春雷.链接内容分析视角下的科学网博客评价探索.图书情报知识,2012,(04):11-17.

[16]周春雷,王涵墨.科学网博文质量评价研究[J].图书馆学研究,2015(23):94-101.

[17]周春雷,陈艳云,蔡程瑞.图书Z指数及在其影响力评价研究中的应用[J]图书情报工作,2018,62(14):106-115.

[18]邢变变,各玉杰.档案学经典著作学术授信评价研究——以学术书评为分析样本[J].档案学研究,2019,(03):83-88.

[19]陈艳云.学术授信评价视角下的图书影响力研究[D].郑州大学,2019.

[20]周春雷,师文欣,王小凯.学术授信视角下的“昙花一现”型研究主题识别方法研究[J].情报杂志,2019,38(08):68-74,89.

[21]王涵墨.基于学术授信的群组分析法研究[D].郑州大学,2017.

[22]周春雷,孟丽慧,李正南.人大复印报刊资料《图书馆学情报学》选文特征分析[J].情报杂志,2021,40(08):159-163,封三.

[23]周春雷,陈莹.引文视角下的《档案管理》学术影响力探讨[J].档案管理,2021,(02):97-99.

[24]周春雷,曹玲静.河南省社会科学优秀成果奖学术影响力研究[J].中国科技期刊研究,2017,28(08):748-756.

[25]周春雷,周慧芳.学术网络社会资本视角下的学科评价指标探索[J].现代情报,2018,38(09):79-86.

(作者单位:周春雷,李彦博,曾庆坤郑州大学信息管理学院;孟丽慧,郑州市数据科学研究中心来稿日期:2021-12-20)

问题及其解决[J].山西档案,2017(06):11-16.

[21]李明德,赵琛.新媒体时代“四力”的突围与跨越——基于“十三五”时期中国新媒体发展的几个焦点[J].编辑之友,2021(01):12-20.

(作者单位:南昌大学人文学院 来稿日期:2021-07-28)

[18]蒋志清.企业业务流程设计与管理[M].北京:电子工业出版社,2002:15-16.

[19][20][25]王建仁,王锦,赵斌,段刚龙.基于业务流程生命周期的流程知識分类及管理[J].情报杂志,2006(02):72-74.

[21]张臻.文件生命周期理论研究进展[J].兰台世界,2017(13):10-16.

[22]王英玮,金凡.记录连续体的构成要素内涵与创新研究[J].档案学研究,2019(01):4-10.

[24]尹鹏程,李钢,黄亮,喻存国.土地业务全程管理模式研究[J].中国土地科学,2009,23(10):59-65.

[26][29][38]冯惠玲.电子文件管理教程[M].北京:中国人民大学出版社,2001:2-161.

[27][40]薛四新.云计算环境下电子文件管理的实现机理研究[D].北京:中国人民大学,2012.

[28]卢艺丰,徐跃权.“互联网+”环境下信息链的重构——交互式信息链[J].情报科学,2020,38(06):32-37.

[30]IBM商业价值研究院.组件化模型[EB/OL].[2021-01-10].https://wenku.baidu.com/view/e566f422af45b307e8719717.html.

[31]于英香,孙逊.从文件结构演化看电子文件数据化管理的发展——基于技术变迁的视角[J].档案学通讯,2019(05):20-26.

[33]陈永生,杨茜茜,王沐晖,苏焕宁.基于互联网政务服务平台的文件归档与管理:记录观[J].档案学研究,2019(03):16-23.

[34][36]陈永生,苏焕宁,杨茜茜,王沐晖.基于互联网政务服务平台的文件归档与管理:全程观[J].档案学研究,2018(04):4-12.

[35]许民利,齐鑫,简惠云.不同权力(权利)结构下考虑价值共创的闭环供应链决策研究[J].工业技术经济,2020,39(08):62-71.

[37]任红,邢一杰.“华龙一号”文档管理体系构建[J].中国档案,2017(03):61-63.

[39]吴志杰,王强.组织机构视角下的业务系统电子文件归档:问题、理念与策略框架[J].档案学通讯,2020(04):79-86.

[41]Henry J P,祁天娇,嘎拉森.从纸质到增值:渥太华市的信息治理和电子文件[J].档案学通讯,2020(02):26-31.

[42]Standards.Australia.HB5031-2011 Records Classification[S].Sydney:SAI Global Limited,2011.

(作者单位:李喆、陈莹,福建福清核电有限公司;任琳琳,中国人民大学信息资源管理学院 来稿日期:2021-05-13)