数字保存的差距分析
——基于对出版商的调查

2014-01-16 01:09王军

图书馆理论与实践 2014年12期

关键词：出版商赋值研究型

●王军

（郑州大学信息管理学院，郑州450001）

数字保存的差距分析
——基于对出版商的调查

●王军

（郑州大学信息管理学院，郑州450001）

数字保存；差距分析；出版商

数字保存的差距分析包括认知差距分析和实践差距分析。认知差距分析指标包括保存原因、保存重要性、保存职责、保存费用的承担、保存威胁。实践差距分析指标包括数字资源的获取与出版、数字资源的长期保存、数字资源的用户访问。通过整体差距分析发现，出版商的总体差距处于中等略偏上，认知差距较低，实践差距较高。通过条件差距分析发现，大型出版商的差距值小于小型出版商；要求研究人员提交研究型数据的出版商的差距值小于不要求提交的出版商；拥有数字保存系统的出版商的差距值小于不拥有数字保存系统的出版商。基于差距分析，认为减小差距的方法有制定数字保存的质量保证标准、建立数字保存的经济评价方法、提高研究型数据的保存规模等。

数字保存的差距分析是指通过比较数字保存的当前状况与其标杆（数字保存的理想状态）之间的差距，寻找产生差距的原因，探讨缩小差距的对策。差距分析已应用到众多行业，但在数字保存中的应用还没见报道。而且对数字保存的全面调查目前也鲜见报道，一个较为全面的调查是欧盟的PARSE.insight项目。［1］本文引用该项目对出版界数字保存的调查结果，运用差距分析方法计量存在的差距，进而分析原因，寻求解决对策。

1 数字保存差距分析的过程

1.1 差距分析的指标设置

1.1.1 认知差距的指标

出版商对数字保存的认知是指该类机构对数字保存基本问题的看法。表1列出了认知指标及其在PARSE.Ⅰnsight对出版商的调查问卷中对应的调查问题。［2］为了方便叙述，表1和表2所列出的调查问题是从调查问卷中抽出后进行重新编号，与原始调查问卷中的编号有所差异。

表1 认知差距指标及其对应的调查问题

1.1.2 实践差距的指标

出版商对数字保存的实践是指该类机构对数字保存领域中相关问题的解决方法。这些问题主要有数字资源的获取与出版、数字资源的长期保存、数字资源的用户访问等。

表2 实践差距指标设置及其对应的调查问题

1.2 差距分析指标的赋值

1.2.1 调查结果的差距量化处理

根据答案的类型，表1和表2中的调查问题可分为四类（见表3），量化赋值方式也对应设计为四种。

表3 调查问题的答案类型与差距量化值

1.2.2 调查问题的差距值赋值

（1）简单单选型问题。针对单份答卷中该类问题的差距值赋值见表3中的“玉”。如（Q11）是否拥有自己的在线数字化学术出版平台？选择“是”的答卷，该问题的差距值为0；选择“否”或不选的答卷，该问题的差距值为1。

针对所有答卷的该类问题的差距值赋值，算法为：（a×0+b×1+c×1）÷n，其中a、b、c分别为选择肯定答案、选择否定答案和不选的出版商数量，n为收回的有效答卷数量（本案例中为193）。例如，如果问题（Q11）的调查结果为：“是”（110，该数字表示选择该答案的出版商数量，下同）、“否”（65）、不选（18），该问题的差距值=（110×0+65×1+18×1）÷ 193=0.43，表明该问题的差距为中等稍偏下。

（2）反向多重单选型问题。这里的“反向”意指差距值从大到小，与下面的（3）多重单选型问题正好相反。

针对单份答卷中该类问题的差距值赋值算法为：（a×1+b×0.75+c×0.25+d×0+e×0）÷t,其中a、b、c、d、e分别为选择“非常严重”、“严重”、“比较严重”、“不严重”、“无影响（或不选）”的选项被选中的数量，t为多重选项的数量。如（Q9）请对下述列出的目前及未来10年中数字保存面临威胁程度给出判断。多重单选答案见表4，其中保存威胁为多选，但每种保存威胁后面的5个威胁程度选项为单选。如果某个出版商的答案为表4中的“∨”符号所示，该差距量化值=（2×1+2×0.75+2×0.25+1× 0+1×0）÷7=0.57，含义为差距中等稍偏上。

表4 “请对下述列出的目前及未来10年中数字保存面临威胁程度给出判断”的问题调查问卷（N=193）

（3）多重单选型问题。针对单份答卷中该类问题的差距值赋值和所有答卷的该类问题的差距值赋值，除了对应答案选项的差距量化值不同外，其他计算方法与第Ⅱ种类型（反向多重单选型）完全一致，不再赘述。

（4）简单多选型问题。针对单份答卷中该类问题的差距值赋值算法为：1-（选中的选项数量÷总选项数量）。如（Q15）接收的研究型数据的类型有哪些？多选的答案有：办公文档、图像、纯文本、多媒体数据、科学和统计格式数据、数据库、结构化文本、源代码、软件应用数据、配置数据等10种。如果选择了8种，那么，差距量化值=1-（8/10）=0.2，含义为差距较小。

针对所有答卷的该类问题的差距值赋值算法为：（n-k÷m）÷n，其中，n为有效的问卷总数，k为所有被选中的选项之和，m为选项个数。如果问题（Q15）的调查结果为：对应选项的被选中次数依次为103、78、58、68、77、38、91、41、91、23，根据算法计算出的差距值为0.65，该问题的差距为较大。

1.2.3 各级指标的差距值赋值

各级指标的差距值赋值等于其所包含的所有下级指标（或调查问题）的差距值的算数平均值。

1.3 差距分析的实施

差距分析的实施包括总体差距分析和条件差距分析。总体差距分析是指基于上述差距指标的赋值，计算出所有指标的差距值，据此对出版商数字保存的现状进行整体评估。条件差距分析是指设置有意义的筛选条件对调查结果的样本进行筛选，对筛选出的样本进行差距值计算。如调查问题“出版商的类型”作为筛选条件，分别筛选出大型出版商（出版期刊大于50种）和小型出版商（出版期刊不大于50种）两组问卷，计算和比较分析这两组的差距值，讨论筛选条件对差距的影响。

2 差距分析案例：基于对出版商数字保存调查的结果

2.1 调查简介

针对出版商的PARSE.insight项目调查对象选择来自目前两个最主要的学术出版商名录：STM出版商协会［3］和DOAJ。［4］调查采用网络问卷和重点访谈的方式，共收到来自193家出版商的有效答卷。其中，STM出版商有67家，DOAJ出版商有126家。参考文献［2］和参考文献［5］分别列出了调查问卷的格式和调查结果。［5］

基于作者设计的程序，调查问题以及各级指标的差距值的计量结果见表5、表6。

2.2 整体差距分析

不设置任何筛选条件的整体差距分析结果见表5。虽然出版商是数字资源的主要出版者和保存者，但从总体差距分析的结果（总体差距值0.52）来看，数字保存还有很长的路要走。从一级指标来看，认知差距（0.41）要远小于实践差距（0.62）。这种情况与整个社会对数字资源长期保存的认识基本一致，且对这项活动的重要价值都给予充分肯定，但具体到操作层面，需要解决保存技术、保存资金等问题，而这些问题的解决需要一个漫长的过程。

2.2.1 认知差距分析

从二级指标来看，出版商对数字保存的不同领域的认识差别很大。在保存原因和保存重要性方面高度一致（差距值仅为0.04、0.16），在保存职责和保存费用承担方面差距较大（差距值分别为0.53、0.51），在保存威胁方面差距巨大（差距值为0.80）。

表5 整体差距分析结果

从保存实施者角度看，目前的数字保存项目有两类：基于市场机制运营（如Elsevier保存系统）和基于公益性机制运营（如美国国会图书馆的AM保存系统）。前者属于市场经济产品，保存费用由企业承担，以经济效益为主要目的；后者属于公共经济产品，保存费用大都来自公共财政，以社会效益为主要目的。两类保存项目存在很大差异，业界应该探讨不同类型的数字资源对不同类型保存项目的适宜性，如事关社会发展人类进步的数字资源应该以后者保存为主，而娱乐型数字资源应该以前者保存为主，只有这样，才有助于缩小数字保存的认知差距。

从三级指标来看，出版界对出版物的保存认知差距要小于对研究型数据的保存认知差距。目前的保存系统大多主要保存正式出版物（期刊论文、专著等），但对研究人员在科学研究过程中产生的数据保存甚少，对保存理论的研究也集中在正式出版物上，对研究型数据的探讨也很少。随着数字保存的进展，可以期待对研究型数据的保存将逐步提升和完善。

2.2.2 实践差距分析

从二级指标来看，出版商对数字保存不同领域的实践差别也很大。在用户访问方面差距较小（差距值0.38），但在数字资源的获取出版和长期保存方面差距很大（差距值分别为0.76、0.71）。这可能说明以下两个问题。

（1）出版商非常重视数字保存的最后一个环节——用户服务。因为出版商构建的保存系统一般为商业性的，营利是主要目的，用户服务是影响营利的一个最主要因素。

（2）出版商对数字保存的前两个环节（数字资源的获取出版、数字资源的保存）实践欠佳。这个问题可以通过对调查对象的考察来解释。调查对象有STM和DOAJ，前者一般是大型出版商，都进行同行评审，出版期刊占本次调查全部期刊97%，占全球同行评审期刊35%（据统计，目前同行评审期刊约25400种［6］），一般有自己建立的保存系统；而后者一般都是小型出版商，一般委托第三方保存系统进行保存。虽然STM出版商在数字保存实践方面的保存差距也不大，但DOAJ出版商的保存差距非常大，并且在数量上占大多数。

2.3 条件差距分析

本文仅选取三个筛选条件进行分类差距分析（见表6），以期从不同的角度对出版商数字保存认知与实践进行剖析。

2.3.1 筛选条件一：出版商的规模

表6中“筛选条件1”中的数据为该筛选条件产生的差距值。

整体上讲，大型出版商的差距值都要比小型出版商小，原因还是与前者大都建设有保存系统而后者则几乎没有有关。所以，大型出版商一般都具有较丰富的保存经历和较高的保存意识。但有一点不同，即无论是二级指标的“保存原因”、“保存重要性”、“保存威胁”，还是它们各自包括的三级指标，其差距值都没有大的变化。这表明，无论出版的期刊种数多少，也不管保存的形式如何，出版商对上述几个方面的认知程度基本一致。

2.3.2 筛选条件二：研究型数据的提交

表6中“筛选条件2”中的数据为该筛选条件产生的差距值。整体上讲，要求研究人员提交研究型数据的出版商的差距值都要比不要求研究人员提交研究型数据的出版商小。

三级指标方面，对于没有涉及研究型数据的指标，两种类型的出版商的差距值相差不大，但对于涉及研究型数据的指标，两种类型的出版商的差距值相差非常大。这说明，不要求研究人员提交研究型数据的出版商在对研究型数据的认识与操作方面缺乏相关知识与技能。

2.3.3 筛选条件三：是否拥有数字保存系统

表6中“筛选条件3”中的数据为该筛选条件产生的差距值。从表6可知，肯定回答的差距值几乎都要小于否定回答的差距值。这也充分说明了数字保存是一项需要长期实践操作的项目，在实践中不断提高认识，不断解决遇到的问题，不断积累保存经验，不断提高保存水平。

表6 条件差距分析表

3 结束语

本文依据PARSE.insight对出版商的调查结果，对数字保存进行了差距分析，但这种分析也存在局限性，具体表现为：一是差距分析指标是基于PARSE. insight项目对出版商的调查问卷，而该调查问卷纯粹是为了调查目的，并没有考虑差距分析的需要，所以该差距分析指标及其相对应的调查问题有待进一步完善；二是调查结果的差距量化处理可能存在一些缺陷，如反向多重单选型问题和多重单选型问题的中间差距值量化方法都缺乏严谨的论证，因此表3中的一些差距量化处理方式需要进一步研究；三是各级指标的差距值计量模型完全基于下级指标（或调查问题）差距值的算数平均值，没有考虑加权，这种做法是否合适，也有待于进一步探讨。

［1］PARSE．Ⅰnsight［EB/OL］.［2013－08－28］．http: //www.parse-insight.eu/.

［2］PARSE．Ⅰnsight，Survey Questions Publishing［EB/ OL］.［2013－06－05］．http://www.parse-insight.eu/ downloads/PARSE-insight_survey_questions_publishing. pdf.

［3］STM．Ⅰnternational Association of Scientific，Technological and Medical Publishers［EB/OL］.［2013－06－01］．http://www.stm-assoc.org/.

［4］DOAJ．Directory of Open Access Journals［EB/OL］.［2013－06－09］．http://www.doaj.org/.

［5］PARSE．Ⅰnsight，Survey Results［EB/OL］.［2013－06－11］．http://www.swivel.com/people/1015959-PARSE -insight/group_assets/public.

［6］Tenopir C．Renowned Scholar on Scholarly Publishing［EB/OL］.［2013－09－01］.http://www.stm-assoc. org/about.php.

G255.76

1005－8214（2014）12－0009－05

王军（1966－），女，河南商丘人，馆员，研究方向：数字保存，发表论文20多篇。

2013－12－24［责任编辑］阎秋娟

本文系国家自然科学基金项目“数字保存经济要素与经济评价研究”（项目编号：71173197）研究成果之一。

数字保存的差距分析——基于对出版商的调查

1 数字保存差距分析的过程

2 差距分析案例：基于对出版商数字保存调查的结果

3 结束语

数字保存的差距分析
——基于对出版商的调查