(中山大学资讯管理学院/大数据研究院 广州 510006)
2010年后,数字人文(Digital Humanities, DH)逐渐成为国内外学术界的关注热点。数字人文的发展推动了图书、档案、报刊、手稿等纸质材料的数字化和数据化,使人文学者对数字文本进行聚类标引、检索查询和分析利用的需求日趋显著。在这一过程中,历史档案资源的重要性更加突出。法国哲学家雅克·德里达(Jacques Derrida)和米歇尔·福柯(Michel Foucault)分别认为,人类社会的信息交流现象是“档案化”(archivization)[1]的体现,档案是“形成和转换陈述的功能系统”和“构建话语的实践层次”[2]。作为两种基于后现代主义的哲学阐释,它们实际上从超越载体形式的角度关注了什么是档案作为客观事物的永恒属性这一问题,即原始记录性。正因如此,历史档案的集合被视为“自然生长的有机体”[3],在还原历史面貌、促进跨学科教学和研究方面具有与其他文献不同的特殊意义。在大数据环境下,档案文本基数的庞大、存储格式的复杂和信息的异质与高密度都决定了利用者很难独自完成收集、标引、聚类、分析等前端工作,档案众包模式随之产生,并与数字人文实践产生内在联系。
2006年,学者Jeff Howe在美国《连线》(Wired)杂志首次提出“众包”概念,并将其定义为“一个公司或机构把过去由员工执行的工作任务,以开放形式外包给非特定的大众网络的做法。其先决条件是开放格式和大规模潜在的劳动力网络”[4]。学者Estellés Arolas和González Guevara通过对多种定义进行系统分析后认为,众包是一种在线参与的网络活动,个人或机构通过灵活方式招募数量庞大、背景多元的志愿者共同完成特定任务。[5]志愿者作为接包方通过承担不同难度和模块的任务获得利润、知识和经验,同时增强成就感和满足感;作为发包方的个人或机构则拥有志愿者创造的成果,实现互利共赢。在数字时代,以互联网为基础的众包实践可在更高程度和更大范围整合社会劳动力,为展示和运用集体智慧创造条件。
在我国,图书情报与档案管理学科以信息机构实践为重要立足点,将信息开发和组织作为研究内容之一,在学科联系实际的过程中不可避免会涉及与数字人文和众包有关的议题。目前图情档学界针对数字人文的研究以国内外相关项目的实践、启示与特点比较[6][7],面向数字人文的特色资源多元化开发[8][9],数字人文对信息利用和知识生产的影响[10],数字人文背景下的学者与受众需求[11][12],数字人文实现社会记忆功能的路径[13],数字人文环境下创新信息传播和服务模式的新措施[14][15]等主题较有代表性;关于众包的研究多涉及实践调查[16][17]、经验启示[18]、实施框架与路径[19]、平台设计[20]、参与动因[21]、激励机制[22]、绩效影响因素和评估[23]等方面。相关研究较侧重就事论事探讨具体案例和现象,而少有学者将二者联系起来加以审视。本文认为,质量高、数量丰富的历史档案资源是实施数字人文项目的重要基础,而众包是提供和优化这一基础的信息组织具体方式。从二者前后相继的联系出发,本文探讨数字人文项目前端历史档案资源众包特点和潜在风险,从历时角度提出众包风险控制路径,以助力实现数字人文项目目标。
对数字人文项目前端的历史档案众包而言,用户执行的任务是以后端项目需求为导向的资源贡献与转化,数字人文项目的跨界性、包容性等特点客观上需要众包活动实现更充分的开放共享和任务协作。
与传统人文学科不同,数字人文运用的材料以数字形式存在,而档案馆、图书馆、博物馆等机构是这些材料的重要收集者和提供方,可为人文研究者从结构化或半结构化数据中挖掘信息价值提供便利。档案馆、图书馆、博物馆收集保存的数字历史档案作为数字人文项目所需的原始性、高质量资料,能帮助人文研究者全面掌握历史背景,再现真实文化场景,体现自身在建构社会记忆、还原历史面貌等方面的作用,[24]保障数字人文项目顺利进行并取得预期效果。数字人文作为高聚合度和高结构化的学术模式,要求学者选取研究材料时坚持全面视角,在利用历史档案开展研究时不只关注涉及宏观事件、聚焦个体精英的单份文件,更关注面向特定社群、反映集体和大众文化的层次性、成体系、全景式档案集合。对历史档案收藏机构而言,针对后者的工作一般较为薄弱,而向社会“借力”的众包模式可以解决这一问题。“转化内容”和“贡献内容”是众包过程中社会用户发挥作用的着力点,“转化内容”指用户通过OCR识别错误纠正、文本转录、录入动态和静态元数据等方式对现有历史档案资源进行转化,例如将档案由图片转为文本格式。它可以提升历史档案资源的关联度和结构化程度,实现信息的细粒度优化分解,但没有增加新的信息。“贡献内容”则是收藏机构面向大众征集历史档案,鼓励用户贡献新的档案信息,或让利用者根据自身经验或认知给档案添加标签等。[25]它不仅是存量资源开发程度的深化,还可以依托现有资源实现增量。这两种众包方式将用户实践纳入专业的历史档案资源建设过程,可以为后期的数据处理和知识挖掘提供便利,为精细化的数字人文研究创造产生问题解决方案的适宜条件,但围绕的中心是档案内容,历史档案资源是众包得以实施的基础。
作为将关联数据、机器学习、文本分析、可视化等新兴技术应用于传统人文研究的交叉学科,数字人文在互联网环境下具有天然的开放和共享特征,并影响着前端的历史档案众包活动。就开放而言,数字人文研究构造的虚拟数字空间是建筑、文学、历史、艺术等人文领域档案资源与现实环境的交互场所,技术要素与资源要素的结合要求加强自然、工程、文化和社会系统的相互交流,[26]为了优化关联功能、体现聚合效应,众包项目的设计和实施必须同样面向更广泛的用户群体,引导不同背景的用户挖掘人文事物的相关性,共同建构丰富多元的文化图景。就共享而言,数字人文利用计算机网络分析和处理历史档案数据,展现查询和运用档案信息的判断依据与认知细节,创造基于目标管理的参与式环境,促使用户在贡献和转化历史档案内容时也从其他用户的角度审视问题,关注其他用户的工作对自己的意义,进而在成果充分开放的基础上实现用户间的相互帮助和启发。从实际情况看,开放共享已经成为国内外历史档案众包的重要遵循。如英国国家档案馆的第一次世界大战“士兵日记”众包项目面向历史学家、一战老兵亲属以及普通公众等不同背景的用户进行“任务招标”,以海量数字化战地日记档案为基础的数字出版成果对所有用户免费开放;[27]我国上海图书馆的盛宣怀档案抄录项目和荷兰阿姆斯特丹档案馆的Velehanden项目致力于构建功能完善的线上交流平台,借助网络媒体加强成果宣传、促进用户参与,鼓励不同抄录者之间、抄录者与其他公众之间的信息沟通、经验互鉴和知识共享。[28][29]这对跨学科、跨领域的数字人文科普和专题研究具有积极意义。
在我国和多数西方国家,各级档案馆、图书馆和博物馆是各类历史档案的主要收藏机构,在涉及历史档案资源的数字人文项目中占有重要位置,并在宏观和微观层面履行促进协作的使命。在宏观层面,档案馆、图书馆和博物馆在发挥资源优势的基础上,参考其他领域数字人文项目的实施经验,以跨界合作的方式同文化馆、文创公司、IT企业等开展面向特定课题的数字人文项目。而在微观层面,跨界合作的项目运行机制将推动馆藏历史档案资源优势与参与方的技术、人力和专业优势相结合,[30]但项目各环节之间相互渗透、相互影响,仅靠单一的背景知识和馆员受限的专业实践无法满足数字人文项目需要。基于此,数字人文前端的历史档案资源众包将跨机构、多领域的理念协作具体化为跨部门、跨专业的组织、设计与协调活动,并进一步细化为不同专长和背景的用户的相互合作。不同用户之间的合作面向共同的课题目标,每个用户的资源贡献和转化情况均与其他用户的任务相关联,最终形成差异化、多层次的全景式任务协作网络。如英国著名的“档案转录”项目由苏格兰皇家历史与古迹协会、苏格兰国家文件署和苏格兰国家图书馆牵头启动,并与地方政府和爱丁堡大学合作,利用参与方广泛且各有侧重的影响力拓展用户网络,吸引机构内外不同专长和知识背景的用户参与其中。[31]项目旨在通过转录苏格兰历史档案中的图像信息,精确识别名人故迹,改善数字地图的检索查询功能,为地方史研究提供可靠的“考古”佐证。“档案转录”项目通过细化要求、描绘愿景、嘉奖高质量工作等手段帮助用户从整体角度把握项目任务,在实际执行时相互参考和借鉴,最终不仅完成预定目标,而且提升了众包平台的粘着度,使不同机构、部门和用户的参与得以持续。
资源建设是数字人文项目前端历史档案众包的核心内容。其中,社会用户是参与主体,网络平台是执行任务的环境,众包总体和微观任务的完成情况是数字人文项目阶段知识挖掘、生产和传播的依据。在这一过程中,开放共享将使网络众包平台存在安全隐患;面向特定需求的资源贡献与转化对用户信息素养、自律能力和协作意识有较高要求,但发包方对用户行为和成果质量的管控存在困难。
计算机技术与人文学科的交叉融合是数字人文的核心内涵,这种融合体现在具体的教学研究项目中,并在前端的资源建设阶段影响众包平台的运维设计和功能布局。具体而言,面向数字人文的历史档案众包有三个核心功能:一是宣导推广,在数字人文项目开展前面向公众开展针对性宣传引导,吸引公众持续参与众包,项目完成后及时向社会推广成果;二是任务分解、执行和反馈,即将某项贡献或转化内容的任务进行拆分,通过网络传输给每个用户,用户完成后返回平台进行后续处理;三是线上交流,即建立群组或留言板方便用户交流问题和经验,提升工作质量,用户提出的意见和建议也可向项目组的专家学者反馈。然而,这些功能客观上也使众包平台环境存在潜在风险。实现宣导推广功能要求历史档案及其众包成果在网络环境下充分公开,如果对是否存在泄露有关主体隐私的情形缺乏清晰判断,对用户以历史档案为素材进行二次创作的责任不在双方的协议中予以合理划分,那么隐私权、著作权和知识产权将成为影响档案信息安全的潜在因素。包含虚拟社区、集成多项流程的业务系统意味着在程序设计阶段嵌入开源代码,众包平台抵抗黑客攻击和非常规故障的能力可能降低,在线公开的历史档案资源可能受到损害,用户提交的任务作品也可能出现关键信息丢失、数据篡改、显示乱码等问题。[32]一旦这些情形出现,不仅众包进度会受到影响,数字人文项目的效度和公信力也将不可避免受到损害。
在数字人文背景下,跨学科交融不仅是人文和理工学者单纯在学术界内部的结合,而是意味着涵盖学者、馆员和普通用户的多领域、复合式拼盘,其中尤以普通用户数量最多、实践背景和知识结构最为多元化。在具体实践中,专题性的教学研究工作多具有或高或低的准入门槛和壁垒,对普通用户相对“友好”且具有足够吸引力的往往是前端对规模效益要求更高的众包,而用户的行为对众包质量也具有不可忽视的影响。用户的自愿参与是众包进行的必要条件,这就要求众包项目吸引足够多的参与者,并确保参与者具有依据指引完成任务的能力。但由于互联网的虚拟性和开放性,发包方与作为接包方的单个用户很少直接沟通,[33]前者缺乏对后者不当行为的制约机制。部分用户最初因“三分钟热度”或被小额奖励吸引而加入,参与到图片描述、添加标签、抄写转录等工作中,但在任务执行时没有外部施加压力,如果自律意识和责任心不强,用户可能会拖延甚至在没有正当理由的情况下拒绝提交作品,导致工作整体进展缓慢,而由于档案馆、图书馆、博物馆等发包方属于文化事业机构而非强力部门,很难出台相应追究措施。此外,用户的人文素养和对数字技术的敏感度各不相同,并非所有用户都有资质参与其中,但发包方难以将不适合的用户完全排除在众包之外。部分用户在执行众包任务时出现元数据转录不当、文本内容和格式描述错误等问题,[34]甚至缺乏全局观和协作意识,以随心所欲的态度对待经手的历史档案,导致众包后的资源质量不如预期,给后续的创新性研究和教学造成阻碍。
加强对历史档案资源众包的过程控制有利于保障数字人文项目顺利进行,是使成果符合质量要求、维护平台和数据安全的举措。发包方和档案工作者在众包开展的各个阶段应加以足够重视,避免重复和低效投入,消除潜在隐患。基于此,论文从历时视角出发,构建融贯众包前端和数字人文项目后端、以历史档案众包过程为核心的关系框架,如图1所示。
图1 面向数字人文项目前端历史档案资源众包的关系框架
根据流程先后顺序,数字人文前端的历史档案资源众包可分为前期、中期和后期,三者在功能上分别对应平台设计、任务执行与成果检查。在各个不同时间段,发包方应以后端数字人文项目的具体特点和要求为依据,适时采取开展接包用户注册与测评、加强指导和协调、完善进度量化、建立众包成果多方审核机制等面向用户的管理策略。
4.1.1 前期:平台构建与用户准入控制
规划和搭建工作平台是众包实践的起点。档案馆、图书馆、博物馆等机构可以依托国家级或省市级官方门户网站,构建全国性或区域性历史档案资源众包枢纽,以此为基础管理和控制下端的具体项目平台、发布数字人文教学研究资讯和工作指引,提升数字人文类历史档案众包活动的协同性和集成度。同时,具体项目的发包方可将建设完成的平台链接适时发布在其他合作机构的网络站点上,通过线上和线下渠道宣传任务需求、扩散招募信息,使公众能够及时知晓待开展的众包项目,形成以共同兴趣为纽带的接包用户群体,并在技术层面为充分、安全的数据共享和稳定、顺畅的“平台—接口”操作提供保障。在这一阶段,发包方要把握好逻辑关联与分散的关系,将后端数字人文需求与针对具体用户的任务要求进行对接。同机构主导或相似性高的众包项目平台可以“串联”或“并联”,共享原始资源内容、自组织需求和结果性信息,但动态元数据和阶段性处理参数应当由平台自行掌握,且在用户确认完成任务之前不宜过度集中,以免增加数据泄露、丢失和篡改风险。在工作启动前,发包方应与后端数字人文项目学者和技术专家进行沟通,一要了解前者在具体项目背景下关注的历史档案资源属性、种类、形式、用途、呈现方式和所反映问题的价值,二要了解后者对成果格式、文本可视化结构和关联数据质量的细节性要求,并将上述内容在众包任务指引和工作细则中予以体现,方便用户参考和遵循。这不仅有助于提升成果质量和面向后端实际问题的针对性,也可促进工作的标准化和规范化,减少资源浪费和返工量。在招募用户时,发包方应加强线上准入控制,实行用户实名注册和档案素养测评。项目任务发布后,有意参与的用户需要在众包平台在线提交注册申请并进行实名身份认证,方便发包方进行管理。档案素养测评则是面向用户的第二次把关,旨在通过简单的常识和领域知识测试将不适宜接包的用户排除在外,强化源头管控,同时提升用户的专业知识运用能力。发包方可根据测评结果将用户分为若干级别,不同级别的用户将获得不同权限和任务。[35]用户群体确定后,发包方应与每个用户订立可有效约束行为和划分责任的线上协议,并根据具体任务要求,采用阅读文本、观摩视频、在线打卡等方式加强用户培训,使用户档案素养逐步提升,保障众包任务高质量、高效率完成。
4.1.2 中期:指导协调与监督任务执行
在用户执行历史档案众包任务期间,发包方作为管理主体应承担指导、协调和监督等职责,并进行成果量化、隐患识别和风险预测。具体而言,一是帮助用户运用Photoshop、OCR软件、数据操作指南、常用字词典等基础工具,必要时辅以专门演示或讲解,同时保证上述工具的可用性。发包方可以鼓励机构内外的专业人士志愿担任众包用户顾问,利用自身特长和优势提供针对性指导。二是在任务进行过程中通过微信、QQ、电话、邮件等方式加强与用户的沟通,使用户及时获取重要资讯,随时根据需要调整贡献和转化档案内容的方式。同时,发包方可以积极拓展众包平台交流功能,在网站醒目位置设立互动区、留言板或发布群组二维码,为用户分享众包经验、交流工作体会提供便利,通过发挥协调作用提升众包工作整体质量,但相关措施要以具备可信赖的基础设施和程序环境为前提。三是监督用户完成进度,在细化众包任务的基础上进行成果量化。[36]发包方可在众包平台入口设置进度条显示功能,提醒用户应在规定时间内完成预定任务。如果用户在执行任务时面临困难,可向发包方发信请求协助,发包方可根据实际情况做出妥善安排,帮助用户解决问题。四是用户初步完成任务并在平台上将成果“预提交”后,发包方应针对内容和形式进行风险评估,预测其是否对数字人文研究和教学构成隐患。就“贡献内容”来说,如果历史档案资源内容涉及知识产权、公民著作权、家族隐私或行业机密,发包方必须审慎处理,谨慎判断用户提交的成果是否适宜接收;就“转化内容”来说,如果用户提交的作品出现命名不符合规范、格式与平台不兼容、顺序排列错误等情况,众包平台可及时向用户反馈,要求限期完成返工。这可视为正式审核前基于潜在风险判断的“预检查”环节。发包方有责任对最终成果发布后的可能情形做好预判,对用户的“预提交”作品进行筛选,规避不必要的法律纠纷,并使众包成果的形式特征符合后端项目阶段的计算机技术处理要求,确保不会妨碍教学实践、影响研究过程。
4.1.3 后期:检视与审核成果并发布
众包作品正式提交后,发包方应进行严格、全面的检查和审核,确认质量无问题后方可发布,供后端人文学者和技术专家开发利用。这一阶段的检查可在前期“预检查”的基础上重点关注数字历史档案的形式要素是否齐全,如文件元数据是否记录了节点时间、创作者、重要标识、来源类型及格式等,如果发现有数据缺失应及时补齐。此外,对历史档案资源众包成果还需实施多方审核。审核可分两个步骤进行:第一步是在接包用户之间开展互审,所有用户均自由自愿审核挂接在平台上的众包作品,对其中体现出的任务完成度、程序合理性和内容规范性做出评价,并提出完善和优化成果的具体意见。在参与互审的过程中,用户可以积累实践经验,为今后参与和执行类似任务提供参照。第二步是开展专家组审核,专家组成员不应局限于图书情报与档案管理学科,而应根据众包主题涉及的具体学科和领域,广泛邀请来源广泛、研究背景多元、学术经验丰富和实践素养较高的人士加入,[37]尤其要保证足够数量的后端数字人文项目专家学者的参与。专家组主要针对内容背景是否与后端数字人文项目契合、反映的事实和观点是否新颖和准确、历史档案资源是否具有典型性和代表性等方面进行评估,并预测众包成果将如何用以改善馆藏和促进研究利用。这两个步骤并不必然遵循严格的先后关系,对于时间紧迫的众包项目,发包方可以越过重要程度相对低的用户互审阶段,直接组织专家组开展审核。对用户互审和专家组审核中发现的问题,发包方可联系用户进行修正或改进。如果问题能够在自身能力范围内消化且方法相对简单,发包方也可自行解决。经用户互审和专家组审核确认无问题即可发布众包成果,对接后端数字人文项目。
专题教学和跨学科研究是数字人文项目的主要内容。在项目进行过程中,前端的历史档案资源众包成果将得到应用,风险控制的实效性将被检验。实施项目的人文学者和技术专家将应用结果适时向前端反馈,方便发包方改进各阶段工作细节并积累相关经验,形成良性循环。在专题教学方面,数字人文项目与传统模式相比更侧重方法论的重塑、总结和传授,关注将社会前沿和学生可持续发展目标纳入课程设计的方法,对理论联系实际的诉求更为突出。[38]众包成果是否适合运用数字工具进行开发、是否真实展现前沿实践面貌、是否适宜纳入针对目标学生群体的教学范围、是否兼具内容普适性和题材典型性等将影响专家学者对成果质量的评判,进而影响教学的呈现方式和侧重点。在跨学科研究方面,数字人文项目面向社会需求和舆论关切,以现实学术问题为导向强调不同领域专家学者的横向或纵向合作,共同完成单一学科或单一背景学者难以独立解决的目标。在此过程中,众包成果的运用是否有效降低了研究成本,是否客观上促进了跨机构、跨学科力量的合作,是否对项目最终结论的得出产生了显著、积极的影响,是否增强了学术研究回应社会诉求的说服力等是衡量众包成果有用性的重要维度。数字人文项目的实践情况将直接反映前端众包成果的质量,而众包成果质量的高低取决于发包方的风险控制设计是否得当、用户和任务管理策略是否到位。
数字人文倡导新型的跨学科研究与教学模式,能够促进数字技术在传统人文领域的运用。冯惠玲教授认为,人文学科与数字技术具有不同属性,“前者充满了主观、模糊、情景、情感和偶然,故以质性研究为基调;后者立足于标准化、结构化、规律性和消除不确定性,长于量化处理”[39]。对人文学科来说,数字人文能解决学术聚合度不够的问题,可为学者提供更多差异化、宏观性的研究线索;对数字技术来说,人文学科的价值观和方法论可为应用场景的拓展提供新思路、新范式。数字人文是人文研究与数字技术沟通碰撞的产物,强调在数字环境下开展人文研究、将人文学术与数字媒介相结合是其鲜明特征。就历史档案而言,其内容和形式反映着与当下区隔的过去,具有天然的人文研究价值,且在数字化和数据化环境下具有运用计算机技术进行处理的客观需要,是重要的数字人文实践对象;同时,历史档案具有资源分散、序化和结构化程度低等特点,很多情况下不能直接满足数字人文的研究和教学目的,而档案馆、图书馆、博物馆等收藏保管机构难以仅凭自身力量应对,必须采用依靠社会用户参与的众包方式解决。在此过程中,历史档案资源众包和数字人文项目分别是前端和后端,前端众包的成效对后端数字人文项目的实施构成直接影响。面对这种情况,档案学者有责任在理论层面为扩大积极影响、消除消极影响做出良性设计,以前瞻性框架的构建推动历史档案资源众包实践的改善,以前端众包的优化带动后端数字人文项目的循序进步,使数字人文能够在信息时代造福社会、行稳致远。