陈 雅 (广州图书馆 广东 广州 510623)
游戏校对方式在古籍数字化中的应用
陈雅(广州图书馆 广东 广州 510623)
芬兰国家图书馆与Microtask公司合作推出了古籍数字化校对在线游戏,该游戏使广大群众参与到古籍数字化校对工作中,不仅高效完成了古籍数字化工作,还提高了芬兰国家图书馆的知名度。因此,图书馆应巧妙地将众包方式应用到图书馆业务建设中,以提高工作效率。
古籍数字化校对在线游戏众包
古籍数字化有利于古籍的利用、传播及保护。数字化古籍资源首先须将文本字符数字化,即将汉字以编码的形式而不是以图形的形式存储于计算机中。古籍数字化是一项浩大的工程,需要投入大量的人力、物力、财力,其间若采用传统人工校对方式,进度将非常缓慢[1]。
芬兰国家图书馆与Microtask公司合作推出的古籍数字化校对在线游戏极大地提高了校对效率,仅用22个月便完成了8 000 000字词(件)的古籍数字化任务,成绩斐然。本文将详细介绍此款在线游戏的设计机制及原理,以期给我国古籍数字化校对工作提供新方法,提高我国古籍数字化校对工作效率。
众包不是外包,外包是把任务中的一部分包给固定机构,并给予一定报酬,令其在固定时间内完成任务。而众包则没有固定机构负责,是将任务碎片化,使原来复杂的任务分解为若干部分,任务中相对机械化的、专业程度不高的部分将会通过某一种方式被分散出去,由非专业人士完成,并将结果反馈至中心机构,由中心机构集中专业人员处理初步结果。众包使有限的专业人员得以从专业度不高的工作中解脱出来,更好地从事专业度高的工作[2]。
众包方式是一种高效率的处理任务方式,利用众包方式较好完成任务的案例有:《乔布斯传》的翻译工作,美国纽约公共图书馆菜单数据库众包应用,Linux系统及维基百科等。
图书馆有大量扫描好的古籍图片文件需要转换为字符输入系统。虽然已有OCR(Optical Character Recognition,光学字符识别)系统程序可以应用于该工作,但其不够精准,还是需要人工来判读,甚至由好几位工作人员来共同判读才能确保其成果准确。将众包方式应用于古籍数字化的处理,就是把古籍数字化中需要逐字校对的工作分解为一个个极小的任务,并通过某种方式(如在线游戏等)扩散,由广大群众(玩家)进行古籍文字图片与字符的校对工作,然后把零散的数据重新组装,进而完成古籍的数字化。
2.1将任务碎片化,转化为微任务。
数字化的第一步为将校对任务碎片化:扫描古籍使其转变为图片形式,通过OCR系统程序将其自动切割为若干图片块,每个图片块按照编排顺序被赋予唯一的编号。
2.2设计有趣味的游戏,校对图片与字符。
由于将图片转换成字符格式的任务是离散、标准化的,因此玩家无需接受培训即可上岗,甚至不用知道任务的来龙去脉也可以完成。玩家只要安坐在计算机前玩游戏,完成不同的任务即可升级。
2.3古籍数字化校对的完成
当玩家通过在线游戏对图片与文字进行校对后,游戏系统会把结果反馈到中心数据库,中心数据库按照图片的编号,自动把校对后的文字放回原本位置,完成该图片的初步数字化过程。所有图片皆被初步数字化后,专业馆员对其进行最后审核。审核无误后,古籍数字化工作完成。
芬兰国家图书馆经过以上3个步骤完成了古籍数字化,如图1~3所示[3]。
3.1在线游戏的设计
在线校对游戏是一种绝妙的方式:图片与文字的校对工作相对枯燥,若由专业人士长时间地一味校对,容易疲劳且效率低。而通过游戏,玩家可以用轻松的心情,在业余时间进行校对。要想吸引玩家对这种在线游戏产生兴趣,一定要把游戏设计得有趣。游戏设计涉及4个方面:
(1)游戏美工设计的美观性:游戏的主角需可爱,场景画面需让人愉悦。
(2)游戏过程的趣味性:让玩家有持续兴趣一直玩下去,正如Microtask公司首席执行官Wili Miettinen所言:“游戏设计师是激励人们,让他们做重复性工作的专家。”[4]
(3)游戏关卡难度的合理性:要使玩家有成就感,难度太大,玩家会放弃游戏;难度太小,玩家将丧失玩游戏的兴趣;难度适中才能使玩家产生成就感。
(4)游戏的便利性:方便玩家随时随地玩游戏。
芬兰国家图书馆古籍数字化在线游戏的主角为群众喜爱的鼹鼠的卡通形象。该古籍数字化在线游戏过程很有趣,游戏关卡难度适中,并且可在电脑及手机上进行游戏。
芬兰国家图书馆的古籍数字化在线游戏分为两个阶段。第一阶段的游戏是: 追捕鼹鼠Mole Hunt();游戏提供两个词,要求玩家必须尽快确定这两个词是否相同。这个游戏有助于发现错误的条目和验证正确单词的翻译(见下页图4)。
若第一阶段验证为错误的条目,这些错误的条目将在第二阶段的游戏中得以校正。第二阶段的游戏是:鼹鼠搭桥Mole Bridge(),游戏要求玩家必须正确拼写出现在屏幕上的词语。若答案正确,则帮助鼹鼠在河上建一座桥,使其顺利到达对岸(见下页图5)。
3.2质量控制
第一阶段游戏中,古籍图片块需随机派发给不同的用户若干次,只有反馈结果一致率超过一定百分比(设为70%,可根据反馈结果调整),才能确定该词可以进行初步数字化。若某词的反馈结果不能达到70%的一致率,则把该词归入第二阶段游戏,由玩家手工输入图片字符。该图片将在第二阶段游戏中再度派发给不同用户若干次,若玩家反馈的结果达到70%的一致率,则该词实现了初步数字化。
图1 芬兰国家图书馆藏报纸的扫描图片
图2 由OCR视觉文字辨识系统程序校对结果
图3 通过游戏校对及专业馆员审核后的成品
图4 追捕鼹鼠
图5 鼹鼠搭桥
通过以上两个阶段游戏后,则进入第三阶段,由专业馆员对反馈结果进行综合审核,以确保最终结果的准确性。
此外,玩家的身份具有一定的条件限制,即玩家须具有大学文化程度。因为校对人员反馈的数据质量决定了古籍数字化的质量,如果玩家文化知识不足,或对游戏没有一定的责任感,反馈的结果错误率高,将直接影响数据库质量,因此必须对玩家进行筛选。
3.3芬兰国家图书馆的古籍校对在线游戏推广策略
推广策略主要有:①参与游戏的玩家必须进行身份认证及注册。游戏设计者可以根据玩家的游戏成绩,设立玩家排行榜,对成绩好的玩家给予一定的奖励。②在线游戏分为电脑版及手机版,方便玩家随时玩游戏。③在线游戏对全球发布,即使在海外的玩家,也可以玩游戏进行古籍校对。④在图书馆官网及相关媒体进行宣传推广。
4.1高效完成古籍数字化校对工作
芬兰国家图书馆应用的古籍校对游戏于2011年2月8日向公众推广,于2012年11月29日结束。这期间,近110 000名参与者在22个月内完成了8 000 000字词(件)的古籍数字化校对任务。
4.2使广大群众参与到保护文化遗产工作中
在线游戏的校对方式让群众(玩家)参与到了古籍数字化工作中。这种寓游戏于工作的模式与以往的一些众包工作最不相同之处在于,玩家并没有选择他们要做哪一件事情的权利,任务由系统随机指派。尽管如此,玩家还是乐此不疲,在玩游戏的过程中完成了一个又一个的项目。
4.3提高知名度
芬兰国家图书馆使公众知道有这样一种新颖的工作方式,不仅宣传了图书馆的独特馆藏资源,同时也宣传了馆藏资源的易用性和可用性:芬兰国家图书馆的文化遗产资料以数字化的形式存在,可在虚拟环境中使用。
芬兰国家图书馆与Microtask公司合作推出的古籍校对游戏案例说明,众包方式也能应用于图书馆的其他数据处理业务中,如纠正数据库、筛选不良图像、将音频转录为文字等。在数字化、网络化时代,巧妙地将新事物、新方式应用到图书馆业务建设,能大大提高工作效率。
[1]顾磊, 赵阳. 古籍全文文本化中存在的若干问题[J]. 图书馆学研究, 2013(20):31-35.
[2]李书宁, 曾姗. 国外图书馆数字馆藏众包建设实践调查与分析[J]. 图书情报工作, 2014(12):83-90.
[3]Digitalkoot. Digitalkoot[EB/OL].[2015-02-15].http:// www.digitalkoot.fi.
[4]刘艳艳. 芬兰“跨游戏”工作平台Microtask:让流水线打工“有趣”[EB/OL]. (2011-08-01)[2015-02-15].http://tech.sina.com. cn/i/2011-08-01/07465862616.shtml.
陈 雅 现工作于广州图书馆采编中心,馆员。
Application of On-Line Games as an Proofread Way in Ancient Books Digitization
An on-line game of proofread ancient book digitization was a joint project run by the National Library of Finland and Microtask. The project enabled volunteers to participate in the proofread work by playing games. This project not only digitize documents efficiently, but also make the National Library of Finland more famous. The library also applies crowd-sourcing into the library work to improve working efficiency.
Ancient book digitization; Proofread ; On-line game; Crowd-sourcing
G255.1
B
2015-07-10 ]