众包策略在语言资源建设中的应用

2016-05-30 10:48:04黄居仁王世昌
语言战略研究 2016年6期

黄居仁?王世昌

提 要 众包概念可从众包策略、众包策略的实现方法以及众包策略的实现案例三个层面来理解。众包策略的要义在于借助互联网以公开招募的形式汇聚众智众力解决问题。语言资源建设包括本体语言资源建设和派生语言资源建设两项主要内容。众包在语言资源建设中可用于语言数据的采集和加工、语言生活舆情调查、为语言资源建设提供资金和设施支持、促进语言资源建设的宣传推广和语言资源建设社会力量的培育。众包为多、快、好、省、可持续地进行语言资源建设提供了可能。土耳其机器人在语言资源建设中有着广泛的应用空间,是目前众包策略运用于语言资源建设的最具操作性和最为成熟的实现方法。

关键词 众包;众包策略;众包平台;语言资源;土耳其机器人

Abstract The crowdsourcing concept can be understood from three perspectives: the crowdsourcing strategy, the implementation method of crowdsourcing strategy, and the implementation case of crowdsourcing strategy. The gist of crowdsourcing strategy is to unite the power and wisdom of crowds to solve problems in the form of open call via the Internet. Language resource construction consists of natural language resource construction and extended language resource construction. In language resource construction, crowdsourcing can be used to collect language data, to process language data, to conduct language-related surveys, to fund language resource construction, to promote the publicity of language resource construction, and to cultivate the social forces for language resource construction. This paper provides a relatively detailed explanation of the development of crowdsourcing strategy and how it can be utilized in developing language resources with an illustration of Mechanical Turk, which has extensive applications in language resource construction and is the most well established and operational crowdsourcing implementation method at present. At the end of the article, we further elaborate the strength of this innovative approach that presents a strategic opportunity for users to champion a collaborative digital

enterprise and to tap into the possibility contributed by diverse audience through using a variety of social media and collaborative software solutions, showing our optimism for the prospect of outsourcing work to the crowd for obtaining needed services or ideas in resolving problems.

Key words crowdsourcing; crowdsourcing strategy; crowdsourcing platform; language resource; Mechanical Turk

一、引 言

语言是一种资源已成为人们的共识。语言资源的重要性也日益引起学术界乃至全社会的强烈关注。语言资源只有经过合理的建设才能充分发挥其价值,满足社会日益增长的语言资源需求,实现健康可持续发展。然而,传统的语言资源建设方法有其力有不逮、力不从心之处,不能完全满足语言资源建设的需求,这使语言资源建设陷入困境。众包策略具有突破这一困境的力量,预示着语言资源建设的未来。

语言资源主要包括本体资源(或称自然语言资源)与派生资源(或称衍生语言资源)两大类(陈章太 2008;王铁琨 2010;李宇明 2011,2012)。本体语言资源包括各种语言及其方言的语音系统、词汇系统、语法系统和文字符号系统;派生语言资源,概括地说,囊括了“语言知识、语言产品和语言技术”(李宇明 2011);具体地说,它至少包括“语言知识所转化的语文辞书、教科书等文化产品及相关计算机软件产品,以及字库和基于语言信息处理的语言知识库、语料库、数据库等”(王铁琨 2010)。

语言资源建设是一个由语言资源概念衍生出来的概念,主要包括本体语言资源建设和派生语言资源建设两方面的内容。本体语言资源建设要从量与质两方面着眼。在量的方面,一方面要维持现有本体语言资源,另一方面要积极培育新的本体语言资源,促进语言多样性。在质的方面,则要不断提升各种本体语言资源的活力,促使其健康及可持续发展。本体语言资源建设的具体措施主要包括推广、保护、保存、培育和规范等。此外,我们也应该看到语言资源监测(陈敏 2010;王铁琨等 2011;崔乐 2011)以及语言普查工作(李宇明 2008;范俊军、肖自辉 2010)在本体语言资源建设中也发挥着重要的作用,它们能为具体的本体语言资源建设决策提供信息支持。派生语言资源种类繁多,蔚为大观。派生语言资源建设包括了语言知识生产、语言产品建造以及语言技术研发等丰富的内容。正因如此,派生语言资源建设大有可为。比较而言,本体语言资源建设更侧重于语言规划、语言战略和语言政策的筹划与实践,而派生语言资源建设则更侧重于对语言的文化价值、工具价值以及市场价值的开发与利用。本体语言资源建设是派生语言资源建设的基础,派生语言资源建设反过来又能促进本体语言资源建设,两者互为补充,互相促进,共同构成了语言资源建设的内容。

语言资源建设有两种基本模式,即自上而下模式和自下而上模式。自上而下模式一般由政府、机构或企业发起、资助、计划并主导,同时负责组织人员力量,配置资金设备,协调分工协作并监督进度、控制质量。在这种模式中几乎每一件事情都是自上而下协调安排的。而自下而上模式则主要依靠社会大众的力量;在一定的条件下,社会大众的力量能够汇聚起来,进而通过自我组织的方式进行协作,凝结成强大的生产力进行语言资源建设。在这种模式中几乎每件事都是自下而上协调安排的。

众包正是在语言资源建设中运用社会大众力量的有效途径。曹志耘(2015)在论述中国语言资源保护工程(“语保工程”)的定位、目标和任务时曾言,及语保工程涉及全中国56个民族、135种语言、十大汉语方言、难以计数的方言土语、2000多个县,工程规模浩大,任务艰巨而紧迫;然而,中国“从事语言资源调查保护的专业力量极为有限”,“与保护需求相比可谓杯水车薪,重新培养则是远水救不了近火”;“调查保护经费完全依靠政府投入,金额有限,也难以保证长期持续支持”;“语言资源保护工作是在和时间赛跑,但由于各方面条件的限制,调查保护的速度远远赶不上语言资源衰亡和流失的速度”。对此他提出的对策是社会化,“面向社会开放,吸引社会大众参与”,并指出:“如能发动广大社会力量参与和分担语保工程任务,则可从根本上解决人力不足、经费匮乏、时间紧迫等问题。”这与我们所说的自下而上模式,即众包模式不谋而合。语保工程属于本体语言资源建设范畴,而在派生语言资源建设中也存在同样的问题,也要运用同样的对策。

众包一词由英文单词crowdsourcing意译而来,它由Jeff Howe和Mark Robinson于2006年创制。从词源的角度看,crowdsourcing是crowd和outsourcing的混成词,它字面的意思是将任务外包给大众(to outsource tasks to the crowd)(Howe 2006, 2009)。众包的定义众说纷纭,但各种定义基本都不会偏离Jeff Howe题为“Crowdsourcing: A Definition”的博客文章中的基本定义:“众包是将传统上由指定人员(通常是雇员)承担的工作以公开招募的形式外包到一群不确定的人的行为。”而在一则名为“Crowdsourcing: The Trailer”的视频短片中,Jeff Howe口述了此定义并在其末尾加上了“通常使用互联网”的表述。

我们主张按照从抽象到具体的顺序将众包分为三个层次来理解:(1)众包策略;(2)众包策略实现方法;(3)众包策略实现案例。从最抽象的层级上讲,众包是一种问题求解策略。众包策略的要义在于借助互联网以公开招募的形式汇聚众智众力解决问题。这种抽象的策略具有极为广泛的适用性。而将这样一种抽象的策略应用于具体的问题和任务当中,便有了众包策略的实现方法的问题,即将众包策略运用到具体的问题和任务中的方式方法。因为现实中具体的任务和问题是多种多样的,有着不同的性质和要求,在其中运用众包策略的方式方法势必就会有所不同。目前已经存在一些较为成熟的众包策略实现方法,例如开源(open source)(Raymond 1998)、维基(wiki)(Tapscott & Williams 2006)、土耳其机器人(Mechanical Turk)(Mason & Suri 2012)、有目的的游戏(games with a purpose)(von Ahn 2006)、双重目的任务(dual-purpose work)(von Ahn et al. 2008;Quinn & Bederson 2009,2011)等。众包策略的实现方法体现出高度的创造性,新的实现方法还将不断出现。各种不同的众包策略实现方法都应按照各自特点去具体地定义和专门地研究。众包策略的实现案例则指的是以一定的方式方法运用众包策略对一个问题或任务的解决或完成。众包策略的实现案例中贯穿着众包策略的要义,体现着一定的众包策略的实现方法。我们所说的众包即指众包策略。

可以以是否使用互联网为标准区分现代众包与传统众包。如果不作特别说明,众包指的是现代众包。互联网是现代众包的一个必备要件:只有通过互联网这样一个覆盖面广、传输速度快、通信成本低的通信与数据传输媒介以及便捷的支付渠道,公开招募才能得以便捷、经济地实施,众智众力才能得以便捷、经济地汇聚。互联网使众包达到了前所未有的广度和深度。现代众包的很多应用,是传统众包所难以实现的。

众包对互联网的运用,催生了众包平台这一概念。众包平台是供众包发起者创建、发布、管理众包任务,并供任务参与者参与众包任务的网络服务平台。众包平台通过用户接口与众包发起者和任务参与者进行交互。用户接口可以以网络站点、PC客户端、移动客户端以及可嵌入网页的在线应用等形式来实现。有些众包平台还提供应用编程接口(API),用户可以通过编程的方式与平台交互,从而实现一定的自动化。

Howe(2009:280)依照贡献方式列出了四种主要的众包类型:(1)大众智慧或群体智能(crowd wisdom or collective intelligence);(2)大众创造(crowd creation);(3)大众投票(crowd voting);(4)众筹(crowdfunding)。虽然我们认为Geiger等(2011)的看法“众包是一个复杂的现象,经常涉及这些类别的组合,以至于有时难以区分”是合理的。但是Howe(2009)的四个分类,还是区分不同众包形式的重要手段。

二、众包建设语言资源

众包在本体语言资源建设和派生语言资源建设中有着广泛的适用性,并能发挥一系列重要作用,主要有:(1)语言数据采集;(2)语言数据加工;(3)语言生活舆情调查;(4)为语言资源建设提供资金及设施支持;(5)促进语言资源建设的宣传和推广;(6)促进语言资源建设社会力量的培育。其中,前四项是基础作用,后两项是附加作用。

语言数据采集是众包在语言资源建设中的一个基本应用。在很多的语言资源建设项目中,语言数据采集是基础任务,并且是难点。互联网、个人电脑和智能手机的普及为语言数据采集提供了极大的便利,大众能够方便地以多媒体的形式采集语言数据,而通过互联网将采集到的数据上传到数据库也十分便捷;它们为众包语言数据收集带来了无限可能。

语言数据加工是众包在语言资源建设中的另一个基本应用。采集到的原始语言数据只有经过加工才能够充分地显现出价值,便于后续开发利用。典型的语言数据加工任务包括分类、标注、转写、翻译等。考虑到效率及成本问题,如果语言数据加工任务能利用计算机自动完成,则一般不使用人工,但是绝大多数语言数据加工任务尚不能完全利用计算机自动完成,而是需要依靠人机结合的方式,利用计算机粗处理然后再进行人工校对;而有些语言数据加工任务,由于尚无自动工具可以利用,只能依靠人工。对人而言,语言数据加工工作是极为枯燥、乏味且机械的苦差,做起来往往效率低下,要提高速度唯有增加人手,而在传统的自上而下模式中,增加人手意味着高昂的经费支出,不增加人手则意味着漫长的工期。这种两难境地是自上而下模式经常要面对的困境,这使它往往无力招架大规模语言资源建设项目。众包所带来的大规模、高灵活度、低成本的人力资源,可以有效打破这一困境。

语言生活舆情调查也是众包在语言资源建设中的重要应用。利用众包的方法发起在线问卷调查及大众投票,可以方便快捷地收集有关语言生活的舆情信息。大到语言政策、语言认同方面的调查,小到大众对具体语言现象的观点等,都可以通过众包的方法去实施和获取。众包还可以为语言资源建设提供资金及设施支持,这主要通过众筹的方式得以实现。

在组织和发起语言资源建设的众包活动时,必然会涉及对动员大众参与语言资源建设的宣传,而大众实际参与语言资源建设的实践,又能加深他们对语言资源建设的理解,甚至激发起他们参与语言资源建设的热情,并自觉或不自觉地成为语言资源建设的宣传员,所以众包也能促进语言资源建设的宣传和推广。大众参与语言资源建设的过程,也是接受语言资源建设教育和培训的过程,有可能使其中的一部分人转变为支持语言资源建设的稳定的社会力量;而围绕着某些语言资源建设众包平台所形成的社区,更是能以自我组织的方式将语言资源建设的社会力量凝聚起来。所以众包在语言资源建设中的应用也有助于培育语言资源建设的社会力量。

众包虽属新兴事物,但已有很多用于语言资源建设的成功案例,举几例供大家参考。维基式众包用于语言资源建设已结出累累硕果。大家比较熟悉的维基百科(www.wikipedia.org),可以说是人类有史以来最雄心勃勃的多语言百科词典。另外,维基词典(www.wiktionary.org)则以为所有语言创建词典为目标,是一部与维基百科相配套的多语言词典。文泉驿(wenq.org)则以维基式众包创建了一整套开源、自由、免费的高质量汉字字库。乡音苑(www.phonemica.net)正在用维基式众包创建汉语方言语音故事库。

土耳其机器人式众包在语言资源建设中也有积极的应用,主要是用于语言数据的收集和加工。2010年NAACL举办了一个以“运用亚马逊土耳其机器人创建语音及语言数据”(Creating Speech and Language Data with Amazons Mechanical Turk)为主题的专题研讨会,会议论文集收录了35篇文章,内容涉及收集加工自然语言处理技术所需语言数据的方方面面,相关概要可见Callison-Burch & Dredze(2010)。Chen & Kan(2013)用土耳其机器人式众包创建了一个中英双语的短信(SMS)语料库。土耳其机器人式众包在语言资源建设中的另一个重要应用是执行语言学实验(Kuperman et al. 2012;Mason & Suri 2012;Crump et al. 2013;Enochson & Culbertson 2015)。我们也在运用土耳其机器人式众包执行汉语语言学实验方面做了探索,运用Crowdflower平台进行了汉语复合词语义透明度评估实验以及汉语分词实验方面的成功尝试,验证了在国际土耳其机器人平台上执行汉语语言学实验的可行性,提出了总体框架并创建了语义透明度数据集SemTransCNC 1.0和人工分词数据集WordSegCHC 1.0(Wang et al. 2014a,2014b,2015a,2015b)。

其他的众包策略实现方法在语言资源建设中的应用也值得关注。例如双重目的任务式众包可以被巧妙地用于语言数据收集。这方面最为著名的例子可能非reCAPTCHA(von Ahn et al. 2008)莫属。CAPTCHA的意思是“用于区分计算机和人类的全自动公共图灵测试”(Completely Automated Public Turing Test to Tell Computers and Humans Apart),它要求用户去识别一些图片中的扭曲的文字,这种任务对人来说很简单,但是对机器人(计算机程序)来说则十分困难,由此它可以将人和机器人区分开来。大量网站运用CAPTCHA技术来防止恶意访问。据估计,在世界范围内人们每天都会有上亿次的CAPTCHA键入,每次键入都只需几秒钟的时间,但是累积起来,这相当于每天数十万小时的人工。这是十分可观的人类智力资源,它做了计算机尚不能做好的扭曲字符识别任务,如不加以利用实属浪费。于是reCAPTCHA被设计了出来,将这种人类智力资源用于辅助纸质书籍的数字化。Google图书项目(books.google.com)正在利用这项技术建设世界最大的数字图书馆。

众包用于语言资源建设所带来的好处可以用“多、快、好、省、可持续”来概括。“多”有两个含义,一个含义是规模大,另一个含义是多样性高。“快”指语言资源建设速度快。“好”指语言资源建设的质量好。“省”指的是节省资金。“可持续”包括两个方面:一方面,众包使得语言资源可以以一种不间断的生长和进化的方式进行建设;另一方面,众包平台或众包任务所培育起来的社区力量,也显现出世代传承、生生不息的生命力,这可以使语言资源建设获得源源不断的动力。

三、土耳其机器人

虽然很多众包实现方法在语言资源建设中都有用武之地,但从目前来看土耳其机器人(Mecha?nical Turk,简写为MTurk)具有特殊的重要性。当前,关于众包在语言资源建设中的应用往往以土耳其机器人作为范式。它可以用于语言材料的采集、语言材料的标注、执行语言学实验以及语言生活舆情调查等,在语言资源建设中有着广泛的应用空间。与其他众包实现方法,例如开源、维基、双重目的任务等相比较,它在创建和运作众包任务方面十分简便易行,是目前众包策略运用于语言资源建设的最具操作性的方法。另一方面,它用于语言资源建设的相关研究和实践较多,人们已经积累了相当多的知识、经验与技术,这使它成为了众包策略用于语言资源建设的最为成熟的实现方法。

土耳其机器人是以经济利益为主要激励因素促使大众参与任务的一种众包策略实现方法。它以土耳其机器人平台作为基础,土耳其机器人平台可以看作一个24小时在线、灵活、按需分配的人力资源市场。在土耳其机器人平台上有两类用户,一类是众包任务的发起者(requester),我们称之为“雇主”;另一类是众包任务的参与者(worker),我们称之为“工人”。雇主在平台上创建和发起众包任务,并设定酬金及参与条件,符合参与条件的工人可以在线参与任务,并根据完成任务的质量及数量获得酬金(平台会从雇主那里收取一定比例的服务费用)。通常一个众包任务会按照雇主的设定被平台自动分解为一系列同质且基本等量的“微任务”,这个过程称为任务分解(microtasking)。被分解出来的小任务按惯例被称作“人类智能任务”(human intelligence task),英文缩写为HIT。例如,有10 000个句子需要标注,我们可以将其分解为1000个(每个10句)微任务。任务通过分解化整为零,每个微任务只需要很短的时间便能完成,不同的微任务可以被不同的工人并行完成,所有微任务的结果整合起来便构成了对整个任务的解决。每个工人可以完成一个或多个微任务,酬金以其完成的微任务的质量和数量计算。每个微任务也可以由多个工人完成,从而可以通过冗余滤除噪音,提高数据质量。由任务分解这种机制来看,土耳其机器人式的众包往往是集成性众包,但是,它也可以实现选择性众包。

土耳其机器人式众包以土耳其机器人平台为基础。抽象地看,土耳其机器人平台由相互联系、相互协作的五大部分构成:(1)由平台上所有的雇主所构成的雇主池(requester pool);(2)由平台上所有的工人所构成的工人池(worker pool);(3)由平台上所有的正在进行的众包任务所构成的任务池(task pool);(4)用于实现用户管理、任务管理、质量控制、财务管理等的服务机构;(5)平台与用户交互的界面,包括用户界面及应用编程界面(API)。所有的土耳其机器人平台的实现都要包含这些部分。

四、众包的技术需求及在中文环境使用众包

目前来看,比较重要的土耳其机器人平台实现有两个,即亚马逊土耳其机器人(Amazons Mechanical Turk,简写为AMT,www.mturk.com)和Crowdflower(www.crowdflower.com)。亚马逊土耳其机器人出现于2005年,是世界上首个土耳其机器人平台的实现,由它开创的众包策略的实现方法相应地被称作土耳其机器人。Crowdflower是另外一个著名的土耳其机器人平台实现。它们虽然都是典型的土耳其机器人平台,但是也有显著差异。先从平台用户构成(雇主池、工人池)上看,AMT不支持美国以外的人申请注册雇主账户,而Crowdflower并无此限制。AMT对雇主账户的限制,决定了美国之外的人若想在AMT上创建和发布任务,只能通过某种中介的方式来间接实现。AMT仅维持一个平台本地的工人池,Crowdflower除拥有平台本地工人池外,还可以将任务散布到其他数十个外部渠道平台上,从而也可以使用外部渠道平台的工人池。AMT曾经是Crowdflower的渠道平台之一,可以说Crowdflower有着比AMT更大的工人池。再从质量控制方面看,AMT支持一种称为“资格证”(qualification)的质量控制方式,雇主可以发布资格测试,工人一旦通过了资格测试便获得了某种资格证,雇主在发布任务的时候可以限定只有具备某种资格证的人才能参与任务;Crowdflower并不支持这种机制。AMT允许雇主手动驳回工人提交的任务完成结果,并且不为驳回的结果支付酬金,而Crowdflower并不支持这一机制,但它允许任务自动阻止工人提交一些不符合条件的任务完成结果(称为数据验证,data validation)。Crowdflower支持一种称为“测试问题”(test question)的质量控制机制,AMT则不支持这种机制。测试问题是一些已知正确答案的问题,将它们插入到工人待处理的任务中,可以通过工人在这些问题上的表现计算工人的正确率,从而屏蔽掉一些低质量的工人的数据。同时,工人在测试问题上出现错误后,能及时地获知自己出错的原因,接受实时培训,从而提升接下来的表现。

这两个平台都设在美国,但是它们的用户遍布全球,可以看作是国际平台。据我们所知,中国尚没有本土的土耳其机器人平台。以猪八戒网(www.zbj.com)为代表的一些中国本土威客平台,也可以算作众包平台,但并不是土耳其机器人平台。它们实际上支持传统的外包模式以及新兴的选择性众包模式,是混合平台而不是纯粹的众包平台。土耳其机器人以集成性众包为典型特征,支持任务分解机制(microtasking)以及各种机巧的质量控制机制,这些都是中国本土威客平台所不具备的。威客平台也可以通过某些变通的方式用于语言资源建设,但是在便利性与可靠性上都难与土耳其机器人平台比肩。目前,若想在汉语语言资源建设中运用土耳其机器人式众包,则需创建一个中国本土的土耳其机器人平台或使用现有的国际土耳其机器人平台。相比而言,后者更有可行性。搭建一个土耳其机器人平台并不难,难的是建立其用户基础并使之成为一个可用的平台。我们期待一个实际可用的本土土耳其机器人平台的出现,但在此之前,可先尝试使用国际土耳其机器人平台。国际平台实际上也有一些本土平台所不具备的优势,例如可以收集双语乃至多语数据,可以收集全球华语数据等。

根据我们所做过的一些实验(Wang et al. 2014a,2014b,2015a,2015b;Wang 2016),发现Crowdflower是一个汉语语言资源建设的可行平台(至少在执行语言学实验、语言材料标注方面是可行的),而就目前而言,AMT还不是一个汉语语言资源建设的可行平台。在国际土耳其机器人平台上运行汉语语言资源建设任务时,有一些特殊的问题需要注意,例如:要对工人是否为汉语母语者进行验证,一个任务要实现简体和繁体汉字两种界面等。

在国际土耳其机器人平台上执行汉语语言资源建设任务要验证工人是否为汉语母语者。汉语语言资源建设任务往往需要从汉语母语者那里收集数据,而在像Crowdflower这种国际平台上,汉语母语者只占工人池极少的一部分,我们的实验表明,如不做母语者验证,我们所收到的数据绝大部分会是非母语者提交的无用数据(Wang et al. 2014b)。对汉语母语者进行筛选,可采取下列三项措施。

其一,可以根据工人来源地进行粗粒度筛选。Crowdflower允许为任务设置地区白名单,只允许来自列入白名单的国家和地区的工人参与任务。根据汉语流行程度差异,世界上的国家和地区可以分为主要汉语区、次要汉语区和非汉语区三类。主要汉语区包括中国和新加坡等汉语母语者占人口绝大多数的国家和地区。次要汉语区指有相当数量汉语母语者分布的地区,例如印度尼西亚、马来西亚、美国、加拿大、新西兰等。非汉语区指极少有汉语母语者分布的地区,例如印度、阿拉伯国家等。根据工人来源地进行粗粒度筛选可尽量只开放主要汉语区,在主要汉语区不能满足要求时慎重开启次要汉语区,不开放非汉语区。

其二,通过汉语知识测试来细粒度地验证工人是否为汉语母语者。只根据工人来源地进行粗粒度的筛选往往还不能满足要求,尤其是在开放次要汉语区以后。我们可以进一步地通过汉语知识测试来验证工人是否为汉语母语者。用于汉语知识测试的题目必须要满足三个基本条件:(1)它们对汉语母语者而言十分简单,几乎不会答错;(2)它们对非汉语母语者而言十分困难,几乎不会答对;(3)它们应当是开放型问题,尽量排除猜对的可能性。Crowdflower提供的验证机制(validation)以及条件显示机制,使我们可以限制那些未通过测试的工人看到后续的任务或提交数据,从而将他们屏蔽在外。有很多符合要求的测试题目可供选择,根据我们的实验(Wang et al. 2014a,2014b,2015a,2015b;Wang 2016),汉字识别题便是其中十分简便有效的一种。汉字识别题提供给工人一张含有汉字的图片,然后让工人识别出其中的汉字并键入到文本框中。我们可以根据字频来控制题目难度,也可以采用扭曲的字形来防止光学字符识别(OCR)。一般情况下,使用中等偏高频率的汉字为好。同时,因为世界范围内简体繁体两套汉字体系并存,应当选用两个体系交集部分的汉字。这类汉字识别题不仅可以用来区分汉语母语者与非母语者,还可以用来屏蔽机器人。要对汉字识别题设置验证条件来判断工人是否键入了正确的汉字,同时要将其设为强制(required),意思是工人如不能答对将无法提交数据。当然,我们还可以采用一些封闭型的、不设置验证条件的、非强制的汉语知识测试题目,以便于我们对接收到的数据进行进一步的筛选和清洗。

其三,我们不妨在任务中设置一个工人语言背景调查。这个调查可以直接询问工人是否为汉语母语者,如果不是的话他的母语是什么,学习了多长时间的汉语等,以方便我们对收集到的数据做进一步的筛选。

在国际土耳其机器人平台上执行汉语语言资源建设任务,还应实现简体繁体两套任务界面,供不同的工人进行选择。可以在任务的开始设置一个问题,询问工人习惯使用简体汉字还是繁体汉字。然后根据用户的选择,利用Crowdflower提供的条件显示机制来显示相应界面。

五、案例研究

实施心理语言学实验或问卷调查(Behrend et al. 2011;Mason & Suri 2012)是土耳其机器人在语言资源建设中的重要应用。本案例将展示如何利用土耳其机器人实施心理语言学实验并创建汉语人工分词数据集(Wang et al. 2015a)。汉语与英语不同,在其文字记录形式中,词与词之间缺乏空格等标记。因此,在汉语中什么是词的问题显得扑朔迷离。分词就是将记录汉语的短语、句子、篇章等由字串转变为词串的一个过程。基于直觉的人工分词数据可用来探究人的词感;词的定义应该与词感相一致,因而词感便成了研究什么是词的问题的一个突破口(Hoosain 1992;胡明扬 1999;王立 2003;王洪君 2006)。基于直觉的人工分词数据通常通过问卷调查或实验室实验的方法来获取,但它们往往存在效率低、花费高、参与者多样性差、难以获得大规模样本等问题。众包策略的运用有助于解决这些问题。

(一)众包任务的设计

我们依据研究目的从语料库中选取了152个句子,选取标准详见Wang等(2015a)。不计标点,这些句子的最小长度为20字,最大长度为46字,平均长度为32.54字(SD=5.46),总长度为4946字。因为众包任务不宜过长,所以这些句子被随机均分为8组,每组有19个句子。我们在Crowdflower平台上为每组句子各创建一个众包任务,共创建了8个任务。每个众包任务的核心是一个问卷。问卷有简体和繁体两种版本供参与者选择。问卷包括5个部分:(1)标题;(2)说明;(3)身份信息问题;(4)汉语知识问题;(5)分词任务。第3部分身份信息问题,询问参与者的性别、年龄、教育程度及电子邮箱(可选)等信息。第4部分汉语知识问题,用4个简单的问题测试参与者是否为汉语母语者;前两个问题是开放型的汉字识别问题,每个问题给出一张含有一个简单汉字的图片,要求参与者识别出图片中的汉字并将其键入到文本框中;第三个问题是一个封闭型的同音字识别问题,问题中给出一个汉字,要求参与者在选项所列的10个汉字中找出与其同音的一个;第四个问题是封闭型的反义字识别问题,要求参与者在选项所列的10个汉字中找出与给定汉字意思相反的一个。8个任务问卷的第4部分使用相同的问题类型,但使用不同的问题实例。第5部分分词任务呈现给参与者19个句子,并要求他们在识别出的词的界限处插入分词符号(“/”);我们也要求参与者在标点符号及每句最后一个字后插入分词符号;参与者被告知他们只要按照直觉分词即可,无须关心对错。

我们在创建众包任务时使用了下列参数:(1)对于每个任务,每个工人账号只能提交一个回馈(response,完成问卷并提交数据便构成了一个回馈);(2)对于每个任务,每个IP地址只能提交一个回馈;(3)只接受来自下列区域的回馈:中国、新加坡、印度尼西亚、马来西亚、泰国、澳大利亚、加拿大、德国、美国及新西兰;(4)我们为每个回馈支付0.25美元(约合1.7元人民币)。

我们使用了下列质量控制措施来保证数据质量:(1)用第4部分汉语知识问题来屏蔽非汉语语者(包括机器人);(2)第5部分分词任务将不可见,除非参与者正确回答了第4部分的前两个问题;(3)参与者所提交的分词答案要符合规定格式(分词答案只能由原始句子加分词符号构成,每个字或标点后只能有0个或1个分词符号;分词答案中每个标点符号后必须有一个分词符号;分词答案要以一个分词符号结束);(4)除非满足上述所有条件,否则数据不能提交;(5)数据收集结束后将进行数据清洗以滤除无效回馈。

(二)众包任务的执行

我们首先运行了一个小的测试任务来验证任务设计的正确性,其结果显示任务设计可行。然后我们启动了第1个任务,使其单独运行了大约两天以进一步测试任务设计。在信任务设计无误且能够正常运行后,我们启动了其余的7个任务,使8个任务同时运行。我们的目标是每个任务收集到200个回馈;开始的时候速度很快,8个任务都在最初的3—6天内收集到了100个回馈;随后速度变得越来越慢,最终我们用了约1.3个月的时间达到了目标。Crowdflower毕竟不是中国本土平台,平台上汉语母语者有限,这种速度是可以接受的。

(三)数据清洗及结果

8个任务都分别收集到了200个回馈,但并非每个回馈都是有效的。与传统的实验室环境相比,众包环境的噪音水平偏高,所以在对数据进行分析之前,必须进行数据清洗以滤除无效回馈。一个回馈如果具有下列特征的一项或多项将被判为无效:(1)语言知识问题的4个问题未能全部答对;(2)一个或多个句子的分词结果词长全部为1字;(3)一个或多个词的词长长于7字;(4)完成回馈所用的时间短于5分钟;(5)完成回馈所用的时间长于1小时。基于上述规则,无效回馈被过滤掉;8个任务的有效回馈统计见表1,有效回馈的占比平均约为67%(SD=3.68)。最终形成的人工分词数据集包含152个句子的分词数据(不计标点总长度为4946字),每个句子被123—143个人分词(均值为133.5,SD=7.37)。根据我们的数据评测,分词结果的错误率很低(<5%),因此我们认为数据质量是可靠的。数据评测的方法和过程详见Wang

等(2015a)。

(四)讨论

本案例展示了使用土耳其机器人平台Crowdflower实施心理语言学实验创建语言数据资源的过程。它展现出的一般方法可以直接应用到类似的语言资源创建任务中。整个实验共花费约540美元,这些花费包括支付参与者的费用和平台收取的服务费,约合3600元人民币;如果使用实验室方法实施同等规模的实验,光是支付参与者的费用就至少是这个数额的2—3倍;使用众包策略可以有效降低开支。实验室实验需要实验者具体地去组织实施实验(例如招募参与者、安排场所等),众包实验在很大程度上避免了这方面的精力支出,这是众包的一个优势。众包实验的参与者来自世界各地,在多样性上要高于一般的实验室实验,并且能够很方便地获取大的样本。在速度方面,因为Crowdflower并非中国本土平台,它的工人池中的汉语母语者很少,所以总体速度并不是特别理想(约1.3个月),但从8个任务都在开始的3—6天内收集到了100个回馈这点来看,只要有合适的本土平台,速度可以非常快。作为国际土耳其机器人平台,虽然Crowdflower可以实施汉语语言资源建设任务,但显然中国本土平台是更为合适的选择,故应尽快创建中国本土的土耳其机器人平台。

汉语分词任务实际上也可以看作一个标注任务,故本案例也可为标注任务提供借鉴。因为我们要实施心理语言学实验,为了对任务有更多的控制,采用手工任务分割的方法创建了多个众包任务。一般的标注任务可以直接使用平台所提供的任务分割机制,上传待标注的语言数据(例如以句子为单位,以电子表格形式组织),设定每个任务的规模(例如每个任务6个句子),设定标注冗余量(例如每个句子由10个不同的人标注),创建任务模板,平台便可以自动进行任务分割和创建。在设定了标注冗余量后,可以使用多数决(majority voting)的方式来聚合出最终标注结果。同时,一般的标注任务不需要设置每个工人账户及每个IP地址只能提交一个回馈的限制。

除了本案例所示的实验外,我们还实施了另外两个实验(Wang et al. 2014a,2014b,2015b)。Wang等(2014b)所报告的实验主要目的在于验证在国际土耳其机器人平台上实施汉语实验的可行性;它对在国际土耳其机器人平台上实施汉语实验的具体技术细节进行探索,并证实了Crowdflower平台可以用于实施汉语数据相关的实验;它说明了众包实验在速度和经济性上要优于传统的实验室实验,而在数据质量方面也能符合预期。Wang等(2014a,2015b)所报告的实验则在可行性已经被验证的基础上尝试实施一个收集近1200个复合词的语义透明度主观评估数据的大型语言学实验。每个词分别收集一个整体透明度、两个成分透明度的评估数据,所以实验共有大约3600个问题,我们要求每个词由50—60个人去评估。这种规模的实验在传统的实验室环境中实施是有很大难度的,而采用众包的方法我们在一个半月时间内就高效而经济地完成了(实验花费约1000美元)。实验数据与实验室数据的比较也印证了众包实验数据质量的可靠性。

众包实验目前已经能够发挥一些重要且不可替代的作用。一些因为时间成本和经济成本等因素而难以在实验室环境中实施的实验,众包可能是一个可以接受的选择。众包实验还可为一些研究项目的立项提供初期的数据支持,为项目的可行性论证提供数据参考。还可用于快速、经济地测试实验设计并为是否实施实验室实验提供决策依据。

六、结 语

语言资源建设空间广阔,大有可为;它的社会意义重大、各方需求强烈,因而不可不为。同时,语言资源建设难度大,有其艰巨性与复杂性。众包策略在语言资源建设中有着广泛的适用性,能发挥多方面的重要作用,能为语言资源建设打开新局面,使得多、快、好、省、可持续地进行语言资源建设成为可能。

然而,众包策略在语言资源建设中的适用范围尚面临一些质疑,原因是存在一些看似难以应用众包的语言资源建设任务。不同的语言资源建设任务对参与者的语言学专家知识的需求程度不同,我们可据此将语言资源建设任务粗略地分为两类。一类是“大众型任务”,即对参与者的专家知识没有要求或要求较低的语言资源建设任务,例如方言数据收集、语音的文字转写、指代消歧标注、多义词义项标注以及案例所示的基于直觉的分词等。此类任务只需要依靠参与者的常识性的语言知识或直觉即可,是比较容易众包的。另一类是“专家型任务”,即对参与者的专家知识有较高要求的语言资源建设任务,例如语音的国际音标转写、词性标注、语义角色标注、句子结构标注等。在一般的众包平台上因为具备相关专家知识的人太少,故这类任务较难众包,但是通过一些策略也能将它们有效众包。基本的策略有三个:转化、培训和使用专家平台。转化是指将专家型任务转化为大众型任务,例如兼类词的不同词性的义项在语义上往往有明显区别,可将词性标注任务转化为义项标注任务。培训是指在任务中设置培训环节,对任务参与者进行培训,使他们具备参与任务的专家知识。第三种策略是使用专家平台。众包是将任务外包给人群,它的力量根本上取决于目标人群的能力结构。创建一个专门服务于语言资源建设的汇聚了大量语言学专家的土耳其机器人平台是可行的。在这样的平台上,即便是专家型语言资源建设任务也能很方便地众包。

众包策略用于语言资源建设的研究尚处于起步阶段,其在汉语语言资源建设中的应用更是如此。首先,数据质量是运用众包策略时的主要关注点,因此要进一步加强数据质量控制方面的研究,例如数据验证、数据清洗、数据评测等,以确保能够运用众包方法收集到高质量的数据。其次,要进一步加强众包策略和传统策略的对比研究,在对比中进一步摸清众包策略的特点和规律,为其设计更好的范式与框架。再次,应开展众包策略运用于各种语言资源建设具体问题的研究,为具体的问题寻找基于众包策略的优化解决方案。最后,还应加强众包平台方面的研究,尤其是土耳其机器人平台的研究,进而设计更好的平台,并创建中国本土的平台。

参考文献

曹志耘 2015 《中国语言资源保护工程的定位、目标与任务》,《语言文字应用》第4期。

陈 敏 2010 《国家语言资源监测与研究中心概介》,《术语标准化与信息技术》第3期。

陈章太 2008 《论语言资源》,《语言文字应用》第1期。

崔 乐 2011 《语言资源监测研究发展态势》,《江汉大学学报》(人文科学版)第3期。

范俊军、肖自辉 2010 《国家语言普查刍议》,《语言文字应用》第1期。

胡明扬 1999 《说 “词语”》,《语言文字应用》第3期。

李宇明 2008 《语言资源观及中国语言普查》,《郑州大学学报》(哲学社会科学版)第1期。

李宇明 2011 《语言也是 “硬实力”》,《华中师范大学学报》 (人文社会科学版)第5期。

李宇明 2012 《当代中国语言生活中的问题》,《中国社会科学》第9期。

王洪君 2006 《从本族人语感看汉语的 “词”——评王立〈汉语词的社会语言学研究〉》,《语言科学》第5期。

王 立 2003 《汉语词的社会语言学研究》,北京:商务印书馆。

王铁琨 2010 《基于语言资源理念的语言规划——以 “语言资源监测研究” 和 “中国语言资源有声数据库建设” 为例》,《陕西师范大学学报》(哲学社会科学版)第6期。

王铁琨、崔 乐、高媛媛 2011 《谈谈基于数据分析的语言资源监测研究工作》,《北华大学学报》(社会科学版)第4期。

Behrend, Tara S., David J. Sharek, Adam W. Meade, and Eric N. Wiebe. 2011. The Viability of Crowdsourcing for Survey Research. Behavior Research Methods 43(3), 800-813.

Callison-Burch, Chris and Mark Dredze. 2010. Creating Speech and Language Data with Amazons Mechanical Turk. Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazons Mechanical Turk, 1-12.

Chen, Tao and Min-Yen Kan. 2013. Creating a Live, Public Short Message Service Corpus: The NUS SMS Corpus. Language Resources and Evaluation 47(2), 299-335.

Crump, Matthew J. C., John V. McDonnell, and Todd M. Gureckis. 2013. Evaluating Amazons Mechanical Turk as a Tool for Experimental Behavioral Research. PLoS ONE 8(3), e57410.

Enochson, Kelly and Jennifer Culbertson. 2015. Collecting Psycholinguistic Response Time Data Using Amazon Mechanical Turk. PLoS ONE 10(3), e0116946.

Geiger, David, Stefan Seedorf, Thimo Schulze, Robert C. Nickerson, and Martin Schader. 2011. Managing the Crowd: Towards a Taxonomy of Crowdsourcing Processes. Proceedings of the Seventheenth Americas Conference on Information Systems, 1-11.

Hoosain, Rumjahn. 1992. Psychological Reality of the Word in Chinese. Advances in Psychology 90, 111-130.

Howe, Jeff. 2006. The Rise of Crowdsourcing. Wired Magazine 14(6), 1-4.

Howe, Jeff. 2009. Crowdsourcing: Why the Power of the Crowd Is Driving the Future of Business. New York: Three Rivers Press.

Kuperman, Victor, Hans Stadthagen-Gonzalez, and Marc Brysbaert. 2012. Age-of-Acquisition Ratings for 30 000 English Words. Behavior Research Methods 44(4), 978-990.

Mason, Winter and Siddharth Suri. 2012. Conducting Behavioral Research on Amazons Mechanical Turk. Behavior Research Methods 44(1), 1-23.

Quinn, Alexander J. and Benjamin B. Bederson. 2009. A Taxonomy of Distributed Human Computation. University of Maryland 107(2), 263-270.

Quinn, Alexander J. and Benjamin B. Bederson. 2011. Human Computation: A Survey and Taxonomy of a Growing Field. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 1403-1412.

Raymond, Eric S. 1998. The Cathedral and the Bazaar. First Monday 3(3). 2 Mar. 1998. 2 Jul. 2016. http://firstmonday.org/article/view/578/499.

Tapscott, Don and Anthony D. Williams. 2006. Wikinomics: How Mass Collaboration Changes Everything. Region 42(1), 11.

von Ahn, Luis. 2006. Games with a Purpose. IEEE Computer 39(6), 92-94.

von Ahn, Luis, Benjamin Maurer, Colin McMillen, David Abraham, and Manuel Blum. 2008. reCAPTCHA: Human-Based Character Recognition via Web Security Measures. Science 321(5895), 1465-1468.

Wang, Shichang. 2016. Crowdsourcing Method in Empirical Linguistic Research: Chinese Studies Using Mechanical Turk-Based Experimentation. PhD thesis, The Hong Kong Polytechnic University.

Wang, Shichang, Chu-Ren Huang, Yao Yao, and Angel Chan. 2014a. Building a Semantic Transparency Dataset of Chinese Nominal Compounds: A Practice of Crowdsourcing Methodology. Proceedings of Workshop on Lexical and Grammatical Resources for Language Processing, 147-156.

Wang, Shichang, Chu-Ren Huang, Yao Yao, and Angel Chan. 2014b. Exploring Mental Lexicon in an Efficient and Economic Way: Crowdsourcing Method for Linguistic Experiments. Proceedings of the 4th Workshop on Cognitive Aspects of the Lexicon, 105-113.

Wang, Shichang, Chu-Ren Huang, Yao Yao, and Angel Chan. 2015a. Create a Manual Chinese Word Segmentation Dataset Using Crowdsourcing Method. Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing, 7-14.

Wang, Shichang, Chu-Ren Huang, Yao Yao, and Angel Chan. 2015b. Mechanical Turk-Based Experiment vs Laboratory-Based Experiment: A Case Study on the Comparison of Semantic Transparency Rating Data. Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation, 53-62.

责任编辑:龚 英