[摘 要] 指出通过在数字出版平台应用自然语言处理技术,提供词汇及难句抽取服务,能减少外文原著阅读中的困难,提高电子书和纸质书的阅读效率;在讨论数字出版平台提供词汇抽取服务的相关问题后,进一步提出难句抽取服务的相关建议,分析其可行性,给出参考抽取策略。
[关键词] 数字出版 外文原著 自然语言处理 云平台 词汇提取 难句抽取
[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2014) 01-0079-05
1 引 言
随着电子计算机和互联网技术的发展, 以电子书(electronic book,ebook)为代表的数字出版物已经广泛兴起和发展起来,并由此形成了数字出版产业。数字出版平台和电子读物自身的数字化特点,使利用各种现代技术为读者提供包括娱乐和辅助学习功能在内的各种新型有效服务成为可能。多媒体技术与人工智能研究领域成果如自然语言处理等的应用,将使数字出版不仅带来信息载体、读物来源和阅读方式方面的变化,而且会使阅读过程中的学习方式、学习效果等都发生很多变化[1]。
与此同时,人类进入信息时代后,国际间的科学文化交流日益增多,了解学习不同国家的文化习俗、掌握世界新的科学技术发展动态成为个人与国家发展的前提。因此,外语的学习和使用比以往任何时代更显重要。现代社会很多人都需要阅读外文原版文学读物、学术专著和教材。但外文原版读物阅读的难点是刚开始时生词较多,有些句子不容易理解,容易产生阅读挫折,当所选读物的阅读难度和内容不合适时就更明显。对于专业文献,除了一般词汇问题外,由于强调语言的缜密性、准确性,经常会使用长句和大量专业术语,所以较一般文学读物更不容易理解。能否解决阅读中的词汇和难句障碍,是能否克服外文原版读物阅读初期的困难,进入熟练阅读过程的关键。虽然我国在外语教学方面投入很大,但效果并不理想,原因之一是许多读者没能真正进入外文原版文献的熟练阅读状态,未形成外语学习和使用实践相互促进、紧密结合的良性循环过程。缺乏应用实践,过多停留在应试和学习过程本身的外语学习严重影响了外语继续学习和终身学习,以及在实践中应用外语的动力。外文文献对扩大科研人员的研究视野、确定研究策略和方向、提高科研水平等发挥着非常重要的作用,但我国花费大量经费购买的外文文献数据库利用率较低,主要原因就是语言障碍。
目前数字出版技术、自然语言处理技术和云技术的发展,为人们改进或解决上述问题带来了可能。本文首先介绍在数字出版中应用自然语言处理技术,通过词汇抽取服务辅助外文阅读的问题,同时进一步提出在数字出版中提供难句抽取服务的建议,并对可行性进行分析及给出可供参考的抽取策略。
2 数字出版中的词汇抽取服务
在数字出版中提供词汇提取服务是把外文原著中读者可能不认识的生词提前抽取出来,给出解释,生成按词频分段,能按照页码和章节进行筛选的词汇表放到出版平台上供下载;对于专业外文书籍,不仅提供常规词汇表,还包括专业词汇表。在数字出版提供词汇抽取的最初理念由本文作者在2012年美国《出版研究季刊》中第一次提到[2],下面在介绍原理念的基础上,总结扩展分析如下。
2.1 提供词汇抽取服务有助于提高外文阅读效率
阅读外文原著一直被认为是学习外语的有效方法。认知语言学的研究表明,语言是在具体的社会环境中、在真实互动中学会的,因此强调学习者的自身参与,对于常用的表达要设法引起学习者的充分注意,让他们结合语境多加练习[3]。而文学原著阅读为学习者提供了语言习得的真实语境,可以与单词大量、密切接触,而且读上手之后不会令人心烦,因此在读者了解和学习文化知识、开发智力的同时,实现了学习单词、强化语言学习的目的。通过把词汇表下载到不同设备上显示,如电脑显示器、手机,或打印、抄写等,可以使读者在阅读过程中方便快捷地查找生词解释,如果能先以页码或章节为单位抄写生词,强化记忆,然后再阅读对应的页或章节原文,不仅容易理解原著内容,享受阅读乐趣,而且这个过程本身就是一种有效的外语学习途径。因为语言学者已经验证,要想在短时间内大幅度提高词汇量,有计划地利用单词表来学习并记忆新单词是较好的、也是最直接的办法[4-5]。外文原著的阅读有两种形式——纸质书阅读和电子书阅读,而词汇抽取服务可以使电子书和纸质书读者获得同样的帮助。
2.2 提供词汇抽取的技术基础
数字出版提供词汇抽取服务的主要技术基础是自然语言处理、云计算和数字出版。
首先,自然语言处理(Natural Language Processing,NLP)技术是用计算机来研究和处理自然语言的技术,始于20世纪40年代末50年代初,已成为当代计算机科学中一门重要的新型学科。词汇抽取和各种词典建设是自然语言处理技术的基础,属于成熟的技术。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易实现。对于汉语这样的表意文字,计算机自动分词的准确率还不能令人满意(大约90%)[6],影响了各种电子词典的建设速度,目前大规模地实现词汇抽取服务还有困难;但是,依靠在汉语自然语言处理技术方面几十年的研究成果和建设的各种资源,在一定范围内实施词汇抽取还是可以的。
其次,云计算是一种运算模式,能实现无处不在、便捷按需的网络访问,信息处理和存储在云数据中心完成。由于数字出版技术更新和管理费用等问题,数字出版采用云技术成为一种必然趋势[7]。数字出版提供词汇抽取服务需要云计算技术的原因在于词典建设是庞大和困难的工作。现代社会发展迅速,新词不断出现,词典的更新维护是一个重要课题,也是单个出版社无法承担的;由云平台完成词典建设、更新维护及词汇抽取软件的建设,以资源共享的形式提供给各出版社使用,则能够保证其有效管理和经济可行性。
再次,数字出版决定了著作原稿在各个阶段都是以电子文档形式存在的,对于任何一本原著,只需在编辑完成后把对应电子文档的格式转换成纯文本,然后利用基于自然语言处理技术设计的词汇抽取软件和电子词典即可完成词汇抽取工作。endprint
2.3 词汇抽取策略
外文原著中的词汇量很大,专业著作或原版教材则不仅包括普通词汇,而且包含很多只能在专业词典中查到的专业术语。每个读者的外语水平也不同,遇到的生词差异很大,所以要有效地抽取符合个人情况的生词,并以方便学习的形式显示,需考虑采用合适的抽取策略。
2.3.1 普通词汇抽取
提供词汇抽取服务主要基于这样一个统计事实,即一本书包含很多词汇,但常用单词占了绝大部分。据弗兰西斯(Francis)和库切拉(Kucera)(1982)统计,在一百多万词的Brown语料库中,频率居前的1000单词就可以覆盖72%的语料库;频率居前的2000单词可以覆盖79.7%;频率居前的5000单词可以覆盖88.7%;频率居前的6000单词可以覆盖89.9%;而频率居前的15851个单词才覆盖97.8%[8]。教育心理学家、心理测量专家、语言学家和其他研究人员多年来一直使用文本样本中的单词频率统计作为估算单词难度的方法,其基本假设是文本中出现频率低的单词是难度大的单词[9]。一个读者的外语水平越高,所认识的难词、或者说低频词就越多。如果把一种语言的词汇按词频分段,语言水平高的读者生词少且趋于低频词段;外语水平较低的读者生词较多,词频段跨度较大。因此,数字出版平台可以通过采用不同的抽取策略提供不同频段的词汇表来满足不同外语水平读者的需要[10]。
2.3.2 专业术语抽取
专业外文文献中有很多专业术语,即某一学科领域所特有或专用的语汇,其词义常不为专业外读者所明白。尽管术语只占全文的 5%—10%,但它们却构成科技英语翻译与其他文体翻译的根本区别[11],需要通过专业词典解决专业术语的抽取问题。对于只涉及某一个专业的外文专著,可通过软件工具在原稿编辑完成后转换成纯文本格式,进入对应的专业词典,抽取出其中的专业术语,形成专业词汇表供读者下载。由于专业词汇也可分为常用高频词汇、核心专业词汇和低频词汇,所以,专业术语抽取时也可参考常规词汇按词频分段的方法,列出不同频段的专业词汇,读者可考虑先记住高频词汇,减少阅读困难。为了与常规词汇表相区别,每个专业术语后应添加专业标记[12]。
如果是涉及多门专业知识的综合类专著,则需要分别进入不同的专业词典进行专业术语抽取。由于专业词典一般存在一词多域多义和一词多域同义的现象,即同一词汇可能会出现在不同的专业词典中,在不同专业领域有不同的意义,也可能具有相同的意义[13]。所以,必要时需对从不同的专业词典中抽取出来的词汇进行合并,减少数据冗余,方便读者学习。
目前,对于数字出版中提供词汇抽取的探讨,还只限于文学原著或专业文献。实际上,通过考虑不同类型读物的特点,通过采取合适的抽取策略,各种类型的外文读物,包括报纸、杂志等都可以实现词汇提取,为提高外语学习效率发挥积极作用。
3 数字出版中的难句抽取服务
前面介绍了数字出版中提供词汇抽取服务的问题,实际上,还可以进一步深化这种服务,在提供词汇抽取服务的同时,提供难句抽取服务。
3.1 提供难句抽取服务的意义
外文阅读中最主要的困难是词汇问题,而句式结构复杂、成分关系多样、具有高度逻辑性的长难句是另一障碍,能否解决长难句的理解是提高阅读能力的另一个关键。对语篇整体结构、深层含义、作者态度等信息的理解非常重要,提高学生对于阅读材料的宏观把握能力已成为语言学家及语言教师们研究的重要课题之一,但是词汇和句子理解仍然是外语学习的基础。特别在学习一门外语的早期,如初、高中及至大学阶段,长难句理解都是学习中常见的困难[14-15]。如果长难句的理解能力提高,则外文阅读速度和质量将会得到极大提高。如果在读者阅读外文原著时,不仅限于生词,同时也能提前把读者不容易理解的难句抽取出来,给出解释和分析,生成能按页码、章节和字母顺序自由排序和筛选的难句表放到出版平台上供下载,则能帮助读者更好地理解这些难句。按页码、章节自由筛选,能迅速恢复其上下文语境,不仅对语言学习本身有利,同时有助于更好地理解原著。读者可以选择喜爱的章节里的生词和难句,经过有意识分析和学习,然后对那部分更好地阅读理解。
此外,在各种类别的外语日常阅读训练中,如果能集中选择一些学习者熟悉内容且感兴趣的、具有代表性的长难句,如选择一些影响较大的文学名著中的长难句进行分析和强化翻译训练,掌握规律就可以事半功倍。所以外文数字出版中提供难句抽取服务具有积极的意义。
3.2 提供难句抽取服务的可行性分析
虽然外文出版中的难句抽取服务对外语学习有积极的意义,但目前技术条件下还存在一些具体困难,需要通过某些特殊方法,采取合适策略来解决。
3.2.1 自动化难句抽取中的困难
在数字出版中实现外文难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译。这些在目前都还存在一些困难。
首先,要在外文数字出版中把难句抽取出来并通过机器翻译自动给出翻译结果,不仅涉及词长、词频和句长的计算,还需要对句子结构等进行多方面的识别和判定,因此,需要对生语料(完成编辑后的书籍原稿文档)进行预处理,即进行词汇、句法、语义等的分析,添加相应标注,把生语料变成熟语料。虽然语料库的自动标注技术已经研究多年,有一些效果较好的语料库自动标注工具软件,但该过程一般仍然需要人工干预校正。语料库标注是一项代价昂贵的工作[16],需要大量人力、物力和资金,所以在目前的技术条件下,对出版的外文读物生语料库进行标注还是不现实的。
其次, 除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。目前为止,对语篇难度(文本难度)进行的研究很多,但多数都是基于文本难度的宏观度量,对微观的诸如语篇的基本组成部分——句子难度度量研究的较少[17],缺乏精确高效的难句抽取算法[18]。endprint
第三,对于抽取出来的难句,需要用机器翻译方法给出翻译,而目前的机器翻译水平无法保证难句翻译的准确性。
3.2.2 参考传统文本难度算法及通过人工干预实现难句提取
首先,为了解决语篇预处理和缺乏准确高效的难句识别和抽取算法等问题,可以考虑在参考传统的确定文本难度算法的基础上,在纯文本格式文件中实现自动难句提取,这样就可以避开语篇预处理问题。文本难度(也称为易读性),是指文本易于阅读和理解的程度和性质。易读性依赖于多种因素, 主要包括文章的句子平均长度、生词数和语法复杂度。英文易读性的研究始于1920年代,研究者通过不懈的努力开发出了上百个易读性公式[19]。通常易读性公式使用文本的词汇难度和句法难度来判定文本难度,词汇难度以词频和词长来衡量,句子难度以句子的长度来衡量。此外,近年来统计语言模型被引入易读性研究中[20],但是在对语料库进行预处理的基础上进行的,这里无法采用。而传统的文本难度计算中的词汇难度、词频和词长计算都可以在纯文本格式文件中完成。由云平台提供基于传统文本难度算法的难句抽取软件工具比较容易,虽然不能达到完全的抽取率,但大部分难句可提取出来。
其次,在基于传统文本难度算法进行难句提取时,应该注意成语和俗语问题。难句一般比较长,但长句不一定是难句;而含有成语和俗语的句子,有时虽然短,却难以理解。因此,可从两个方面考虑:首先是句长和句子中的词频因素。句子越长、其中词汇难度越大(词长、词频低),则句子是难句的可能性越大。其次是句中是否包含成语和俗语因素。在文学类读物中,成语和俗语较多;在专业读物中,也可能用到成语和俗语,但非常少。随着自然语言处理技术和语料库技术的发展,成语或俗语电子词典的建立日趋完善,鉴于成语和俗语对读者带来的不便,在对文学读物原著进行难句抽取时,可增加对成语和俗语因素的考虑。目前,英语是国际通用语言,对文本难度研究最成熟的也是英语,因而可尝试首先在英文读物中实现难句的自动提取。
第三,对于通过文本难度算法提取出来的难句,由于不能通过机器翻译方法给出准确的翻译结果和句子分析,可根据读物特点,从减少人力、物力需求的角度选择不同的人工翻译策略。对于文学作品中抽取出来的难句,可通过读者论坛等方法讨论解决;原版教材中的难句可由授课教师或教材引进部门组织专家翻译放到服务器上提供给学生,同时可参考通过双语平行语料库的信息服务平台等辅助完成翻译[21]。
第四,从语言水平级别划分,外文读物有很多种类,难句抽取应注意从读物本身的文本难度出发来设计难句抽取算法,以满足不同语言水平读者群的需求。
4 结 语
人类已经进入数字出版时代,自然语言处理技术在云平台的支持下将能为人们的语言学习提供多种服务。本文仅介绍和探讨了最基础的词汇和难句抽取服务,且主要是从理念上加以讨论,具体实施还需要出版社、语言学家和软件技术人员的共同努力,并在实践中持续改善。需要注意的是,虽然词汇和难句提取能对读者的阅读提供帮助,但内容和文本难度仍然是外文原著阅读能否成功的重要因素,出版社平台应提供外文书籍的内容和阅读难度分级信息。实践证明,外文原著阅读可以全方位地提高阅读者的外语水平,教师许连赞 2001年通过让学生阅读原著的方法使学生的口语能力受到了外交官的好评[22],所以,我国数字出版如能提供外文原著的词汇和难句抽取服务,将会对我国外语水平的整体提高产生积极影响。
注 释
[1][2][10]Jilan Sun. Popularizing vocabulary extraction service on digital publishing platforms[J]. Publishing Research Quarterly, 2012,28:65-72. DOI 10.1007/s12109-012-9255-6
[3]蔡金亭,朱立霞. 认知语言学角度的二语习得研究:观点、现状与展望[J]. 外语研究,2010(1):1-7
[4]李庆燊. 论英语词汇教学中的误区[J]. 教育与职业,2010(2): 176-177
[5]王淼. 中初水平学习者在外语学习环境下的偶遇词汇学习[D]. 上海:上海外国语大学,2004
[6]李兴珊,刘萍萍,马国杰. 中文阅读中词切分的认知机理述评[J]. 心理学进展,2011,19(4):459-470
[7]Ted Hill. The Inevitable Shift to Cloud-Based Book Publishing: The Next Step in the Digital Transformation of Book Publishing May be Closer than You Think[J].Publishing Research Quarterly,2012,28:1-7.DOI 10.1007/s12109-011-9249-9
[8]Francis WN,Kucera H. Frequency analysis of English usage: Lex-icon and grammar[M]. Boston: Houghton Mifflin,1982
[9]Breland,H. M. word frequency and word difficulty: A comparison of counts on four corpora[J]. Psychological Science,1996(2):96-99
[11]蔡子亮. 术语标准化与信息技术[J]. 英语科技术语的翻译,2005(2):31-32
[12]孙继兰. 外文原版教材出版提供词汇抽取服务可行性分析[J]. 科技与出版,2013(4):54-57endprint
[13]黄河燕,张克亮,张孝飞. 基于本体的专业机器翻译术语词典研究[J].中文信息学报,2007,21(1): 17-22
[14]刘婷婷. 云南省高职高专非英语专业学生英语阅读理解长难句的障碍研究及解决方法[J].赤峰学院学报(自然科学版),2013,29(1,上):251-253
[15]何正胤. 高中英语阅读教学策略探析[J]. 湘潭师范学院学报(社会科学版),2006,28(2):179-180
[16]常宝宝,俞士汶. 语料库技术及其应用[J]. 外语研究,2009(5):43-51
[17]江少敏. 句子难度度量研究[D]. 厦门:厦门大学,2009
[18]Kim,Young-Bum; Kim,Youngjo; Kim,Yu-Seop. Sentence difficulty analysis with local feature space and global distributional difference. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C].v 7425 LNCS,p 716-722,2012,Convergence and Hybrid Information Technology - 6th International Conference,ICHIT 2012,Proceedings.
[19]章辞. 英文易读性研究: 回顾与反思[J]. 湖南工程学院学报,2010,20(3):47-51
[20]邢富坤,程东元. 基于统计语言模型的英语易读性研究[J]. 解放军外国语学院学报,2010,33 (6): 19-24
[21]王传英. 基于双语平行语料库的信息服务平台建设[J]. 图书馆工作与研究,2010(12):79-82
[22]杨卫芳,杨蕴玉. 输入、输出理论与英语口语教学[J]. 中国成人教育 ,2007(10):182-183
(收稿日期:2013-06-14)endprint