小语种复合人才培养目标下数据挖掘在创新日语口译词汇教学模式中的应用

2020-05-08 08:33陈新妍

科教导刊 2020年4期

陈新妍

摘要基于数据挖掘，探讨运用文本统计工具的分析结果在日语口译课词汇教学中的应用。主要从词汇总量、词频、搭配、双语文本数据对比四个方面，论述数据挖掘对词汇教学创新模式有一定的辅助作用。

关键词日语口译词汇教学词频

Abstract Based on data mining， this paper discusses the application of the results of text statistics in vocabulary teaching of Japanese interpretation course. This paper mainly discusses the auxiliary effect of data mining on the innovation model of vocabulary teaching from four aspects： vocabulary total amount， word frequency， collocation and bilingual text data comparison.

Keywords Japanese interpretation; vocabulary teaching; word frequency

0 引言

数据挖掘是从海量的、随机的数据中寻找趋势、规律和特殊关系性的过程。数据挖掘技术在诸多领域都得到了广泛应用。关于数据挖掘技术与语言学和文学研究结合，毛文伟（2018）指出有利于通过学科交叉融合拓展研究视角，丰富研究手段，帮助研究者从数量庞大、内容纷繁的数据中准确、高效地提炼出仅凭主观难以迅速察觉的隐含规律或趋势。

本研究尝试基于数据挖掘技术推动教学模式创新之理念，通过可行性软件和工具，探索科学有效的教学方法。作为初探，本文将以小语种复合人才培养模式下日语口译课为对象，以数据挖掘应用于文本分析中较基本的方法，如词汇总量、词频、搭配统计及双语词汇对比等方式进行统计、分析，在此基础上，论述分析结果应用于口译词汇教学的可行性和有效性。

1 日语口译词汇教学的现状

词汇对口译译出质量起着至关重要的作用。口译的词汇准备也是译前准备的关键环节。综观日语口译教材中的词汇出现方式，发现和其他课教材基本一致，多为对任务语篇中的生词或难译词进行的语义解释。对词汇能力的训练方式也主要以语篇中的单词互译、速译、多译（一对多或多对一）为主。笔者认为传统的口译词汇出现和训练方式，其局限性在于往往围绕个别语篇，且过于聚焦微观，无法让学生从宏观角度自主构建对词汇出现总量、词频、关键度、搭配、源语目的语词汇差异的多维认知。

另一方面，较英语相比，日语口译教学与信息技术和计算机辅助翻译结合不足也是目前存在的问题之一。硕士阶段的口译专门性较高，而本科阶段口译教学兼具夯实基础和提高巩固的双重任务。小语种复合人才培养目标的确立，使得小语种本科阶段口译教学所处环境发生了变化。需要顺应新形势，结合自身特点，创新口译教学模式。词汇是口译教学的重要一环，词汇先行对整体模式改革的推进具有开端性和基础性作用。

2 口译词汇教学的新意义和内涵

小语种复合型人才培养模式下，高校为小语种专业学生开设了非外语类专业课程，如我校为小语种专业学生提供了16学分的专业拓展课程模块，学生可自主选修其他专业的课程。这为学生掌握一门专业知识打开了渠道，对拓展课所处领域在深度和广度上可以形成一定的认识。这为日语口译课程改革提供了一定的条件。笔者认为日语口译课可改变传统粗浅地涉及多领域的模式，分配适当学时或通过翻转课堂、个性化学习等方式，结合学生所修非外语类拓展课程，进行纵深口译能力训练。

口譯词汇学习应在新形势下，进一步深化逻辑思考、信息分析整合、语义剖析重构、记忆及交际技能训练的兼顾。与建构主义理论相符合，可以更好地实现这一目标。建构主义是以学习者为中心的理论，认为知识是借助他人或利用资料媒介，由认知主体充分发挥主观性，对事物的性质、规律、内在联系进行深入思考，不断通过意义建构而获得的。在建构主义理论指导下，会促使教师不断思考和探索如何在教学中对发挥“学生主动性”和实现“意义建构”。笔者认为日语口译词汇教学中，数据挖掘、分析有助于激发“学生主动性”和实现“意义建构”，是让学生自主构建对词汇多维认知的重要且有效途径。

3 数据统计分析结果在口译词汇教学中的应用

数据挖掘和分析的前提是语料。语料在口译教学中起着重要作用。关于口译语料库建设，国内外已创建如“欧洲议会口译语料库”、日本名古屋大学的“同声传译语料库”、上海交通大学的“汉英会议口译语料库”、“中国总理‘两会记者会汉英交替传译语料库”等（邓军涛2018）。近年来，汉日或日汉口译语料库方面，除北京第二外国语学院在建或拟建的口译大赛语料库、专业译员语料库、电视同传语料库之外（路邈2018），并不多见。综观各类口译语料库，可有三点发现，首先从应用成果来看，多服务于口译研究，而非口译教学，尤其是在以学生为主的教学模式中，难以发挥实用性作用;其次，专业度过高，专门性过强;第三，多为真实对译语料。这些语料很难适合本科口译教学全方位要求，尤其无法满足对主题多元涵盖性和译前准备训练的需求，无法实现口译教学各环节中高阶思维和自主学习能力的培养。

本研究不局限于真实双语口译语料库，主张结合本科教学需要，着眼于整个教学环节，根据主题自建动态、灵活、有时效性、有针对性的语料资源。因此，不仅限于口译现场音视频撰写的语料，有助于译前准备、口译专项能力训练的文字资料等，也是重要组成部分。

教学设计具体过程为教师确定课题，引导学生设计口译任务流程，并对各环节进行详细计划。在此基础上，进行分组，各组制定方案。就词汇环节，各组确定目标，收集语料，再运用文本统计工具进行分析，最后进行总结发表。

3.1 詞汇总量和词频统计

通过量化，可以更直观、更明确地反映出语言特征和有关主题的趋势。以自建口译对应语料、背景知识相关语料等为对象，进行词汇总量和词频统计，引导学生思考语言特征和语言间差异、把握趋势等。

教学设计如下：首先由教师确定课题，引导设计完整任务流程;学生分组，对任务进行分解，各组自主收集语料，对词汇总量和词频进行统计、分析;最后进行汇报。

以商务相关内容为例。译前词汇准备任务中，常常需要进行企业概况词汇、主题词汇（含业界新闻、动态、同类会议等）、专业术语词汇等准备。

企业概况、业务内容、发展是必须需要准备的内容。首先，以同质性语料为例进行教学设计。将35家日本企业概况介绍视频进行文字转写，或对文字材料进行核对，形成总字数24万7000字的日语同质性语料。语料建好后，用KH-Coder统计词频，得出前150位高频词，如表1。

同质性语料的收集和统计分析在口译词汇长期准备内容之一。从同质性语料中抽取的高频词，推断是在同类场合出现频率较高的词语。以往的口译教学模式中，在词汇方面，倾向于对新词、专业术语、难译词展开训练，而如表1中出现的高频词因较基础且简单，往往被忽视，未能加以训练。高频词虽看似简单，但仍需相应的强化或定式训练，加强在听、记、译上的熟练度，从而减轻短时记忆负担，增强口译中接受源语和产出目的语的能力。

结合高频词词表，可从三方面展开训练。首先，针对高频词，设计训练，使达到超出对一般词语的理解度、快译度和准确度，如限时完成规定数量的高频词速译训练;其次，句子速译训练，利用KH-Coder的索引功能，抽取例句进行针对性速译训练;再者，针对部分高频词，运用数学或绘画符号等，设计笔记符号，并进行练习巩固，笔记训练是本科口译教材和实战训练中较难实现的环节，导致这一问题的原因是缺乏对词语出现频率的认知，比如名词往往是笔记符号教学中容易被忽视的内容，但通过表1可以看出名词所占比例较大。还可以抽取全部词汇，通过EXCEL表格的重复删除功能，与自建单词表进行比对，即可在一定程度上得到生词;最重要的是以高频词及句型为线索，掌握常用句式，熟悉核心信息，从而提高接受与理解信息的能力。

其次，也可选用关联性语料进行统计分析。关联性语料是多角度背景信息语料，如公司新闻、媒体报道、行业信息等都可以是商务主题关联性语料的重要来源。关联性语料音视频资源较难获得，但文字资源渠道较多，可广泛利用。以华为公司为例，收集华为官方网站日文版（2019年1月-7月）之间的公司新闻。在对其进行预处理后，测算出现频率前150位的词汇（对个别识别错误进行调整后，得到表2所示的141个。

以“5G”为例，由高频词第1位可推断“5G”是华为动向中热点词，“5G”直译即可，但大部分学生却并不能马上听懂或快速准确地译出“5Gに関する商用契約、5G展開コスト、5Gフィールド試験”等。利用KH-Core的索引功能对“5G”进行检索，可以抽取相关用法，转录音频后还可以通过速译、听译和笔记训练等方式加以练习。

3.2 搭配

语料分析软件或工具，在测算词汇总量和词频的同时，也可以根据词语索引实例，便于分析搭配。以3.1中使用的公司概况介绍语料为例，以其中出现次数为120次的“取り組む”一词为例，通过软件的句子索引功能，可调出所有含有“取り組む”的例句，也可以进一步将前后搭配词语及所处位置进行统计（图1）。

可见“取り組む”常与“充実、拡大、活用、事業、プロジェクト、変革、投資、開発、対策、角化、計画、コスト削減”等词搭配。通过较为集中的训练，可增强学生对“取り組む”一词的理解能力、预测能力和应变能力，减轻记忆负荷。

再以华为高频词统计第一位“5G”为例，即便学生能听出“5G”，但往往会因听不出或不理解与之搭配词语，造成口译过程中信息处理中断或不完整。而运用KH-Coder进行抽取检索，可以一目了然地归纳出常用搭配，如「5G技術、5G基地局（の設置/性能）、5Gに関する商用契約、5G展開を加速する、5G投資、5Gネットワークの構築、5G営業免許の発給、5G商用化商用展開商用導入商用活用、5G特許、5Gフィールド試験、5Gを運用する、5Gのサイバーセキュリティ保証、5G展開コスト/5G展開の将来、5Gの産業応用、5Gオープンラボ」等，可以以此进行集中训练，再进一步运用索引例句功能，选取实例，转成音频，做速译、听译、笔记训练。

基于大量信息，经数据统计得出常用搭配，可高效地归纳出使用规则，以此进行集中训练，可以提高译出质量;同时，利用句子或段落可以进行速译、跟读、复述、概述、提炼等练习，可提高转换理解和预测文脉的高阶能力，尤其有助于口译中对逻辑最上层信息的提炼能力，这也是口译纵向分析训练即逻辑分层能力训练的创新模式，可帮助提高区分关键信息和辅助信息的能力。同时可以增强应变能力，减少心理压力和认知负荷。高频词不仅反映出频率，而且也是其信息重要度的体现。“5G”以第一位高频词被抽取，说明它是华为业务和发展的关键词，可以进一步收集有关“5G”的信息，深度构建背景知识。KH-Core文本分析工具为高频词与背景知识构建、管理能力培养的深度结合提供了可能。

3.3 双语词汇对比

运用文本分析统计工具，将微小对译语料资源进行对比，观察总量或词频，分析语言差异或多译现象等。

以华为某条新闻语篇中日双语语料（日语共1045字，汉语515）进行粗略对比为例，日语语料用KH-Core，汉语语料用AntConc，分别进行统计，制成单词列表和词频表，观察差异并进行分析。下面以“业务、增长、的、会”为例，探讨分析结果在词汇教学中的应用。

以“业务/事業”为例，汉语语料中出现了4次，而翻译成日语语料却出现了11次，由此利用索引功能抽取句子，可发现汉语和日语在语言表达习惯上的差异。

（1）消費者业务收入为2208亿元。智能手机发货量（含荣耀）达到1.18亿台，同比增长24%，平板、PC、可穿戴设备发货量也实现了健康、快速增长。①

（1）′ コンシューマー向け端末事業。同事業グループの2019年度上半期売上高は2，208億元に上りました。スマートフォンの出荷台数（Honorブランドを含む）は前年同期比24%増の1億1，800万台に達したほか、タブレット、PC、ウェアラブルなどの製品分野でも大きく成長を遂げ、ファーウェイはあらゆるシーンでシームレスでインテリジェントなユーザー体験の提供を可能とするデバイスエコシステムを拡大しつつあります。②

在一定的文脉中汉语形成了较简洁的行业特殊说法，且只出现1次;而日语更讲究字面严谨和预告性，出现了2次，口语中“続いてコンシューマー向け端末事業（について）ですが、同事業グループの2019年度上半期売上高は2，208億元に上りました”更符合目的语听众的理解习惯。

通过文本统计分析工具，可以让我们从数据中直观且迅速地捕捉到差异，以此为线索进行比照，可分析出语言表达习惯的不同，便于在口译中作出增减。不断积累，可以更好地理解源语，经过较为准确的重构，形成听众接受度较高的目的语。

再如“增长”一词，观察到数量差异，调取文本进行比对，如以下两个句子，可以发现被译成“急速な伸び、成長”等。通过一对多、多对一对译分析，可以丰富词汇积累，避免口译过程中语言匮乏和单调。

（2）梁华表示，“五月份之前，华为收入增长较快，‘实体清单之后，因为存在市场惯性，也取得了增长。……”③

（2）′梁は決算内容について、次のように述べています。「当社の売上高は5月まで急速な伸びを示し、エンティティリストに追加されてからも、成長を維持しました。……④

（3）平板、PC、可穿戴设备发货量也实现了快速增长。⑤

（3）′タブレット、PC、ウェアラブルなどの製品分野でも大きく成長を遂げました。⑥

再看一下“的”，汉语语料中“的”仅有4次，而日语中“の”出现了17次，“的/の”的词频差是对译语料普遍观察到的现象。可以通过进一步分析归纳哪些情况翻成“の”更符合日语表达习惯。如汉语习惯使用时间状语，而日语习惯转换成定语修饰。汉语更简洁凝练，日语需要进行必要的补充，由此带来“の”的使用。

（4） 2019年上半年，华为业务运作平稳、组织稳定。⑦

（4）′2019年度上半期の事業運営は安定し、組織も健全でした。⑧

（5）计划2019年研发投入1200亿人民币。⑨

（5）′当年度の研究開発投資は1，200億元に達すると見込んでいます。⑩

（6）无线网络、光传输、数据通信、IT等生产发货情况总体平稳。

（6）′無線ネットワーク、光伝送、データ通信、ITなど関連製品の生産出荷状況は総じて安定しております。

观察词频统计，发现汉语语料中“会”出现了3次，调取语料进行比对，三处中一处未翻，一处被翻译“かもしれない”，一处被翻译成“ことでしょう”。通过区别分析训练，可以锻炼学生的母语语法思维，也可以通过集中口译训练，培养语感，增加译出速度。

词汇总量的差异也可以让学生更直观地理解调整语速或选择适当长度词语的必要。

4 结语

以上，基于数据挖掘，浅析了文本统计工具分析结果在日语口译课词汇教学中的应用。主要从词汇总量、词频、搭配、双语文本数据对比四个方面，论述了数据挖掘对词汇教学创新模式有一定的辅助作用。运用KH-Core或AntConc等对文本进行数据统计，可以帮助我们发现词汇使用的一些规律和趋势，有助于集中且有针对性地进行各种训练，也可以激发学生自主构建词汇多维认知的能力。基于大量灵活的语料资源，运用数据挖掘技术，较传统口译词汇教学方式相比，更有助于口译词汇的长期积累，在培养口译全方位能力如口译思维、信息接受和重构能力、译出质量等方面，具有一定优势。小语种复合人才培养模式不断推进，深度结合所复合专业，推进纵深口笔译能力培养必将越来越重要。以建构主义学习理论为指导，基于语料，渐进式应用数据挖掘技术具有一定的可行性和必要性。

参考文献

[1] 毛文伟.数据挖掘技术在文本特征分析中的应用研究——以夏目漱石中长篇小说为例[J].日语学习与研究，2018（12）.

[2] 邓军涛.口译教学语料库：内涵、机制与展望[J].外语界，2018（3）.

[3] 路邈.汉语口译语料库的构建及其在翻译教学研究中的应用[J].日语学习与研究，2018（6）.

[4] 毛文伟.论数据挖掘技术在文本分析中的应用[J].日语学习与研究，2019（1）.

[5] 张威.中国口译学习者语料库建设与研究：理论与实践的若干思考[J].翻译教学，2017.

[6] 许常玲.探索建构主义理论下日语口译教学的改进策略[J].中国校外教育，2018.

[7] 张理想.语块视角下西班牙语口译词汇教学研究[J].现代交际，2019（12）.