翻译专业跨语言大数据课程设计研究

2020-11-17 06:44戴钰涵
佳木斯大学社会科学学报 2020年5期
关键词:语言课程学生

戴钰涵

(西安外国语大学 丝绸之路语言服务协同创新中心,陕西 西安 710128)

为响应国务院2015年发布的《促进大数据发展行动纲要》,促进语言大数据及相关技术资源在高校教学、实践、科研等领域的共通共享,全国翻译专业学位研究生教育指导委员会、中国对外翻译有限公司及西安外国语大学、北京外国语大学、北京语言大学等二十余所重点高校于2016年共同建立了语言大数据联盟[1]。并在此基础上各院校积极探索翻译与大数据的跨界结合新思路,将大数据课程纳入本科教学方案中培养跨学科复合型人才,部分院校还构建“跨语言大数据”实验室,为我国“一带一路”的倡议提供技术支持。而目前各高校已初步完成大数据实验室建设并开始探索将其应用到教学、科研中,但如何针对本科翻译专业学生开设跨语言大数据课程是课程建设的一大难题。本文通过分析翻译专业学生特点及跨语言大数据课程内容,探讨翻译专业跨语言大数据课程开设思路。

一、跨语言大数据及其优势

(一)跨语言大数据的内涵

大数据时代,全球多个国家都在以国家战略开采数据价值,2015年全球大数据总收入为384亿美元,其中中国市场规模为767亿人民币,《2015年中国大数据交易白皮书》预测,到2020年我国大数据产业市场规模将至8228亿元,年复合增速达到48.5%[2]。

而从目前翻译行业的需求来看,以中文为主的数据分析模式已经无法满足政府、企业、学校对世界范围内信息实时获取与分析的需求,而融合各语种的大数据分析还有待开发;从技术角度来看,受限于机器翻译和大数据处理技术的过高门槛,研究机构尚不具备全球大数据分析的能力,因此出现了“跨语言大数据”这一概念。

跨语言大数据指将抓取到的多语种非结构化开源数据通过实时机器翻译技术,消除数据的语言标签,定量、定性地分析所有数据,采用文本分类、关键词提取、情感分析等自然语言处理技术提取其时间、位置、命名实体、情感等多维度信息,从而为政府提供政策分析、经济数据分析,为企业提供技术分析、商情报告,为个人提供定制搜索、专题分析等。其精髓在于打破语言的数据标签,为用户提供多维度搜索技术,而目前百度、谷歌等大型搜索引擎只能提供单一中文、英文语种的处理方式,无法定制化分析多语种资讯。因此在舆情分析领域,跨语言大数据有其独特优势。

(二)建设跨语言大数据课程的必要性

国务院总理李克强在2017年政府工作报告中指出要构建系统且全面的“政产学研用”体系,发挥政府在协同创新中的政策引导、监督管理作用,以国家战略的行业市场需求为导向,挖掘整合并再造政府、行业、高校、科研机构和用户等优质创新要素,实现教育与经济、技术、社会的深度融合,充分释放协同创新效应,促进经济社会发展[3]。在此基础上,由高校与企业合作搭建的语言大数据平台能够极大地拓宽数据获取途径、分析维度,实时获取、定向分析多国资讯,为政府政策提供智力支持,助力我国“政产学研用”发展。

对于教学、科研来说,目前大数据时代语言与大数据的跨界结合受到前所未有的关注。基于机器学习的翻译越来越精确而快速,包含多语言海量词条的语言资源数据库,提供更有深度的信息搜索和处理服务。而“跨语言大数据”分析正是这一时代中的新兴领域。其“数据”具有跨语言、跨区域和跨文化的传播特点,使得它具有广泛的传播力和特殊的价值。翻译学科是外语院校的优势与特色,跨语言的资讯、翻译技术与学生的学习和工作息息相关。在大数据的时代背景下,利用学科优势进行“跨语言”与“大数据”的跨界创新,有着深远的意义,王少爽和覃江华[4]发现在大数据时代的海量信息环境下,搜索对于译者而言尤为重要,是解决翻译问题的重要手段。未来的翻译等跨语言行业,机器学习技术正通过迭代升级,逐渐提高服务质量;大数据技术提供多维度信息加工与呈现,可以让各种专题的实时追踪成为可能,了解和学习大数据技术将引发学生对于传统语言行业的思考,激发其跨领域结合的创新思维能力。另一方面,跨语言与大数据的结合可以辅助教师的专题研究。教师可以设置自己的专题,并通过关键词、时间、行业等信息进行检索,系统可以结合跨语言的数据资料,生成具有价值的报告,甚至可以分析专题在世界各地的热度,从而评估专题的价值与意义。

二、语言类高校建设跨语言大数据课程思路

(一)明确课程定位,设置课程重难点

传统的大数据课程包含了数据采集、数据预处理、分布式计算、存储等课程内容,对理论知识和实际操作能力均要求较高,且需要掌握java、Scala等编程语言。而跨语言大数据课程更需要学生掌握机器翻译算法原理及具体的实例操作,因此课程需要学生掌握计算机、翻译多领域知识及实践操作能力。

高校在开设跨语言大数据课程之前,应明确课程在内容上是以原理讲解为主,还是以实践操作为主;在教学方法上,是采用基于项目的还是基于问题等其它教学方法。在此基础上还应建立跨语言大数据课程知识体系,划分课堂重难点,避免课程内容冗杂。本文根据跨语言大数据系统运作及所涉及技术构建了跨语言大数据技术体系如图1:

图1 跨语言大数据知识体系

跨语言大数据技术体系涉及了相关机器翻译、数据采取和预处理、数据挖掘等多领域技术,因此在课程内容设置上应合理取舍。在机器翻译技术上,目前基于神经网络的机器翻译技术已逐渐成熟,并能够较好的移植到各平台上,因此在此部分的课程可以基于神经网络的机器翻译技术为主要讲解内容;在大数据技术上,以大数据的分析与挖掘技术为重点,采用较为稳定的Hadoop生态系统的分布式框架、计算及存储方式,着重讲解数据挖掘中文本聚类、命名实体识别、相似度分析、关键词提取、情感分析等算法;在编程语言上,以Scala为主讲解大数据平台如何分布式实时处理数据。

(二)从数据新闻讲起,采用基于问题引入和项目的教学模式

在教学过程设计中,首先应分析课程开设专业课程体系与学生特点,对跨语言大数据课程编排进行深入研究,构建重基础、有层次、综合性的课程结构,内容设置上符合学生学情及认知规律[5]。

对于翻译专业院校来说,学生具有较强的归纳总结能力,且极具创新思维,但数理知识、计算机领域基础较为薄弱。因此课程可以采用基于问题与项目的教学模式,激发学生兴趣和开放性思维,从学生较为感兴趣的“数据新闻”开始,讲解跨语言大数据对当今社会的影响,课程中穿插讲解翻译技术、文本挖掘相关与当今翻译行业非常密切的内容,同时加强社会热点案例学习,在理论教学的基础上加强应用教学。

1.跨语言的数据新闻

自1821年卫报发表了第一个利用数据进行的新闻报道——曼彻斯特在校小学生人数及其平均消费统计起,新闻领域开始使用历史数据调查和发现新闻事实,并将其称为数据新闻。在大数据时代,新闻工作者能够利用数据分析、整理数据并生产出数据新闻,帮助读者更真实便捷地了解不断变化的社会环境[6]。数据新闻是基于数据科学的知识和技术,通过或结合数据分析,对事实进行的新闻报道。它的本质是一种工作流程,通过抓取、筛选和重组来挖掘数据,聚焦专门信息以过滤数据,可视化地呈现数据并合成新闻故事[7]。而在跨语言大数据技术支持下,依托于机器学习算法,数据新闻区别于传统新闻一时一地的报道方式,它能够从来源上去除语言标签,打破单一语种的限制,搜集全球范围内专题数据进行定性定量分析来合成新闻故事,从而加强了新闻内容的宽度与广度。

2.基于问题的引入方式

以问题学习为基础,需要将教学内容与实际应用的相关知识和概念进行高度融合,强化具有实际应用背景的知识内容,从而培养学生自主探索精神和创新能力,达到开发学生思维的目的[8]。教师在设计跨语言大数据课程内容时,应采用基于问题的引入方式,通过案例学习、问题导入激发学生兴趣。以第一课的课堂重点内容引入为例,学生首先课下对数据新闻相关知识进行调查分析。初步了解数据新闻的概念、发展过程、生成方式及数据来源特点。课前通过构造自己的新闻团队、选择数据新闻主题,培养学生创新思维。在课堂上学生通过团队交流,初步讨论出各队新闻主题的生成过程。教师通过学生讨论内容,从数据新闻的生成过程引出大数据的一般处理流程,并导入情景问题:如何划定新闻主题的数据来源,收集国内数据还是国外数据?从而引出本节课内容的重点,即跨语言大数据在扩宽大数据来源方面的优势。

3.基于项目的教学方式

高校翻译专业的人才培养方向主要是面向语言服务行业,所以教学方法与内容、企业活动的选择上,都应当着重突出教学的实用性,切实增强学生的语言应用能力。而项目化教学将能力培养从抽象的概念转化为一系列可操作、可比对、可量化的具体指标。学生能够获得对自身能力的准确认知,并主动寻求有效的能力提升方法。教师也能根据学生反馈,提供具体指导和建议[9]。

本课程要求学生掌握使用大数据技术、机器翻译技术处理大量翻译文本的能力。因此课程可采用项目教学法,邀请业内语言服务公司技术人员与学院教师共同完成课程实践章节教学。

在实施过程中,教师和公司人员发挥管理组织协调作用,制定项目方案,分配任务,安排时间进度,制定数据挖掘规则与评价标准;学生团队需制定详细方案实施思路、优化策略与预期效果并按照计划实施。结项阶段学生需提交项目代码、实施流程与创新思路,由教师与企业人员共同评价。

(三)依托跨语言大数据实验室,完成专题项目合作

在项目的数据来源获取、数据分析过程中,课程可依托学校建设的跨语言大数据实验室完成实践内容。基于跨语言大数据技术支持的教学平台能提供多语种数据搜索、机器翻译、自然语言处理等功能。平台可以分为以下几个模块:

图2 平台模块

首先,平台能够每日抓取相关站点的多领域数据并存储在数据库中,其主界面可以展示每日热点数据,并做大数据分析。对于教师,可以采用教学实训模块进行实验教学。通过实训模块,教师可以为学生分配数据资源、云存储空间、算法接口等,在实验完成后对结果进行评估。学生端通过建立团队、选择科研课题、确定数据源、建立数据分析模型、调用接口完成数据分析步骤,最后在平台支持下进行可视化展示。

三、跨语言大数据课程建设案例

语言类高校可以基于跨语言大数据实验室建设跨语言大数据课程体系。实验室包括硬件、软件环境两部分。在硬件环境上实验室布局应设置合理,以便企业入驻、教师维护管理;而内置的跨语言大数据软件系统需要结合目前准确性较高的文本分析和挖掘技术、机器学习技术、语义搜索技术等技术并提供接口。在此基础上平台可提供高校课程所用的真实源数据、算法接口,教师、学生在进行科研、实训时可以省去数据爬取的步骤,通过在平台上简单操作完成数据获取,而平台算法接口的提供也为老师做数据挖掘提供便利。

表1 跨语言大数据课程周次安排

基于此平台技术支撑所设计的跨语言大数据课程可分为三部分,第一部分(1—9周)讲解大数据环境下数据存储、处理方式及实时分析技术;第二部分(10—12周)讲解Scala编程语言,并使学生能够使用该语言完成数据实时分析;第三部分(13周)讲解机器翻译技术及算法基础,并引出如何将语言技术嵌入到大数据系统中,完成语言和数据的结合。14周至16周为实验周,学校可邀请大数据公司技术人员来校讲解数据挖掘相关知识,采用平台培训模块完成相关实验,培养学生大数据文本分析的实际操作能力。数据来源取自学校跨语言大数据创新平台。

四、总结

就现如今的行业趋势而言,大数据技术的发展势头迅猛。跨语言的数据搜索方式作为“语言+大数据”新领域产物在产、学、研各方都能得到广泛应用,其具有十分良好的发展前景。语言类高校开设跨语言大数据课程体系、搭建大数据平台,一方面为学校搭建智库公共服务平台,广泛利用学术资源,在研究深度与研究广度上发挥空间,提供具有科学性的研究结论,为政府及相关机构提供智库报告,并促进产学研工作,提高学校的知名度和影响力;另一方面,通过创新性项目的设立,可以为学校教师提供更多的课题选择和平台,便于教师对更多领域的研究和探索,扩充教学知识的深度和广度;同时,课程采用实训课形式将学生的学习和实践相结合,让学生能够接触和掌握机器翻译、大数据分析等人工智能领域的培训,理解翻译与大数据关系,形成相关领域的研究成果,并通过实践检验学习成果,发现自身存在的问题,不断提高自己,同时也能为企业发掘通道,并提供优质学生资源。

猜你喜欢
语言课程学生
数字图像处理课程混合式教学改革与探索
软件设计与开发实践课程探索与实践
语言是刀
为什么要学习HAA课程?
赶不走的学生
让语言描写摇曳多姿
A—Level统计课程和AP统计课程的比较
学生写话
我有我语言
聪明的学生等